テキストマイニング|【多変量解析・統計学・統計解析】
テキストマイニングとは
データは数値だけとは限りません。
文字(テキスト)情報も貴重なデータです。
膨大な文字情報から意味のある貴重な情報を探し出すことを、データマイニングに倣いテキストマイニングといいます。
テキストマイニングでは、文章の中から単語を切り出し、各単語の頻度、単語同士のつながりを数値化することにより統計的な分析を行います。
文章の芸術的な価値を測ろうとするのではありません(それが可能な日が来るかもしれませんが)。
英文は単語が分かち書きされていますが、日本語文は区切りがないので単語の切り出しが難しいです。
また、文の構造も曖昧な場合が多く、分析には国語力が必要となります。
テキストマイニングとデータマイニング
テキストマイニングとは、テキスト(テキストデータ)を分析し、分析者にとって有益な知識や情報を取り出そうという技術です。
多量のテキストの中から必要な情報を上手に探し出す技術もテキストマイニングですし、テキストを要約して論旨を明確にする技術もテキストマイニングです。
さらに、多量のテキストを縮約し、それぞれのオリジナルテキストの著者でさえも意図していなかった新しい情報を発見する技術もテキストマイニングといえます。
テキストマイニングという言葉は、1997年頃から学術論文の中に頻繁に登場するようになってきました。
テキストマイニングに対して一番まぎらわしいと感じられる言葉は、おそらくデータマイニングでしょう。
データマイニングは、マーケットバスケット分析、記憶ベース推論、クラスター分析、リンク分析、決定木、ニューラルネットワーク、遺伝的アルゴリズムといったさまざまな手法を用いてデータを分析し、ビジネスなどに役立つ有益な知識・情報を取り出そうという技術です。
それに対して、テキストマイニングは、扱う元データがきれいに整えられた数値データではなく、テキストであるという点です。
広義には、テキストマイニングはデータマイニングに内包される技術であると考えていいでしょう。
ソースに内在しているパターンの発見と知識の発見という観点では、テキストから新しい知識を発見する技術をテキストマイニングと定義されます。
情報検索
もう一つ、テキストマイニングに対して間違えやすい言葉に、情報検索があります。
インターネットで調べものをするときによく使われる検索エンジンの技術が、まさに情報検索の良い例です。
情報検索とは、ソースにまぎれている雑多な情報の中からユーザーが必要とするであろう情報だけを探し出してくる技術をいいます(内部では、記憶ベース推論という技術が動いています)。
検索結果から、有益な知識・情報を発見するためには、検索されたページを一つ一つ開いて読んでみなければなりません。
テキストマイニングと情報検索との相違は、ここにあります。
つまり、探し出したテキストの中身を読み込み、そこから自分に有益な知識・情報を取り出すことができたと感じられたときにテキストマイニングが完結します。
情報検索そのものはテキストマイニングの前処理の1つにすぎないと考えることもできます。
関連記事