テキストマイニングとは? ~文章を分析可能な情報にする手法~|データ分析用語を解説

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

日本語はテキストマイニングに不向き

テキストマイニングとは

テキストマイニングについて、Wikipediaの内容を引用します。

テキストマイニング(text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。
引用:Wikipedia | テキストマイニング

「単語や文節で区切る」とは、例えば「私は東京都に住んでいます」を分解すると「私」「は」「東京」「に」「住んで」「います」の6つのパーツに分ける事です。そして、「共出現の相関」とは、分解した結果から「名詞」「動詞」「形容詞」などの品詞を判定して、これらの位置関係から「意味」を付ける事です。先ほどの例の場合、「住んで(動詞)」に掛かる単語は「東京(名詞)」になり「東京在住」という意味になります。

日本語はテキストマイニングに不向き

日本語は英語などに比べてテキストマイニングに不向きな言語です。英語のように単語がスペースによって区切られていないため、単語の終わりの判断が難しいです。また、日本語特有の「ゆらぎ」や敬語、方言、漢字などによって、同じ意味でも様々な表記があるのもテキストマイニングを難しくしている要因です。例えば「居る」を表す言葉として「いらっしゃる」「おる」など様々あります。そのため自然言語処理の分野では、英語より日本語の方が制度が悪いことが多いです。

テキストマイニングにとって”辞書”が重要

テキストマイニングにとって、処理を行うプロセスも大切ですが、もっとも重要になるのは単語を判定するための”辞書”です。この”辞書”によって、文章から単語判定を行い、品詞判定を行う事が出来るのです。また、「居る」「いらっしゃる」「おる」などを「居る」に意味を集約させるのも”辞書”の役割です。
この辞書は、1度作ったら終わりではなく、定期的に更新する必要があります。なぜなら、日々、新しい言葉が生まれているからです。例えば、一昔前の”辞書”を使った場合、「千と千尋の神隠しを見た」という文章は「神隠しを見た」という意味になり、「”千と千尋の神隠し”というアニメ映画を見た」という意味にはなりません。これは、”千と千尋の神隠し”が名詞として”辞書”に登録されていないため、”千と千尋の神隠し”を単語ごとに分解して解釈したためです。
このように、テキストマイニングでは、”辞書”の量と質が”テキストマイニングの精度”に直結します。
データ分析用語:索引

SERVICE