統計屋っぽいことも時には。
統計とは言っても、「統計エンターテイメント」としてわかりやすくしていきますが。
今回、冬コミの新刊予定は「ラノベ統計・形態素解析編」です。ではこの形態素解析とはなんなのかということを簡単に説明してみましょう。
分野文章を機械的に分析するときに、日本語は英語に比べて難しいところがあります。
英語は単語ごとにスペースが入るので、辞書がなくともここからここまでが単語だ、と言い切ることができます。対して日本語では、助詞・助動詞がつながったり、名詞動詞が切れ目無く続いたりと、機械的に分析するのは難しくなってきます。これを分析できる要素……つまり形態素まで分ける必要があります。
で、実はこの形態素に分けること自体は、研究が進んでいるため、不可能ではなくなっています。しかもいまや無料で……より正確に言えばオープンソースで利用できます。
Mecab(めかぶ)やttmといったソフトがそれです。
これを用いて、どんな単語が多く出現しているか、文章の係り受けはどうなっているのかを分析するのが形態素解析です。
実はまだ、その分析対象となるテキスト(ラノベのテキストデータ)を用意できていないので、仮定の話で申し訳ないのですがおつきあいください。
例えば、Aというラノベは「彼女がどうのこうのと騒いでいるので俺の日常はうんぬんかんぬん」という長いタイトル、Bというラノベは「カタカナ・ワールド」というスタイリッシュなカタカナ語タイトルだとします。
この時点で、「Aはラブコメっぽくて、Bはファンタジー的かな」という想像ができます。
そこで実際に形態素を解析して、Aでは「学校」、Bでは「剣」という単語が多く出てくることがわかったり、Aのようにタイトルに「彼女」を含んでいる作品では「好き・恋愛・愛情」という語が目立つが、Bのように「カタカナ」のみで構成されるタイトルの作品では戦闘に関連する語が頻出することがわかったり……などなど、そういったことがわかるのが形態素解析です。
今まで誰も見たことのないデータ、という意味で、できることは色々とあるのですが、テキストデータを用意することがとにかく大変なのが今回の統計。
裁断→取り込みまでは業者にお願いしたのですが、読みとりソフトを使ってテキスト取り込み→細かい誤字を修正する、という作業に明け暮れています。
気分転換がてら、何冊かやった時点での解析などもしていて、おもしろい結果が見えそうというのはわかっているので、ちまちま続けつつ冬コミ発表に備えようと思います。
そんなこんなで。またあした。