【シムエントリ】記事抽出時にNaive Bayesを採用しました

シムエントリご利用の皆様へお知らせです。
これからご案内する変更は、本日のアップデートより反映されております。

■Naive Bayesを採用しました

類似記事算出時、これまでシムエントリに登録されているすべての記事同士で突合せを行っていました(詳細は「【シムエントリ】代表キーワードによる検索に変わります」)。今回、記事同士の突合せの前にNaive Bayesによる仕分けを行うように変更いたしました。

これにより、検索の方法が次の通りに変わります。

最新のRSSフィードを取得する。
形態素解析を行う。
Naive Bayes アルゴリズムを利用し、すべての記事に対してカテゴリ分けを行う。
カテゴリ内のすべての記事を突合せ、類似記事を探し出す。

Naive Bayes の詳細については、「ナイーブベイズによるテキスト分類体験アプリ – 睡眠不足？！」にてサンプルと共に解説されています。興味がある方はぜひその動きをご覧ください。

■対象記事が増えます

最新のぽぷるのデータを追加し、抽出される記事の母数が増えております。

「ぽぷる」は、河野さんとその協力者の方が作成されたブログホワイトリストです。シムエントリはこのデータを利用させていただいております。いつもありがとうございます。

■類似記事の変化が発生します

上記の変更により、類似記事の抽出結果の傾向が変わります。

また、Naive Bayes で仕分けを行う際に利用している教師データ(仕分けの元となるデータ)は引き続き編集を行っておりますため、この後も変化が起こる事が考えられます。あらかじめご了承ください。

■追伸

引き続きRSSの登録も受付中です→シムエントリトップページからどうぞ。

【おまけ】

・Naive Bayes 採用の理由

結論から言うと、計算量を減らすためです。今までですと、1万件の記事を探すために 10,000 * ( 10,000 – 1 ) =?99,990,000 回の計算を行う必要がありました。ここで、たとえば最初に数が均等な10個のカテゴリに分けておくと、 1,000 * ( 1,000 – 1 ) * 10 = 9,990,000 回となり、約1桁分の計算量を減らせます。その仕分けに、 Naive Bayes が役立ちました(Complement Naive Bayes というのもあります)。しかし、そう簡単に行かない事もわかりました。

・教師データ

Naive Bayers を利用し始めましたが、教師データの選定と分量がうまい事いっておりません。現状ですと、カテゴリを分けるときにグループごとの件数に大きなむらが出てしまっており、先の理屈ほど計算量を落とせていません。このあたり、試行錯誤し続ける必要がありそうです。

【シムエントリ】記事抽出時にNaive Bayesを採用しました

関連投稿

2011/08/31 を持ってシムエントリの運用を終了します

【シムエントリ】更新時刻が変更になりました

【シムエントリ】ブログパーツ枠にもCSSが適用できるようになりました