【シムエントリ】 代表キーワードによる検索に変わります

【シムエントリ】 代表キーワードによる検索に変わります

シムエントリの類似記事検索方法が、変わります!

■いつから?
今晩の更新から適用します。

■どう変わるの?
これからは、ブログ内の上位10単語を「代表キーワード」と定義し、これを元に類似度が高いブログを検索するようにします。
今までは、ブログ内に含まれている全単語を使って、類似度が高い記事を探していました。しかし、この方法ですと長文の記事があると検索に多くの時間がかかるようになり、結果として更新が遅れてしまうという問題が発生していました。そこで、利用するキーワードを重要なものに絞って検索することで、計算速度を高める手法を採り入れました。

■精度は低くならないの?
類似記事の検索結果が変動することがあります。
現在私自身が確認している中では、大幅に結果が変動しておらず、精度は担保できていると考えています。
しかし、なにを以って「精度」を判断するかが難しいので、正直お話ししづらい部分ではあります。お気づきの点がございましたら、ご連絡いただけましたら幸いです。調整の際に参考にしてまいります。

■注意
・cos値の下限閾値を撤廃します
cos値の閾値を 0 < cos < 1 の範囲に変更します。これは、全単語を突き合せなくなったために完全なcos値ではなくなったためによるものです。
・APIを利用されている方へ
単語の照合を最大10個に絞ったため、APIで出力されるcos値が大幅に変わります
APIを使われている方は、閾値などの見直しをお願いいたします。

■細かい話
各エントリの代表キーワードの算出方法は、TF*RIDF値の上位10番に入った単語を対象としています。
今回用いたRIDF(残差IDF 『情報検索アルゴリズム』P.43参照)は、IDFでは単に多くのエントリで取り上げられている=重要度が低い、という認識が起きる時のギャップを埋める手法です。
たとえば、IDFのみで代表キーワードを抽出しようとすると、よく使われるが大切な言葉(たとえば地名や商品名など)のウェイトまで低くなってしまうのです。これを、ポアソン分布(サイコロの出目の確率を数えるときなどに使う近似値算出方法)で算出した頻度とIDFとの差を出すことで、大切な言葉をよりピックアップしやすくしています。

精度および速度の向上につきましては、今後も検討を重ねてまいります。

どうぞよろしくお願いします。

■追伸
引き続きRSSの登録も受付中です→シムエントリ トップページからどうぞ

LINEで送る
Pocket

1つのコメント

コメントは受け付けていません。