【シムエントリ】類似度の評価バランスが変わりました

【シムエントリ】類似度の評価バランスが変わりました

シムエントリご利用の皆様へ、2つのお知らせです。

TFの値にlogを取るように
本日より、記事中の単語毎の語数(出現頻度)(=TF)と他の値を組み合わせて計算する際、TFの値にlogを取るようにしました。
これにより、類似記事の検索結果が変化いたします。
今までは類似記事を検索する際、単語の数が著しく多いとその多くなった単語に引きずられて検索結果が出る傾向がありました。今回、TFにlogを取るよう になると、単語の数が多さに極端に引きずられないようになり、より興味が深まる記事が探し出しやすくなると期待しております。
※例えば、TF*IDFの計算結果が変化します。

■7日以内に投稿された記事はRSSフィードが途切れた後も対象に
本日から、計算する日から数えて7日以内に投稿された記事については、1度取得するとその後にRSSフィードから外れても類似記事が表示できるようになります。
これまでは、RSSフィードに含まれている記事のみを検索対象としておりました。しかし、1日に数記事以上投稿されるようなとても活発なブログですと、日の浅い記事であってもあっという間に検索対象から外れてしまうという問題がありました。そこで、上記の機能改善を行うことで、できる限り多く、そして鮮度の高い情報がピックアップされやすくなります。
本日2008年7月6日から記事の蓄積を開始していますので、実際にこの機能が最大限の効果を発揮するのは今度の土曜日になります。記事を書き換えた場合は、次回RSS取得時に書き換えた内容が含まれたときに限り、更新されます。
なお、蓄積日数については、システム負荷を鑑みて今後延長も検討しております。

RSSフィードの登録、およびパーツの貼り付けも引き続き行っております。下記からどうぞ。
http://se.koemu.com/

LINEで送る
Pocket