シムエントリ

【シムエントリ】類似度の評価バランスが変わりました

シムエントリご利用の皆様へ、2つのお知らせです。

TFの値にlogを取るように
本日より、記事中の単語毎の語数(出現頻度)(=TF)と他の値を組み合わせて計算する際、TFの値にlogを取るようにしました。
これにより、類似記事の検索結果が変化いたします。
今までは類似記事を検索する際、単語の数が著しく多いとその多くなった単語に引きずられて検索結果が出る傾向がありました。今回、TFにlogを取るよう になると、単語の数が多さに極端に引きずられないようになり、より興味が深まる記事が探し出しやすくなると期待しております。
※例えば、TF*IDFの計算結果が変化します。

■7日以内に投稿された記事はRSSフィードが途切れた後も対象に
本日から、計算する日から数えて7日以内に投稿された記事については、1度取得するとその後にRSSフィードから外れても類似記事が表示できるようになります。
これまでは、RSSフィードに含まれている記事のみを検索対象としておりました。しかし、1日に数記事以上投稿されるようなとても活発なブログですと、日の浅い記事であってもあっという間に検索対象から外れてしまうという問題がありました。そこで、上記の機能改善を行うことで、できる限り多く、そして鮮度の高い情報がピックアップされやすくなります。
本日2008年7月6日から記事の蓄積を開始していますので、実際にこの機能が最大限の効果を発揮するのは今度の土曜日になります。記事を書き換えた場合は、次回RSS取得時に書き換えた内容が含まれたときに限り、更新されます。
なお、蓄積日数については、システム負荷を鑑みて今後延長も検討しております。

RSSフィードの登録、およびパーツの貼り付けも引き続き行っております。下記からどうぞ。
http://se.koemu.com/

コメントは受け付けていません。 more...

【シムエントリ】情報更新ペース変更のお知らせ

シムエントリの情報更新ペースを、次の通りに変更いたします。

新: 1日1回 AM 3:00 (この時間からRSSの取得を開始します)
旧: 1日4回 6時間毎

理由としまして、自宅で類似エントリの計算を行っているサーバの「電気代」にあります。
前年同月比で電気代が2倍(※1)となっており、家計的に無視できない状況となっております。

IMG_2525

そのため、計算終了後はサーバの電源を止め、電気代の高騰を抑える処置をとることといたしました。
個人的な都合で誠に勝手ではございますが、ご理解のほどなにとぞよろしくお願いいたします。

※追伸
資金に余裕が出てきたら、専用サーバでも借りて計算機・回線に余裕を持って今まで以上のサービスを提供できたらと考えています。

※1
電気代が一番少なくなる春、昨年の電気代は3,000円弱でした。しかし、今月は約6,000円となり、サーバ1台が家1軒分の電気を食べていることになります。ちなみに、サーバのCPUはPentium4 521 (2.8GHz)が入っています。

コメントは受け付けていません。 more...

【シムエントリ】[解消しました]現在アップデートが遅れております

シムエントリをご利用の皆様へお知らせです。

2008年4月14日 2:10 以降に更新された記事につきまして、反映が遅れております。
先ほど、復旧作業を行いまして、2008年4月17日 2:10より更新を再開しております。本日の朝までには正常な更新速度に戻る予定です。

ご利用いただいている皆様にはご迷惑をおかけし、恐縮です。

2008/04/18 問題は解消し、現在は正常に稼働しております。


【シムエントリ】 代表キーワードによる検索に変わります

シムエントリの類似記事検索方法が、変わります!

■いつから?
今晩の更新から適用します。

■どう変わるの?
これからは、ブログ内の上位10単語を「代表キーワード」と定義し、これを元に類似度が高いブログを検索するようにします。
今までは、ブログ内に含まれている全単語を使って、類似度が高い記事を探していました。しかし、この方法ですと長文の記事があると検索に多くの時間がかかるようになり、結果として更新が遅れてしまうという問題が発生していました。そこで、利用するキーワードを重要なものに絞って検索することで、計算速度を高める手法を採り入れました。

■精度は低くならないの?
類似記事の検索結果が変動することがあります。
現在私自身が確認している中では、大幅に結果が変動しておらず、精度は担保できていると考えています。
しかし、なにを以って「精度」を判断するかが難しいので、正直お話ししづらい部分ではあります。お気づきの点がございましたら、ご連絡いただけましたら幸いです。調整の際に参考にしてまいります。

■注意
・cos値の下限閾値を撤廃します
cos値の閾値を 0 < cos < 1 の範囲に変更します。これは、全単語を突き合せなくなったために完全なcos値ではなくなったためによるものです。
・APIを利用されている方へ
単語の照合を最大10個に絞ったため、APIで出力されるcos値が大幅に変わります
APIを使われている方は、閾値などの見直しをお願いいたします。

■細かい話
各エントリの代表キーワードの算出方法は、TF*RIDF値の上位10番に入った単語を対象としています。
今回用いたRIDF(残差IDF 『情報検索アルゴリズム』P.43参照)は、IDFでは単に多くのエントリで取り上げられている=重要度が低い、という認識が起きる時のギャップを埋める手法です。
たとえば、IDFのみで代表キーワードを抽出しようとすると、よく使われるが大切な言葉(たとえば地名や商品名など)のウェイトまで低くなってしまうのです。これを、ポアソン分布(サイコロの出目の確率を数えるときなどに使う近似値算出方法)で算出した頻度とIDFとの差を出すことで、大切な言葉をよりピックアップしやすくしています。

精度および速度の向上につきましては、今後も検討を重ねてまいります。

どうぞよろしくお願いします。

■追伸
引き続きRSSの登録も受付中です→シムエントリ トップページからどうぞ

1 Comment more...

【シムエントリ】 ブログパーツに幅狭バージョン登場

シムエントリから、2つお知らせです

RSSフィードが終わっても代替情報を表示します
今までは、RSSフィードが終わってしまった記事については空欄になっておりましたが、「これだと寂しい!」というお話を伺っておりました。
そこで、RSSフィードが終わった記事については、ブログ全体からある1記事の類似度が高いものをピックアップして表示するようにいたしました。実際の仕組みは、メニューバー用ブログパーツと同じです。
このモードで動いているときは「興味が近い別のブログを探してみよう」という表示に切り替わります(通常は「この記事に近いブログはこちら」です)。

幅狭バージョン登場
シムエントリのブログパーツに、幅狭バージョンが登場しました。
今までのブログパーツは、情報量が多く幅も広いため、一部のテンプレートを利用していると具合が悪いことがあるとご連絡をいただいておりました。
そんな方にお勧めいたします。

幅が360ピクセル 固定で表示されます。
貼り付け方は今までと同じ、『標準ブログパーツ』と同じ方法で貼り付けてください。
———————
<!-- Sim entries -->
<script charset="utf-8" src="http://se.koemu.com/js/sim-entries.js" type="text/javascript"></script>
<script type="text/javascript">writeSmallSimilarList( '記事のアドレス' );</script>
<!–– / Sim entries ––>

———————
※メソッド名が writeSimilarList → writeSmallSimilarList になっています
※ブログ別の貼り方は『ブログパーツの貼り付け方』をご覧ください

動作も、幅と表示される情報量を除いて、標準ブログパーツと同じです。

どうぞお試しください。

■追伸
引き続きRSSの登録も受付中です→シムエントリ トップページからどうぞ


  • 自己紹介


    昼は要求定義からインフラ構築まで担当するサーバサイド技術のSE、夜は焼酎をこよなく愛す兄ちゃんです。
    >> プロフィールページ
    >> メール送信フォーム
    ※コメントは承認制です。公開されるまで少々お待ち下さい。

  • Blog Parts

    track feed

    Copyright © 1997-2012 Yuichiro Saito All Rights Reserved.
    iDream theme by Templates Next | Powered by WordPress