カテゴリ 'シムエントリ' の記事一覧

5 月21日

【シムエントリ】情報更新ペース変更のお知らせ

シムエントリの情報更新ペースを、次の通りに変更いたします。

新: 1日1回 AM 3:00 (この時間からRSSの取得を開始します)
旧: 1日4回 6時間毎

理由としまして、自宅で類似エントリの計算を行っているサーバの「電気代」にあります。
前年同月比で電気代が2倍(※1)となっており、家計的に無視できない状況となっております。

IMG_2525

そのため、計算終了後はサーバの電源を止め、電気代の高騰を抑える処置をとることといたしました。
個人的な都合で誠に勝手ではございますが、ご理解のほどなにとぞよろしくお願いいたします。

※追伸
資金に余裕が出てきたら、専用サーバでも借りて計算機・回線に余裕を持って今まで以上のサービスを提供できたらと考えています。

※1
電気代が一番少なくなる春、昨年の電気代は3,000円弱でした。しかし、今月は約6,000円となり、サーバ1台が家1軒分の電気を食べていることになります。ちなみに、サーバのCPUはPentium4 521 (2.8GHz)が入っています。


4 月17日

【シムエントリ】[解消しました]現在アップデートが遅れております

シムエントリをご利用の皆様へお知らせです。

2008年4月14日 2:10 以降に更新された記事につきまして、反映が遅れております。
先ほど、復旧作業を行いまして、2008年4月17日 2:10より更新を再開しております。本日の朝までには正常な更新速度に戻る予定です。

ご利用いただいている皆様にはご迷惑をおかけし、恐縮です。

2008/04/18 問題は解消し、現在は正常に稼働しております。


3 月20日

【シムエントリ】 代表キーワードによる検索に変わります

シムエントリの類似記事検索方法が、変わります!

■いつから?
今晩の更新から適用します。

■どう変わるの?
これからは、ブログ内の上位10単語を「代表キーワード」と定義し、これを元に類似度が高いブログを検索するようにします。
今までは、ブログ内に含まれている全単語を使って、類似度が高い記事を探していました。しかし、この方法ですと長文の記事があると検索に多くの時間がかかるようになり、結果として更新が遅れてしまうという問題が発生していました。そこで、利用するキーワードを重要なものに絞って検索することで、計算速度を高める手法を採り入れました。

■精度は低くならないの?
類似記事の検索結果が変動することがあります。
現在私自身が確認している中では、大幅に結果が変動しておらず、精度は担保できていると考えています。
しかし、なにを以って「精度」を判断するかが難しいので、正直お話ししづらい部分ではあります。お気づきの点がございましたら、ご連絡いただけましたら幸いです。調整の際に参考にしてまいります。

■注意
・cos値の下限閾値を撤廃します
cos値の閾値を 0 < cos < 1 の範囲に変更します。これは、全単語を突き合せなくなったために完全なcos値ではなくなったためによるものです。
・APIを利用されている方へ
単語の照合を最大10個に絞ったため、APIで出力されるcos値が大幅に変わります
APIを使われている方は、閾値などの見直しをお願いいたします。

■細かい話
各エントリの代表キーワードの算出方法は、TF*RIDF値の上位10番に入った単語を対象としています。
今回用いたRIDF(残差IDF 『情報検索アルゴリズム』P.43参照)は、IDFでは単に多くのエントリで取り上げられている=重要度が低い、という認識が起きる時のギャップを埋める手法です。
たとえば、IDFのみで代表キーワードを抽出しようとすると、よく使われるが大切な言葉(たとえば地名や商品名など)のウェイトまで低くなってしまうのです。これを、ポアソン分布(サイコロの出目の確率を数えるときなどに使う近似値算出方法)で算出した頻度とIDFとの差を出すことで、大切な言葉をよりピックアップしやすくしています。

精度および速度の向上につきましては、今後も検討を重ねてまいります。

どうぞよろしくお願いします。

■追伸
引き続きRSSの登録も受付中です→シムエントリ トップページからどうぞ


3 月18日

【シムエントリ】 ブログパーツに幅狭バージョン登場

シムエントリから、2つお知らせです

RSSフィードが終わっても代替情報を表示します
今までは、RSSフィードが終わってしまった記事については空欄になっておりましたが、「これだと寂しい!」というお話を伺っておりました。
そこで、RSSフィードが終わった記事については、ブログ全体からある1記事の類似度が高いものをピックアップして表示するようにいたしました。実際の仕組みは、メニューバー用ブログパーツと同じです。
このモードで動いているときは「興味が近い別のブログを探してみよう」という表示に切り替わります(通常は「この記事に近いブログはこちら」です)。

幅狭バージョン登場
シムエントリのブログパーツに、幅狭バージョンが登場しました。
今までのブログパーツは、情報量が多く幅も広いため、一部のテンプレートを利用していると具合が悪いことがあるとご連絡をいただいておりました。
そんな方にお勧めいたします。

幅が360ピクセル 固定で表示されます。
貼り付け方は今までと同じ、『標準ブログパーツ』と同じ方法で貼り付けてください。
———————
<!-- Sim entries -->
<script charset="utf-8" src="http://se.koemu.com/js/sim-entries.js" type="text/javascript"></script>
<script type="text/javascript">writeSmallSimilarList( ‘記事のアドレス’ );</script>
<!–– / Sim entries ––>

———————
※メソッド名が writeSimilarList → writeSmallSimilarList になっています
※ブログ別の貼り方は『ブログパーツの貼り付け方』をご覧ください

動作も、幅と表示される情報量を除いて、標準ブログパーツと同じです。

どうぞお試しください。

■追伸
引き続きRSSの登録も受付中です→シムエントリ トップページからどうぞ


3 月14日

【シムエントリ】今後の改善について

シムエントリについて、今後の改善を次の通りに計画しています。
優先順位順にお知らせします。

■計算速度改善
計算速度の改善ですが、現在も引き続き増大していることから抜本的に方法を変えることを検討しています。
手法としては、現在有力なのが『代表キーワード抽出』による方法です。
これは、元エントリより代表(中心)となるキーワードをいくつかピックアップし、これから内容が近いエントリを探し出してくる、という方法です。
キーワード検索自体はすでに転置インデックスによる最適化が済んでいますので、高速化はやりやすいと考えております。
また、代表キーワードの抽出方法はいくつか存在するため、速度・精度共々バランスがよいものを採用できるよう現在試験中です。

■記事保持期間の設定
RSSフィードから対象外となっても、一定期間保持する機能を検討中です。
これは、上記の計算速度の改善で目処が立ち次第、順次対応する予定です。

■ブログパーツ
・幅狭タイプ(250px)の設定
・検索対象外となった場合の代替表示
について、検討中です。幅狭タイプは情報量を削って幅を狭めるだけになると思います。
代替表示については、メニューバー形式のブログパーツと同じしようにしようと考えています。

計算速度の改善については、3月末までに対応できるよう進めています。

途中経過のお知らせでした。

【おまけ】
『この記事はシムエントリの解析対象になっているのか?』ということを調べやすくするためのブックマークレットです。
個別の記事を開いた後、このブックマークレットを使ってみてください。
シムエントリのデータを確認
(といっても、JSONのAPIを直接叩いて中身を見るだけです。)


記事一覧

2008 年 12 月
« 11 月    
 123456
78910111213
14151617181920
21222324252627
28293031