カテゴリ 'シムエントリ' の記事一覧

3月16日

【シムエントリ】ブログパーツ枠にもCSSが適用できるようになりました

シムエントリご利用の皆様へお知らせです。
これからご案内する変更は、直ちにご利用いただける状態となっております。

■ブログパーツの枠に独自のCSSクラスを定義できるようになりました

これまでは類似記事一覧部分に対して、ユーザ独自のCSSファイルが定義できておりましたが、それを枠を表示するIFRAME部分にも適用を拡大いたしました。より、ご自身のブログに合わせたデザインを適用できるようになります。ぜひお試しください。

適用方法は次の通りです。

<!-- Sim entries -->
<script charset="utf-8" src="http://se.koemu.com/js/sim-entries.js" type="text/javascript"></script>
<script type="text/javascript">writeSimilarList( EntryURI, [CSS URI], [CSS CLASS] );</script>
<!?? / Sim entries ??>

  • CSS URI: 類似記事一覧のCSSファイルを定義します。以前から存在したオプションです。
  • CSS CLASS: ブログパーツ枠を表示するIFRAMEタグのCSSクラス名を定義します。新オプションです。

気をつけていただきたいのが、”CSS CLASS“で定義するIFRAME部分のクラス名はご自身のブログ側で定義しているCSSが適用されるため、ブログ側のCSSについても編集をお願いいたします。

本機能の実装にあたっては、 @photo_pierre さんにご協力をいただきました。この場を借りて御礼申し上げます。ありがとうございました。

RSSフィードの登録受付も引き続き行っております。下記からどうぞ。
http://se.koemu.com/


1月30日

【シムエントリ】抽出対象を60日以内にしました ほか

シムエントリご利用の皆様へお知らせです。
これからご案内する変更は、本日のアップデートより反映されております。

■抽出対象エントリを60日以内に絞りました

類似エントリとして抽出される対象の記事を、計算実行日から60日以内に絞りました。これは、あまりに古い記事が出ますと記事の「鮮度」が低く、計算上類似度が高かったとしても価値ある情報として使いづらいのでは、と言う判断からです。

なお、基準となる記事については、RSSフィードにさえ届いていれば60日を過ぎても類似度を計算します。すなわち、2009年10月に書いた記事の類似エントリは直近60日以内に書かれたエントリがピックアップされます。

■広告を除外する仕組みを改善しました

今までも広告フィードを除外する仕組みを導入しておりましたが、最近新しい形式が登場しておりましたのでそれも対象となるようにしました。もし、新しい形式の広告が載ってしまうようでしたら、どのような記事かURIを教えていただけますと助かります。

■追伸

引き続きRSSの登録も受付中です→シムエントリ トップページからどうぞ。

【おまけ】

60日以内と決めるにあたり、現在シムエントリのバッチサーバが蓄えている期間別データ割合を調査してみました。

30日以内 56.3%
45日以内 61.1%
60日以内 64.4%
90日以内 69.1%

上記より、データベースの3分の2程度がカバーできる日を探しまして、結論を60日としました。


コメントは受け付けていません。
8月15日

【シムエントリ】記事抽出時にNaive Bayesを採用しました

シムエントリご利用の皆様へお知らせです。
これからご案内する変更は、本日のアップデートより反映されております。

■Naive Bayesを採用しました

類似記事算出時、これまでシムエントリに登録されているすべての記事同士で突合せを行っていました(詳細は「【シムエントリ】 代表キーワードによる検索に変わります」)。今回、記事同士の突合せの前にNaive Bayesによる仕分けを行うように変更いたしました。

これにより、検索の方法が次の通りに変わります。

  1. 最新のRSSフィードを取得する。
  2. 形態素解析を行う。
  3. Naive Bayes アルゴリズムを利用し、すべての記事に対してカテゴリ分けを行う。
  4. カテゴリ内のすべての記事を突合せ、類似記事を探し出す。

Naive Bayes の詳細については、「ナイーブベイズによるテキスト分類体験アプリ – 睡眠不足?!」にてサンプルと共に解説されています。興味がある方はぜひその動きをご覧ください。

対象記事が増えます

最新のぽぷるのデータを追加し、抽出される記事の母数が増えております。

ぽぷる」は、河野さんとその協力者の方が作成されたブログホワイトリストです。シムエントリはこのデータを利用させていただいております。いつもありがとうございます。

類似記事の変化が発生します

上記の変更により、類似記事の抽出結果の傾向が変わります。

また、Naive Bayes で仕分けを行う際に利用している教師データ(仕分けの元となるデータ)は引き続き編集を行っておりますため、この後も変化が起こる事が考えられます。あらかじめご了承ください。

■追伸

引き続きRSSの登録も受付中です→シムエントリ トップページからどうぞ。

【おまけ】

・Naive Bayes 採用の理由

結論から言うと、計算量を減らすためです。今までですと、1万件の記事を探すために 10,000 * ( 10,000 – 1 ) =?99,990,000 回の計算を行う必要がありました。ここで、たとえば最初に数が均等な10個のカテゴリに分けておくと、 1,000 * ( 1,000 – 1 ) * 10 = 9,990,000 回 となり、約1桁分の計算量を減らせます。その仕分けに、 Naive Bayes が役立ちました(Complement Naive Bayes というのもあります)。しかし、そう簡単に行かない事もわかりました。

・教師データ

Naive Bayers を利用し始めましたが、教師データの選定と分量がうまい事いっておりません。現状ですと、カテゴリを分けるときにグループごとの件数に大きなむらが出てしまっており、先の理屈ほど計算量を落とせていません。このあたり、試行錯誤し続ける必要がありそうです。


コメントは受け付けていません。
3月4日

【シムエントリ】CSSが設定できるようになりました

シムエントリご利用の皆様へ、2つのお知らせです。

■CSSが指定できるようになりました

本日 2009年3月4日より、シムエントリのエントリ一覧にご自身で定義したCSSをセットできるようにしました。この機能追加により、ブログのテンプレートにあわせた配色を設定することができるようになります。どうぞお試しください。

定義方法は次のとおりです。

<!-- Sim entries -->
<script charset="utf-8" src="http://se.koemu.com/js/sim-entries.js" type="text/javascript"></script>
<script type="text/javascript">writeSimilarList( EntryURI, [CSS URI] );</script>
<!?? / Sim entries ??>

簡単に言うと、writeSimilarListにオプショナルの引数を1つ追加した形になります。
なお、現在シムエントリが利用しているCSSは “http://se.koemu.com/css/simentries.css” になります。

もし、クラス名をこのように指定してほしいなどのご希望がありましたら、コメントいただけましたら幸いです。内容をかんがみまして、できる範囲で改善していきます。

■描画領域を広くしました

Macなど、一部環境で3つ目のエントリの表示がかける問題がありましたので、高さを広めました。
あわせて、シムエントリのデフォルトCSSで適用するフォントを「メイリオ」に変更しています。Windowsの方でメイリオをインストールされている方は、フォントが変わっています。

以上2点は使っている方からいただいたアドバイスを元に組み込みました。どうもありがとうございました。

RSSフィードの登録受付も引き続き行っております。下記からどうぞ。
http://se.koemu.com/

※追伸
IIR輪講 シーズン1 が終わったので、勉強したネタをそろそろ入れ込んでみたいなと思います。主に計算量を減らす方向に持っていくつもりです。

※追伸2
汎用性の高いデフォルトCSS、募集します。採用者の方にはビールを1杯ごちそうします。もしよろしければ作っていただけるとうれしいです。


コメントは受け付けていません。
11月11日

【シムエントリ】エントリ抽出条件を変更しました

シムエントリご利用の皆様へ、2つのお知らせです。
これからご案内する変更は、本日の明朝のアップデートより反映する予定です。

■1KB以上のエントリのみを関連記事として表示します

類似記事一覧に表示するエントリを、1KB以上のデータを持つエントリにいたします。
また、1KB未満のエントリは類似記事を表示することはできますが、他のブログの類似記事としては表示されなくなります。
これは、シムエントリが「代表キーワード」を用いて記事を検索している特性上、記事の本文が短い≒用いられる単語が少ない記事が優先して表示されやすい背景があったためです。
※DBを調べたところ、10%程度のエントリが1KB以下のエントリでした。これは、本文引用形式のRSS記事も含みます。

■記事の保存期間を15日に引き延ばします

7月6日より、記事の保存期間を7日設けることで更新が早いブログでも記事が残るようにしておりました。これを、本日より30日に引き延ばします。
これにより、更新が早い(1日1記事以上の)ブログを運営されている方は、以前より記事が残りやすい状況になります。

■記事取得時間が1時間繰り上がります

記事取得の時間を3:00から2:00に1時間繰り上げます。

RSSフィードの登録受付も引き続き行っております。下記からどうぞ。
http://se.koemu.com/


コメントは受け付けていません。

記事一覧

2010年9月
« 8月    
 1234
567891011
12131415161718
19202122232425
2627282930