【シムエントリ】一部エントリの解析について

シムエントリの記事解析についてのお知らせです。

■一部フィードの解析問題を修正
一部のRSSフィードで本文を正しく取得できていない(※1)ことがわかりましたので、修正しております。

■閾値の変更
上記の修正から抽出精度が確保できたため、 0.1 < cos < 1 の範囲で表示するように戻しました。

■タイトルのウェイト変更
タイトルのtf値のウェイトを10倍に変更しました。以前は3倍でした。
類似比較に当たり、よりタイトルのウェイトが高まります。

※1
Perl のXML::FeedPPですと、HTMLタグを含んでいるフィードが正しく取得できないことがわかりました。
そのため、使用するモジュールをXML::Feedに切り替えて対処しております。
参考:『Atom feedの解析 – ホワイト日記



この記事について...