【シムエントリ】一部エントリの解析について
シムエントリの記事解析についてのお知らせです。
■一部フィードの解析問題を修正
一部のRSSフィードで本文を正しく取得できていない(※1)ことがわかりましたので、修正しております。
■閾値の変更
上記の修正から抽出精度が確保できたため、 0.1 < cos < 1 の範囲で表示するように戻しました。
■タイトルのウェイト変更
タイトルのtf値のウェイトを10倍に変更しました。以前は3倍でした。
類似比較に当たり、よりタイトルのウェイトが高まります。
※1
Perl のXML::FeedPPですと、HTMLタグを含んでいるフィードが正しく取得できないことがわかりました。
そのため、使用するモジュールをXML::Feedに切り替えて対処しております。
参考:『Atom feedの解析 – ホワイト日記』

コメントは書き込めません
この記事のコメント欄は閉じられているため、書き込みできません。