過去の記事: 2010年 1月

1月30日

【シムエントリ】抽出対象を60日以内にしました ほか

シムエントリご利用の皆様へお知らせです。
これからご案内する変更は、本日のアップデートより反映されております。

■抽出対象エントリを60日以内に絞りました

類似エントリとして抽出される対象の記事を、計算実行日から60日以内に絞りました。これは、あまりに古い記事が出ますと記事の「鮮度」が低く、計算上類似度が高かったとしても価値ある情報として使いづらいのでは、と言う判断からです。

なお、基準となる記事については、RSSフィードにさえ届いていれば60日を過ぎても類似度を計算します。すなわち、2009年10月に書いた記事の類似エントリは直近60日以内に書かれたエントリがピックアップされます。

■広告を除外する仕組みを改善しました

今までも広告フィードを除外する仕組みを導入しておりましたが、最近新しい形式が登場しておりましたのでそれも対象となるようにしました。もし、新しい形式の広告が載ってしまうようでしたら、どのような記事かURIを教えていただけますと助かります。

■追伸

引き続きRSSの登録も受付中です→シムエントリ トップページからどうぞ。

【おまけ】

60日以内と決めるにあたり、現在シムエントリのバッチサーバが蓄えている期間別データ割合を調査してみました。

30日以内 56.3%
45日以内 61.1%
60日以内 64.4%
90日以内 69.1%

上記より、データベースの3分の2程度がカバーできる日を探しまして、結論を60日としました。


コメントは受け付けていません。
1月27日

マネジメントの勉強はしたけどまとめきれない時に読む本

チームをマネジメントするために、技術的な側面よりも心の側面に焦点を当てた本が出版されました。

村田祐造氏 著『チームの心を一つにする技術 “常勝リーダー”だけが知っている

■チームをまとめるのは難しい

大なり小なり、チームを持った人が必ず悩むこと。それは「まとめること」そのものであります。言ったことは伝わらない、勝手なことをする人がいる、そしてバラバラになってしまう。

僕も、ずっとこの悩みを持ち続けています。だからといって一人でやってしまえばその仕事は終わるかもしれませんが、いっこうに自分の仕事の領域を抜け出すことはできません。小さいまんまで終わってしまうんですね。これはとても悲しい。でもどうにかしたい。

■タグラグビーを通じた出会い

昨年の秋ですが、CLA主催の『体験型チームビルディングセミナー』で、先に紹介した本の著者である村田さん(ムラタぐさん)の講義を聴講する機会に恵まれました。

セミナー内でタグラグビーをプレイします。タグラグビーは、ラグビーからケガをする危険のあるプレーをのぞき、老若男女誰でもが楽しめるルールにアレンジしたラグビーです。しかし、ラグビーの本質であるチームでプレーすると言う部分は生きており、ワンマンプレーでは本当の勝利にたどり着けない仕組みになっています。最近流行している、団体戦がなく一人でプレーするスポーツとは趣を異にします。

そこで、強く学んだこと。それは『感謝』の心を持つこと。悪いことがあったとしても、いつかは日々自然にできるように。そうすることで、自然に相手を受け入れられるようになり、チームが一体となっていくきっかけをつかめるということです。

■挑戦はいきなりはできない

ムラタぐさんは、モティベーションの状態を「フロー(+の状態)」「ノンフロー(−の状態)」として分けて解説されています。今まで、モティベーションをあげるために無理矢理「いける!」なんてやることを強要された経験を持たれている方もいると思います。それとはまた違った、今ある自分の能力・背景の受け入れ方について解説されています。やり方は違いますが、NLPで受けたアプローチに似ているなと思い出しました。

その感謝から始まり、それを取り巻く自分の内面の次のレイヤー(詳細はぜひ本で!)が成り立ち、初めて自分の外側に出てくる「挑戦」に結びつく、と言うロジックになっています。それを通じて、周囲に慮る気持ちが自分の中に育っていきます。

自分が起点なのですが、今までの自己啓発本と違って最後まで自分にとどまるのではなく、周囲に対してプラスのエネルギーがあふれる自分になるためにどうするのか、という観点が特筆できるポイントです。

■実践方法はやると結構恥ずかしい

私はセミナーを通じて、本に書かれている実践方法を実際に体験したのですが、これを実際にやるのは結構恥ずかしいです!でも、会社でやってみましたらなかなかイケてました。まずは「傾聴!」のサインからいかがでしょうか。ここで、一人一人が話し手に傾聴していないことから気づくはずです(※1)。

また、個人でできるものはチームでやるものよりもやりやすいので、一人で笑ってしまうこともあると思いますが、お試しください。気持ちが少しずつ変わってくるはずです。

■こういう人が読むといいんじゃなかろうか

となりますと、

  • 会社である程度結果が認められてポジションがどんどん良くなっている…けど、チームを今ひとつまとめきれなくて困っている人。
  • 会社になんか許せない奴がいる。
  • チームで挑戦するために今ひとつ覚悟を決められない。

この3点でしょうか。僕にとっては、以前のセミナーの復習のための教科書として活用しています。

ビジネス系の本全般に言えることですが、実践を推奨している手法をいきなり全部やるとつぶれてしまいます。特に、セミナー等で実践方法を直に学んでいないと、かなりの確率で挫折します。ですので、自分ができそうだ、これはやってみたいと言うモティベーションになれるものから、はじめてみてはいかがでしょうか。

あと、タグラグビーは本で書かれているチームワークを直に学べる機会ですので、イベントを通じて汗を流しながらマネジメントについて考え直すのもとても良い時間になるはずです。ムラタぐさんが経営されている『スマイルワークス』さんでも主催されていらっしゃいます。

一人では生きられない、というのは言葉ではわかります。でも、中身として理解を深めるのは一生かけても難しい、人生の課題です。そのヒントをつかむきっかけとして、読まれてみてはいかがでしょうか。

※1: 傾聴していると、ミーティングも早くかつ効率的に進むんじゃないかと感じました。


コメントは受け付けていません。
1月15日

XBRL勉強会で『言語処理を用いた 相関関係取得の紹介』のプレゼンをしました

1月14日に開催された『第8回 XBRL勉強会』において、上場企業間の『言語処理を用いた 相関関係取得の紹介』と言うプレゼンテーションを行いました。

パワーポイントは概要のみで、多くをホワイトボードと質疑応答で話を進めましたので、こちらに補足を書きます。

■概要

これまで、インデックスを使った投資を行うにあたっては、取引所などが定義した『業種分類』や、ファンドマネージャをはじめとしたプロフェッショナルの知識・経験・そして勘でインデックスが作成されていました。また、インデックスを作成したとしても、この動きが激しい世界では企業間の関係は刻々と変化します。

そこで、定性的でありつつも企業の特徴を垣間みることができる「有価証券報告書」や「決算短信」を用い、これらを自然言語処理の技術を用いて定量化することで、企業のつながりを分析できるか否かの実験を行いました。企業分析では、あまり例がない方法であります。

■実験手順

実験は、次の手順で行いました。すべてコマンドラインベースで動作しています。プレゼン中は、技術者以外の方にもわかるようベクトルの「なす角」(cosの意味を理解するために必要)についてあわせて解説しています。

  1. やのしんさん開発のAPIを通じ、東証1部上場企業の2009年度中間決算短信(以下、短信)PDFをダウンロード。
    このAPIを使うことで、データの取得の自動化が可能になりました。
  2. 短信PDFをテキストファイルへ変換。
    その後に本文を解析しやすくするための準備となります。
  3. 各企業の短信の本文を分かち書き。
    日本語は英語と違い単語の区切りがないため、専用のツールで単語ごとに「分かち書き」と言う処理が必要になります。
  4. 分かち書きした各企業の短信のTF、および全銘柄のIDF、RIDFを算出。
    TF/IDFについては、たつをさんのエントリ『形態素解析と検索APIとTF-IDFでキーワード抽出』が詳しいです。
  5. 各企業の短信をすべてつきあわせ、短信間の内容の類似度(cos)を算出。
    実際は7で指定する企業のみ演算すればいいのですが、今回は途中で全cos値を調べたいと思いわざわざすべて計算させました。
  6. RIDFを用い、各短信の代表キーワードを算出。
    どんなキーワードがその短信の特徴的な単語で影響を及ぼしやすいものであるのか、わかりやすくするために抽出しました。RIDFについては、当ブログ『【シムエントリ】 代表キーワードによる検索に変わります』をご覧ください。
  7. 指定した企業において、cos値が0.5以上の短信を3階層までリンクしていく。
  8. リンク結果を図に描画する。

■出力データ(画像へリンク)

このような形で出力しています。紹介している企業はスライドでピックアップしているものです。

■プレゼン中いただいたお話

プレゼン中の質疑応答時間、様々なお話を頂戴しました。

・大量保有報告書や第三者割り当てのレポートを活用できないか
これらの報告をする人たちの中に、キープレーヤーがいます。そのキープレーヤーの動向をテキストマイニングで抽出できれば、より客観的に市場の動きを把握できるのでは、とのことでした。

・IFRSのメジャーカスタマー欄を参考にして取引関係をより緻密にとらえられるかもしれない
テキストマイニングばかりではなく、IFRSをはじめとしたほかのデータソースを用いて相関をよりわかりやすく(どういったつながりなのか)していく方法もある、と教えていただきました。

・XBRLとの掛け合わせについて
それぞれのタクソノミをベクトル化して類似度を測ってみたいと言う話をしたところ、リンクや米国での事例について紹介いただきました。

・一見関連性がないつながりは書いている人が一緒か同じ会社かとかがあるかもしれない

ほかにも、いろいろなご意見を頂戴しました。どうもありがとうございました。

■活用したライブラリ・ツール

多くのツールは、Ubuntuのリポジトリからダウンロードできますので、手軽にインストール可能です。

  • Sun VirtualBox
  • Ubuntu Linux 8.04.3 LTS Server
  • Perl 5.8
  • mecab + ipadic
    形態素解析…分かち書きのためのツール
  • graphviz
    相関図作成ツール
  • xpdf (pdftotext)
    PDF関連ツール (今回はテキスト抽出のみ利用)

■参考図書

  • Introduction to Information Retrieval
    以前、勉強会でお世話になった教科書です。洋書ですが、情報検索に必要な知識が一通り学べます。
  • 情報検索アルゴリズム
    特に検索部分について解説している教科書です。上記IIR本と一緒にどうぞ。
  • ゼロから学ぶ線形代数
    特にドキュメント間の類似度を演算する時に利用しています。数学からしばらく離れてしまっていた場合に役立ちます。

■個人的な目的

自然言語処理と、企業分析。それぞれの分野に置いて、非常に長けた能力を持っている人や前線にたって活躍されている方がいらっしゃいます。しかし、両方を兼ね備えて活躍されている方は、あまり見受けません。正直、自分が今から一つの分野で勝負するには、かなりハードでやりきれる自信はありません。

そして、定量的分析が進んでいる企業分析に置いて、定性的データを分析しているというレポートを、私は今まであまり見たことがありませんでした(前回の勉強会で少し出た程度です)。

今回、発表する題材を決めるにあたり、自分が経験してきた自然言語処理と企業分析というあまり近くなかった分野を絡めて発表することで、何か印象を残すことができればと期待していました。それが、自分ならではのものだと思ったからです。誰かが言っていました。一つの専門の人は数多くいるけど、ある程度の能力でも二つ以上の能力を掛け合わせられる人はなかなかいない、と。

■感想

目的が達せられてよかったです。

掛け合わせると言えば聞こえはいいのですが、常識的ではないことでもありましたので勉強会内で受け入れてもらえるのか、発表まで心配でした。それも、XBRL勉強会と言うのにXBRLの話がほとんどないという…。しかし、企業分析と言うもう一つの部分について興味を持っていただくことができ、とても嬉しく思っています。また、企業の分類にテキストマイニングと言う手法があることも皆さんにお伝えできたのではと考えています。

(体調を崩していて新年会に行けなかったことだけが心残りです)

勉強会に参加されていた皆様、どうもありがとうございました!


コメントは受け付けていません。
1月5日

年末年始はありきたりに

こえむ 日記 Read on

年末年始は、いつもどおり実家に戻っていました。それも、母の実家がある大阪、親戚のいる奈良、そして実家の福岡と3箇所をめぐって。

■やっぱり大阪は元気だ

IMG_7517

まず最初は大阪。お正月の買出しに黒門市場へ。不況といわれて久しく、かつ他エリアに比べて経済の元気がよりないいわれている大阪ですが、この人だかりを見るとああ人がいるところにはいるのだなと安心さえします。

IMG_7552

■子どもが生まれたいとこ

隔年位でやっている親戚集まっての正月。今年は事情があって僕の家族は僕だけの参加、それも大晦日までです。

今年はいとこに子どもが生まれ、それを祝いに行きつつ写真を撮って福岡に持ち帰るというタスクがあります。よくわかったのが、小さい子がひとり生まれると、そこを中心に新しい輪と活気が生まれるということ。初めて、ああ家庭をもつってのはいいもんだなと思いました。

で、お前はどうなっているんだと言う定番のツッコミが入ったものの、それ以上に強かったのは私服のコーディネート。もう最悪と言わんばかりに、次の日にいとこ夫婦同伴でいきなり服の買い込みが始まりました。お陰さまで、1万円以内でイメチェンさせていただきました!へい。

■移動は新幹線

福岡までは途中に経由地があるので新幹線で。大阪へ行き来する場合、新幹線のほうが本数が多いですし都心との距離が短いのでよく使っています。

今年の帰省用ヘヴィローテーションは、MiMのこの二枚。粛々と300km/hで走る新幹線の車内のような、安定した高速感を醸しだします。

乗った車両というと、N700系はさておき、今年の2月でのぞみ人生を閉じる500系新幹線にも乗ってきました。

IMG_7747

500系のぞみの定期運行は既に1往復のみ。そして年末で激混み。エクスプレス予約で指定席をよーいドンでとったから良かったものの、自由席は広島までぎゅうぎゅう。ちょうど、金曜日の上り最終のぞみをさらにひどくしたような状態であります。わかるかな?、わかんねーだろーなーwww

300系のぞみよりも早くなくなってしまう500系のぞみ。素晴らしい高速域の加速とともに、あっというまにいなくなってしまったのでありました。

■実家に戻ってきたらなんと

体温、39度。風邪引きました。インフルエンザじゃないだけましだった。

もちろん、正月に病院はやっていませんので、いつもの民間療法『ユンケル』であります。こいつは下手な風邪薬よりも効果の高い、素晴らしい栄養ドリンクなるのであります。飲んでしばらくすると滝のように汗が流れ、その汗とともに熱が引くような感じです。

今回は2回お世話になりました。なお、飲むなら安物ではなく1,200円を越えるそれなりのグレードのものをご賞味ください。まずいけどいいよ!今回は1日半で落ち着きました。

■今年もよろしくお願いします

ということで、3日の朝に帰ってまいりました。

今年の抱負、いつも通り毎日を過ごしたいと思います。

今年もどうぞよろしくお願いいたします。


コメントは受け付けていません。

記事一覧

2010年1月
« 12月   2月 »
 12
3456789
10111213141516
17181920212223
24252627282930
31