カテゴリ '私の考え' の記事一覧
XBRL勉強会で『言語処理を用いた 相関関係取得の紹介』のプレゼンをしました
1月14日に開催された『第8回 XBRL勉強会』において、上場企業間の『言語処理を用いた 相関関係取得の紹介』と言うプレゼンテーションを行いました。
パワーポイントは概要のみで、多くをホワイトボードと質疑応答で話を進めましたので、こちらに補足を書きます。
■概要
これまで、インデックスを使った投資を行うにあたっては、取引所などが定義した『業種分類』や、ファンドマネージャをはじめとしたプロフェッショナルの知識・経験・そして勘でインデックスが作成されていました。また、インデックスを作成したとしても、この動きが激しい世界では企業間の関係は刻々と変化します。
そこで、定性的でありつつも企業の特徴を垣間みることができる「有価証券報告書」や「決算短信」を用い、これらを自然言語処理の技術を用いて定量化することで、企業のつながりを分析できるか否かの実験を行いました。企業分析では、あまり例がない方法であります。
■実験手順
実験は、次の手順で行いました。すべてコマンドラインベースで動作しています。プレゼン中は、技術者以外の方にもわかるようベクトルの「なす角」(cosの意味を理解するために必要)についてあわせて解説しています。
- やのしんさん開発のAPIを通じ、東証1部上場企業の2009年度中間決算短信(以下、短信)PDFをダウンロード。
このAPIを使うことで、データの取得の自動化が可能になりました。 - 短信PDFをテキストファイルへ変換。
その後に本文を解析しやすくするための準備となります。 - 各企業の短信の本文を分かち書き。
日本語は英語と違い単語の区切りがないため、専用のツールで単語ごとに「分かち書き」と言う処理が必要になります。 - 分かち書きした各企業の短信のTF、および全銘柄のIDF、RIDFを算出。
TF/IDFについては、たつをさんのエントリ『形態素解析と検索APIとTF-IDFでキーワード抽出』が詳しいです。 - 各企業の短信をすべてつきあわせ、短信間の内容の類似度(cos)を算出。
実際は7で指定する企業のみ演算すればいいのですが、今回は途中で全cos値を調べたいと思いわざわざすべて計算させました。 - RIDFを用い、各短信の代表キーワードを算出。
どんなキーワードがその短信の特徴的な単語で影響を及ぼしやすいものであるのか、わかりやすくするために抽出しました。RIDFについては、当ブログ『【シムエントリ】 代表キーワードによる検索に変わります』をご覧ください。 - 指定した企業において、cos値が0.5以上の短信を3階層までリンクしていく。
- リンク結果を図に描画する。
■出力データ(画像へリンク)
このような形で出力しています。紹介している企業はスライドでピックアップしているものです。
■プレゼン中いただいたお話
プレゼン中の質疑応答時間、様々なお話を頂戴しました。
・大量保有報告書や第三者割り当てのレポートを活用できないか
これらの報告をする人たちの中に、キープレーヤーがいます。そのキープレーヤーの動向をテキストマイニングで抽出できれば、より客観的に市場の動きを把握できるのでは、とのことでした。
・IFRSのメジャーカスタマー欄を参考にして取引関係をより緻密にとらえられるかもしれない
テキストマイニングばかりではなく、IFRSをはじめとしたほかのデータソースを用いて相関をよりわかりやすく(どういったつながりなのか)していく方法もある、と教えていただきました。
・XBRLとの掛け合わせについて
それぞれのタクソノミをベクトル化して類似度を測ってみたいと言う話をしたところ、リンクや米国での事例について紹介いただきました。
・一見関連性がないつながりは書いている人が一緒か同じ会社かとかがあるかもしれない
ほかにも、いろいろなご意見を頂戴しました。どうもありがとうございました。
■活用したライブラリ・ツール
多くのツールは、Ubuntuのリポジトリからダウンロードできますので、手軽にインストール可能です。
- Sun VirtualBox
- Ubuntu Linux 8.04.3 LTS Server
- Perl 5.8
- mecab + ipadic
形態素解析…分かち書きのためのツール - graphviz
相関図作成ツール - xpdf (pdftotext)
PDF関連ツール (今回はテキスト抽出のみ利用)
■参考図書
- Introduction to Information Retrieval
以前、勉強会でお世話になった教科書です。洋書ですが、情報検索に必要な知識が一通り学べます。 - 情報検索アルゴリズム
特に検索部分について解説している教科書です。上記IIR本と一緒にどうぞ。 - ゼロから学ぶ線形代数
特にドキュメント間の類似度を演算する時に利用しています。数学からしばらく離れてしまっていた場合に役立ちます。
■個人的な目的
自然言語処理と、企業分析。それぞれの分野に置いて、非常に長けた能力を持っている人や前線にたって活躍されている方がいらっしゃいます。しかし、両方を兼ね備えて活躍されている方は、あまり見受けません。正直、自分が今から一つの分野で勝負するには、かなりハードでやりきれる自信はありません。
そして、定量的分析が進んでいる企業分析に置いて、定性的データを分析しているというレポートを、私は今まであまり見たことがありませんでした(前回の勉強会で少し出た程度です)。
今回、発表する題材を決めるにあたり、自分が経験してきた自然言語処理と企業分析というあまり近くなかった分野を絡めて発表することで、何か印象を残すことができればと期待していました。それが、自分ならではのものだと思ったからです。誰かが言っていました。一つの専門の人は数多くいるけど、ある程度の能力でも二つ以上の能力を掛け合わせられる人はなかなかいない、と。
■感想
目的が達せられてよかったです。
掛け合わせると言えば聞こえはいいのですが、常識的ではないことでもありましたので勉強会内で受け入れてもらえるのか、発表まで心配でした。それも、XBRL勉強会と言うのにXBRLの話がほとんどないという…。しかし、企業分析と言うもう一つの部分について興味を持っていただくことができ、とても嬉しく思っています。また、企業の分類にテキストマイニングと言う手法があることも皆さんにお伝えできたのではと考えています。
(体調を崩していて新年会に行けなかったことだけが心残りです)
勉強会に参加されていた皆様、どうもありがとうございました!
大学は出たほうがいい
ある日、僕より年少の人と話していた際、僕の経歴を『鵜呑み』にしてしまい高卒でもプログラマになって一山当てられるのでは、と思われた事がありました。
これはとんでもない、という事でそのときに話した内容を少し整理して書き残しておこうと思います。大学は出たほうがいい、という。
高卒のホワイトカラーはマイノリティです
僕は高卒、専門学校にも行った事がありませんが、10年ほどプログラマとして食べてきました。プログラマを初めとした知的労働者、言い換えますとホワイトカラーな仕事であります。
僕の友人を初めとした、多くの高卒者はブルーカラーな仕事についています。工場を初めとした、体力勝負の労働であります。
仕事に貴賎は無いと昔から申します。しかし、学歴によって就ける仕事の種類には差が存在する事は事実です。欧州や米国、特にシリコンバレーでは、MITを初めとした名門校を卒業した人材が優遇されると聞いております。それを考えると、日本はこの10数年で学歴に対してゆるい目線になったせいか、僕のような高卒のホワイトカラーが誕生する土壌ができたのかもしれません。
でも、繰り返しますが高卒のホワイトカラーはマイノリティです。
大学を出ていないと開かれない門戸が存在する
大企業、特に伝統ある企業へ就職しようとすると、新卒はもとより中途でも『大学卒業』の資格がなければ門戸さえ開かれることはありません。外資でもこれはあてはまり、実際に経歴一切を引っさげて人事部の門を叩いても、大卒の人とは違い相手にされないことも珍しくないのです。
また、仮に就職できたとしても、正規雇用であるかはわかりません。仮に正規雇用だったとしても、伝統がある企業であればほど「給与テーブル」というルールが存在し、その中で同じ実力・経験年数でも「高卒」「大卒」の区分に給与が分かれている事実が存在します。これを見て、僕は大企業での正社員登用をあきらめたことがありました。
ほかにも、医者のように大学に行かないとそもそもなれない職業も存在します。これは、マイノリティどころの話ではありません。
結果を出している人は幼い頃から目の前のことを着実にこなしている
社会人になっても結果を出している人。それは、会社でもっとも収益を出しているかもしれませんし、技術の最前線を行っているかもしれませんし、もしくは若くして経営に参画し会社の舵取りをしているかもしれません。
そういう人、少なくても10人くらいはご覧になってみてください。わからなければ、日経新聞をはじめとした経済系のメディアで調べることができます。その多くの方は、大学へ、それも名門の大学を卒業しているはずです。
彼ら・彼女らが何のために大学へいったかはいろいろな経緯があったかと思います。ただ、少なくても言えるのは将来のプロセスとして目の前で行わなければならない『勉強』を着実にこなしていたからほかなりません。
その『勉強』にどれほどの意味があるのか、と考える学生は非常に多くいます。しかし、社会人になってからは勉強とは比べ物にならないほどの理不尽な仕事が待ち受けています。プログラマであれば、自分の好きなジャンルで得意の言語を使って開発し続けられるわけでは、決してないのです。
残念ながら、僕は中学生・高校生のときに、その目の前でやるべき仕事をせずにすごしてしまい、思わぬ重荷を背負うことになっているのです。世間はとても厳しいもので「ああ、あの時こうしていれば」ということが年を追う毎に増え、そして重くなるのです。そして、十代後半がその最初の分岐点になるのであります。
大卒の正規雇用のメリット
最近はOJTが普及してそうでもないことも増えているようですが、それでも伝統ある大企業では続いているものがあります。新人教育です。
新人教育は、多くの場合社会人として必要とするマナーやルールを学び、現場へ行く前の事前研修を行う場であります。現場の仕事は現場についてからでもいいのかもしれませんが、ルールやマナーを知らない状態で社会に飛び込むことはリスクがあります。それは、自分自身もさることながら、ほかの社員の方にも迷惑をかけかねません。
自分が気づかないうちに、相手に失礼があったり、自分や周囲の価値を落としかねないものになります。
僕は、社会人1日目に、隣で新人研修をしている声を聞きながら、仕様書を渡されてプログラムを書き始めていました。武勇伝としてはいいかもしれない。だけど、その後に客先へ訪問したときや、上司と接するときなどにどう立ち居振舞えばいいのか非常に苦労をしました。慌てて、プログラムの勉強の傍らマナーの本を読み名刺の渡し方から覚えたものです。
これは、本当に若いときに行わなければ、年をとってから直すのは難しいのです。マナーが体に定着せずにみっともない振る舞いをしている年長者は、悪い意味で目立つのです。これは、どんなにいい仕事をしていても損です。
しっかり教育を受けられる場も、学歴あってこそのものだったりするのです。
マジョリティとしての自覚
マイノリティの方の活躍は、時としてメディアなどに取り上げられ輝かしい部分がまぶしく目に入ります。そして、俺もこうなりたい、私もなれるはずだと思うこともあるかもしれません。
ただ、自分自身が本当にそうなのか、今一度見つめなおしたほうがいいかと思います。
できれば、周囲の大人…できれば親以外の叔父さんや知り合いの人に相談に乗ってもらうのはどうでしょうか。幼い頃からの自分を知っている方であれば尚よいでしょう。客観的に、そしてご自身の経験を踏まえ、ひとつの方向性を示してくれるはずです。
これを複数の人にやっていくと、重なるところが出てきたり、逆に意外な指摘があったりするものです。そうしていくうちに、自分は明らかに特別な能力を持っているのか、またはある程度できるけどマジョリティの領域にいるものなのか、理解をするきっかけがつかめるはずです。
なりたい自分が見つかるか、ということはこの時点では非常に難しい。だけど、何をすべきかは見えてくるものです。
本当は俺はできる!というのは忘れなくていい
いやいや、俺はこんなものではない!すぐにでも結果が出せる実力があるさ、と思うこともあるでしょう。でも、人生は80年ほどあるそうですから、慌てることなくじっくり取り組めばいいのではと最近考えるようになりました。
仮に、結果を出せる実力があったとしても、その周りにまとわりつく理不尽なことを解決したり、当たり前に持ち合わせなければならないマナーやルールを理解しているわけではないのです。
まずは、目の前の必要なことをひとつずつ解決していけば、道は少しずつ、しかし確実に開いていくはずです。僕が社会人になって10年ほどしてきたのは、これだけなんです。
何か特別なことをしたり、有名になったわけではまったくありません。ただ、自分を必要としてくれる人が声をかけてくれるようになり、目の前にいる人たちに何か価値を提供できるようになったかな、と感じるようになったくらいでしょうか。
30歳も近づき、そろそろ次のフェーズに進まなければならない、今はその最後の仕上げの段階だと思っています。私の周囲でお世話になった方は、30代から徐々に頭角を現した方が増えていますが、まだそこには至っていないのです。至るまで、今ある機会を大切にしていきたいというのが、今の僕の考えであります。
ということで、大学は出たほうがいいです。
自転車にもオートバイ同等の権利と義務を
自転車に向けられている目が厳しいものとなっている
僕は葛飾区に住んでいるせいか、近くの荒川へ自転車でよく走りにいきます。しかしその荒川、各所に”20Km/h制限”、そして最近ではこんなお触れも出ました。
■荒川下流河川敷利用ルールの試行について – 荒川下流河川事務所
このルールは自転車だけのものではありませんが、少なくても気持ちよくロードレーサーで走ることがしづらくなるルールである事は間違いありません。
その一方で、荒川には自転車以外にも、ランニングや野球を初めとした別のスポーツを楽しむ人も数多くいます。たぶん、お互いにプラスの側面で見ている状況ではないことは確かです。うちの上司から聞いた話によると、歩行者がサイクリストにペットボトルを投げつけたり、ケンカが起きているというらしいです。夜の東西線並みにひどいですね。
公道は自転車の無法地帯だ
というと言いすぎかも知れません。ただ、公道を走ってみると、自転車は少なくてもスクーターと同じ車(厳密には、道交法の軽車両)の扱いであるのにもかかわらず、道路の右側を走る『逆走』、信号が赤でかつ車が来ているのにぶっちぎる『信号無視』、そして歩道をベルを鳴らし歩行者を蹴散らす『思いやりのない』走行が、少なくても東京23区内で目立ちます。
特に逆走は、同じ道路端を走るほかの自転車やオートバイ・スクーターに対しても危害を加えかねない危険走行であります。僕も路駐をしている車の陰から突然姿を現すママチャリにヒヤッとした事は1回やそこらではありません。どんなに気をつけても怖いものは怖いですね。
スクーターが守っているものを、自転車が無視していいわけがありません。
その一方でサイクリストは権利を主張している
自転車雑誌やWeb上を読みまわっていると、発言力あるサイクリストが「もっと快適な自転車道を!」と申しております。それは、僕だってアムステルダムやパリのように自転車専用道が都心に整備されたらどれほど気持ちよく走れるのかと思っています。
でも、逆走などルール・マナー違反をし続ける自転車に対し、サイクリストではない人はどう思うでしょうか?何を寝言を、といわれて当然です。いや、ロードレーサーやMTBを楽しむサイクリストは守っていて、無茶をしているのはママチャリだ、という人もいるかもしれない。だけど、サイクリスト以外にとって、自転車はすべて同じ自転車なのであります。
公道を走る自転車は冷たい目線で見られる
休日、長距離を走ると必ずといっていいほどクラクションを鳴らされます。まるで、自転車は歩道を走れと言わんばかりに。不思議と、平日の通勤では鳴らされないのですけどね。車を運転するプロフェッショナルな人、たとえばトラックやタクシーの運転手の方には存在を認めてもらっている(?)と思えるのだけれど、サンデードライバーにはどうも邪魔がられているらしい。
これは、スクーターでも似たような傾向があるみたいです。ま、ランスが本で書いていたように、よほどのことがない限りシカトに限るということではありますが、気持ちいいものではないのも確か。サイクリスト以外の人たちに、自転車の持つ正当な立場を理解されきれていないのであります。
だから義務を守ろう
いかなる自転車も、歩行者や自動車と共存しつつ楽しく走る事ができるようになるためには、まずは義務を負わないといけません。それは、法律で定められたもの、人を思いやるマナーを初めとした不文律のもの、様々なものがあります。
最近の自転車ブームにのって、自転車のユーザが増えている事は自転車の世界にとってとてもいい事です。しかし、義務を無視した走りをしていけば、権利は勝ち取れないどころか、ますます規制されることは間違いありません。こうして、荒川にも規制の網がしっかりと張られつつあるのを、皆さん見ているわけです。
たぶん、このブログを読んでいただいている方は、実は問題ない方ばかりだと思うのです。わざわざ探してきていただいているわけですから。では、そうでない人にどうすればいいのか、という問題があります。
いっそのこと自転車にも免許を
そこで、自転車にも免許を与えるようにすればいいのです。スクーターよりも簡便に、しかし確実にルールを周知すべく講義を受けてもらい、免許を交付。逆走を初めとした違反があれば科料を初めとした罰則をしっかり求められるようにする。これで、ルールとマナーの底上げをしていきます。警察もかえって収益口が増えていいかもしれません。
また、事故発生件数も増えていますから、強制の自賠責保険も整備。僕は任意保険に入っていますが、万一があると大変な治療費と慰謝料を払わなければならないのは車と全く同じです。このあたり、車と同じ水準の意識へ持っていかなければなりません。車の保険で収益が出づらくなった損保会社にも、新しい収益口ができるはずです。
自転車ばかりではなく、関係機関の利益も考えつつ整備すれば、結果として自転車の立場もよりよくなっていくことでしょう。
しかしどう声を上げればいいのか
一人でやってもなかなか難しいのがこういう活動。これが悩ましい。うーむむ。
上記は都市の自転車交通について問題提起をしつつ、楽しさを伝えている疋田さんの本。実は、僕も自転車通勤を始める前後に『自転車ツーキニスト』を読んでいろいろのめり込んだのであります。こうして、書籍を通して発言するというのは、ひとつ有効な方法なのかと考えています。
変わりはいくらでもいる、だけど使い捨てじゃない。
僕が社会人になって初めて言われた言葉が、
「君の変わりはいくらでもいる。」
でした。
この言葉は今も僕の中に行き続け、そして自分自身が少しでも人と違った結果を追求していく原動力になっています。
最近、次の記事を目にしました。この後の記事、こちらをお読みいただいてから読み進めていただけると幸いです。
■指導とパワハラの境界(あいだ)[前編]:ITpro
■指導とパワハラの境界(あいだ)[後編]:ITpro
これまでを振り返って照らし合わせると、正直胸が痛む事が次々とよぎります。
確かに、僕も結果が出ない人に対して突き放していたことがあったと。
関わった同僚・部下が結果が出ているときはいいのです。活躍を称え、より高度な仕事を依頼し、そしてそのことを元に自分の結果にもしてきました。チームで結果になれば幸いなことだろうと、信じてやってきました。
一転して、結果が出なくなった彼らに対して僕はどうしたか。きつい言葉を浴びせ、言い訳も聞かず、そして最後は僕自身に仕事を戻してきました。それが、僕自身の責任の取り方だと信じていました。チームメンバーの責任は僕の責任であると。
最近、僕は悪い結果を出してしまいました。
そのとき、とあるセクションの責任者からその失敗を「鼻で笑われる」ことになりました。自分が失敗したとはいえ、正直これには腹が立ったし、何より見捨てられたという感覚を持ちました。なぜなら、セクションこそ違えど、うまく行っている時は評価していただいていた人であったからです。
そんな中、先の記事に出会ったとき、その腹立たしさは懺悔への気持ちへ変わってきました。これは、自分が人に対してした仕打ちが今度は自分に回ってきたのだと思いました。
言い換えれば、因果であるな、と。
先に、「君の変わりはいくらでもいる」と言った上司は、その言葉とは裏腹に辞める最後の1日まで僕を信じて守ってくれていたのだと、今になって思います。その方ばかりでなく、僕が今までついてきたトップの方々は、厳しい側面は持ちつつも最後まで…否、今でもそうかもしれません…僕を信じてくれていたはずです。言葉には表せませんが、そう信じられるものが僕の中にあります。
自分が失敗するのに、人が失敗したときに突き放すなど奢りもいいところ。愚かなことなのです。
だから、僕はこれを通じて、同僚・部下の「成功」ばかりでなく「失敗」さえも愛したい。縁あって自分と関わっている人を、これまで以上に大切にしたいと思います。
東京ゲームショー2008へ行く – 仕事で行く
10日の金曜日に、『東京ゲームショウ(TGS) 2008』へ行ってきました。
木・金曜日はビジネスデーといって、ゲーム・エンターテイメント業界などで招待券を持っている人のみが入ることができる日になっています。だから、週末の一般公開と違って空いているのです!すばらしい。そして、今回は遊びでなくて仕事でいけるというのが、もっとすばらしい。うーん、ゲーム開発会社万歳(ここだけかよ!)。
まあ、仕事ということもあって、写真は撮らずただひたすらブース・試遊台で遊んでいるのでありました。ビジネスデーだから試遊台も5分と並ばず、そしてのんびり遊べます。もちろん仕事でやってますよ!!(笑)
僕のオススメは2つ。
■Sonic World Adventure (SEGA)
皆様ご存知、ソニックの新しい作品です。PS3・XBOX360・Wii 3機種同時発売という気合の入れよう。
なんといっても、爽快感がすごい!特に、PS3版の爽快感はどの機種よりも上っす。久々、画面に食らいつきながら首や目までぐりぐり動かしてゲームしておりました(笑)。しかし、へたくそなため…コンパニオンさんから「ああ、そこ□ボタン!」とかやんや言われながらプレーしており、まわりの笑いを誘う試遊であったのでした(爆)。
12月18日発売予定です。はじめてPS3がほしいと感じさせたゲームであります。
■METAL GEAR ONLINE (コナミ)
METAL GEAR SOLIDの世界がそのままネットワーク対戦ゲームになりました。
グループを組んでドンパチしてみませう。
あと、僕の実家がある福岡から『福岡ゲーム産業振興機構』が出展されていました(参考記事『「ゲーム都市・福岡」を発信 東京ゲームショウに出展 – NIKKEI NET』)。ちょっと話を聞いていたのですが、福岡でのゲーム開発はまだまだスタンドアローンのゲームが主で、ネットワークゲームは少ないらしいです。僕はサーバサイド側のプログラマなので、まだまだ出番がなさそうであります。
ただ、福岡はエンターテイメントの発信力が東京以外のほかのどの都市よりも強い。また、天神で飲んでいると、ばったりゲーム業界の人と会うこともあります。それに、福岡なら東京に比べてオン・オフがつけやすい環境があります。チャンスがあるなら福岡へ戻って仕事ができるとよいなと思っています。
さて、帰りの道中、企画担当の同僚が「今回のTGSはあまり盛り上がってなかったですね。」といっておりました。
詳しく聞くと、大手メーカーのブースが小さくなっていたり、ネットワークゲーム開発会社の出展があまりなかったとのことでした。言われると、そうかなるほどと思います。
これは僕個人の想いなのですが、これからの時代こそ「エンターテイメント」が主となる時代になると考えています。すでにそうなのかもしれません。これだけ物質的欲求が満たされている時代、残るは精神的な欲求となります。ゲームも『ゲーム』だけであっていては難しくて、エンターテイメントというさらに上のレイヤーで世に問うていかなくてはならないと思うのです。
しかし、その想いとは反対に、ゲームから人が離れていく…。その象徴がTGS2008の現状であるのかと僕は読み解いている今日この頃であります。
記事一覧
こえむの編集後記 に過去投稿された記事を表示しています。

















