さまざまなソーシャルネットワーキングAPI、オープンソースのグラフデータ可視化ツールを駆使

1437viewstombi-aburagetombi-aburage

このエントリーをはてなブックマークに追加
入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック

ソーシャルメディアデータの可視化の手法、ツール、ライブラリの紹介が豊富。Pythonを使用。

1章 イントロダクション:Twitterデータのハック

まず手始めにTwitterのデータを解析し可視化する例を提示。自然言語処理モジュール「NTLK」、グラフ処理ライブラリ「NetworkX」、グラフ可視化「Graphviz」「Protovis」を利用している。例は英語を前提とした解析なので日本語には不適切かも。まとめとしてGraphvizやcanviz、IPythonは良く勉強しておけとのこと。

2章 マイクロフォーマット:セマンティックマークアップと常識のずれ

ウェブページに構造化データを埋め込む技術の幾つかが解説されている。
BeautifulSoupでブログからXFN(人間関係)データをスクレイピングしNetworkXでグラフ化する例、geo(人や物の位置情報)データをmicroform.atで抽出しKML出力してGoogleマップ上に表示する例、グルメサイトからhRecipe(レシピ)やhReview(店の評価)、hCard(評価者)データを抜き出す例がある。まとめとしてGoogleのSocial Graph API も勉強しておけとのこと。

3章 古き良きメールボックス

Unixメールボックス(mbox)をPythonで解析して流通性の高いJSONオブジェクトに変換してCouchDBに格納してmap/reduce処理で簡単な頻度分析をする例、couchdb-luceneで全文索引してmap/reduceせずにより複雑な分析をする例、SIMILE Timelineでタイムライン表示させる例がある。サンプルデータとしては一般公開されているEnron事件のメールデータセットを使用。CouchDBについて何も知らないと理解は手間取る。おまけで、GmailについてGraph Your Inboxでの簡易分析が紹介されている。

関連まとめ

本のまとめカテゴリー


コメントを書く