2011年11月13日日曜日

ニュース見出しを調べてみる

自分の研究と直接には関係ないんだけれど、
前にも書いたように、プログラム書きに慣れるために
こんなことをやってみました。

毎年(毎月も可)の出来事を、
ニュース見出しに使われている単語から
追いかけてみる。


やりかたの概要はこんな感じ

1.Y!(Yahoo Japan)のニュースWebAPI(トピックス見出しアーカイブ)
を使って、ニュース見出しを得る。
2.1で取得した見出しを、単純に連結する。
3.KH Coderというソフトを使って、
2で作った見出しの連結ファイルから、頻出語を取り出す。

上の1と2の所は、自分でプログラムを書いた。

まずは、2004年後半のデータから。
(提供データが2004年の後半からなので…)
結果は、こんな感じ。




目立つところはこんな感じかな。

1.野球関連の語が多い
→イチロー、巨人、松井、楽天、阪神、清原、…
2.サッカー関連の語は野球関連語より少ない。
→ジーコ、中田、…
この年は野球の方が盛り上がっていたのかな?
3.スポーツ関連と思われる語が多い。
上に書いた野球、サッカー関連の語も含めて。
→監督、代表、移籍、記録、…
4.国名
→日本、米、中国、北朝鮮、イラク、…
5.社会面?的な語
→逮捕、死亡、殺害、死去、被害、不明、…
6.芸能面?的な語
→結婚、映画、復帰、紅白、人気、…
7.台風!
台風という語が半年で86回も使われている。
この年は台風の当たり年だったのかな?
8.頻出見出し語に動詞が入ってない

その他、いろいろ見方はあると思います。

項番8に関して補足すると、
例えば上の項番3に、「移籍」「記録」という語が
あるんだけど、これらは動詞的にも使うことができます。
移籍→移籍する
記録→記録する
で、動詞として使われている場合でも
語を分けて集計しているので、
結果的に動詞は少なくなってます。


2005年、2006年…と同じ事をやっていくと、
何となくだけど、その年がどんな年だったか
わかるんでないかな。

ということで、次回以降続けていきたいと思います。


今日の歩数


11/11 0歩
11/12 4490歩
11/13 3539歩


0 件のコメント:

コメントを投稿