数百年間の言葉の趨勢がわかる。
Google Ngram Viewer がおもしろい。
Google がこれまでにデジタル化した書籍520万冊に出てくるすべての言葉、約5000億語をコーパスに、任意の単語や熟語、フレーズの登場頻度の変化を、時系列グラフで表示してくれる。コーパスに使われているのは、15世紀から2000年までの書物。
なにができるのかというと、言葉の用法のはやりすたりを検索したり、あるモノや現象や人物などに対する世間の関心の高さの移り変わりを数量でみることができる。
たとえば、「tofu」と「hot dog」を検索してみると1980年代からトーフが急激にのび、ホットドッグを追い越している。
「missile」は1960年に激増して、いったん減り、80年代後半にまた急増。
「God 」と「human」を入れると、やっぱり1960年代に神様からヒトへ、ヒトの関心が移ったことがわかる。
年号のリンクをクリックすると、その単語がでてきた出版物のページに飛んで、中身をみることもできちゃう。
残念ながら日本語はまだないけど、ロシア語、スペイン語、ドイツ語、フランス語、中国語、ヘブライ語もあり。英語はイギリス英語、アメリカ英語、フィクションなどの選択肢もある。
しかし520万冊。5000億語って、並べてみたらどのくらいの広さなんだろう。
A4サイズ1枚で仮に500語だとして10億枚分。地平線のかなたまで単語が敷き詰められた大空間を思い浮かべてみる。その中を一瞬で検索して数えて計算してグラフをつくってくれるって、すごすぎる。
にほんブログ村
こんにちは!Tomozoさんのブログ、写真も美しいし、興味深い内容が多いので、いつも楽しみにしています。
返信削除Google Ngram Viewer、初めて知りました。
これ、凄く面白いですね。色々単語を入れて遊んでみました。それにしても520万冊とは、一生かけても読めない量です…
好きな本を選べばいいとは思うものの、残りの人生でどれだけ読めるのだろうと思うと、少しだけ、取捨選択の難しさを感じました。
ziziさん、遊びにきてくださってありがとうございます。
返信削除520万冊って、一生どころか何回か生まれ変わっても読めないですね…。そうそう、私もよく、本棚の積んどく本を眺めて、本というのは固形の時間だなあ、と思うのです。(電子書籍だと固形ではないですね)。しかも読んだ後で内容を忘れてしまった日には…orz。