自分のツイートを計量しようとしたけど特に何も分からなかった回
特に何も分からなかった。やったことは書く。
何度もツイ消しを繰り返しているものの、データ自体はtwilogにほとんど残されている。そこで3年分の自分のツイートをxml形式でダウンロードした。投稿日時も含まれているので通時コーパス的に使えるかなぁと思い、データを月ごとに切り分けて分析することにした。分析と言っても単に頻度をとっただけだが。
とりあえず自分の一人称が安定してない(俺とか僕とか私とか果てには鴨さんとか言ってしまう)自覚はあったので、今回はその頻度を見ることにした。最初は「俺」が多かったのに「僕」が途中で増えて逆転した、みたいなことが分かれば嬉しかった(分からなかった)。
ただ単純に頻度だけだとツイートの多かった月が有利に(?)なるので、頻度をその月のツイートの総形態素数で割ってあげることにした。あと、表記ゆれも加味して、「僕」と「ぼく」のようなものの頻度は和をとった。
以下結果。仕事が雑なので非常に見にくい。というか折れ線グラフを使うのはよろしくないといえばよろしくない。
まぁ、さすがに「鴨さん」の頻度は少ない……が、使い始めたのは最近1年くらいというのは判明した。あとは「僕」「俺」よりかは「私」の頻度のほうが安定していることくらいか……
今度暇だったら月ごとに顕著なトピックを抽出するとかそういうことをすればいいかな?よく分からない。
森鴎外を計量しようとしたけど特に何も分からなかった回
森鴎外の小説の中にはよくドイツ語の単語が出てくる印象があった(とは言っても『舞姫』と『ヰタ・セクスアリス』とあと何かの掌編をいくつか読んだだけなのだが)ので、それを抽出したら何か分かるかな、と思って実際に抽出した。
(念のため断っておくと、これはコマンドラインのお勉強を兼ねたお遊びです。タイトル通り、特に何も分からず、すっきりせず、あなたに提供できるのは人生は面倒臭いうえに悲しみの連続だという結論だけです)
まず作品のテキストデータが無いと仕方がないので青空文庫作家別一括ダウンロードからzipファイルをダウンロードした。
あれこれ処理するには作品ごとにファイルが異なると面倒なので1つのファイルにまとめる。
あと文字コードがASCIIなのでUTF-8に変換しておく。
nkf -w mori/*.txt > mori.txt
のようにすればいい。僕は割と最近までこの方法を知らなくてテキストファイルをまとめるのにいちいちコード書いていた。悲しい。
そしてこの結果のファイルに対し、正規表現でアルファベット文字列の抽出をし、その頻度を数え、頻度による降順ソート行った。
grep -o -E "[a-zA-Z:'\`\^]+" mori.txt | sort | uniq -c | sort -nr > result.txt
お勉強なのでどういう処理をしているか説明すると、grepでアルファベットの単語を1行1単語形式で出力、sortで同じ単語を1箇所に固める、uniqで同じ単語を1行にまとめて「頻度 単語」の形式で出力、最後のsortで頻度降順ソートしている(さすがに面倒なのでオプションの説明まではしない)。ちなみにアルファベット以外の記号はドイツ語やフランス語の語彙に現れる文字を表現するためのものだ(例えば、üを表現するため代わりにu:が使われている)。
で、こうして出力されたものだが、とてもゴミが多い。そこでそんなゴミを、具体的に言えばメタ情報(URLとか)や誤って1語と見做していそうなもの("e"1文字だけとか)を目grepで削除した。正直これが一番面倒。最新のディープラーニングってやつで何とかなりませんか。
頻度の高かったものをいくらか抜き出してみる。
18 de 17 Platon 13 von 13 Streber 12 und 11 Rilke 11 Rainer 11 Maria 11 Aristoteles 8 Leipzig 8 Entru:stung 7 que 7 kompass 7 der 7 Le 7 Il 6 vous 6 pas 6 la 6 ce 6 Stuttgart 6 Solon 6 Politik 6 Orthographie 6 Nietzsche 6 Karpokrates
全体的にそもそも頻度がとても小さい。そんな中で具体的な単語を見てみると、人名と機能語が多いことが分かる。意外なのは、フランス語の機能語(deとかlaとか)が多いことだ。鴎外はドイツ語のイメージだったのだが。一部作品で頻出しているのだろうか?こればかりは作品個別に見る必要がある。もう面倒臭いからやらないけど。
で、この出現したアルファベットの単語すべての頻度の和をとってみると、だいたい3,000くらいになった。作品全体の総単語数は2,000,000くらい(MeCabで分かち書きして求めた)なので、アルファベットの単語が出現するのは600〜700単語につき1回ということになる。多いのか少ないのか分からん。ただ、やっぱり『ヰタ・セクスアリス』なんてざっと眺めると1段落にいくつもドイツ語の単語が出現しているように見える(実際に数えたわけではない)ので、400字詰め原稿用紙1枚半に1つというのは釈然としない。が、よくよく思い返すと鴎外は歴史小説も書いており(『阿部一族』とか『高瀬舟』とか。読んでないけど……)、そちらには全然外国語は出てこない。つまりそういうことだった。
と、まぁ、そういう感じで全部の作品をまとめて処理したせいもあるのだろう、特に何も分からなかった。悲しい。というか何か分かったら何かの研究になる可能性が出るのでブログに書かない。