自分のツイートを計量しようとしたけど特に何も分からなかった回

特に何も分からなかった。やったことは書く。

何度もツイ消しを繰り返しているものの、データ自体はtwilogにほとんど残されている。そこで3年分の自分のツイートをxml形式でダウンロードした。投稿日時も含まれているので通時コーパス的に使えるかなぁと思い、データを月ごとに切り分けて分析することにした。分析と言っても単に頻度をとっただけだが。

とりあえず自分の一人称が安定してない(俺とか僕とか私とか果てには鴨さんとか言ってしまう)自覚はあったので、今回はその頻度を見ることにした。最初は「俺」が多かったのに「僕」が途中で増えて逆転した、みたいなことが分かれば嬉しかった(分からなかった)。

ただ単純に頻度だけだとツイートの多かった月が有利に(?)なるので、頻度をその月のツイートの総形態素数で割ってあげることにした。あと、表記ゆれも加味して、「僕」と「ぼく」のようなものの頻度は和をとった。

以下結果。仕事が雑なので非常に見にくい。というか折れ線グラフを使うのはよろしくないといえばよろしくない。
f:id:Kamo38613:20180701192048p:plain

まぁ、さすがに「鴨さん」の頻度は少ない……が、使い始めたのは最近1年くらいというのは判明した。あとは「僕」「俺」よりかは「私」の頻度のほうが安定していることくらいか……

今度暇だったら月ごとに顕著なトピックを抽出するとかそういうことをすればいいかな?よく分からない。