「ラブライブログアワード2019」のノミネート対象全記事をPythonで収集したよ。
こんにちは。はまです。お元気です。お元気ですか?
今日も今日とてラブライブログアワード2019日和ですね。
もし万が一ラブライブログアワード2019を知らない人がいたら今すぐこちらをお読みください。
さて、先日こんなツイートをしました。
というわけで"推定"アワード対象全記事を抽出してリストにしたので気が向いたら共有します。その数なんと300件超…! https://t.co/vgBxHzJ9hg pic.twitter.com/5nQKRPvpYK
— はま (@ybybybmh) November 6, 2019
そんなわけなので、この記事リストを共有したいと思います。
その前にちょっと説明が必要なので、まずはこちらをご覧ください。
端折っている処理も多いですがおおよそこんなことをしています、というフローチャートです。ちなみにPythonで実装しました。好きなので。
ここをこうするのが大変だったのでこんな工夫をして実装しました!みたいな話をしたいという気持ちもちょっとだけあるのですが、そんなことはどうでもよいのでしません。もしも何か質問があればTwitterとかで聞いてくれたらなんでも喜んでお答えします!
さて、それではフローチャートを示してまでいったい何を説明しようというのかということなのですが、 それは記事抽出のアルゴリズムを示すことで逆説的に「リストに入ってないブログたち」を意識してもらいた~い!ということです。
要点は大きく以下の4点です。
①任意のアカウントのフォロワー
抽出対象は任意のアカウントを指定できるよう作成したのですが、今回その対象アカウントはラブライブログアワード公式アカウント(@loveliblog2019)となっております。アワードに興味持ってるブロガーの方なら高確率でこのアカウントをフォローしているはず、という判断です。なのでアワード公式アカウントをフォローしていない方のブログは残念ながら抽出対象外となっています。
②Twitterのプロフィールから
TwitterのプロフィールからURLを取得しているため、上記アカウントをフォローしていてもTwitterのプロフィールにブログのURLを設定していない場合は残念ながら抽出対象外となります。残念。
③はてなブログか
これはけっこう苦渋の判断だったのですが、今回のリストの対象となっているのは、界隈で最もシェアが高いと思われるはてなブログにて書かれたブログのみとなります。
フローチャート内にも小さく書かれているのですが、記事リスト抽出や記事内容の判定はhtmlの内容を解析して行っています。この解析の仕組みは僕がはてなブログの記事ページのソースを見て作ったものなので、数多あるその他のブログサービスに対して汎用的に使いまわせるものではありません。というわけで、はてなブログ以外のブログサービスにて書かれた記事は残念ながら抽出対象外となっています。
④記事内容がアワード対象か
さて肝心の記事内容の判定ですが、記事本文中に"ラブライブ","Aqours","µ's"のいずれかの単語が含まれているかで判定しています。けっこう緩い判定だと思うので本質的には関係無いような内容の記事もバシバシリストに入っていますね。
逆に、あるのかわかりませんが例えばAqoursやラブライブの話を一切しない"純"な沼津旅行記事があったとしたらそれはこのリストには入っていないということになります。果たしてそれが”ラブライブログ”なのかは神のみぞ知るところですね。
というわけで、「なんであの人のブログが入ってないの!?!?」っとなる可能性についての説明ができました。要するにこのリストはこういう理由で不完全であるということを念頭に置いてご覧ください、ということが言いたかったわけです。
前置きが長くなってしまいましたね。ようやくリストを公開いたします。
あ、csvのまま欲しいって人はなかなか居ないと思うのでgoogleスプレッドシートに読み込ませておきました。たぶんexcelとかにエクスポートもできると思います。ご自由にお使いください!
ラブライブログアワード2019 - Google スプレッドシート
※2019/11/9追記
収集対象期間を間違っていた(2018/10が抜けていた)ため修正し、リストも更新しました。それに伴いTwitterのプロフィールに変更があった人や新規フォロワーの方などによる変動も出ているので、一応修正前のシートも残してあります。
FF外の方の記事もたくさん入ってるので(個人の感想)一覧を眺めるだけでも楽しいですね。
にしても記事が多い! このリストから気になるタイトルの記事を読むもよし、かたっぱしから読んで全部に点数をつけるもよし、印刷して紙飛行機にして飛ばすもよし。各々のやり方で自由に活用していただけたら幸いです。
というわけで以上です。
まだラブライブログアワード2019は始まったばかりです。主催の魂さん(@tamashiill)に感謝しながらみんなでわいわいブログアワードを楽しみましょう🐶
ここまでご覧頂きありがとうございました。それではまた次回!