2ちゃんねるYoutube板VOCALOID総合スレを対象とした自動要約手法について

概要

歌声合成ソフトウェア「VOCALOID」に関するインターネット上のコミュニティーの一つ、「2ちゃんねるYoutube板VOCALOID総合スレ」 (通称「本スレ」)は、多くのVOCALOIDファンが集うスレッドである。その書き込み頻度は多く、かつては1日に1スレ、すなわち1000にも及ぶ 書き込みがあったときもあるほどである。このような流れの速いスレッドに追従するのは多忙な人には難しいという問題があった。 そこで、本スレの書き込みのうち重要なレスのみを抽出する仕組みを考案し、実際にwebサイトを制作し公開した。 この自動要約により少なくとも著者本人は本スレの流れをスピーディーに追うことが出来るようになった。

はじめに

2ちゃんねるYoutube板VOCALOID総合スレ、いわゆる本スレは、多くのVOCALOIDファン、とりわけ「ボカロ廃」と呼ばれるような VOCALOID界隈の情報に精通したファンが多く常駐しているコミュニティーである。その始まりは本スレPart1が立てられた2007年9月5日にまで 遡る。現存するコミュニティーの中では最古の部類であろう。この本スレは最も勢いのあった頃は1日に数千件、現在でも数百件の書き込みがある 流れの速いスレッドであり、数日閲覧できなかっただけで過去ログ送りとなってしまうことすらあった。 そんなとき、本スレの住民達に最近のスレの「要約」を尋ねることはよくあることである。俗に言う「今北産業」である。 この問いかけをすることによって親切な住民達が答えてくれることが多い。しかし、著者のような「2ちゃんねるって怖い。見るだけならいいんだけど書き込みするなんて・・・」 「自分のために要約してもらうなんて・・・」という小心者のROM(リードオンリーメンバー、スレッドを読みだけの人)にとっては、 そのような問いかけすら難しいという面があった。 そこで著者は考えた。「ならばスレッドを自動で要約すれば住民達の手を煩わせることなく流れを把握できるんじゃね?」と。 これが本スレの自動要約というアイデアのきっかけとなった。

このアイデアが浮かんだ頃、本スレでは、かつては有志がしていた本スレに張られた新着動画やオススメ曲をまとめるという作業をする人がいなくなってしまったという 話題が出ていた。そこで、要約に加えてこれらについても自動でまとめることが出来れば一層良いであろうと考え、 「新着」「要約」「オススメ」の3つの要素からなるスレッドまとめを自動生成する仕組みを考えることにした。それが 「Youtube板VOCALOID総合スレ(本スレ)自動要約システム」、通称「要約たん」である。以下、その3要素のスレッドまとめの生成方法を述べる。

スレッド要約

これは文字通りそのスレッドの「要約」を意図している。本スレの自動要約を考えるにあたって、 まず何がスレの進行に大きく関わっているのかを考えた。まず、本スレの流れのうち、 「何からのURLが書き込まれ、それに反応が付く」というものが大きな割合を占めていることが考えられた。 すなわち、本スレ内で自然発生的にネタが発生することは少なく、外部から持ち込んだネタによってスレが加速するという事である。 この仮説を元に、

  1. URLを含む書き込みを抽出
  2. その書き込みへのレスアンカー数を求める
  3. レスアンカー数が閾値(現在は3)以上であれば大きな反応があったと見なし、それはスレッドの流れとして重要であると考え抽出対象とする

というアルゴリズムを考案した。しかし、このままではオススメ依頼が誤って抽出されることがあるという問題があった。 これは「この曲に近い曲でオススメください。http://〜」という書き込みが先の条件を満たしてしまうからである。 そこで後述する「オススメまとめ」の条件を満たすものは除外することとした。実のところ、要約たんのオススメまとめは この処理の副産物的なものだったのである。

オススメまとめ

動機としては「はじめに」で述べたとおりではあったが実装のきっかけは前述の通り「スレッド要約」での誤抽出を除くためであった。 ある書き込みがオススメの流れの起点となる条件は、

  1. 「nicovideo.jp」(ニコニコ動画のURL)が含まれる書き込みからのレスアンカーが閾値(現在は2)以上ある
  2. 同一IDの発言の中で「オススメ」「お勧め」など、特定のキーワードが含まれている

である。 後者の条件は動画の「人力検索」の依頼書き込みを除くためであるが、場合によってはその境界は曖昧であるため(検索候補と称してオススメをする等)不必要なのかもしれない。

問題点は、この条件では漏れることが多いと言うことである。 スレッド要約が、その定義に則ったものを抽出するという点で漏れることは無いと言えるのに対し、オススメ依頼は表現に幅があるため先の後者の条件を 使う限りはどうしても完全なアルゴリズムとはなり得ない。そこで暫定的・対症療法的ではあるが著者自身が手動で指定することによって漏れたオススメ依頼を 自動要約システムに載せることが出来るようにした。具体的には対象とするレスに対して固定ハンドル付きでレスアンカーを指す事によって指定する。

新着動画

スレッドに書き込まれたニコニコ動画の新着動画をまとめるものである。新着の定義は「『スレッドが立てられた時間-24時間』以降にニコニコ動画に公開された動画」 としている。動画の公開時間の取得にはニコニコ動画APIを用いている。

その他・外部との連携

「新着動画」と「スレッド要約」はRSSでも配信している。どこまで有用かは定かではない(著者自身はRSSリーダを常用していない)。 また、「スレッド要約」はマイクロブログ「Twitter」でも配信している。これはTwitterでのbot(自動で投稿されるアカウント)の 実験を兼ねている。Twitterでは文字数制限が厳しいので短縮URLを用いたり一部の語句を省いたりして文字数を減らす工夫をしている。

おわりに

本手法による本スレの自動要約により、本スレ住民・ボカロ廃の新着チェック・オススメ漁り・スレ追いかけが簡略化されたと考えられる。

謝辞

アイデアのきっかけとなりました本スレの書き込みをされた方、要約たんという呼称を与えてくださった方に深く感謝致します。また、要約たんの 絵を提案してくださったぱらいそ様にも深く感謝致します。ぱらいそ様には本エイプリルフール企画にもご協力いただきました。最後に、平素より 要約たんをご利用されてる皆様、このような拙いサイトですがご利用頂きありがとうございます。