10万というマジックナンバー
藤田昭人
約1ヶ月ぶりのブログです。
実は締め切りの3日前にどうにか確定申告しまして、
その後はボーッと過ごしてました。
ブログを再開するにあたり、
マジックナンバーの話を書きたいと思います*1。
顔芸ベーシスト、ぴんはげ氏の話
このところの僕のマイブームはベーシスト YouTuber の ぴんはげ 氏でして、ほぼ毎晩、寝る前に彼が制作した映像を見てます。 この方、ベースの腕前はもちろんのこと、 超絶技巧をふんだんに盛り込んだ課題曲を連発する作曲能力、 ルーパーやDTMツール(?)を駆使したカバー曲の演奏で見せるアレンジ能力、 それにハイトーン・ボーカル*2… 音楽的才能の塊のような人なのですが、 音楽的高いスキルと独特の顔芸とのギャップ感が人気の秘密なんでしょうねぇ。 やはり一芸で YouTube でブレークするには プロを凌駕する圧倒的なスキルが必要なんでしょうねぇ。
…なもんで、連日ぴんはげ氏の映像アーカイブを漁っているのですが、
いつもとはテイストの違う次の映像を見つけました。
この映像の 4:30 あたりからを観て欲しいのですが、
「本アカウントの登録者数が10万を超えたあたりから状況が変わり始めた」
とぴんはげ氏は仰っています*3。
10万というマジックナンバー
情報屋にとってマジックナンバーとは 「理由はよくわかんないけど、 意味があるだろうとなんとなく確信してしまう 魔法の定数」なんですけども、 10万という数字には 幾つか身に覚えがあります。
僕の一番古い記憶では、 かつてパソコン通信が華やかだった頃の Nifty Serve で 「登録者数が10万を超えたあたりから状況が劇的に変化した」 との運営者のコメントを聞いたことがあります。 もっともその時は 「10万とは興行や広告・宣伝の業界人が媒体として注目する人為的な数値」 と理解したのですがね。レコードが10万枚売れるとか、 コンサートツアーで10万人動員とか… 90年代は1日で10万人を集めるコンサートが よく話題になりましたよね。
ソーシャルデータの分析での「10万」
ところが…
その後、この10万という数字には 別の意味がありそうなことに気づく機会がありました。
古くから僕を知っている方は 僕がIIJ時代に「Wikipedia ランキング」なるサービスを 運営していたことを覚えてらっしゃる方もいるかもしれません。 Wikipedia は各ページ毎の1時間単位のページビュー数をデータとして公開しているのですが、 毎時、このデータをソートしてランキングで表示するサービスを運営していたのでした。
その延長でWikipedia日本語版の民放のドラマページのページビュー数と視聴率との相関性を 調べ始めました。運の良いことに今世紀最高視聴率のドラマ『半沢直樹』が放送された直後だったので、 そのページビュー数と視聴率を調べて得た公式を使って、 その他の民放ドラマに適用していったのです*4。 確か、ドラマページの1週間の累積ページビュー数が10万を超えると 視聴率とのシンクロ率が急激に上がる知見を得ました。 が、全てのドラマページの累積ページビュー数が10万を超える訳ではなく… その当時の社長に「で、結局ドラマページのページビュー数から視聴率は予測できるのか?」 と聞かれた時に「うまくいく場合とそうでない場合があります」と答えたら、 「バカヤロー!!」と怒られましたが(笑)
ともあれ…
この経験から 「10万」という数字は 興行や広告・宣伝の業界人の直感だけではない なんらかの意味が内包されているマジックナンバーだ と僕は考えるようになりました。
対話システム開発における「10万」
その後、対話システムでも このマジックナンバーに遭遇しました。
LINEに在籍している頃は 用途が限定されたスマートスピーカーのスキル (スマートスピーカー用アプリ) の開発を手がけていました。 この用途に有効な対話コーパスは存在しなかったので、 昔ながらの ELIZA スタイルの応答生成エンジンを使っていたのですが、 スキルが自然な会話ができるよう 機械学習を使って一般的な対話コーパスを取り込む方法を 模索したことがあります。
対話コーパスとは質問文とそれに対する回答文のペアが たくさん記録された会話録のようなデータなのですが、 同様の研究をしている文献をしらみつぶしに探して観たところ、 どの論文をみても10万組の質問文と回答文のペアを学習すると 対話システムがもっともらしい応答をすることがわかりました。
もっとも、これには反例があります。 以前書いたブログ記事 で紹介しましたが、 チューリング・テストのコンテストであるロブナー賞の2000年の覇者でもある Artificial Linguistic Internet Computer Entity (通称: AliceBot)の開発者である Richard Wallace は AliceBot の開発において、オフィスの同僚に対話をしてもらい、 AliceBot が答えられなかった質問について AliceBot になったつもりで考えた応答文を随時ルールに追加していったそうです。 その知見によれば、概ね4万組の質問文・回答文ペアがルールに登録できれば、 ボットは人間のどんな質問にも答えられるようになると見積もっていたそうです。
この時のざっくりした調査では、 無作為な文例(例えばSNSなどのログデータから質問&応答ペアをピックアップする) では10万件以上、 作為的な文例(質問文に対する回答を人間が考える) では4万件以上の文例が必要と結論づけたのですが、 その時点で手元にある文例は数百のオーダーだったので 機械学習の導入は「もう少し文例が溜まってから…」と棚上げにしました。
ふたたび、ぴんはげ氏の話
このように僕は「10万」にまつわる様々な経験をしてきたことから、 ぴんはげ氏の口から「10万」という数字を聞いた時、 僕は「やっぱりねぇ…」と思ったのでした。
もちろん、この「10万」というマジックナンバーは ジップの法則 などと同様のソーシャルな経験則に基づくルールなので 論理的な根拠を示すのが難しい代物です。 でも、いわゆるビッグデータを扱うときの目安値としては重宝します。
さてさて…冒頭のぴんはげ氏の話に戻ります。
冒頭の引っ越しビデオをよく聞いてると「10万を超えるための戦略」は 「去年(2019年)の12月から『週3本投稿します』と宣言して…」 ってことでした。ぴんはげ氏のどちらかというと陽気なビデオの内容とは 裏腹に過酷な生活を送ってるんだろうなぁ…と想像しているところ。
僕もいわゆる「ブログを書いている人」なので、 「アクセス数が10万を突破して状況が劇的に変化する」 には大変に関心があるのですが、 今の内容でブログ記事をアップするには2週間に1本が精一杯。 週3でアップするとなると月刊連載時に培った執筆スタイルを捨て、 ブログ向けシフトをしなくちゃなぁ…と思い悩んでいるところです。
以上
*1:って言うか、このネタを思いついた時
「これは書いておかなければと…」
と思ったのでした。これがなければ
ブログを再開するキッカケを掴めなかったかも。
*2:僕が彼にハマったのは次の映像を見たからです。
これ、例の劇場版『鬼滅の刃』の主題曲なんだそうで…
作詞・作曲は Kalafina プロデューサーの梶浦由記で、
元々彼女の楽曲は僕のツボに刺さることが多いのですが、
この映像でのぴんはげアレンジは物凄くて
「ベース1本でこんなことができるのかぁ…」
と衝撃を受けた次第。
実はこの曲をフルコーラスで聞いたのはこの映像が初めてで
「オリジナルよりこっちの方が絶対良い」
と僕は信じて疑いません(笑)
*3:しかし、
楽器メーカーからシグネチャモデルの提供を受けるって、
プロでもなかなかないことなんじゃないかと…
*4:この試みはその時の僕のデータサイエンスの師匠との連名で特許も取得したんですがね。