僕のホラは、次の3月18日にリアルになるか?

Will my big talk be real next March 18 ?


2022/12/25
藤田昭人


5日間連続投稿の最中に kun432 氏に「こっちにも投稿しませんか?」と 誘われて…

qiita.com

実は昨日は一日 Qiita の markdown と格闘してました。 が、やっぱりエディタは慣れてないとねぇ…
どうやら Advent Calendar の執筆は 外部のブログでも良いようなので、 結局、慣れてる「はてなブログ」 で執筆することにしました。

これは「5日間連続投稿」の総集編*1とご理解ください。 Advent Calendar との連携の都合上、 先に公開してないといけないようなので いつもとちょっと勝手が違いますが…


僕の「5日間連続投稿」について

僕は毎年このシーズンになると 京都ノートルダム女子大学の授業「インターネット社会論」の ゲストスピーカーに呼ばれてAIの講義をしてきました。 で、今年の授業に向けて作成したデモプログラムの作成過程を 5つのトピックに分けてブログに書きました。

今、注目のオープンソース音声合成ソフト SHAREVOX の core ライブラリだけを使って、 京都検定 の問題を読み上げる CLI ベースの text-to-speach コマンドを 作成した報告です。

ちゃんと動くところまでは持っていったのですが、 読み上げてくれる「つくよみちゃん」 の声質が気に入らず、 授業での紹介は控えた…という顛末でした。 なので、今のところ未完です😀


SHAREVOX について

SHAREVOX は話題のオープンソース音声合成ソフト VOICEVOX から派生した COEIROINK に続く2番目の fork です。

たぶん、次の YouTube 動画を見てもらうのが一番早そう…*2

www.youtube.com

見た目は macOSWindows で動く ダブルクリック・アプリケーションですが、 中身はウェブ・アプリの構成になっています。

github.com

この構成は派生した COEIROINK と SHAREVOX の2つでも共通で、 僕は SHAREVOX の core を使って読み上げアプリケーションを作りました。

ちなみに…

見た目のポップさとは裏腹に、 VOICEVOXシリーズは 本格的な機械学習の技術を使って 実現されています。

shirowanisan.com

これは COEIROINK の開発者の シロワニさんのブログです。 記事数が少ないので全部目を通すのは 比較的ラクなんですが、 音声合成に関する arXiv の論文 とかを紹介したり… とか機械学習の先端研究の成果を取り入れて かなり高度なことをしていることがわかります*3

前述の、僕が記事にした core ライブラリは、 名工大OpenJTalkONNX runtime による音声合成の複合体です。 GPU を搭載していない僕の旧式の Mac Book でも 実用的なスピードで動くのには驚いてます*4


スマートスピーカーとの関わりは?

しかし kun432 氏は 音声合成ネタオンリーの僕のブログ記事をみて、 何故スマートスピーカーアドベントカレンダーに 誘ってくれたのでしょうかねぇ???

思い当たるのは…

僕を毎年授業に呼んでくれる 吉田智子先生が書いた 12月15日の僕の講義のレポート です。絵が小さいので再掲すると…

次世代AIスピーカー

これは僕が今年の講義で話した 独自研究による「近未来予想」… 平たく言えば僕のホラです😁

ひょっとして、彼は ここまでチェックしてたのかも?

もちろん、これは ただの思いつき…って訳ではなくて、 元祖チャットボットの ELIZE に備わっていた 傾聴対話機能 (厳密には ELIZA が実行するスクリプト DOCTOR の機能) をスマートスピーカーに当てはめた アイデアです*5。第1次AIブームの頃、 チャットボットは「会話を楽しむプログラム」 として(ゲーム的な)人気を博したのですが…

今世紀になったあたりから 「チャットするためのボット」 つまり(自然言語で)何かを命令できるボット との認識が広まった感が僕にはあります。 その延長上の 「音声チャットボット専用デバイス」 としてスマートスピーカーは 位置付けられたのではないでしょうか? でも、ホームユースにおいて 命令したいことってそれほど多くない。 確かに「電気を灯けて」とか 「3分間測って」といったシンプルな命令は 非常に需要は高いと思います。 が、それ以上に高度な命令って なかなか思いつきません。 最近のスマートスピーカーの先細り感の 本質的な原因はこういうところあると 僕は考えています。 やはりチャットボットの原点である 「会話を楽しむデバイス」 に立ち戻った方が良い というのが僕の意見です。

そこには「一人暮らしの高齢者」である 僕の個人的な事情も含まれています。 事実、定年退職を境に誰かと会話する機会が 急激に減りました。そういう生活を半年も 続けていると、なんだか滑舌が悪くなったり、 他の誰かの話し声が聞き取りにくくなったり… もちろん目や声に異常がある訳ではなく、 日常的に声を出して会話する機会が減ると 会話する能力が衰えていくようです。 コロナ禍の影響で同じような体験をした方も いらっしゃるんではないかと思うのですが、 僕のような高齢者の場合は特にこの能力低下が 著しいようです*6

授業では、 このような「人間に寄り添うAI」をメインテーマに、 さらに加齢による記憶力や認知能力の低下を補う 「知的義肢としてのAI」のコンセプトについて 学生諸君に話をしました。


対話してくれるのは誰か?

授業では「次世代AIスピーカー」のコンセプトや 開発目標のみを簡単に説明するに留めましたが…

この場では実現方法に関する これまでの検討について簡単に述べます。

「人間の比較的短い音声メッセージに スピーカーが音声で応答する」 従来のスマートスピーカーとは逆に、 次世代AIスピーカーの場合は 「スピーカーの比較的短い音声メッセージに 人間が音声で応答する」 ので「人間が発話するロングメッセージ」に対応する 音声認識技術に開発の重点を置かなければならないと 考えていたのです。実は夏頃までは…

が、今年の9月に OpenAI *7 が Whisper を公開しました。

openai.com

あくまでも僕個人の見立てなのですが…
ソースコードも公開されている Whisper は音声認識技術の ゲームチェンジャー*8だと僕は考えてまして、 この技術の応用事例の発表は 既に始まってますが、 今後もしばらくは続くだろうと 想像しています*9。やはり、音声認識技術に関しては Whisper の動向を しばらくウォッチしておいた方が 良さげかと考えてます*10

一方、音声合成技術の側、 つまりスピーカー側の発話に関する実装には、 僕が 「対話してくれるのは誰か?」 と呼んでいる問題があると考えてします。 1年ぶりに復活した記事 でも書いたように、僕はほぼ1年前に 「童話の読み聞かせ」 をする音声チャットボットを実装しました。 実装している最中は 「利用者は自分の発言が 正しく伝わっていることに 関心を持つだろう」と、 つまり音声認識に関心が集まるだろうと 考えていたのですが、 完成後に実際に利用した人の感想を聞くと 「iPhoneMacで声が違う」 といった音声合成へ関心を寄せる声が多かった。 僕にとってこれは意外な反応でした。

その後、理由を考えてみたのですが…

人間は聞こえてきた音が言葉のように聞こえると 「それが擬似的であろうが人工的であろうが そこに人格があると仮定し その存在が親和的であるか?敵対的であるか? あるいは信用できるか?否か?を 直感的に判断しようとするのではないか?」 と推測しました。また、この傾向は 高齢者の方が強いとも考えました*11

つまり、デバイスの使用感を支配するのは 音声合成技術ではないかと僕は考えています。

そこで、SHAREVOX core を使った音声合成機能だけの 「次世代AIスピーカー」 のデモシステムを作ることにしました。 その際、よく考えなければならないことが、 既に述べた「対話してくれるのは誰か?」 という問題です。

この問題を考える上でも SHAREVOX (および VOICEVOX から派生したオープンソース) は非常に良い示唆を与えてくれます。 VOICEVOX シリーズの音声合成ソフトウェアはいずれも、 複数のキャラクターをバンドルしています*12。僕は世代的に、 ゲームは全くやらないし、 漫画は読んでもアニメは ほとんど見ない人間なので、 大きく誤解してると思いますが、 VOICEVOX シリーズは ニコニコ動画のコミュニティから 出て来たソフトウェアで、 それ故に複数のキャラクターが バンドルされる事は 極めて自然なことなのだと想像しています。

一方、 数ある音声合成ソフトの中での VOICEVOX シリーズの特徴を考えると、 オープンソースであることと 徹底したキャラクター指向が挙げられるように思います。 特に音声チャットボットを構築する上では、 このキャラクター指向は対話をする人間の 関心と共感を獲得する上で 大きな助けになるのではないか と僕は考えています*13

SHAREVOX では4人6声のキャラクタが標準でバンドルされますが、 僕が特に注目しているのは「つくよみちゃん」です。 というのも、「つくよみちゃん」の声の主である夢前黎さんが 次の「会話テキストデータセット」も作成・配布されているからです。

tyc.rei-yumesaki.net

これは、いわゆる(言語)コーパスでして、 この「会話テキストデータセット」を利用すれば、 単純なルールベースのチャットボットであれば 比較的簡単に構築できそうです。


クリスマスでは終わらない

このように開発者には好条件が揃っているので、 僕は「次世代AIスピーカー」のデモシステムを作ることにしました。

最後にタイトルの「3月18日」について少しだけ…

実は、勧めてくれる方々がいたので、 次のコンテンテストに応募しました。

social-innovation.kyoto.jp

これは事業アイデアのコンテストなので プロトタイプやデモシステムは必須ではありませんし、 コンテスト当時は4分間のプレゼンテーションの時間しかありません。

ですが…

応募した本人でも事業アイデアは夢物語に聞こえそうな内容に思えるので 「何かエビデンスが必要だろうなぁ…」と考えてました。

還暦を迎えて、このところ自分の馬力の衰えを感じることが多かったのですが…

ここへ来て、冒頭の「5日間連続投稿」をなんとかやり切ったので、 久しぶりに3ヶ月一本勝負にチャレンジすることにしました。



若宮正子さんもCMで言ってるじゃないですか…
とにかくバッターボックスに立ってバットを振ってみろって😀

www.youtube.com

以上

*1:NHKの大河ドラマみたいな…

*2:僕は今年の夏、椎間板ヘルニアを発症しまして、 7月、8月、9月の3ヶ月を棒に振りました。

一番、ひどい時は10分間も椅子に座ってられなくて…
寝たきりでスマホを覗くしか やれることがなかったので、 たまたま見つけた動画です。

文字どおり「怪我の功名」ですね😀

*3:たぶん COEIROINK を開発しておられる期間だけ 書いておられたのかな? と想像してます。

*4:ちなみにマスターの VOICEVOX core は今、 Rust 対応を含む全面的な改修を 行なっている最中です。

github.com

Stable なバージョンをお望みの方は、 ひとつ前の 0.13.X か SHAREVOX core を使った方が良さげです。

github.com

*5:ELIZEと傾聴については 大昔にブログに書いたので参考まで…

akito-fujita.hatenablog.com

akito-fujita.hatenablog.com

実は1966年からあるアイデアなのです。

*6:対策はとにかく声を出して会話をすること。 今は毎朝同じ喫茶店に行って、 いつもの店員さんと努力して 世間話をするようにしています。 問題は多少改善したように感じてますが😀

まぁ、街中で暮らしている僕の場合は こういった対策が取れるのですが、 田舎暮らしのうちの両親の場合は 会話の少ない生活を何十年と続けて来たので、 認知症の症状が顕在化しています。

*7:11月に公開された ChatGPT が今話題になっていますよね?

openai.com

*8:純粋に技術的に ゲームチェンジャーであることは もちろんですが、 この技術がオープンソースであることも 音声に関わる既存技術の商業価値に 大きなインパクトを 与えるのではないかと思っています。

*9:例えば、こんなレクチュアなどは 既にたくさん出回っていますね。

gigazine.net

*10:Whisper が公開された今年の9月から半年後、 つまり来年の4月頃までは動向を静観するべき、 と僕自身は考えています。

*11:このように考えると、 過去のうまくいかなかった知見の 辻褄が合うようにも思えるのです

*12:VOICEVOX のキャラクタは以下。

voicevox.hiroshiba.jp

COEIROINK のキャラクタは以下。

coeiroink.com

SHAREVOX のキャラクタは以下。

キャラクター一覧 | SHAREVOX

いずれも音声合成ソフトの開発者ではない方々が 制作したキャラクタですので、 使用条件等には注意が必要なようです。

*13:スマートスピーカーのスキルを書いていた時の 実証実験での僕の数々の苦い経験から言わせてもらうと、 この種のITデバイスに対する 高齢者の心理的ハードルは 皆さんが考えている以上に高いのです。