2022-10-19

SHAREVOX core を動かしてみる

Try to run SHAREVOX core

2022/10/19
藤田昭人

前回「楽しげなことを、コツコツと…」と語りましたが…

苦しくなると「７２時間連続コーディング」とか無意味なパワープレーを繰り出していたのも今は昔、最近では MacBook に１時間程度向かうたびに休憩を入れるようになっています。休憩と言ってもテレビで YouTube を見るだけなんですけどね。画面からの距離を長めに取ると目が少し休まる気がするのです。リモートワークが定着して良かった良かった。

お気に入りは「YOASOBI 切り抜き」ですね。間にＣＭが挿入される回数が少ないので流しっぱなしにしてます。 YOASOBI というとボカロＰとボーカリストの「小説を音楽にするユニット」なんだそうですが、ふたりはトークも上手なんですねぇ*1。おかげでポケモンの最近のキャラクターを知りましたました😀

この映像、彼らのオールナイトニッポンのＤＪを短く切って映像を付けているようです。オールナイトニッポンと言えば、僕は「笑福亭鶴光」だとか「あのねのね」だとか、あるいは「ビートたけし」がリアルタイムの世代なんですが、彼らのワイルドなトークだけではなく、 AYASE氏とIKURA嬢のマイルドなトークでも違和感なく聴けるのが不思議なところ。やはりＤＪ特有の会話のリズム感が魅力なんでしょうかねぇ？

さてさて…

SHAREVOX core というライブラリ

音声合成といえば有料サービスが花盛りですが…

本稿では、前回チラッと触れた SHAREVOX core の動かし方を紹介してみようかと思います。

このライブラリには、その核になる音声合成に関わる機械学習のコードがギュッと詰まっています。もうひとつの特徴は機械学習の実行環境を選ばないことです。実は「機械学習というとGPUを搭載してないコンピュータでは動かない」と思い込んでたのですが、このライブラリをリンクしたテストプログラムは手持ちの Intel MacBook Pro でもあっさり動いてしまいました。

このライブラリ「タダで音声合成をしたい人」には朗報なんではないでしょうか？

という事で、やや無謀にも手持ちの Intel Mac Book Pro を使ってライブラリのバイナリ配布を動かしてみます。やはり「論より RUN」でしょう😀

ライブラリのソースとバイナリのファイルをダウンロードする

Github においてある SHAREVOX core のソースには README.md が用意されており、ライブラリのダウンロード、展開、ビルドの手順が紹介されています。が、ここでは僕が MacBook Pro (Retina, 15-inch, Mid 2014)/macOS Big Sur verion 11.7 で実行した手順を紹介します。

まずはライブラリのソースとバイナリのファイルをダウンロードするところから。任意の作業ディレクトリに移動してください。

今回は SHAREVOX Core 0.1.2 を使用しました。次のファイルをダウンロードします。

ソース：
https://github.com/SHAREVOX/sharevox_core/archive/refs/tags/0.1.2.zip
Mac用バイナリ：
https://github.com/SHAREVOX/sharevox_core/releases/download/0.1.2/sharevox_core-osx-universal2-cpu-0.1.2.zip

次に ONNX Runtime v1.10.0 のライブラリをダウンロードします。

Mac用バイナリ：
https://github.com/microsoft/onnxruntime/releases/download/v1.10.0/onnxruntime-osx-universal2-1.10.0.tgz

さらに Open JTalk の辞書セット(UTF-8)をダウンロードします。

辞書セット：
http://downloads.sourceforge.net/open-jtalk/open_jtalk_dic_utf_8-1.11.tar.gz

作業ディレクトリの下に archive サブディレクトリを作成し、以上の４つのファイルをダウンロードして、各々を展開しました。

SHAREVOX core のサンプルプログラムをビルドする。

元の作業ディレクトリに戻って…
まずは SHAREVOX core のソースツリーを展開します。

先ほどダウンロードしてきたソースの ZIP ファイルを移動、

$ mv archive/sharevox_core-0.1.2 .
$ cd sharevox_core-0.1.2/

あるいはコピーします。

$ cp -r  archive/sharevox_core-0.1.2 .
$ cd sharevox_core-0.1.2/

以降、このソースツリーを作業のベースに、SHAREVOX core の C++ サンプルコードの手順に従ってそのほかのバイナリ・ファイルを所定のディレクトリにコピーしていきます*2。

【注】ターミナルソフトで UNIX コマンドを使ってください。

前述のダウンロード・展開したバイナリファイルを example/cpp/unix にコピーします。

sharevox_core のバイナリ・ライブラリ

$ cp  ../archive/sharevox_core-osx-universal2-cpu-0.1.2/libcore.dylib example/cpp/unix/

ONNX Runtime の共有ライブラリ

$ cp -r ../archive/onnxruntime-osx-universal2-1.10.0/lib/*.dylib example/cpp/unix/

Open JTalk の辞書データセット

$ cp -r ../archive/open_jtalk_dic_utf_8-1.11 example/cpp/unix/

以上のコピーを終えると、 example/cpp/unix/ には以下のファイル・フォルダが存在することになります。

$ ls example/cpp/unix/ | cat
CMakeLists.txt
README.md
libcore.dylib
libonnxruntime.1.10.0.dylib
libonnxruntime.dylib
open_jtalk_dic_utf_8-1.11
simple_tts.cpp
$

C++サンプルプログラムのディレクトリに移動して、 CMake（3.16 以上）を使ったビルドを行います。

"cmake -S . -B build" と "cmake --build build" を実行する

$ cd example/cpp/unix/
$ cmake -S . -B build
-- The C compiler identification is AppleClang 13.0.0.13000029
-- The CXX compiler identification is AppleClang 13.0.0.13000029
-- Detecting C compiler ABI info
-- Detecting C compiler ABI info - done
-- Check for working C compiler: /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/cc - skipped
-- Detecting C compile features
-- Detecting C compile features - done
-- Detecting CXX compiler ABI info
-- Detecting CXX compiler ABI info - done
-- Check for working CXX compiler: /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/c++ - skipped
-- Detecting CXX compile features
-- Detecting CXX compile features - done
-- CORE_LIB: /Users/fujita/xtr/BookBot/BookBot3/02_sharevox_core/sharevox_core-0.1.2-A/example/cpp/unix/libcore.dylib
-- Configuring done
-- Generating done
-- Build files have been written to: /Users/fujita/xtr/BookBot/BookBot3/02_sharevox_core/sharevox_core-0.1.2-A/example/cpp/unix/build
$ cmake --build build
[ 50%] Building CXX object CMakeFiles/simple_tts.dir/simple_tts.cpp.o
[100%] Linking CXX executable simple_tts
[100%] Built target simple_tts
$

これで build/simple_tts がビルドできました。実行してみましょう*3。

$ ls build/simple_tts
$ build/simple_tts これはテストです
coreの初期化中...
openjtalk辞書の読み込み中...
音声生成中...
音声ファイル保存中...
音声ファイル保存完了 (audio.wav)
$

引数で渡した日本語のフレーズを発話した WAV ファイルが生成されます。 Mac Book には GPU が搭載されていないので「coreの初期化中...」は少し待たされます。

WAV ファイルが生成されたら発話させてみましょう。

$ afplay audio.wav
$

男性の声で「これはテストです」と読み上げてくれたでしょうか？

サンプルプログラムでつきよみちゃんに発話させてみる

調べてみると simple_tts は学習済みの言語モデルを使って引数で渡されるテキストを読み上げているようです。そこで言語モデルを差し替えると声色が変わるのか試してみました。

実は SHAREVOX Core 0.1.0 には SHAREVOX のリリースに付属する言語モデルのセットも収録されてます。

言語モデル：
https://github.com/SHAREVOX/sharevox_core/releases/download/0.1.0/sharevox_model-0.1.0.zip

これをダウンロード、展開すると model というフォルダが現れますので、 SHAREVOX Core 0.1.2 の model と差し替えてみます。

元の sharevox_core-0.1.2 ディレクトリに戻って…

$ mv model model-0.1.2
$ mv ../archive/model .
$

これで言語モデルの差し替えができました。

さらに simple_tts.cpp の変数 speaker_id を 0 から 4 に変更します。

$ cd example/cpp/unix
$ （エディタで simple_tts.cpp を修正）
$ diff -u simple_tts.cpp.orig simple_tts.cpp
--- simple_tts.cpp.orig 2022-10-19 10:39:11.000000000 +0900
+++ simple_tts.cpp  2022-10-19 10:39:29.000000000 +0900
@@ -34,7 +34,7 @@

   std::cout << "音声生成中..." << std::endl;

-  int64_t speaker_id = 0;
+  int64_t speaker_id = 4;
   int output_binary_size = 0;
   uint8_t *output_wav = nullptr;

$

修正が終わったら simple_tts をリビルドしましょう。

$ cd build/
$ make
Consolidate compiler generated dependencies of target simple_tts
[ 50%] Building CXX object CMakeFiles/simple_tts.dir/simple_tts.cpp.o
[100%] Linking CXX executable simple_tts
[100%] Built target simple_tts
$ cd ..
$

先ほどと同じように WAV ファイルを生成し、発話させてみましょう。

$ build/simple_tts これはテストです
coreの初期化中...
openjtalk辞書の読み込み中...
音声生成中...
音声ファイル保存中...
音声ファイル保存完了 (audio.wav)
$ afplay audio.wav
$

いかがでしょう？女性の声色に変わりましたね。これがつくよみちゃん（ speaker_id = 4 ）の声です。少々早口のような気もしますが…

それではお約束の…

#つくよみちゃんを利用してフォロワー増やしたい

以上

*1:YOASOBI については他にももう少し語りたいのですが、それはまた後日。

*2:実は Python サンプルコードにもトライしましたが、うまく実行できませんでした。
ケアレスミスのようなので、後日リトライしてみるつもりです。

*3:build/simple_tts の初回実行時には次のダイアログが表示されます。

これはリンクした libcore.dylib の証明書がないため表示されます。その際には、アップルメニューから「システム環境設定」を選択して「セキュリティとプライバシー」をクリックし、以下のダイアログの「一般」パネルで「このまま許可」選んでください。

このダイアログは libonnxruntime.1.10.0.dylib でも表示されます。なので、 build/simple_tts を実行するためには都合２回「このまま許可」を選択することになります。

2022-10-09

音声チャットボットの取り組み、あれこれ

Voice chatbot initiatives this and that

2022/10/08
藤田昭人

実に１年ぶり（？）のブログ記事の公開であります*1。

本当はもっと早く復帰したかったのですが…

実は椎間板ヘルニアのおかげで、ほぼ３ヵ月間完全に活動停止に追い込まれてました。執刀医のコロナ感染とかの不運もあって、結果的に発症から手術に至るまでに２ヶ月半待ちました。実際、３ヵ月間も運動を大きく制限されていると、身体のあちらこちらに支障出てくる訳でして、今は脚力と体力の回復に勤しんでいる訳です。もちろん還暦過ぎの老体なので、リハビリは「腰の様子確かめながらコツコツと」って感じですかね。

音声チャットボットによるＡＩ体験

という訳で…

今年の僕の夏はとんだ大ブレーキのロスト・サマーだったのですが、不運ばかりではなかったのでした。ちょうど昨年の今頃始めた音声チャットボットの試みが作った僕自身の予想を超えて注目を集めてくれたからです。

実は、数年前から京都ノートルダム女子大学の「インターネット社会論」の授業にゲストスピーカーとして参加させてもらっていて、ＡＩ技術に関するＱ＆Ａをしてきました。で、毎年出るのが「このままＡＩ技術が進歩すると人間にできる仕事は無くなりませんか？」という質問。毎年それなりに準備していくのですが、僕の答えにはどうにも納得してもらえてる感じがしないのです。

そこで「コレならどうだ‼️」と昨年捻り出したのが、学生の皆さんにチャットボットのルールを作ってもらう実習授業でした。学生の皆さんのスマホで簡単に動かせて、もちろんボットから音声で話しかけてくれて… 授業の内容を説明し始めると長くなるので、気になる方は次の論文をどうぞ。

conference.ciec.or.jp

一般教養の授業なので、学生の皆さんの日常に如何に迫れるか？が大きな課題でした。

授業を書き残しておこう

この昨年末に実施した実習授業は学生のみなさんにも好評だったので、その場は毎年授業に呼んでくれる吉田智子さんと喜んだのですが、そこは大学でのこと。年が明けたら「実習授業について書き残しておこう」ってことになりました。

先に紹介したのは、僕が実習授業のために書き下ろしたウェブ・アプリケーションの概要に関する論文です。で、吉田さんが書いたのは次の論文。

conference.ciec.or.jp

彼女は情報教育の専門家なので、この時は「情報工学の僕とはだいぶん趣きが違う」としか思ってなかったのですが…

そこは大学でのこと。論文が書けたのならどこかのカンファレンスに投稿することになる訳で、その準備をしている６月ごろに僕の椎間板ヘルニアが発症してしまって… そのあとのこと、ポスターセッションの原稿の用意とかは、全部吉田さんがやってくれました*2。

論文は８月初旬のカンファレンスで発表されたらしいのですが（僕はヘルニアでのたうち回ってたので正直なところわからない）、なんと優秀賞をもらったそうです。

2022PCカンファレンス受賞者喜びの声 (1) 論文賞 | Special | CIEC

京都ノートルダム女子大学のニュースはこちら。

web.archive.org

いや、この写真は８月末に撮影したのだけど、コルセットを巻いて、痛みを堪えて、なんとか作り笑いをしたつもりだったのだけど、全然笑えてない😁

といった顛末があったので…

論文発表に関わるイベントが全て終わるまでは、この取り組みをブログで報告できなかったのでした。しかし、１年もかかるとは思ってなかったなぁ。

今年はどうする？

昨年は実習授業の前日まで実習教材のコーディングをしているといったドタバタの有り様だったので当日の授業は僕が担当をしたのですが、今年は（まだ僕が長時間のコーディングに耐えない状態なので）昨年の教材をそのまま使って実習授業をすることになってます。

ただ「読み聞かせる童話は『シンデレラ』から差し替えたい」という話は（春ごろ、ヘルニア発症前に）相談してました。というのも『シンデレラ』は次のページの翻訳を使っていたのですが…

www.grimmstories.com

これ、オリジナルの直訳バージョン、いわゆる「本当は恐ろしいグリム童話」でして、物語の中にはグロテスクなシーンがたびたび登場します。で、学生の皆さんが書いたルールを見てるとどうしてもそこがひっかかるらしく、「どう思いますか？」とか「グロいよね？」といった質問やコメントが増えてしまう…といった傾向がありました。「これはちょっとどうにかしたい」というのが僕の意見で、腰の状態が予想外に早くに改善して、長時間のコーディングに耐える状態になった時の努力目標になってます。

で「もし他の童話に差し替えるとしたら？」という相談もしてたのですが、吉田さんから出たのはワイルドの『幸福の王子』。この童話については著名な翻訳家の結城浩さんの日本語版が公開されてます。

www.hyuki.com

この翻訳であれば『シンデレラ』のような童話の本筋以外に関心が集中するようなトラブルは出ないように思うのですが… 新たに見つけた課題は、この童話は「王子とツバメの会話」が軸となる会話劇であることです。セリフとセリフの間の説明が少なく、童話の字面を追っただけでは誰が語ったセリフなのか？（幼児には）わかりにくい。（人間の）図書館司書が読み聞かせる時には声色を変えるのだろうなぁ…と思わせる童話です。

いやぁ「できの良い音声合成機能さえあれば簡単に実現できる」って思っていた「童話の読み聞かせ」ですが、実際に読み聞かせをする際に人間はいろんな事をするんですねぇ。奥が深いなぁ😀

いくつかの声色を切り替えるには？

ヘルニアの発症当初は（痛くて１０〜２０分間程度しか椅子に座ってられなくて）ベットに横たわりスマホでググるしかやれることがなかったので、音声合成でいくつかの声色を使い分ける方法を探しまくってました。

当初考えていたのは Web Speech API の SpeechSynthesis のパラメータを変更すること。この方法だと確かに声色が変わってることは認識できるのですが、物語の登場人物のキャラクターまでを想像するのは難しい感じがしました。

例えば『幸福の王子』の場合、王子は王子らしい声色で、ツバメはツバメがイメージできる声色で読み上げて欲しいところです。もちろんナレーションの声色とも識別できなければなりません*3。

VOICEVOX と SHAREVOX

何か、うまい手はないものかとさらに探しまくっていたところ、 YouTube で見かけた「フリーの音声合成ソフト紹介」的映像をキッカケに見つけたのが VOICEVOX でした。

voicevox.hiroshiba.jp

Github にソースコードもおいてあります。

github.com

使い方の解説も見つけたので…

voicevox.hiroshiba.jp

１時間ぐらい椅子に座ってられるようになったらちょっと試してみようと考えたのですが…

突如、SHAREVOX が公開されました。

www.sharevox.app

Github にソースも置いてある。

github.com

…となると、コード比較をしたくなるのが職業プログラマの性なのですが、チョロっと見た限りでは SHAREVOX の方がよく整備されているように見えます。

腰の痛みがなく、体調が良ければ、もう少しガツガツ行きたいところなんだけどなぁ…

止む無く公開されているソースコードをスマホ片手にツラツラと眺めてました。特に sharevox_core は、機械学習による音声合成エンジンの Open JTalk とニューラルネットワークモデルの交換フォーマットの onnxruntime のラッパーになっているらしく大変興味深いものです。今後、ブログ記事が数回は書けそうです。

還暦も過ぎたので、そろそろ「楽しげなことをコツコツと…」に路線を変更しなくちゃね😀

最後に・・・

…とまぁ、ブログを１年間もサボっていた言い訳を長々と語ってきましたが、これを復帰の前口上にさせてください。

それと最後にもうひとつだけ!!

京都検定の問題と模範解答を読み上げる音声チャットボットについてです。

www.kyotokentei.ne.jp

実は昨年の実習授業の知見から、スマホ＋音声チャットボット＋学習支援は面白いテーマだなぁ…と思ってまして、今年の４月ごろには試験問題と模範解答を読み上げる音声チャットボットを作るつもりでいました。

でも、試験問題と模範解答の著作権ってどうなってるのかわからなくて「実験で作るだけなのにお金を取られるのはヤダなぁ…」などと考えていたところ、京都検定を思い出しました。

この検定は京都商工会議所が運営しているのですが、ツテを頼って聞いてもらったところ「公平性を期すため、いずれの事業者ともタイアップしない」との方針なんだとか*4。

なので、比較的時間に余裕のある夏の間にシステムを開発して、 2022年の検定試験がある１２月の１ヶ月前ぐらいに公開する計画を立ててました。

残念なことに、予期せぬロストサマーのために夏の３ヶ月を棒に振ったので計画は放棄寸前になっていたのですが…

SHAREVOX のリリースコードの中に「つくよみちゃん」の音声があったので、今は「2022年の検定試験には間に合わなくても、彼女に問題を読み上げてもらいたい」と考え始めています。

tyc.rei-yumesaki.net

✨参加者50名超え！？✨

なんと、現時点で50名以上の方が #つくよみちゃんを利用してフォロワー増やしたいと表明されています！

是非検索結果画面に足を運んでいただき、気になる方をフォローしてみてください。フォロバしてもらえる保証はありませんが、これだけ集まれば結構期待できそうですよ！ https://t.co/4ecm1CrSQ0
— つくよみちゃん®【フリー素材キャラクター】 (@TYC_Project) 2022年10月6日

ということで、この文章にもハッシュタグを追加しておきます。

#つくよみちゃんを利用してフォロワー増やしたい

以上

*1:はてブの markdown 記法をすっかり忘れてしまってる。

*2:ちゃんとお礼を言ってなかったから、この場を借りて「吉田さん、本当にありがとう」

*3:これ、文字通り「人間の認知とは何か？」というお題です。理詰めで考えると堂々巡りになりそうな。「ツバメがイメージできる声色」と書くのは簡単だけど、実際のツバメは言葉は喋らないですからね。学習のしようがありません。

*4:つまり昔の大学入試問題と同じ扱いで今も運営しているそうです。

京都では毎年１２月に１級、２級、３級の試験がありますが、試験後は京都新聞に問題と模範回答が掲載されます。

地元では講習会を企画する企業やスマホアプリを開発しているＩＴベンチャーも存在しますが、みんな京都新聞の掲載情報を見て勝手にやってるみたいです。

2021-10-06

カシオ FX-502P のシミュレーション（１）

Casio FX-502P simulation (1)

2021/10/07
藤田昭人

たいへんご無沙汰してました。

実は８月から生活パターンが激変しまして、体力的辛さから毎日を過ごすのに一杯いっぱいの日々を送ってました。必然的にブログは放ったらかしに…
２ヵ月経てようやく慣れて来たので、もろもろ溜まっている宿題も少しずつ返していくつもりです。

カシオ FX-502P って覚えておられますか？

唐突感ＭＡＸですが… *1

カシオ FX-502P は１９７８年に発売された往年のプログラム電卓です。僕と同世代の方々なら覚えていらっしゃるかもしれませんね。１９７０年代の日本の熾烈な電卓戦争を勝ちに抜いた２社、シャープとカシオは、この時期アメリカ市場を視野に入れてか、アメリカのテキサス・インスツルメンツやヒューレット・パッカードが製品化していたプログラム電卓をリリースし始めます。

「ポケコン」と銘打って簡易BASICを搭載したシャープに対し、次の写真でもわかるように（おそらくＨＰの製品を模倣した？）アセンブリ言語を各ボタンに割り付けて、電卓なのに数字キーがかすむくらいにやたらボタンの多いむっちゃ硬派なプログラム電卓を出荷したカシオ。

f:id:Akito_Fujita:20211003144915j:plain — FX-501P

製品の外見からも両社のアプローチが対極的だった事を今もよく覚えています *2。僕も、この硬派なルックスにやられて当時としては大枚の１万数千円を叩いて買ってしまったクチです😁

実は、これが僕が初めて自腹で買った「プログラミングできるマシン」だったのですが、結局のところ当時のコンピュータ月刊誌によく掲載されていたゲームなどを打ち込んで遊ぶ以外の使い方はしていませんでした😁 *3

FX-502P のレジスタ構造

懐かしいゲーム本が見つかったところで FX-502P のゲームを実行してみたいと考えたものの、かつて使っていた実機も付属のマニュアルも最早手元には残っていなかったので、 FX-502P のシュミレータを作ること考えました。

残念なことにカシオのサイトでは FX-[567]02P は「無かった」ことになってまして、散々ググってみたのですが、結局日本語のマニュアルは見つかりませんでした。ですが、英語のマニュアルは残ってるんですねぇ *4。それも元は日本文だったものを直訳しただけの素っ気ないマニュアルが。正直「日本の製品なのに日本語のマニュアルが残ってないのはどういうこと？」って思ってしまいましたが…

マニュアルに記載されている FX-502P のレジスタ構造を次に転載します。

f:id:Akito_Fujita:20211005000124p:plain — FX-502P のレジスタ構造

ついでに FX-602P のレジスタ構造も…

f:id:Akito_Fujita:20211005000234p:plain — FX-602P のレジスタ構造

図に登場するメモリ・レジスタは一般的な電卓にもある機能、 Minで書き込み、M+やM-で計算、 MRで計算結果を呼び出す…あの機能です。 FX-502P のメモリ・レジスタは０〜９とＦの１１本が２セット（FX-501Pは１セットだけ）用意されています*5。

FX-502Pのプログラムではメモリ・レジスタは変数の領域と考えます。つまりFX-502P は最大で１１個の変数が使えます。

FX-502P のオペコード

もちろん学生の頃にも FX-502Pのマニュアルは読んだはずなのですが… その後、ＯＳカーネルのプログラマとして経験を積んだ今、改めてマニュアルを眺めてみると、 FX-502Pが独自仕様の８ビットマイコンであったことがよく理解できました。

Wikipedia によれば…

FX-502Pシリーズは 7セグメント表示のみであるため、それぞれのプログラムステップは、 0 - 9とC、E、F、Pを組み合わせた 2桁のコードで表示される。

とのこと。元は電卓ですから（キーに割り付けられているキーコード（の一部）がオペコードと等価な）独自の命令セットが定義されているようです*6。またまた FX-502P の情報はなかなか見つけられなかったのですが、しつこく探してみると次のページを見つけました。

www.arithmomuseum.com

このページにあるオペコード表をしっかり追ってみると、先の「0 - 9とC、E、F、Pを組み合わせた 2桁のコード」という記述の意味が概ねわかります。（正直 "P" という文字が割り振られた理由まではわかりかねますが、単純に "D" と読み替えればよくある８ビットのオペコードと代わりありません）

８ビットマイコンのオペコードとしてみた場合、 FX-502P の命令セットは上位４ビットが "C" 以上の領域に押し込められたスパースで、 Z80 のような１〜４バイトの可変バイト長の命令セットです。なんだか歪な印象を持ちますが、これも電卓のキー配置の物理的限界（６つのキー列が５段＋５つのキー列が４段＝５０キー）に起因しているのでしょう。 FX-502Pを使ったことのある方はご存知のように、INV キー（invert、裏面って意味でしょうね）を使って全体では９９個のキーを物理的に確保してます。もちろんエレガントな配置は言えませんが、その反面、キー毎に命令が割り当てられていてプログラムが入力が効率的（GOTOであってもワンプッシュ）というメリットがあります。

バイトコードエンジンを書いてみる

レジスタ構造と命令セット（オペコード）がわかったところで、 FX-502P のバイトコードエンジンを（Ｃ言語で）書いてみました。ソースコードは次に置いてあります。

github.com

このエンジンはオペコードのテーブルに各命令のハンドラを貼り付けただけの比較的単純な作りです。今のところ Wikipedia の FX-502P のページにある次のサンプルコードが実行できます（つまりサンプルコードで使ってる命令しかハンドラを書いてないって意味ですからね）。

f:id:Akito_Fujita:20211006101616p:plain — サンプルコード

このプログラムはXレジスタにセットしている数値の階乗計算をします。参考までに等価なコードを（無理矢理）Ｃで書くと次のようになります。

#include <stdio.h>
#include <string.h>
#include <stdlib.h>

int
main(int argc, char *argv[])
{
  int m0;
  int x = 5;

  m0 = x;                       // Min 0
  x = 1;                        // 1
  printf("x: %d\n", x);
  for (; m0 > 0; m0--) {        // INV DSZ GOTO 0
    x *= m0;                    // *
    printf("x: %d\n", x);
  }
  printf("x = %d\n", x);        // =

  exit(0);
}

要点は INV DSZ （Decrement and Skip on Zero）命令で続く GOTO 0 との組み合わせて、Ｃ言語の for ループを実現しています。なお、ループカウンターとして暗黙的に M0 レジスタを使っているので注意が必要です（これがFX-502Pの仕様なんですよ）。

さいごに

という訳で…

バイトコードエンジンの枠組だけはできました。プログラムの挙動を確認するために、トレース機能を付けたところデバックは随分楽になり、学生の頃に感じた「頭がこんがらがる」印象は無くなりました（その後、４０年間あまりプログラマを生業にして来たので、ロジックを追っかけることに慣れたという意味合いもありますが）。

これ、納期が定まっていれば、一気に畳みかけてひと通り動くところまで持っていくのでしょうが…

他にも BookBot など優先度の高い課題を抱えているので、今手元にある英文マニュアルで紹介されている他の例題を皮切りに今後も FX-502P のプログラムを見つけてはハンドラを追加・修正する作業をマイペースで進めていきたいと思っています。

最後に…

かつて FX-502P がカシオの電卓ラインナップに登っていた頃、パブリックドメインのプログラムのリストを多数収録したプログラミング・ライブラリが書籍として出回っていたようなのですが、今となっては古過ぎて古書としても入手ができないようです。もし、お手持ちの方がいらっしゃれば、プログラムリストの写真等を送ってもらえると嬉しいです。

ともあれ…

僕的に FX-502P は日本が誇るべき技術資産なんじゃないかと思うのですが、今回関連情報の収集をしてみて「日本語で解説したマニュアルやプログラムリストが残っていない現状は由々しき事態」かと考えるようになった次第です（カシオはあまり関心がないようです）。今回紹介したバイトコードエンジンがひと通り動くようになったら、日本語でのドキュメントを書きたいなと考えているところです。

以上

*1:今はコレしかネタがないとも言います😁

*2:そのFX-502P についてググってみると、その後継機種である FX-602P に関する英語のページが頻繁に登場します。

f:id:Akito_Fujita:20211003145423p:plain — FX-602P

FX-502P が７セグメントの液晶表示であったのに対し、FX-602P はディスプレイがドットマトリクスに変更され ASCII テキストが表示できるようになっていました。今回調べてみたところカシオのプログラム電卓は海外各国にも輸出されていたようで、海外ではASCIIが使える FX-602Pの方が好まれたのでしょう。

FX-602P を紹介する次のホームページは同機を支持する熱烈なメッセージから始まります。

fx-602p.krischik.com

Welcome to the FX-602P homepage - where the best programmable calculator ever (from the company who do not which to be named) found it's new home. True, many calculators do have more functions but when it comes to a small form factor, light weight usability and programmability without a manual by your side then the FX-602P is king.

FX-602Pのホームページへようこそ！史上最強のプログラム電卓（会社の名前は伏せておきますが）の新しいホームページを用意しました。確かに、多くの電卓がより多くの機能を持っています。が、しかし、小型で軽量な使い勝手と、マニュアルなしでプログラムできるという点で、 FX-602Pは王者です。

カシオの海外法人の対応が素っ気なかったのか皮肉混じりではありますが、製品には最大限の賛辞が送られてます。「ＨＰの電卓よりも？」と感じられる方もいらっしゃるでしょう。このホームページを読んでいくと、「入力したプログラムを保存できないＴＩは間抜けな仕様だし、バカ高い外部メモリカートリッジにしかプログラムを保存できないＨＰ」にも恨み言を並べてます。

そもそも１９７８年といえば、１ドルが２７０〜２４０円だった訳で、 FX-502Pは「機能はほぼ等価なのにバカ安い」プログラム電卓だったといえるでしょう（今に置き換えれば iPhone クローンの Xiaomi(シャオミ) のスマホみたいな感じでしょうか？）。

このあたり、当時の「またまたアメリカの後追い」と捉えていた僕ら日本人のシニカルな印象との違いに今となっては苦笑してしまいます。

*3:その後すっかり忘れてしまっていた FX-502P。思い出したのは、長年開かずの段ボール箱を開いたところ、中から次の本が出てきたからでした。

f:id:Akito_Fujita:20211003222520p:plain

学生の頃、物理の授業中に散々遊んだ「ポケット・インベーダー」を思い出してしまいまして…

*4:おそらく海外で人気のあったであろう FX-602Pのマニュアルは綺麗にスキャンされた PDF が見つかりました。さらに、しぶとくFX-502Pのマニュアルを探したところ "CASIO FX-502P CALCULATOR MANUAL" も見つかりました。でもスキャンが雑で文字が判別しづらい。

*5:ちなみにこの２つの図を見比べると FX-602P は FX-502P の上位互換のように見えます。 FX-602P のメモリ・レジスタは０〜９とＦの１１本が８セット内蔵されていたようです。

*6:後継機種の FX-602P については脚注で紹介した FX-602P ホームページで次のように丁寧に説明されてます。

Token Codes - FX-602P

前述のようにASCIIテキストを表示できるように機能拡張されたため、FX-502Pを踏襲しつつも命令セットの体系は大きく改変されてるようです。

2021-07-20

ローブナー賞コンテストの実際

Turing Test Contest in Practice

2021/07/20
藤田昭人

前回の記事は前々回よりもさらに多くの方々に読んでいただけたようで…ありがとうございます。

本稿ではチューリングテスト・コンテストの実例として、前回も少しふれたローブナー賞についてもう少し掘り下げて紹介したいと思います。

Loebner Prize 2009

実は個人的な関心からローブナー賞についてはいろいろ調べて来たのですが、コンテストの実際の様子を語るなら Loebner Prize 2009 がもっとも都合が良さげかと思います。

というのも、その理由のひとつは古くからあるチャットボット専門サイトの chatbots.org が制作したコンテストのダイジェストビデオが残ってるからです。全編で１０分程度の短い映像ですし、英語で滔々と語るシーンも皆無なので日本人の僕たちにも比較的見やすい（😁）ビデオです*1。

www.youtube.com

この映像を見る前に思い出しておいて欲しいのはチューリングテストに関するルール、テストを実行するための役回りについてです。

テストの主役はもちろん チャットボット（Chatbots）です。Loebner Prize 2009では次の３つのチャットボットがファイナルステージに勝ち上がりました。

チャットボット	開発者	所属
Do Much More	David Levy	Intelligent Toys Ltd.
Cleverbot	Rollo Carpenter	Icongno Ltd. and Existor Ltd.
Chip Vivant	Mohan Embar

しかし僕的に引っかかるのは「ファイナルというからには予選もあったのか？」という疑問でして、「ローブナー賞の予選」なるものの情報を探しまくったのですが… 見つかりませんでした。これ、どう理解すれば良いのかなぁ？

前回もチラッとふれましたが、チューリングテストでは「機械のフリをする人間」の コンフェデレイト（Confederate）も参加します。 Loebner Prize 2009では次の４人のコンフェデレイトが暗躍しました（笑）。

コンフェデレイト	所属
Brian Christian	Knopf Doubleday Purblishing
Dave Marks	Sandia National Labs
Olga Martirosian	Meraka Institute
Doug Peters	Nuance Communications Inc.

なおコンフェデレイトについては後ほど詳しく紹介します。

最後に「もっとも人間に近い対話者を判定する」 ジャッジ（Judge）です。前回は「１０人」と説明しましたが Loebner Prize 2009ではジャッジは次の４人だけだったようです。

ジャッジ	所属
Prof Alan Garnham	University of Sussex
Prof John Carroll	University of Sussex
Prof Shalom Lappin	King's College London
Mr Jon Bentley	The Gadget Show

たった４人のジャッジとなると「30%以上が人間と判定する」というチューリングテストの条件は１人で満たされず、実際には２人以上、つまり50%以上という条件になってしまいますねぇ。

ちなみに４人のうち３人までは教授なんですが、残る４番目のジョン・ベントレーはイギリスのテレビ番組（５チャンネル） The Gadget Show のキャスターだそうです。この番組は一般向けにテクノロジーを紹介する番組なんだそうですが、番組のテイストは YouTube のアーカイブからご覧ください。実は「ひょっとしたら Loebner Prize 2009 を紹介する回があるかも？」と思ったもので調べてみたのですが… 見つけられませんでした。

さて…

チューリングテストが「ジャッジの３０％以上が同一のコンピュータを『もっとも人間らしい』と評価した場合」をクリアの条件としていることは前回紹介しましたが、ローブナー賞ではそれ以外に２つの賞が設けられています。

１つはその年でもっとも優秀なチャットボットに与えられる The Most Human Computer （もっとも人間らしいコンピュータ）で、Loebner Prize 2009で選ばれたのは Do Much More でした*2。

もう１つはその年でもっとも優秀なコンフェデレイトに与えられる The Most Human Human （もっとも人間らしい人間）で、Loebner Prize 2009で選ばれたのは ブライアン・クリスチャン でした。

ブライアン・クリスチャンのレポート

僕が Loebner Prize 2009 に注目すべきと考えるもうひとつの理由は、このコンテストにコンフェデレイトとして参加したブライアン・クリスチャンが、その経験を元に執筆した書籍 "The Most Human Human" （邦題『機械より人間らしくなれるか』）を出版しているからです*3。

やはり、コンテストの当時者による打ち明け話は、いろんな意味で大いに参考になります。

本稿では書籍のプレビュー版に位置付けられそうなクリスチャンが月刊誌 Atlantic に寄稿した記事 "Mind vs. Machine" をサマライズします。

www.theatlantic.com

そもそもクリスチャンがローブナー賞に参加した動機は、前年の2008年の結果に「人類の尊厳が脅かされかねない」と感じたからのようです。

however, at the 2008 contest, the top-scoring computer program missed that mark by just a single vote. When I read the news, I realized instantly that the 2009 test in Brighton could be the decisive one. I’d never attended the event, but I felt I had to go -- and not just as a spectator, but aspart of the human defense. A steely voice had risen up inside me, seemingly out of nowhere: Not on my watch. I determined to become a confederate.

しかし、2008年のコンテストでは、トップスコアを獲得したコンピュータプログラムが、わずか１票の差でその座を逃してしまったのです。このニュースを読んだとき、私は即座に「2009年のブライトンでのテストが決定的なものになるかもしれない」と思いました。これまで一度も参加したことはありませんでしたが、単なる観客としてではなく、人類を守るために参加しなければならないと思いました。心の中でどこからともなく厳しい声が聞こえてきました。私はコンフェデレイトになることを決意しました。

１９９６年〜１９９７年、ＩＢＭのディープ・ブルーの挑戦を受けてたったガルリ・カスパロフを敬愛する彼は、自らをカスパロフになぞらえて「人類の尊厳を守る」との、いささかロマンチックな考えに突き動かされていたと言います*4。

コンフェデレイトとして Loebner Prize 2009 に参加することが許されて以降、クリスチャンはチャットボットの挑戦を退けるための綿密な準備を始めますが、この記事ではその準備作業の中の幾つかを披露しています。チューリングテストの哲学的・心理学的な考察の後、チャットボットの基礎であるジョセフ・ワイゼンバウムの ELIZAやリチャード・ウォレスの A.L.I.C.E. の紹介から始まる一連のレクチャが展開しますが、ここでは僕が気になったトピックを２、３上げておきます。

●ジャッジの２種類のタイプ：「おしゃべり」と「尋問者」

クリスチャンによれば、ジャッジは「おしゃべり」と「尋問者」の２種類のタイプに分類できるそうです。

I had learned from reading past Loebner Prize transcripts that judges come in two types: the small-talkers and the interrogators. The latter go straight in with word problems, spatial-reasoning questions, deliberate misspellings. ・・・ The downside to the give-’em-the-third-degree approach is that it doesn’t leave much room to express yourself, personality-wise.

The small-talk approach has the advantage of making it easier to get a sense of who a person is -- if you are indeed talking to a person. And this style of conversation comes more naturally to layperson judges. ・・・ The downside is that these conversations are, in some sense, uniform -- familiar in a way that allows a programmer to anticipate a number of the questions.

私はローブナー賞の過去の記録を読んで、ジャッジには「おしゃべり」と「尋問者」の２つのタイプがあることを知りました。後者は、単語の問題、空間的推論の問題、意図的なミススペルを真っ向から指摘してきます。・・・「厳しく詰問する」アプローチの欠点は、自己表現の余地があまり残されていないことです。

（前者の）「おしゃべり」方式には、実際に人と話している場合に、その人が誰であるかを簡単に把握できるという利点があります。このような会話スタイルは素人の審査員にはより自然に生まれます。・・・欠点は、これらの会話はある意味で画一的であり、プログラマーが多くの質問を予想できる慣れ親しんだものであるということです。

過去、ローブナー賞では「おしゃべり」タイプが暗黙的に推奨されてきたそうですが、このタイプの欠点に挙げられている「ある意味で画一的」とは挨拶などの定型的な会話、例えばジャッジが「今日は暑いねぇ」と話しかけてきた時、チャットボットの開発者は「そうですね、暑いですね」といった無難な返事を容易に想像できることを指摘しています。こういった会話で人間らしさを演出するのは難しいとクリスチャンは考察しています。

●「ライブタイピング」への対応

ローブナー賞では、何かキーを叩く度に相手のターミナルにその反応が表示される「ライブタイピング」機能が採用されていました。そこで意図的に、間を取ったり、削除キーを連打して入力を消したり、あるいはタイプミスを挿入したりして、人間らしいケアレスミスをシミュレートするテクニックを用いるチャットボットが初期の頃から存在しました。

クリスチャンは「ライブタイピング」の機能を使って人間らしさを演出するために次のような戦略を考え出しました。

I would treat the Turing Test’s strange and unfamiliar textual medium more like spoken English, and less like the written language. I would attempt to disrupt the turn-taking “wait and parse” pattern that computers understand, and create a single, flowing duet of verbal behavior, emphasizing timing.

私は、チューリングテストの奇妙で馴染みのないテキスト媒体を、書き言葉のようにではなく、話し言葉のように扱うことにしました。コンピュータが理解する話者交替の「待って、解析する」パターンを破壊し、タイミングを重視した、ひとつの流れるような言葉のキャッチボールによる二重奏を作り出すのです。

つまり「相手の反応を待たずにどんどん発言をしていく」という戦略で、クリスチャンは「チャットボットには真似できない」と考えていたようですが、非同期プログラミングが一般化した今日ではこの戦略をチャットボットも採用できるのではないか？と僕は思います。

●コンフェデレイトの策略

クリスチャンは「どんどん発言していく」戦略に「ライブタイピング」機能の活用に加えて更に新たな意義を見出していたようです。

The humans in a Turing Test are strangers, limited to a medium that is slow and has no vocal tonality, and without much time. A five-second Turing Test would be an easy win for the machines: the judges, barely able to even say “hello,” simply wouldn’t be able to get enough data from their respondents to make any kind of judgment. A five-hour test would be an easy win for the humans. The Loebner Prize organizers have tried different time limits since the contest’s inception, but in recent years they’ve mostly adhered to Turing’s original prescription of five minutes: around the point when conversation starts to get interesting.

A big part of what I needed to do as a confederate was simply to make as much engagement happen in those minutes as I physically and mentally could. Rather than adopt the terseness of a deponent, I offered the prolixity of a writer. In other words, I talked a lot.

チューリング・テストに参加する人間は、見知らぬ人であり、ゆっくりとした声色のないメディアに限定されており、時間もありません。５秒のチューリングテストは、機械にとっては楽勝です。「こんにちは」と言うことすらできないジャッジは、何らかの判断を下すのに十分なデータを回答者から得ることができないからです。５時間のテストは、人間にとっては簡単に勝てるでしょう。ローブナー賞の主催者は、コンテストが始まって以来、さまざまな制限時間を試してきましたが、「会話が面白くなってきた頃」というチューリングの言葉を守って、近年では、チューリングの最初の処方箋である５分にほぼ固執しています。

コンフェデレイトとして私がやるべきことの大部分は、この数分間に肉体的にも精神的にも可能な限り多くのイベントを起こすことでした。証言者のように淡々とするのではなく、作家のように諄々と話す。言い換えれば、私はたくさん話しました。

つまり「ジャッジに対してできるだけ多くの情報を与える」ことで「ジャッジが対話相手の人物像を想像することを助ける」と考察しています。クリスチャンはこのアプローチに従ったジャッジに対する自身の応答に自信を持っていたようですが、隣にいたダグ・ピータースの次の会話を覗いた時に打ちのめされたと語っています。

Judge: Hey Bro, I’m from TO.
Confederate: cool
Confederate: leafs suck
Confederate: ;-)
Judge: I am just back from a sabbatical in the CS Dept. at U of T.
Confederate: nice!
Judge: I remember when they were a great team.
Judge: That carbon date me, eh?
Confederate: well, the habs were a great team once, too …
Confederate: *sigh*
Judge: YEH, THEY SUCK TOO.
Confederate: (I’m from Montreal, if you didn’t guess)

Judge: よぉ兄弟、私はTOから来たんだ
Confederate: クール
Confederate: リーフス最低
Confederate: ;-)
Judge: 僕はT大学のCS学部でのサバティカルから戻ってきたところだ
Confederate: いいね！
Judge: 素晴らしいチームだったことを覚えてるよ
Judge: 僕には大昔のことだけどね（笑）
Confederate: まあ、ハブスもかつては素晴らしいチームだったけど...
Confederate: *ため息*
Judge: ええ、奴らも最低だ。
Confederate: （想像していなかっただろうけど、僕はモントリオールから来たんだよ）

訳注: ここではカナダのホッケーチームのトロント・メープルリーフス（leafs）と
モントリオール・カナディアンズ（habs）の話をしている。
両チームは伝統的なライバル関係にある。

ジャッジが共感できる話題を見つけた場合、コンフェデレイトはより人間らしい対応ができるとクリスチャンは考えていたようですが、これもある面では「定型的な会話」になるんじゃないか？と僕は思いました。例えば、相手が阪神タイガースのファンだとわかった場合「バース、掛布、岡田」と発言すれば会話相手は更に饒舌になるように思いますから。

ともあれ…

クリスチャンのコンフェデレイトに関する考察は非常に興味深い内容で、チャットボットの開発者も１度コンフェデレイトを経験すると解決すべき課題が具体的にイメージできるようになると思いました。

ローブナー賞とは？

クリスチャンの記事に時折挟み込まれるローブナー賞の様子は、微笑ましいものです。例えば…

Ridiculous Canadians and their ice hockey, I’m thinking. Then I’m thinking how ridiculous it is that I’m even allowing myself to get this worked up about some silly award. Then I’m thinking how ridiculous it is to fly 5,000 miles just to have a few minutes’ worth of IM conversations. Then I’m thinking how maybe it’ll be great to be the runner-up; I can compete again in 2010, in Los Angeles, with the home-field cultural advantage, and finally prove --

“And the results here show also the identification of the humans,” Jackson announces, “and from the ranking list we can see that ‘Confederate 1,’ which is Brian Christian, was the most human.”

And he hands me the certificate for the Most Human Human award.

「愚かなカナダ人と彼らのアイスホッケー…」と私は考えていました。そして、バカげた賞のことでこんなにも自分に言い聞かせているなんて、なんて馬鹿げているんだろうと思ってしまいました。それから、たった数分のインスタント・メッセージでの会話のために 5000マイルもの距離を飛んで来ることがどれほど馬鹿げているかを考えていました。さらに、準優勝というのは素晴らしいことかもしれないとも考えました。 2010年にロサンゼルスで、ホームフィールドの文化的優位性を生かして再び出場し、最終的には次のように証明することができて…

「そしてここでの結果は、人間の識別も示しています」とジャクソンは発表します。「そしてランキングリストから、ブライアン・クリスチャンである ‘Confederate 1’ が最も人間的であったことがわかります」

そして、彼は "Most Human Human" の賞状を手渡してくれました。

実は、クリスチャンが記述しているこの感動的なシーンは前述のビデオにも登場します。が、彼が言うほどには感動的ではない、いや、もっと率直に語ると「非常にそっけないシーン」に見えます。きっと、これは彼の心象風景だったのでしょう。

「オタクのオタクによるオタクのためのコンテスト」

これがローブナー賞の真実のように僕には思えます。そしてビデオでは、このコンテストの創設者であるヒュー・ローブナーへの感謝が繰り返し語られます。一部では「売名行為」と揶揄されているローブナーですが、さまざまな批判や妨害に耐え、時には私財を注ぎ込んでまで、この毎年開催されるコンテストを長らく維持・運営してきた彼への深い感謝が感じられます。米国人である彼が始めたにも関わらず、ローブナー賞は英国人のためのコンテストです。それが日本人である我々には見えにくいローブナー賞のもうひとつの顔なのかも知れません。

ビデオやクリスチャンのレポートから感じるコンテストへの情熱は、以前読んだスティーブン・レヴィの名著『ハッカーズ』に登場するホームブリュー・コンピュータ・クラブを彷彿させるものです。オールドファンの方々はご記憶のことと思いますが、 Apple を設立した「もう一人のスティーブ」ことスティーブ・ウォズニアックが毎回クラブに持ち込んでいたマイクロプロセッサによるホームコンピュータ（のボード）こそが後の Apple の最初のベストセラーである Apple II となります。また開発したBASICインタープリターを使ってビジネスを始めたビル・ゲイツを最初に酷評したのも、このクラブでした。

僕は、こういった純粋で無垢で情熱的な衝動を（かつての）ローブナー賞にも感じてしまうのです。

ローブナー賞の現在

もっとも、このローブナー賞の「古き良き時代」は Loebner Prize 2009 の時点で終わりに向けて走り出していたように見えます。クリスチャンは The Most Human Human の受賞には喜びつつも、その際に感じた戸惑いについて次のように語っています。

I DIDN’T KNOW how to feel, exactly. It seemed strange to treat the award as meaningless or trivial, but did winning really represent something about me as a person? More than anything, I felt that together, my fellow confederates and I had avenged the mistakes of 2008 in dramatic fashion. That year, the 12 judges decided five times that computer programs were more human than confederates. In three of those instances, the judge was fooled by a program named Elbot, which was the handiwork of a company called Artificial Solutions, one of many new businesses leveraging chatbot technology. One more deception, and Elbot would have tricked 33percent of that year’s dozen judges -- surpassing Turing’s 30 percent mark, and making history. After Elbot’s victory at the Loebner Prize and the publicity that followed, the company seemingly decided to prioritize the Elbot software’s more commercial applications; at any rate, it had not entered the ’09 contest as the returning champion.

正直なところ、どのように感じればいいのかわかりませんでした。この賞を無意味なもの、つまらないものとして扱うのはおかしいと思いましたが、「受賞は私という人間の何かを表しているのか？」（と考えてしましました。）何よりも、コンフェデレイトの仲間たちと一緒に、2008年の失敗を劇的な形で取り返せたと感じました。前年、12人の審査員は、コンピュータプログラムの方がコンフェデレイトよりも人間らしいという判断を５回下しました。そのうち３回は、Elbot というプログラムに騙されました。このプログラムは、チャットボット技術を活用した数多くの新興企業のひとつである Artificial Solutions 社が開発したものです。もし、もう一回騙せていたら、Elbot はチューリングの30％を超え、歴史に名を残すことになったのです。 Elbot がローブナー賞を受賞し、世間の注目を集めた後、同社は Elbot の開発を優先したようです。いずれにしても、2009年のコンテストには、返り咲きのチャンピオンとして参加していません。

つまり、クリスチャンにコンフェデレイトとしての参加を決意させたチャットボットと彼が対決することはなかったのです。

これはまた、ローブナー賞でのビジネス指向の台頭を示す出来事でもありました。ローブナー賞で The Most Human Computer を獲得したチャットボットの多くは、その後、何らかの形でビジネス化へと踏み出していきました。これはかつてのホームブリュー・コンピュータ・クラブでも起こった現象です。

ヒュー・ローブナーはアラン・チューリング・イヤー（2012）の前年を最後にローブナー賞の運営からは退き、 Turing Centenary Advisory Committee（TCAC: チューリング100周年記念諮問委員会）のメンバーとなりました。そして2016年12月に亡くなりました。

2014年以降、ローブナー賞はブレッチリーパークの AISB （世界最古の人工知能学会）が運営を引き継いでいます。 2019年にはルールが変更され、ジャッジもコンフェデレイトも廃止されました。代わりに、チャットボットは一般の人々によって審査されています。

以上

*1:ローブナー賞コンテストの様子を収めたもうひとつの映像は次の Loebner Prize 2007 のビデオです。

www.youtube.com

噂のヒュー・ローブナーの自宅で開催されたコンテストだったことが映像からも窺い知れます。

*2:Loebner Prize 2009での Do Much More の会話ログは次で公開されています。

2009 Loebner Prize Competition Transcripts

案外、たわいもない会話のような…😀

*3:ブライアン・クリスチャンの書籍は次のリンクで辿れます。

www.penguinrandomhouse.com

ちなみにこの書籍がベストセラーになったため、クリスチャンは一躍ノンフィクション作家の仲間入りを果たしました。

なお日本語訳は草思社のサイトで確認できます。

www.soshisha.com

ちなみに文庫版も刊行されています。一般教養としてのＡＩをギュッとまとめられているので、おすすめの一冊です。

*4:哲学の学位を持ち、詩作による美術修士も取得しているクリスチャンには、それが自然なことに思えたのでしょう😀

2021-07-12

チューリングテストのアナロジー

Turing Test Analogy

2021/07/12
藤田昭人

前回は久方ぶりに読み物的記事を書いたのですが、予想外に多くの方々に読んでいただけたようで…ありがとうございます。図らずも「チューリングテストは案外認知度が高い」と再確認できた次第。ですが、僕的には正直言うと勢いだけで書いた記事だったので、読み返してみるとあまりに散漫な内容だったなぁと反省しているところです。

そこで…

前稿の後半部分の「チューリングテストの今日的な意義」にフォーカスして、幾つかのテーマを書きたいと考えています。本稿ではまず「男性のフリをする女性」と「女性のフリをする男性」の話から。

「男性 vs 女性」の模倣ゲーム

前回、この話は「チューリングの論文の冒頭で語られている」と説明しましたが、そのくだりを新山祐介さんが翻訳された "Computing Machinery and Intelligence"（計算する機械と知性）から引用します。

次のような問いについて考えてみよう:

「機械は考えることができるだろうか?」

まず始めに「機械」とか「考える」という用語の意味を定義しないといけない。この定義は、なるべくその言葉のふつうの使いかたを反映するように作られてしまうかもしれない。しかしこういった態度は危険だ。もし「機械」や「考える」という単語の意味がそれらの一般的な用法を調べて明らかになるのなら、つぎのような結論になってしまうのは避けられないからだ。つまり、「機械は考えることができるか」という問いの意味とそれに対する答えは、ギャラップ社の世論調査のような統計的調査によって求められるべきだ、ということになる。そんなのはバカらしい。ここで私はこんな定義をするかわりに、この問いを別の、これとかなり似てはいるがそれほど曖昧でない言葉で言いかえてみよう。

ここまでは論文の本来のテーマ「知能機械」について語られてます。が、その後、論文は突拍子も無い方向に展開します。

この問いの新しい形式は私たちが「模倣ゲーム」と呼ぶゲームによって表わされる。これは男性 (A) と女性 (B)、および性別は問わない一人の質問者 (C) の 3人によって行われる。まず質問者はほかの 2人とは別の部屋に入る。質問者にとってのこのゲームの目的は、この 2人のうちどちらが男性でどちらが女性かを言い当てることだ。質問者は彼らを X と Y という名前で呼び、ゲームの終わりに「X が A で、 Y が B」あるいは「X が B で、 Y が A」のどちらなのか当てるのである。質問者は A と B に次のような質問をすることが許されている:

C: X さんの髪の長さを教えてもらえますか?

ここで、実は X が A であるとしよう。すると A は答えなければならない。このゲームでの A の目的は、 C が間違った判断をするようしむけることである。彼の答は、たとえば次のようなものになる:

「私の髪はみじかくて、長いところでも 9インチぐらいです」

声の高さで質問者に悟られてしまわないように、答は紙に書くのがよい。タイプライターによってタイプすればさらによい。理想的な環境は 2つの部屋のテレタイプでつないで通信させることだ。あるいは質問と回答を、仲介者を通してくりかえすようにしてもよい。このゲームでの B の目的は、質問者を助けることだ。彼女のもっともよい戦略は、おそらく本当のことを正直に答えることだろう。彼女は「女のほうは私です、彼の言うことを聞いてはいけません!」などとつけ加えることもできるが、これは何の役にも立たない。なぜなら男の方も同じようなことが言えるからだ。

このように「チューリングテスト」の事をチューリング自身は「模倣ゲーム」と呼んでいました。チューリングの伝記映画のタイトルにもなりましたので耳馴染みのある方もいらっしゃるでしょう。でも、この「模倣」の意味を正しく理解している方は案外少なかったかも。これが「男性のフリをする女性」と「女性のフリをする男性」が繰り広げる騙し合いのゲームだったことをチューリングは論文の冒頭で語っています。

ところが…

ではここでひとつ問いを立ててみよう。「このゲームで機械が A の役をうけもったら何が起こるだろうか?」こうすると、ちょうど男性と女性によってこのゲームが行われているときと同じくらい、質問者は判断を誤るだろうか? この問いは私たちの最初の問い「機械は考えることができるか」を置き換えるものになる。

…と、またまた唐突に「人間 vs 機械」の話に戻ります。

論文ではその後「男性 vs 女性」の話は登場しません。話題はストアド方式によるデジタルコンピュータの仕組みへと移ります。それ故、冒頭の話はコンピュータが一般的ではなかった当時「人間 vs 機械」の問題を読者にリアルに認識してもらうためのアナロジーと理解されてきました*1。

現在の技術を使ったチューリングテスト

チューリングの論文が発表されてから７０年あまり経過した今日、論文ではチューリングが説明に苦労したコンピュータは一般的なデバイスとして広く普及してますし、デジタルコミュニケーションも格段に進歩して音声付き映像によるテレコミュニケーションも日常的なツールとして利用されています。

調べてみると「人間 vs アンドロイド」による総合的チューリング・テストという提案があるそうで、今ではそのようなテストが実現可能であることに疑いを持つ人もあまりいないのではないかと思います。

では「男性 vs 女性」のテストの方はどうでしょうか？

是非はともかく「男性のフリをする女性」と「女性のフリをする男性」というテーマの方もロボットやＡＩ以上に格段に進歩した言える（言わざる得ない）現状があるように思います。次は前回も登場した「ジェンダーレスボーイ」井出上漠くんの映像です*2。

www.youtube.com

この映像は５分間程度でチューリングテストでの１回のセッションに概ね一致します。仮にあなたがこの映像の背景を全く知らないまま、この５分間の映像を最後まで見たとします。

あなたは「彼」だと思いますか？
それとも「彼女」だと思いますか？

モルモット扱いをして漠くんには申し訳ないのですが…

現在のデジタルコミュニケーションの技術を使ってチューリングテストを行うとこんな感じになるのではないか？と僕は考えてます。チューリングテストでは JUDGE（審査員）が一人当たり５分間会話しますが、 JUDGEがこのようにＳＮＳのＤＭを使って質問をし、質問に答えてる様子を映像を見ながら「男性 or 女性」（あるいは「人間 or 機械）を審査するという形式なら、ＳＮＳを使って比較的簡単にチューリングテストの環境を構築できそうです。

この映像では「どうしてそんなに声が高いの？」というフォロワーからの質問に漠くんは一生懸命答えてますが、チューリングテスト的観点でよく見ると、身振り手振りを交えながら質問に答えてる、特に手を忙しなく動かしていることが確認できます。それが話者の人間らしさ（女性らしさ）の演出に大きく寄与しているように思えますが、そう言った細かな仕草なども考慮するとなると、もしこういった形式で「人間 vs 機械」のチューリングテスト、つまり前述の「総合的チューリング・テスト」を実施した場合、クリアできるアンドロイドが登場するにはまだまだ時間が必要な気がしますね。

チューリングテストの今日的な解釈

漠くんの映像を手がかりに、チューリングテストに現在のデジタルコミュニケーション技術を活用すると対話のリアリティが格段に向上することを擬似的に確認してもらった訳ですが、これはチューリングテストのもう一つの隠されたテストを顕在化させるように思います。すなわち…

あなたはこのような存在を人間社会が受け入れることができると思いますか？

…と問いかけられているように思えてくる訳です。おそらく今後アンドロイドの性能がさらに向上し、振る舞いにドンドン人間らしさを帯びてくるにしたがって、この即答できそうにない質問を強く問い詰められているように感じるのではないかと僕は想像しています。

言うならば「機械は思考できるか？」がチューリングテストの表の問いならば「思考する機械を人間は受け入れられるか？」は裏の問いになる訳で、各々の問いはチューリングテストの必要条件と十分条件に相当するのではないかと思います。

もちろん必要条件が成立しなければ十分条件には意味はないのですが、必要条件が成立したと言う伝聞も相まって現実の出来事として遭遇する予感があるので十分条件が気になり出した… 例えば前回もふれましたが、ＳＮＳが広く普及している今日、知らず知らずのうちにチャットボットと会話しているといった状況は誰にでも起こり得ることです。

このような「チューリングテストのような日常」を意識するようになると、誰もが十分条件について考えざる得ないのではないでしょうか？現在の我々の日常を鑑みるとチューリングテストの意味や理解について修正を迫られているように僕は考えています。

クリアの条件

最後にチューリングテストのクリアの条件について…

本稿の冒頭で引用した１９５０年にチューリングが発表した論文は、チューリングテストの手順を詳細に語る文献としてよく知られていますが、チューリング自身が想定した「テストへの反論」に対する丁寧な考察は書かれているものの、チューリング自身が考える「クリアの条件」には言及がありません。

ですが…

チューリングテストのコンテスト界隈では「論文の発表後、チューリング自身がクリアの条件について語った」と言われています。例えば前述の「総合的チューリング・テスト」を提案しているジョス・デ・ムルはチューリング自身が言及したとされるチューリングテストのクリアの条件について次のように説明してます。

このテストにパスするために，知性的機械 -- それはコンピューター・プログラムによって動かされている -- は，少なくとも 30% の質問者を，5 分間自身が人間であると騙すことができなければならない。チューリングは，このテストを機械がパスできるためには 50 年かかるだろうと予測した。すなわち，2000 年である。この予測はそれほど外れていなかった。 2014 年に，最初のコンピューター・プログラムがテストをパスした。

このチューリングの言及は、 1952年にＢＢＣのラジオ番組（？）として放送された学識経験者同士の対談番組での発言に由来しているようですが*3、世のチューリングテストに基づく多くのコンテストではこのクリア条件に基づいてルールが定められているようです。

例えば、最古のチューリングテストに基づくコンテストであるローブナー賞では、４台のコンピュータ（人間のフリをする機械、チャットボット）と４人のコンフェデレイト（機械のフリをする人間、共犯者）からなる都合８名の覆面対話者に対し、１０名のジャッジ（審査員）が１名あたり５分間会話をし、その後５分間でジャッジは各人ごと対話者のランキングを修正します。全てのジャッシが全ての覆面対話者と会話しますので全体では８０分あまりの時間を要します。

このようにして作成された１０人分の対話者ランキングに基づいて対話者の審査を行う訳ですが、ジャッジの３０％以上、つまり３名以上が同一のコンピュータを「もっとも人間らしい」と評価した場合、このコンピュータはチューリングテストをクリアしたと認定されます。

ジャッジの主観的な評価に基づいているので、ローブナー賞の審査には是非の議論がついて回って来ました。しかし「質問者の３０%以上」と言ったのはチューリング自身と言われていますので、その責任をローブナー賞に求めるのは無理があるのかも知れません。

なお「テストをクリアするのに５０年間を要する」とは、正確には「２０００年ごろにはクリアできるだろう」とのチューリングの発言に基づき、論文が発表された１９５０年から計算されたようです。

ちなみに「２０１４年にパスした」とは前回紹介した2014年のレディング大学が独自に企画したチューリングテストの実験のことです。この実験でもローブナー賞と概ね同様のルールが採用されたと思われます。

したがって…

チューリングテストの必要条件が成立するまでに６４年間を要したことになります。では、十分条件が成立するまでにはどれくらいの時間を要するのでしょうか？前述のように「質問者の３０%以上」に対する懐疑論が存在するので、ローブナー賞などのコンテストでの実績に基づく予想は難しそうなのですが…

十分条件を「思考する機械が社会的認知を得て市民権を獲得する」と理解すると、チューリングは予想外のヒントを提供してくれてるかも知れません。

すなわち…

彼が当時違法とされた同性愛で逮捕されたのは１９５２年、同性愛の違法性が否定され彼の名誉が回復されたのは２０１４年ですから、彼の事例では社会的認知が覆るのに要する時間は６２年間ということになります。もっともこの事例は、チューリングが残した業績を高く評価し、彼の名誉回復のために尽力した方々が多数存在したからで、おそらく「ベストケースの場合」との但し書き付くのでしょうが…

少なくとも…

どうやら本稿で書いた諸々が全て陳腐化するまでに１００年待たされることはなさそうです😁

以上

*1:おそらくチューリングの論文の主な読者である理工学の学生や研究者は「人間 vs 機械」の話題に関心はあっても（文学部の学生に比べて）「男性 vs 女性」の話題には無関心、あるいは避けているのが一般的でしょうから、「男性 vs 女性」の話は記憶から抜け落ちてしまうのだろう… などと僕は自分勝手に想像しています😀

*2:この映像はおそらくインスタグラムかYouTubeの彼のフォロワーに対するライブ配信を録画したものでしょう。この種の彼の映像はYouTubeで幾つも見つけることができます。

*3:いずれ事実関係を詳しく調べてみたいと考えてますが…

僕が想像するに、この発言はテレビ番組あたりで無茶振り質問を食らった大学の先生が、苦し紛れに返答する「直感的には…」から始まる発言だったのではないかと思っています。

それが「30%」や「５分間」「５０年」などの数字に対する明確なエビデンスが示されてない理由で、それ故、論文等の文献には残されてないのではないかと想像しています。

2021-07-01

チューリングテストについて改めて思うこと

A new thought about the Turing Test

2021/07/01
藤田昭人

唐突ですが…

久しぶりに読み物を書きたくなって本稿を書いてます。

テーマは「チューリングテスト」です。

エッセイなどというオシャレな文章ではありませんが、
ちょっとした暇つぶしにはなるかとは思います😁

２０１４年のチューリングテストへの批判記事

本稿を書きたくなったのは、次の記事を見かけた事がきっかけでした。

www.itmedia.co.jp

３年前の2018年07月26日に公開された記事だったのですが、タイトルの「4年前の『ＡＩがチューリングテスト合格』騒動は何だったのか？」が妙に挑発的に感じられたので覗いてみたところ…

この記事が問題にしているのは、 2014年6月8日に英国レディング大学で実施されたチューリングテストの実験でした。「チャットボット Eugene Goostman がチューリングテストをクリアした」との報道には僕にも記憶があります。しかし、この記事は「チューリングテスト合格は本当？」とテストの正当性に疑惑を提示する文言が並んでます*1。

確かに、このレディング大学のイベントに限らず、チューリングテストに基づくコンテストにはその正当性に疑義を突きつけられる事例もあるのですが…

２０１４年といえばアラン・チューリング法が成立し、英国王室よりアラン・チューリングを始めとする過去の同性愛を理由に逮捕・投獄された方々への恩赦が正式に発表された年です。チューリング生誕１００周年を祝った２０１２年のアラン・チューリング・イヤーに続き、英国がチューリングの名誉回復に祝ってお祭り騒ぎに沸いてる年に開かれたチューリング関連のイベントに対し後出しのように疑義を提示するというのは何とも無粋な感じですよね？*2

記事では、レディング大学のイベントを一通り腐した後、アラン・チューリング自身が語った論文 "Computing Machinery and Intelligence" を持ち出してきます*3。記事の著者としては「原典に当たれば、自ずと答えが見えるだろう」という思惑だったのでしょう。が、残念なことに彼の思惑は大きく空振りだったようです。著者が残したこの記事の結論は次のような１文でした。

私が感じたのは「思考する行為」と「思考しているフリの行為」の違いは何かという問題提起です。

この、尻切れトンボのような幕切れに僕は大笑いしてしまいました。
著者に申し訳ないですが、どうにも苦し紛れの一言のように僕には感じられて…
どうやらこの記事の著者は「チューリングテスト」を甘くみていたようですね*4。

まぁ、その場は記事を笑い飛ばして終わったのですが（失礼）

数日後、この記事のある部分からちょっと想起されることがありました。それが次のくだりです。

人間の頭の中はのぞけません。その人の思想、信条を無理にでも知ろうとする行為は、自由に反します。法に触れる可能性もあるでしょう。「思考しているフリ」をして「思考している！」と主張されれば、一体どうやってそれを証明できるでしょうか。

思考だけではなく、愛も、憎しみも、敬意も、軽蔑も、実際に目に見えないものをどうやって証明するのか。同じように「そうではないこと」をどうやって証明するのか。非常に難しいと言えます。

「お前は私を愛していない」とレッテル張りされれば最後、どう反証しても目に見えませんから言葉で説明する他ありません。その言葉を信じられなければどうしようもありません。

このくだりを改めて読んで想起されたのは「第２次ＡＩブームの終焉」でした。そこで、この文章だけを拝借して、僕なりの記事を書いてみたくなったという訳です*5。

第２次ＡＩブームの終焉

「第２次ＡＩブームの終焉」と書くと非常にわかりづらいのですが、僕を含めた現在５０歳以上の情報系の面々には、これは特に拘りのある問題ではないかと思います。端的に述べると「いったい、いつから機械学習はＡＩの研究分野になったんだ!!」ということです。

第２次ＡＩブームが終わったのは概ね１９９０年前後だったと記憶してますが、それまでＡＩは「思考のメカニズムを解き明かす」研究分野だと説明されていました。当時、機械学習は既に存在していましたが、それは単に「人間の振る舞いを模倣するだけ」と説明され「ＡＩではない」と指導教官や先輩に嗜められる学生や若手エンジニアが多かったのです。なので現在のＡＩブームが起こった時、その中身が機械学習だと聞いて「それってＡＩじゃないのでは？」と反論する方々も多かったのではないでしょうか？

こういう思いを抱えているのは僕らだけではないようです。例えば、今日のモダンなチャットボットの実装基盤のひとつである A.L.I.C.E. の開発者リチャード・ウォレスはインタビューに次のように答えています。

At first, he said, he had tried to follow some of the more grandiose theories of traditional A.I., but he found them sterile. "You read a book with a title like 'Consciousness Explained,'" he said, "and you expect to find some kind of instruction manual, something that you can use to build a consciousness. But of course it's nothing of the kind." (Daniel Dennett wrote "Consciousness Explained.")

最初は、伝統的なＡＩの壮大な理論のいくつかに従おうとしたが、それは不毛だと思ったという。彼が言うには「もし "Consciousness Explained" のようなタイトルの本を読んだとしたら、ある種の手順書や意識を構築するために使用できる何かを期待するでしょう。しかし、もちろんそのようなものは何もありません」ということだ。（"Consciousness Explained"『意識の説明』はダニエル・デネットの著作）

Artificial stupidity, Part 2 から引用

つまり、前述の記事のくだりは、第２次ＡＩブームまでの「思考のメカニズムを解き明かす」ＡＩ研究の限界を指摘する素朴だけど痛烈な批判だと僕には思えます。

そこで、第２次ＡＩブームの終焉の始まりを明確に示す出来事を調べてみたのですが…

それまでのＡＩ研究に引導を渡したのは当時の DARPA/ISTO のディレクタだったジェイコブ・T・シュワルツだったそうです。

mathshistory.st-andrews.ac.uk

DARPA のディレクタと言えば ARPANET の構築や Internet の実現に辣腕を振るったボブ・カーンが有名ですが、シュワルツはその２代あとのディレクタです。彼が引導を渡した経緯について調べてみたところ、「ＡＩの歴史」を語った歴史的名著 "Machines Who Think: A Personal Inquiry Into the History and Prospects of Artificial Intelligence" に次のような記述があることを見つけました。

Schwartz believed that DARPA was using a swimming model — setting a goal, and paddling toward it regardless of currents or storms. DARPA should instead be using a surfer model — waiting for the big wave, which would allow its relatively modest funds to surf gracefully and successfully toward that same goal. As a consequence, he eviscerated Strategic Computing, a swimmer model in his view (though Kahn’s original vision certainly seemed to be premised on catching the wave that was beginning to swell). Schwartz thought that in the long run, AI was possible and promising, but its wave had yet to rise, so a number of sites working on AI and robotics found their funding cut suddenly and brutally. Schwartz’s own interests lay in new architectures, which he favored as the swelling wave, and so he funded the revival of connectionism and machine intelligence, based on new findings in neural modeling.

シュワルツは、DARPA がスイマー・モデルを使っていると考えていた。つまり、目標を設定して、流れや嵐に関係なく、その目標に向かってパドリングしているのだ。しかし、DARPA はサーファー・モデルを使うべきだ。大きな波を待っていれば、比較的少ない資金でも同じ目標に向かって優雅に成功することができる。その結果、シュワルツは Strategic Computing を廃止した。彼の考えでは、Strategic Computing はスイマー・モデルだった（ただし、カーンの当初の構想は、うねり始めた波を捕まえることを前提にしていたようだ）。シュワルツは、長い目で見ればAIは可能で有望だが、その波はまだ高まっていないと考えていた。そのため、ＡＩやロボット工学に取り組んでいる多くのサイトでは、突然、残酷にも資金が削減された。シュワルツは、自分の興味が新しいアーキテクチャにあり、それが波のように押し寄せてくることを好ましく思っていたので、ニューラル・モデルの新しい知見をもとにコネクショニズムや機械知能を復活させるための資金を提供した。

ここで登場する Strategic Computing とは第２次ＡＩブームの際、DARPA がＡＩ研究のために設立した組織です。シュワルツはこの組織が助成する研究チームを切り替えることで、旧来のＡＩ研究に引導を渡したようです。またここで語られている「ニューラル・モデルの新しい知見に基づくコネクショニズムや機械知能」にはその後、今日の機械学習などへと発展する研究プロジェクトが含まれていました。

結局、我々の世代が習ったＡＩ研究が「徒労とまでは言わないが、いつなったら完成するのか全く見通せない代物」だったということは、その後の歴史が示すとおりです。前述のリチャード・ウォレスは、別のインタビューでＡＩについて次のように語っています。

"The smarter people are, the more complex they think the human brain is," he says. "It's like anthropocentrism, but on an intellectual level. 'I have a great brain, therefore everybody else does -- and a computer must, too.'" Wallace says with a laugh. "And unfortunately most people don't."

「頭の良い人ほど人間の脳は複雑だと思っています」と彼は言う。「人間中心主義に似ていますが、それは知的レベルの問題です」。「僕は頭がいいから、ほかのみんなもそうする。コンピュータもそうしなければならない」とウォレスは笑う。「残念ながらほとんどの人はそうではありません」

"Approximating Life" , July 7, 2002, Section 6 から引用

しかし、真の天才であるアラン・チューリングは、彼の周囲にいる秀才たちが「問題を複雑に考えすぎて失敗する」ことに気づいていたかも知れません。そう考えると「チューリングテスト」の「知能があると判定する基準」を属人性のある曖昧な形に留めたことに、不思議と納得できるような気がするのです。

チューリングテストの今日的な解釈

次はおそらくアラン・チューリングが全く想像できなかったであろう話、
今日のＳＮＳにまつわる話です。

例えば、Twitter。僕も Twitter を日々利用しているのですが、タイムラインを眺めているとモデルや女優と見紛うような美人の呟きが流れて来ることがあります。もちろん面識のない女性です。そこでプロフィールを見てみるとごく普通の一般人のように見えます。その時、僕が考えるのは…

最新のコスメを駆使した「作られた可愛い」の人だろうか？
いや、最新アプリを使いこなした「画像合成美人」だろうか？
いやいや、どこから顔写真を盗んできたネカマかもしれない？
ひょっとして、これチャットボット何じゃないの？

…とまぁ、その美しさをシンプルに讃える訳ではなくて、猜疑心をどこまでも肥大していってしまうことを告白します😀

今どきのＳＮＳとチューリングテストの関係を端的に示す事例をもうひとつ…

最近ＴＶＣＭでも見かけるようになった「ジェンダー・レス」ボーイの井手上漠くん（ちゃん付けした方が良いのかな？）今どきの若者の彼はＳＮＳも積極的に活用していて、例えばインスタグラムのアカウントも公開してます。で、芸能人になったこともあってかフォローしておくと律儀に毎日のように写真や動画をアップしていることがわかります。これまた、タイムラインに唐突に現れるのですが… その写真を目にした瞬間「この美人、誰？女性？男性？」と一瞬混乱状態に陥ることも告白しておきます😀

「それとチューリングテストに何の関係があるんだ？」と突っ込まれそうですが…

チューリングテストの論文を思い出してください。この論文は「人間 vs 機械」の比較テストについて述べているのですが、その冒頭で読者の理解を促すため「男性 vs 女性」の事例について言及しています。テレタイプ越しに「男性のフリをする女性」と「女性のフリをする男性」が登場する話です。不意に井手上漠くんの写真を突きつけられると、ひとしきり混乱した後、僕はいつもこのチューリングの語りを思い出してしまうのです。「彼なのだろうか？彼女なのだろうか？」と…

僕の、というか現在の多くの人々のこの日常は、１９５０年に知能機械の可能性を探るためにチューリングが考え出したテストの舞台装置が、今日の僕たちの日常になってしまっていることを意味しています。さらにもっと言ってしまうと、こういったデジタルコミュニケーションが推奨されるコロナ禍の今、このようなコミュニケーションがさらに加速させるような圧力があります。

もちろん、社会のこのような変化への是非について皆さん色々な意見があると思いますが、僕にとって重要なことは今日の状況が僕たちのチューリングテストへの理解や解釈を一変させてしまう…それが容易に想像できる状況に今、僕らはいるという事実に、僕はちょっと驚いてしまうのです。

それから気がかりなことがもうひとつ…

改めて考えると、僕たちは日常的に「フリ」をします。「嘘をつく」だとか「他者を欺く」といった悪意あることはそんなに頻繁ではないでしょうが、「見なかったフリをする」だとか「気づかなったフリをする」ことは案外多い。また気まずい状況を笑に変えるためのジョークでは「誰かのフリをする」こともあります。「優しい嘘」なんて言葉があるくらいですしね*6。

ＳＮＳはこういった人間の「フリ」をする癖を助長させます。例えば、Twitter では別にアカウントを取得して別のキャラクターを演じたりすることがありますが、これも日常的で些細な「フリ」の延長上にある行動だと思います。ですが問題は、こうやって生まれた「フリ」の発言も含むＳＮＳのビッグデータが機械学習に使われることです。学習する際に「正直」な発言と「フリ」の発言は容易には区別できません。

もちろんＳＮＳ各社はトレンド分析などで、このようなデータを使っているでしょうし、そこから得られたデータの正しさに関する傾向も常時把握しているのでしょうが…

彼らのデータの正確性を向上させるための基本戦略は「収集データを増やす」ことだけのように思います。もし、僕にＳＮＳ各社のエンジニアに質問できる機会があれば是非この質問をブツけてみたいのですが、きっと答えは「正確性を向上するためいろんな補正をしています」だとか「それは社外秘なのでお答えできません」だとか…

またまた「問題を複雑に考えすぎて失敗する」のような匂いがしてきませんか？

この問題を抜本的に解決する方策の１つに「全部フリで発言された」と解釈することで、これは多くのチューリングテストに基づくコンテストで用いられている方法のように思います。つまり、チャットボットが「人間のフリ」をするのに対し、人間は「チャットボットのフリ」をする。それで、どちらが（あるいはどれが）一番、ジャッジを騙せたか？を競うのが一般的なチューリングテストに基づくコンテストなんです*7。もちろん、これが解決策になり得るのは知能レベルを競うだけで（一般に素直に発言するよりも、フリをする方が知能が必要です）、周囲はゲーム感覚で見てることができるチューリングテストに基づくコンテストの場合だけであることは言うまでもないのですが…

ともあれ…

ＳＮＳにより「フリをするコミュニケーション」がコモディティ化している今日、そのコミュニケーションにより発言者の知能を評価するチューリングテストには新たな役割が課せられるかも知れないなぁ… などと僕は考えています。

「思考する機械」の実像とは？

最後に、ＳＮＳのお陰で（あるいはせいで）僕らの身近なところにチューリングテストの世界が存在するようになった現在について考えたいと思います。

例えば、Twitter には相当数のチャットボットが存在します。名前に bot と付いた明示したチャットボットもありますが、そうではない存在を隠して「思考するフリをする」チャットボットも多数紛れ込んでいるのではないかと僕は何年も前から想像してきました。最初にそのように疑った時には何か薄気味悪い感じがしたかも知れません。でも今はその時に感じた事も思い出せないくらい慣れっこになっています。何故なら人間もチャットボットと同じぐらい「フリ」をするから。

この「思考するフリをする機械」はＳＮＳだけの話ではないようです。例えば、将棋ＡＩを対戦したことのあるプロの棋士によると「将棋ＡＩと対戦しているとＡＩに意思や感情があるように錯覚することがある」と言います。「指手で会話する」という感覚は僕には全く理解できないのですが、仮にチャットボットでも「思考するフリ」をどんどん高度化していくと、対話相手の人間にはそこに人格が存在するかのように感じられるようになるのかも知れません。

これは漫画『攻殻機動隊』に登場する「ゴースト」みたいなものなんじゃないかな？と思ったりします。この作品の英語タイトルが "Ghost in the Shell" というぐらいなので、「ゴースト」はこの作品シリーズで一貫するコンセプトだと思うのですが、作品をご存知ない方のために少し紹介しておくと、主人公の草薙素子は身体のほとんど義体化（機械化）してしまっているサイボーグであるにもかかわらず、人間だった時の自我や意思（のようなもの）が残っていること感じ、その理由を追い求めている…といった話です*8。

この「ゴースト」というコンセプトは「チューリングテスト」を非常にわかりやすくしてくれるのではないか？と僕が考えています。例えば、僕自身が自分の自我をどのように感じ取っているのか？といったことを考えてみます。もっとも自我を客観的に意識できる時といえば、友人の誰かから意見を求められて答えたときにその友人から「それ、君らしいコメントだね」との返事が返ってくる。それを聞いて「僕はそういう風な人間なんだ」と再確認することができます。つまり人間は誰もが自分の自我を直接客観的に感じることはできない訳で、その思考パターンなどを感じる他者からのリアクションを得て自分の自我の形を間接的に把握してるのだ…と思ったりします。

この考えに立つと「チューリングテスト」は非常に良くできたテストであるような気がしてなりません。「ひょっとしたらチューリングは他にも何か書き残してるかも？」と思うくらいです。

それが Turing Bot を作ろうと考えたもうひとつの理由かも知れません😀

僕的にはオチがつきました。おあとが宜しいようで…

*1:記事の中で登場するレディング大学のプレスリリースは次で閲覧できます。

www.reading.ac.uk

ちなみに、記事中でも指摘されている「It's not a "supercomputer," it's a chatbot.」には対応済みで、ちゃんと chatbot に直されていました。

*2:その記事をあげつらっている僕も大人気ないですけどね😀

*3:この論文の原文は以下で読めます。

academic.oup.com

ですが非常に良くできた日本語訳も公開されています。

www.unixuser.org

日本語がネイティブの方にはこちらがお勧めです。

*4:実はこのブログでも「チューリングテスト」についてはかなりしつこく書いています。

次の記事は、かの Springer が出版している丸々一冊「チューリングテスト」の論文集で、コンピュータサイエンティストだけでなく、心理学者、社会学者、歴史学者、果ては哲学者まで、「チューリングテスト」で知られる錚々たるメンバーが寄稿しています。僕は気になる記事だけ拾い読みした状態ですが、それでも「チューリングテスト」が難解な試験であることには納得しました。

akito-fujita.hatenablog.com

それから「チューリングテスト」に基づく最古のコンテストであるローブナー賞については２度書いてます。

akito-fujita.hatenablog.com

ローブナー賞もなかなか興味深い裏事情があるようで…

ご参考まで。

*5:おかげで進めていた実装は棚上げになってしまいました。待っておられる方はすいません。

*6:なので、件の記事で著者が「人をだますのに集中したことに納得がいきません」と強弁してることに笑っちゃいました。

僕たち自身は普段から嘘を連発にしてるのに、チャットボットにはそれを許さないってこと？

…と思えたもんで😀

*7:件の記事の著者には、これ、納得してもらえるでしょうかねぇ？

*8:この作品の最初の原作漫画には欄外に大量の注釈があるのですが、その中には「チューリング」との表記も見つけられます。

きっとこの作品もまた「チューリングテスト」にインスパイアされた作品なのでしょう。

2021-06-23

Turing Bot（２）Wikipediaページからの埋め込み抽出

Embedded extraction from Wikipedia pages

2021/06/23
藤田昭人

前回は wikipedia-tokens.txt と wikipedia-papers.txt の生成を試みましたが、本稿では残る wikipedia-embeddings.txt の生成を試みます。

もうひとつの難物、Word2Vec学習済みデータ

wiki-xml-to-txt.py の２つの入力データはいずれも、２ＧＢを超えるビッグデータです。先の記事では、 Python でも手に余るほど巨大な Wikipedia のバックアップデータを取り込むためのＣプログラム wikiPageSelector を作成しましたが、 Word2Vecの学習済みデータから wikipedia-embeddings.txt を作成する場合も同じアプローチを選択せざるえませんでした。

ターゲットである GoogleNews-vectors-negative300.bin は総データサイズは約３．４ＧＢ。

$ ls -l
total 7123392
-rw-r--r--@ 1 fujita  staff  3644258522  6  1 00:08 GoogleNews-vectors-negative300.bin
$

中身を調べてみると、１単語を表現する300次元のベクトルで 300万の単語を収蔵したファイルになります。 Word2Vecの学習済みデータもまた巨大にであることは以前紹介したしましたが、扱えるファイルサイズの上限が２Ｇの JavaScript では手の出しようがありません。

Ｃプログラム make_embeddings

…ということで埋め込みを抽出するためのＣ言語を使ったプログラム make_embeddings を作成しました*1。ソースコードは下記に置きましたので、参考にしてください。

github.com

Word2Vecの紹介記事で説明したように学習済みWord2Vecデータはバイナリ形式でファイルに出力します。 wiki-xml-to-txt.py ではこのバイナリ形式を読むために（たぶんあまり一般的ではない）コードが実装されていたので、そのコードは追わずに、前述の紹介記事で使用した distance コマンドのソースの一部を流用することにしました*2。

$  ./make_embeddings wikipedia-tokens.txt GoogleNews-vectors-negative300.bin > wikipedia-embeddings.txt
$ head -2 wikipedia-embeddings.txt
25889 300
0 -0.004532 -0.022022 0.049640 -0.037960 -0.028227 0.030660 0.127507 -0.078840 0.008273 -0.048180 -0.031633 -0.075433 0.037230 0.069107 -0.114854 0.031025 0.088087 0.108040 -0.124587 -0.020927 -0.100254 0.024090 0.059617 0.013870 0.055967 -0.067160 -0.054507 -0.029443 -0.103174 0.041123 -0.061320 0.023117 0.028105 0.016425 0.036987 -0.015817 0.021413 0.025672 -0.077380 -0.000806 -0.014296 -0.046963 0.039663 -0.098793 -0.103174 -0.038690 -0.057670 -0.047450 -0.007057 0.075433 0.086627 -0.011558 0.075920 -0.053047 0.027375 0.071540 -0.054507 0.006935 0.054993 -0.049397 -0.091980 0.022508 -0.047207 0.007756 -0.014235 0.066673 0.021048 0.000121 -0.067160 0.090033 -0.042827 -0.029930 0.065213 0.055237 -0.079327 0.019223 0.027983 0.139187 0.071053 0.023603 0.083707 0.041123 0.069593 0.065213 -0.027740 -0.073000 -0.079327 0.154760 -0.011437 -0.022265 0.167414 -0.014113 0.046233 0.009794 -0.027618 -0.073000 0.008517 0.103660 -0.032120 -0.073487 -0.056453 -0.037230 -0.010585 0.061077 0.072027 0.034553 -0.023847 -0.089060 -0.073000 0.024577 0.017763 -0.059617 0.001589 0.010220 -0.068133 -0.120207 -0.004775 0.015817 0.029200 0.042340 -0.107067 0.115827 -0.029565 0.063753 -0.057427 -0.100254 0.043800 -0.027497 0.015026 0.013201 0.006722 -0.066187 -0.016060 -0.039907 -0.007361 -0.061077 0.026888 0.075433 0.045017 0.033580 -0.017277 -0.014478 0.002661 -0.036013 0.004380 0.063753 -0.011437 -0.119720 0.014539 0.026280 0.033580 0.133347 -0.059617 0.114854 0.032363 0.011802 -0.020562 0.000631 -0.016790 0.021778 0.020683 0.041123 0.036743 0.023360 0.029078 -0.005019 0.001452 -0.025185 0.148920 -0.028105 0.016547 0.047207 0.041610 -0.058887 -0.011619 -0.010828 0.106094 0.039907 -0.024820 0.099280 0.027740 -0.026037 0.019710 0.030173 0.062293 0.006753 -0.034553 0.073487 0.018737 0.074460 -0.033580 -0.078353 -0.092953 0.060833 -0.052803 -0.003285 0.090033 0.055237 -0.085653 -0.005019 0.044287 -0.085653 0.032120 -0.025672 -0.033093 0.041610 0.029930 0.019953 -0.024333 0.001795 -0.013140 -0.009186 0.007057 0.005749 0.022630 -0.031390 0.050127 0.037230 -0.006175 0.014600 0.101714 -0.061807 -0.064240 -0.030295 0.094900 -0.077867 -0.002403 0.115340 0.009247 0.033337 0.001384 0.023603 -0.054020 -0.073973 0.028105 -0.035040 0.009308 -0.047207 0.020318 -0.021170 0.029808 0.018980 -0.068620 0.016912 0.079813 0.049153 -0.019710 -0.064240 0.094900 -0.013992 -0.052560 0.005232 0.041367 -0.015817 0.090033 -0.057183 0.030782 0.001080 -0.017642 -0.099767 -0.039663 -0.049397 0.014783 0.021535 0.050127 0.151840 0.134320 -0.045260 -0.044287 0.096847 0.117287 -0.103660 0.016060 0.009368 -0.069107 -0.012958 0.007848 -0.014296 0.039177 -0.057427 -0.090520 0.082247 -0.057670 -0.058400 0.085167 0.062780 -0.006235 -0.016425 0.026037 0.013566 -0.096360 0.014904 -0.046477 0.026767 -0.058643 0.034797 0.052803 0.072027 0.090033 -0.043313
$

処理内容を簡単に説明しておくと…

第１引数で指定した wikipedia-tokens.txt から全てのトークンとIDを取り込む
- 単語総数は25889
第２引数で指定した学習済みWord2Vecデータ（GoogleNews-vectors-negative300.bin）を走査し、トークンが一致するエントリーを見つける
見つかったエントリについてトークンをIDに置き換え、ベクトルと共に表示
- ベクトルの各数値の桁数はfloatの書式%fのデフォルトを使っているので%8.6fで表示される（好みに合わせて調整を）

今回の出力はオリジナルの仕様に則ったテキストファイルにしました。というのも、よく考えたらこのファイルは改造版 fastWMD コマンドで読み込むから。前回紹介した JSON フォーマットの出力ファイルもテキストファイルに直します。

まとめ

以上、本稿では wikipedia-embeddings.txt の生成を試みました。

これで Turing Bot のための WMD 実装の外堀は埋まった格好ですが、
改めて Word Mover's Distance の処理を俯瞰しておくと、以下の４項目になります。

対象文章をトークン化する（前回）
- トークン毎にIDを付与する
- 句読点、ストップワードを除去
トークン毎に埋め込み（分散表現）を抽出（今回）
- 既存の学習済みWord2Vecデータを抽出
トークン毎の埋め込み（分散表現）を合成し対象文章の埋め込み（分散表現）を生成する
比較する２つの文章の埋め込み（分散表現）で最適輸送問題を解き最小距離を算出する

これまで１、２、４については触れてきましたが、実は３については全く触れていませんでした。 fastWMD の実装では Tools::getTripletsDocuments で実装されているようですが、次回は改造版 fastWMD コマンドの作業を進めながら３についても解説する予定です。

以上

*1:Python や JavaScript などのスクリプト言語でプログラミングを始めた若い方々にはピンと来ないかもしれませんが、マシンの物理メモリを目一杯搭載しても１６ＭＢだった３０年前にプログラミングを始めた我々の世代にとって、ストリームを扱うプログラミングこそが一般的でした。

当時はパイプが使える Unix の上でＣでプログラミングするのが大変便利だったのですが、３０年経過した今でもＣがリーサルウェポンになる世界に住んでいるとはなんだか感慨深いです。

*2:Ｃプログラマの立場からコメントすると、 distance のソースコードはかなりまどろっこしいです😀