チューリングテストのアナロジー

Turing Test Analogy

2021/07/12
藤田昭人

前回は久方ぶりに読み物的記事を書いたのですが、予想外に多くの方々に読んでいただけたようで…ありがとうございます。図らずも「チューリングテストは案外認知度が高い」と再確認できた次第。ですが、僕的には正直言うと勢いだけで書いた記事だったので、読み返してみるとあまりに散漫な内容だったなぁと反省しているところです。

そこで…

前稿の後半部分の「チューリングテストの今日的な意義」にフォーカスして、幾つかのテーマを書きたいと考えています。本稿ではまず「男性のフリをする女性」と「女性のフリをする男性」の話から。

「男性 vs 女性」の模倣ゲーム

前回、この話は「チューリングの論文の冒頭で語られている」と説明しましたが、そのくだりを新山祐介さんが翻訳された "Computing Machinery and Intelligence"（計算する機械と知性）から引用します。

次のような問いについて考えてみよう:

「機械は考えることができるだろうか?」

まず始めに「機械」とか「考える」という用語の意味を定義しないといけない。この定義は、なるべくその言葉のふつうの使いかたを反映するように作られてしまうかもしれない。しかしこういった態度は危険だ。もし「機械」や「考える」という単語の意味がそれらの一般的な用法を調べて明らかになるのなら、つぎのような結論になってしまうのは避けられないからだ。つまり、「機械は考えることができるか」という問いの意味とそれに対する答えは、ギャラップ社の世論調査のような統計的調査によって求められるべきだ、ということになる。そんなのはバカらしい。ここで私はこんな定義をするかわりに、この問いを別の、これとかなり似てはいるがそれほど曖昧でない言葉で言いかえてみよう。

ここまでは論文の本来のテーマ「知能機械」について語られてます。が、その後、論文は突拍子も無い方向に展開します。

この問いの新しい形式は私たちが「模倣ゲーム」と呼ぶゲームによって表わされる。これは男性 (A) と女性 (B)、および性別は問わない一人の質問者 (C) の 3人によって行われる。まず質問者はほかの 2人とは別の部屋に入る。質問者にとってのこのゲームの目的は、この 2人のうちどちらが男性でどちらが女性かを言い当てることだ。質問者は彼らを X と Y という名前で呼び、ゲームの終わりに「X が A で、 Y が B」あるいは「X が B で、 Y が A」のどちらなのか当てるのである。質問者は A と B に次のような質問をすることが許されている:

C: X さんの髪の長さを教えてもらえますか?

ここで、実は X が A であるとしよう。すると A は答えなければならない。このゲームでの A の目的は、 C が間違った判断をするようしむけることである。彼の答は、たとえば次のようなものになる:

「私の髪はみじかくて、長いところでも 9インチぐらいです」

声の高さで質問者に悟られてしまわないように、答は紙に書くのがよい。タイプライターによってタイプすればさらによい。理想的な環境は 2つの部屋のテレタイプでつないで通信させることだ。あるいは質問と回答を、仲介者を通してくりかえすようにしてもよい。このゲームでの B の目的は、質問者を助けることだ。彼女のもっともよい戦略は、おそらく本当のことを正直に答えることだろう。彼女は「女のほうは私です、彼の言うことを聞いてはいけません!」などとつけ加えることもできるが、これは何の役にも立たない。なぜなら男の方も同じようなことが言えるからだ。

このように「チューリングテスト」の事をチューリング自身は「模倣ゲーム」と呼んでいました。チューリングの伝記映画のタイトルにもなりましたので耳馴染みのある方もいらっしゃるでしょう。でも、この「模倣」の意味を正しく理解している方は案外少なかったかも。これが「男性のフリをする女性」と「女性のフリをする男性」が繰り広げる騙し合いのゲームだったことをチューリングは論文の冒頭で語っています。

ところが…

ではここでひとつ問いを立ててみよう。「このゲームで機械が A の役をうけもったら何が起こるだろうか?」こうすると、ちょうど男性と女性によってこのゲームが行われているときと同じくらい、質問者は判断を誤るだろうか? この問いは私たちの最初の問い「機械は考えることができるか」を置き換えるものになる。

…と、またまた唐突に「人間 vs 機械」の話に戻ります。

論文ではその後「男性 vs 女性」の話は登場しません。話題はストアド方式によるデジタルコンピュータの仕組みへと移ります。それ故、冒頭の話はコンピュータが一般的ではなかった当時「人間 vs 機械」の問題を読者にリアルに認識してもらうためのアナロジーと理解されてきました*1。

現在の技術を使ったチューリングテスト

チューリングの論文が発表されてから７０年あまり経過した今日、論文ではチューリングが説明に苦労したコンピュータは一般的なデバイスとして広く普及してますし、デジタルコミュニケーションも格段に進歩して音声付き映像によるテレコミュニケーションも日常的なツールとして利用されています。

調べてみると「人間 vs アンドロイド」による総合的チューリング・テストという提案があるそうで、今ではそのようなテストが実現可能であることに疑いを持つ人もあまりいないのではないかと思います。

では「男性 vs 女性」のテストの方はどうでしょうか？

是非はともかく「男性のフリをする女性」と「女性のフリをする男性」というテーマの方もロボットやＡＩ以上に格段に進歩した言える（言わざる得ない）現状があるように思います。次は前回も登場した「ジェンダーレスボーイ」井出上漠くんの映像です*2。

www.youtube.com

この映像は５分間程度でチューリングテストでの１回のセッションに概ね一致します。仮にあなたがこの映像の背景を全く知らないまま、この５分間の映像を最後まで見たとします。

あなたは「彼」だと思いますか？
それとも「彼女」だと思いますか？

モルモット扱いをして漠くんには申し訳ないのですが…

現在のデジタルコミュニケーションの技術を使ってチューリングテストを行うとこんな感じになるのではないか？と僕は考えてます。チューリングテストでは JUDGE（審査員）が一人当たり５分間会話しますが、 JUDGEがこのようにＳＮＳのＤＭを使って質問をし、質問に答えてる様子を映像を見ながら「男性 or 女性」（あるいは「人間 or 機械）を審査するという形式なら、ＳＮＳを使って比較的簡単にチューリングテストの環境を構築できそうです。

この映像では「どうしてそんなに声が高いの？」というフォロワーからの質問に漠くんは一生懸命答えてますが、チューリングテスト的観点でよく見ると、身振り手振りを交えながら質問に答えてる、特に手を忙しなく動かしていることが確認できます。それが話者の人間らしさ（女性らしさ）の演出に大きく寄与しているように思えますが、そう言った細かな仕草なども考慮するとなると、もしこういった形式で「人間 vs 機械」のチューリングテスト、つまり前述の「総合的チューリング・テスト」を実施した場合、クリアできるアンドロイドが登場するにはまだまだ時間が必要な気がしますね。

チューリングテストの今日的な解釈

漠くんの映像を手がかりに、チューリングテストに現在のデジタルコミュニケーション技術を活用すると対話のリアリティが格段に向上することを擬似的に確認してもらった訳ですが、これはチューリングテストのもう一つの隠されたテストを顕在化させるように思います。すなわち…

あなたはこのような存在を人間社会が受け入れることができると思いますか？

…と問いかけられているように思えてくる訳です。おそらく今後アンドロイドの性能がさらに向上し、振る舞いにドンドン人間らしさを帯びてくるにしたがって、この即答できそうにない質問を強く問い詰められているように感じるのではないかと僕は想像しています。

言うならば「機械は思考できるか？」がチューリングテストの表の問いならば「思考する機械を人間は受け入れられるか？」は裏の問いになる訳で、各々の問いはチューリングテストの必要条件と十分条件に相当するのではないかと思います。

もちろん必要条件が成立しなければ十分条件には意味はないのですが、必要条件が成立したと言う伝聞も相まって現実の出来事として遭遇する予感があるので十分条件が気になり出した… 例えば前回もふれましたが、ＳＮＳが広く普及している今日、知らず知らずのうちにチャットボットと会話しているといった状況は誰にでも起こり得ることです。

このような「チューリングテストのような日常」を意識するようになると、誰もが十分条件について考えざる得ないのではないでしょうか？現在の我々の日常を鑑みるとチューリングテストの意味や理解について修正を迫られているように僕は考えています。

クリアの条件

最後にチューリングテストのクリアの条件について…

本稿の冒頭で引用した１９５０年にチューリングが発表した論文は、チューリングテストの手順を詳細に語る文献としてよく知られていますが、チューリング自身が想定した「テストへの反論」に対する丁寧な考察は書かれているものの、チューリング自身が考える「クリアの条件」には言及がありません。

ですが…

チューリングテストのコンテスト界隈では「論文の発表後、チューリング自身がクリアの条件について語った」と言われています。例えば前述の「総合的チューリング・テスト」を提案しているジョス・デ・ムルはチューリング自身が言及したとされるチューリングテストのクリアの条件について次のように説明してます。

このテストにパスするために，知性的機械 -- それはコンピューター・プログラムによって動かされている -- は，少なくとも 30% の質問者を，5 分間自身が人間であると騙すことができなければならない。チューリングは，このテストを機械がパスできるためには 50 年かかるだろうと予測した。すなわち，2000 年である。この予測はそれほど外れていなかった。 2014 年に，最初のコンピューター・プログラムがテストをパスした。

このチューリングの言及は、 1952年にＢＢＣのラジオ番組（？）として放送された学識経験者同士の対談番組での発言に由来しているようですが*3、世のチューリングテストに基づく多くのコンテストではこのクリア条件に基づいてルールが定められているようです。

例えば、最古のチューリングテストに基づくコンテストであるローブナー賞では、４台のコンピュータ（人間のフリをする機械、チャットボット）と４人のコンフェデレイト（機械のフリをする人間、共犯者）からなる都合８名の覆面対話者に対し、１０名のジャッジ（審査員）が１名あたり５分間会話をし、その後５分間でジャッジは各人ごと対話者のランキングを修正します。全てのジャッシが全ての覆面対話者と会話しますので全体では８０分あまりの時間を要します。

このようにして作成された１０人分の対話者ランキングに基づいて対話者の審査を行う訳ですが、ジャッジの３０％以上、つまり３名以上が同一のコンピュータを「もっとも人間らしい」と評価した場合、このコンピュータはチューリングテストをクリアしたと認定されます。

ジャッジの主観的な評価に基づいているので、ローブナー賞の審査には是非の議論がついて回って来ました。しかし「質問者の３０%以上」と言ったのはチューリング自身と言われていますので、その責任をローブナー賞に求めるのは無理があるのかも知れません。

なお「テストをクリアするのに５０年間を要する」とは、正確には「２０００年ごろにはクリアできるだろう」とのチューリングの発言に基づき、論文が発表された１９５０年から計算されたようです。

ちなみに「２０１４年にパスした」とは前回紹介した2014年のレディング大学が独自に企画したチューリングテストの実験のことです。この実験でもローブナー賞と概ね同様のルールが採用されたと思われます。

したがって…

チューリングテストの必要条件が成立するまでに６４年間を要したことになります。では、十分条件が成立するまでにはどれくらいの時間を要するのでしょうか？前述のように「質問者の３０%以上」に対する懐疑論が存在するので、ローブナー賞などのコンテストでの実績に基づく予想は難しそうなのですが…

十分条件を「思考する機械が社会的認知を得て市民権を獲得する」と理解すると、チューリングは予想外のヒントを提供してくれてるかも知れません。

すなわち…

彼が当時違法とされた同性愛で逮捕されたのは１９５２年、同性愛の違法性が否定され彼の名誉が回復されたのは２０１４年ですから、彼の事例では社会的認知が覆るのに要する時間は６２年間ということになります。もっともこの事例は、チューリングが残した業績を高く評価し、彼の名誉回復のために尽力した方々が多数存在したからで、おそらく「ベストケースの場合」との但し書き付くのでしょうが…

少なくとも…

どうやら本稿で書いた諸々が全て陳腐化するまでに１００年待たされることはなさそうです😁

以上

*1:おそらくチューリングの論文の主な読者である理工学の学生や研究者は「人間 vs 機械」の話題に関心はあっても（文学部の学生に比べて）「男性 vs 女性」の話題には無関心、あるいは避けているのが一般的でしょうから、「男性 vs 女性」の話は記憶から抜け落ちてしまうのだろう… などと僕は自分勝手に想像しています😀

*2:この映像はおそらくインスタグラムかYouTubeの彼のフォロワーに対するライブ配信を録画したものでしょう。この種の彼の映像はYouTubeで幾つも見つけることができます。

*3:いずれ事実関係を詳しく調べてみたいと考えてますが…

僕が想像するに、この発言はテレビ番組あたりで無茶振り質問を食らった大学の先生が、苦し紛れに返答する「直感的には…」から始まる発言だったのではないかと思っています。

それが「30%」や「５分間」「５０年」などの数字に対する明確なエビデンスが示されてない理由で、それ故、論文等の文献には残されてないのではないかと想像しています。