チューリングテストのアナロジー
藤田昭人
前回 は久方ぶりに読み物的記事を書いたのですが、 予想外に多くの方々に読んでいただけたようで…ありがとうございます。図らずも 「チューリングテストは案外認知度が高い」 と再確認できた次第。ですが、僕的には 正直言うと勢いだけで書いた記事だったので、 読み返してみるとあまりに散漫な内容だったなぁと 反省しているところです。
そこで…
前稿の後半部分の 「チューリングテストの今日的な意義」 にフォーカスして、 幾つかのテーマを書きたいと考えています。 本稿ではまず 「男性のフリをする女性」と 「女性のフリをする男性」 の話から。
「男性 vs 女性」の模倣ゲーム
前回、この話は 「チューリングの論文の冒頭で語られている」 と説明しましたが、そのくだりを 新山 祐介さんが翻訳された "Computing Machinery and Intelligence"(計算する機械と知性) から引用します。
次のような問いについて考えてみよう:
「機械は考えることができるだろうか?」
まず始めに「機械」とか「考える」という用語の 意味を定義しないと いけない。 この定義は、なるべくその言葉の ふつうの使いかたを 反映するように 作られてしまうかもしれない。 しかしこういった態度は危険だ。 もし「機械」や「考える」という 単語の意味がそれらの一般的な用法を 調べて明らかになるのなら、 つぎのような結論になってしまうのは 避けられないからだ。 つまり、 「機械は考えることができるか」 という問いの意味とそれに対する答えは、 ギャラップ社の世論調査のような 統計的調査によって求められるべきだ、 ということになる。 そんなのはバカらしい。 ここで私はこんな定義をするかわりに、 この問いを別の、 これとかなり似てはいるがそれほど曖昧でない 言葉で言いかえてみよう。
ここまでは論文の本来のテーマ 「知能機械」について語られてます。 が、その後、論文は突拍子も無い方向に展開します。
この問いの新しい形式は私たちが 「模倣ゲーム」 と呼ぶゲームによって表わされる。 これは男性 (A) と女性 (B)、 および性別は問わない一人の質問者 (C) の 3人によって行われる。 まず質問者はほかの 2人とは別の部屋に入る。 質問者にとってのこのゲームの目的は、 この 2人のうちどちらが男性で どちらが女性かを言い当てることだ。 質問者は彼らを X と Y という名前で 呼び、 ゲームの終わりに 「X が A で、 Y が B」あるいは 「X が B で、 Y が A」のどちらなのか 当てるのである。 質問者は A と B に次のような質問をすることが 許されている:
C: X さんの髪の長さを教えてもらえますか?
ここで、実は X が A であるとしよう。 すると A は答えなければならない。 このゲームでの A の目的は、 C が間違った判断をするようしむけることである。 彼の答は、たとえば次のようなものになる:
「私の髪はみじかくて、 長いところでも 9インチぐらいです」
声の高さで質問者に悟られてしまわないように、 答は紙に書くのがよい。 タイプライターによってタイプすればさらによい。 理想的な環境は 2つの部屋のテレタイプでつないで 通信させることだ。 あるいは質問と回答を、 仲介者を通してくりかえすようにしてもよい。 このゲームでの B の目的は、 質問者を助けることだ。 彼女のもっともよい 戦略は、 おそらく本当のことを正直に答えることだろう。 彼女は「女のほうは私です、 彼の言うことを聞いてはいけません!」 などとつけ加えることもできるが、 これは何の役にも立たない。 なぜなら 男の方も同じようなことが言えるからだ。
このように「チューリングテスト」の事を チューリング自身は「模倣ゲーム」 と呼んでいました。 チューリングの伝記映画 のタイトルにもなりましたので 耳馴染みのある方もいらっしゃるでしょう。 でも、この「模倣」の意味を正しく 理解している方は案外少なかったかも。 これが 「男性のフリをする女性」と 「女性のフリをする男性」が 繰り広げる騙し合いのゲームだったことを チューリングは論文の冒頭で語っています。
ところが…
ではここでひとつ問いを立ててみよう。 「このゲームで機械が A の役をうけもったら 何が起こるだろうか?」 こうすると、 ちょうど男性と女性によって このゲームが行われているときと同じくらい、 質問者は判断を 誤るだろうか? この問いは私たちの最初の問い 「機械は考えることができるか」 を置き換えるものになる。
…と、またまた唐突に 「人間 vs 機械」 の話に戻ります。
論文ではその後「男性 vs 女性」の話は登場しません。 話題はストアド方式によるデジタルコンピュータの仕組みへと移ります。 それ故、冒頭の話はコンピュータが一般的ではなかった当時 「人間 vs 機械」 の問題を読者にリアルに認識してもらうための アナロジーと理解されてきました*1。
現在の技術を使ったチューリングテスト
チューリングの論文が発表されてから 70年あまり経過した今日、 論文ではチューリングが説明に苦労したコンピュータは 一般的なデバイスとして広く普及してますし、 デジタルコミュニケーションも格段に進歩して 音声付き映像によるテレコミュニケーションも 日常的なツールとして利用されています。
調べてみると「人間 vs アンドロイド」による 総合的チューリング・テスト という提案があるそうで、 今ではそのようなテストが 実現可能であることに疑いを持つ人も あまりいないのではないかと思います。
では「男性 vs 女性」のテストの方はどうでしょうか?
是非はともかく 「男性のフリをする女性」と 「女性のフリをする男性」 というテーマの方もロボットやAI以上に 格段に進歩した言える(言わざる得ない) 現状があるように思います。 次は前回も登場した「ジェンダーレスボーイ」 井出上漠くんの映像です*2。
この映像は5分間程度で チューリングテストでの 1回のセッションに概ね一致します。仮に あなたがこの映像の背景を全く知らないまま、 この5分間の映像を最後まで見たとします。
あなたは「彼」だと思いますか?
それとも「彼女」だと思いますか?
モルモット扱いをして 漠くんには申し訳ないのですが…
現在のデジタルコミュニケーションの技術を使って チューリングテストを行うと こんな感じになるのではないか? と僕は考えてます。 チューリングテストでは JUDGE(審査員)が一人当たり5分間会話しますが、 JUDGEがこのようにSNSのDMを使って質問をし、 質問に答えてる様子を映像を見ながら 「男性 or 女性」(あるいは「人間 or 機械) を審査するという形式なら、 SNSを使って比較的簡単に チューリングテストの環境を構築できそうです。
この映像では「どうしてそんなに声が高いの?」という フォロワーからの質問に漠くんは一生懸命答えてますが、 チューリングテスト的観点でよく見ると、 身振り手振りを交えながら質問に答えてる、 特に手を忙しなく動かしていることが確認できます。 それが話者の人間らしさ(女性らしさ)の 演出に大きく寄与しているように思えますが、 そう言った細かな仕草なども考慮するとなると、 もしこういった形式で「人間 vs 機械」のチューリングテスト、 つまり前述の「総合的チューリング・テスト」を実施した場合、 クリアできるアンドロイドが登場するには まだまだ時間が必要な気がしますね。
チューリングテストの今日的な解釈
漠くんの映像を手がかりに、 チューリングテストに 現在のデジタルコミュニケーション技術を活用すると 対話のリアリティが格段に向上することを 擬似的に確認してもらった訳ですが、 これはチューリングテストのもう一つの 隠されたテストを顕在化させるように思います。 すなわち…
あなたはこのような存在を人間社会が受け入れることができると思いますか?
…と問いかけられているように思えてくる訳です。 おそらく今後アンドロイドの性能がさらに向上し、 振る舞いにドンドン人間らしさを 帯びてくるにしたがって、 この即答できそうにない質問を 強く問い詰められているように 感じるのではないかと僕は想像しています。
言うならば「機械は思考できるか?」が チューリングテストの表の問いならば 「思考する機械を人間は受け入れられるか?」 は裏の問いになる訳で、各々の問いは チューリングテストの必要条件と十分条件に 相当するのではないかと思います。
もちろん必要条件が成立しなければ 十分条件には意味はないのですが、 必要条件が成立したと言う伝聞も相まって 現実の出来事として遭遇する予感があるので 十分条件が気になり出した… 例えば 前回 もふれましたが、SNSが広く普及している今日、 知らず知らずのうちに チャットボットと会話しているといった状況は 誰にでも起こり得ることです。
このような 「チューリングテストのような日常」 を意識するようになると、誰もが 十分条件について考えざる得ない のではないでしょうか? 現在の我々の日常を鑑みると チューリングテストの意味や理解について 修正を迫られているように僕は考えています。
クリアの条件
最後にチューリングテストのクリアの条件について…
本稿の冒頭で引用した 1950年にチューリングが発表した論文は、 チューリングテストの手順を詳細に語る文献 としてよく知られていますが、 チューリング自身が想定した 「テストへの反論」 に対する丁寧な考察は書かれているものの、 チューリング自身が考える 「クリアの条件」 には言及がありません。
ですが…
チューリングテストのコンテスト界隈では 「論文の発表後、 チューリング自身が クリアの条件について語った」 と言われています。 例えば前述の 「総合的チューリング・テスト」 を提案している ジョス・デ・ムル はチューリング自身が言及したとされる チューリングテストのクリアの条件について 次のように説明してます。
このテストにパスするために, 知性的機械 -- それはコンピューター・プログラムによって動かされている -- は, 少なくとも 30% の質問者を,5 分間自身が人間であると騙すことができなければならない。 チューリングは,こ のテストを機械がパスできるためには 50 年かかるだろうと予測した。 すなわち,2000 年である。 この予測はそれほど外れていなかった。 2014 年に,最初のコンピューター・プログラムがテス トをパスした。
このチューリングの言及は、 1952年にBBCのラジオ番組(?)として放送された 学識経験者同士の対談番組での発言に由来しているようですが*3、世のチューリングテストに基づく 多くのコンテストでは このクリア条件に基づいて ルールが定められているようです。
例えば、最古のチューリングテストに 基づくコンテストであるローブナー賞では、 4台のコンピュータ (人間のフリをする機械、チャットボット)と 4人のコンフェデレイト (機械のフリをする人間、共犯者)からなる 都合8名の覆面対話者に対し、 10名のジャッジ(審査員)が 1名あたり5分間会話をし、 その後5分間でジャッジは各人ごと 対話者のランキングを修正します。 全てのジャッシが全ての覆面対話者と会話しますので 全体では80分あまりの時間を要します。
このようにして作成された 10人分の対話者ランキングに基づいて 対話者の審査を行う訳ですが、 ジャッジの30%以上、 つまり3名以上が同一のコンピュータを 「もっとも人間らしい」 と評価した場合、 このコンピュータはチューリングテストを クリアしたと認定されます。
ジャッジの主観的な評価に基づいているので、 ローブナー賞の審査には 是非の議論がついて回って来ました。 しかし「質問者の30%以上」と言ったのは チューリング自身と言われていますので、 その責任をローブナー賞に求めるのは 無理があるのかも知れません。
なお「テストをクリアするのに 50年間を要する」とは、正確には 「2000年ごろにはクリアできるだろう」 とのチューリングの発言に基づき、 論文が発表された1950年から 計算されたようです。
ちなみに「2014年にパスした」とは 前回 紹介した2014年のレディング大学が 独自に企画したチューリングテストの実験のことです。 この実験でもローブナー賞と 概ね同様のルールが採用されたと思われます。
したがって…
チューリングテストの必要条件が 成立するまでに64年間を要したことになります。 では、十分条件が成立するまでには どれくらいの時間を要するのでしょうか? 前述のように「質問者の30%以上」に対する 懐疑論が存在するので、 ローブナー賞などのコンテストでの実績に 基づく予想は難しそうなのですが…
十分条件を「思考する機械が 社会的認知を得て市民権を獲得する」と理解すると、 チューリングは予想外のヒントを 提供してくれてるかも知れません。
すなわち…
彼が当時違法とされた 同性愛で逮捕されたのは1952年、 同性愛の違法性が否定され 彼の名誉が回復されたのは2014年ですから、 彼の事例では社会的認知が覆るのに 要する時間は62年間ということになります。 もっともこの事例は、 チューリングが残した業績を高く評価し、 彼の名誉回復のために 尽力した方々が多数存在したからで、 おそらく「ベストケースの場合」との 但し書き付くのでしょうが…
少なくとも…
どうやら本稿で書いた諸々が全て陳腐化するまでに 100年待たされることはなさそうです😁
以上
*1:おそらくチューリングの論文の
主な読者である理工学の学生や研究者は
「人間 vs 機械」
の話題に関心はあっても
(文学部の学生に比べて)
「男性 vs 女性」
の話題には無関心、
あるいは避けているのが一般的でしょうから、
「男性 vs 女性」
の話は記憶から抜け落ちてしまうのだろう…
などと僕は自分勝手に想像しています😀
*2:この映像はおそらくインスタグラムかYouTubeの
彼のフォロワーに対する
ライブ配信を録画したものでしょう。
この種の彼の映像はYouTubeで幾つも見つけることができます。
*3:いずれ事実関係を詳しく調べてみたいと考えてますが…
僕が想像するに、この発言はテレビ番組あたりで 無茶振り質問を食らった大学の先生が、 苦し紛れに返答する「直感的には…」から始まる 発言だったのではないかと思っています。
それが「30%」や「5分間」「50年」などの 数字に対する明確なエビデンスが示されてない理由で、 それ故、論文等の文献には残されてないのではないかと 想像しています。