ローブナー賞コンテストの実際

Turing Test Contest in Practice


2021/07/20
藤田昭人


前回 の記事は 前々回 よりもさらに多くの方々に読んでいただけたようで…ありがとうございます。

本稿ではチューリングテスト・コンテストの 実例として、 前回も少しふれたローブナー賞について もう少し掘り下げて紹介したいと思います。


Loebner Prize 2009

実は個人的な関心から ローブナー賞についてはいろいろ調べて来たのですが、 コンテストの実際の様子を語るなら Loebner Prize 2009 がもっとも都合が良さげかと思います。

というのも、その理由のひとつは 古くからあるチャットボット専門サイトの chatbots.org が制作したコンテストのダイジェストビデオが 残ってるからです。 全編で10分程度の短い映像ですし、 英語で滔々と語るシーンも皆無なので 日本人の僕たちにも比較的見やすい(😁) ビデオです*1

www.youtube.com

この映像を見る前に 思い出しておいて欲しいのは チューリングテストに関するルール、 テストを実行するための役回りについてです。

テストの主役はもちろん チャットボット(Chatbots) です。Loebner Prize 2009では 次の3つのチャットボットが ファイナルステージに勝ち上がりました。

チャットボット 開発者 所属
Do Much More David Levy Intelligent Toys Ltd.
Cleverbot Rollo Carpenter Icongno Ltd. and Existor Ltd.
Chip Vivant Mohan Embar  

しかし僕的に引っかかるのは 「ファイナルというからには 予選もあったのか?」 という疑問でして、 「ローブナー賞の予選」 なるものの情報を 探しまくったのですが… 見つかりませんでした。 これ、どう理解すれば良いのかなぁ?

前回 もチラッとふれましたが、 チューリングテストでは 「機械のフリをする人間」の コンフェデレイト(Confederate) も参加します。 Loebner Prize 2009では 次の4人のコンフェデレイトが 暗躍しました(笑)。

コンフェデレイト 所属
Brian Christian Knopf Doubleday Purblishing
Dave Marks Sandia National Labs
Olga Martirosian Meraka Institute
Doug Peters Nuance Communications Inc.

なお コンフェデレイトについては 後ほど詳しく紹介します。

最後に「もっとも人間に近い対話者を判定する」 ジャッジ(Judge) です。前回は「10人」と説明しましたが Loebner Prize 2009では ジャッジは次の4人だけだったようです。

ジャッジ 所属
Prof Alan Garnham University of Sussex
Prof John Carroll University of Sussex
Prof Shalom Lappin King's College London
Mr Jon Bentley The Gadget Show

たった4人のジャッジとなると 「30%以上が人間と判定する」 というチューリングテストの条件は 1人で満たされず、実際には2人以上、 つまり50%以上という条件になってしまいますねぇ。

ちなみに4人のうち3人までは教授なんですが、 残る4番目のジョン・ベントレーは イギリスのテレビ番組(5チャンネル) The Gadget Show のキャスターだそうです。 この番組は一般向けにテクノロジーを紹介する 番組なんだそうですが、番組のテイストは YouTube のアーカイブ からご覧ください。実は 「ひょっとしたら Loebner Prize 2009 を 紹介する回があるかも?」 と思ったもので調べてみたのですが… 見つけられませんでした。

さて…

チューリングテストが 「ジャッジの30%以上が 同一のコンピュータを 『もっとも人間らしい』と 評価した場合」 をクリアの条件としていることは 前回 紹介しましたが、 ローブナー賞ではそれ以外に 2つの賞が設けられています。

1つはその年でもっとも優秀な チャットボットに与えられる The Most Human Computer (もっとも人間らしいコンピュータ) で、Loebner Prize 2009で 選ばれたのは Do Much More でした*2

もう1つはその年でもっとも優秀な コンフェデレイトに与えられる The Most Human Human (もっとも人間らしい人間) で、Loebner Prize 2009で 選ばれたのは ブライアン・クリスチャン でした。


ブライアン・クリスチャンのレポート

僕が Loebner Prize 2009 に注目すべきと考える もうひとつの理由は、 このコンテストに コンフェデレイトとして参加した ブライアン・クリスチャン が、その経験を元に執筆した書籍 "The Most Human Human" (邦題『機械より人間らしくなれるか』) を出版しているからです*3

やはり、 コンテストの当時者による打ち明け話は、 いろんな意味で大いに参考になります。

本稿では書籍のプレビュー版に位置付けられそうな クリスチャンが月刊誌 Atlantic に寄稿した記事 "Mind vs. Machine" をサマライズします。

www.theatlantic.com

そもそも クリスチャンがローブナー賞に参加した動機は、 前年の2008年の結果に 「人類の尊厳が脅かされかねない」 と感じたからのようです。

however, at the 2008 contest, the top-scoring computer program missed that mark by just a single vote. When I read the news, I realized instantly that the 2009 test in Brighton could be the decisive one. I’d never attended the event, but I felt I had to go -- and not just as a spectator, but aspart of the human defense. A steely voice had risen up inside me, seemingly out of nowhere: Not on my watch. I determined to become a confederate.

しかし、2008年のコンテストでは、トップスコアを獲得したコンピュータプログラムが、わずか1票の差でその座を逃してしまったのです。 このニュースを読んだとき、私は即座に「2009年のブライトンでのテストが決定的なものになるかもしれない」と思いました。 これまで一度も参加したことはありませんでしたが、単なる観客としてではなく、人類を守るために参加しなければならないと思いました。 心の中でどこからともなく厳しい声が聞こえてきました。 私はコンフェデレイトになることを決意しました。

1996年〜1997年、IBMの ディープ・ブルー の挑戦を受けてたった ガルリ・カスパロフ を敬愛する彼は、自らをカスパロフになぞらえて 「人類の尊厳を守る」 との、いささかロマンチックな考えに突き動かされていたと言います*4

コンフェデレイトとして Loebner Prize 2009 に参加することが許されて以降、 クリスチャンはチャットボットの挑戦を退けるための綿密な準備を始めますが、 この記事ではその準備作業の中の幾つかを披露しています。 チューリングテストの哲学的・心理学的な考察の後、 チャットボットの基礎である ジョセフ・ワイゼンバウムELIZAリチャード・ウォレスA.L.I.C.E. の紹介から始まる一連のレクチャが展開しますが、 ここでは僕が気になったトピックを2、3上げておきます。


●ジャッジの2種類のタイプ:「おしゃべり」と「尋問者」

クリスチャンによれば、 ジャッジは「おしゃべり」と「尋問者」の2種類のタイプに分類できるそうです。

I had learned from reading past Loebner Prize transcripts that judges come in two types: the small-talkers and the interrogators. The latter go straight in with word problems, spatial-reasoning questions, deliberate misspellings. ・・・ The downside to the give-’em-the-third-degree approach is that it doesn’t leave much room to express yourself, personality-wise.

The small-talk approach has the advantage of making it easier to get a sense of who a person is -- if you are indeed talking to a person. And this style of conversation comes more naturally to layperson judges. ・・・ The downside is that these conversations are, in some sense, uniform -- familiar in a way that allows a programmer to anticipate a number of the questions.

私はローブナー賞の過去の記録を読んで、ジャッジには「おしゃべり」と「尋問者」の2つのタイプがあることを知りました。 後者は、単語の問題、空間的推論の問題、意図的なミススペルを真っ向から指摘してきます。 ・・・ 「厳しく詰問する」アプローチの欠点は、自己表現の余地があまり残されていないことです。

(前者の)「おしゃべり」方式には、実際に人と話している場合に、その人が誰であるかを簡単に把握できるという利点があります。 このような会話スタイルは素人の審査員にはより自然に生まれます。 ・・・ 欠点は、これらの会話はある意味で画一的であり、 プログラマーが多くの質問を予想できる慣れ親しんだものであるということです。

過去、ローブナー賞では「おしゃべり」タイプが暗黙的に推奨されてきたそうですが、 このタイプの欠点に挙げられている「ある意味で画一的」とは挨拶などの 定型的な会話、例えばジャッジが「今日は暑いねぇ」と話しかけてきた時、 チャットボットの開発者は「そうですね、暑いですね」 といった無難な返事を容易に想像できることを指摘しています。 こういった会話で人間らしさを演出するのは難しいとクリスチャンは考察しています。


●「ライブタイピング」への対応

ローブナー賞では、何かキーを叩く度に相手のターミナルにその反応が表示される 「ライブタイピング」機能が採用されていました。 そこで意図的に、間を取ったり、削除キーを連打して入力を消したり、 あるいはタイプミスを挿入したりして、人間らしいケアレスミスをシミュレートする テクニックを用いるチャットボットが初期の頃から存在しました。

クリスチャンは「ライブタイピング」の機能を使って 人間らしさを演出するために次のような戦略を考え出しました。

I would treat the Turing Test’s strange and unfamiliar textual medium more like spoken English, and less like the written language. I would attempt to disrupt the turn-taking “wait and parse” pattern that computers understand, and create a single, flowing duet of verbal behavior, emphasizing timing.

私は、チューリングテストの奇妙で馴染みのないテキスト媒体を、 書き言葉のようにではなく、 話し言葉のように扱うことにしました。 コンピュータが理解する話者交替の「待って、解析する」パターンを破壊し、 タイミングを重視した、ひとつの流れるような言葉のキャッチボールによる二重奏を作り出すのです。

つまり「相手の反応を待たずにどんどん発言をしていく」という戦略で、 クリスチャンは「チャットボットには真似できない」と考えていたようですが、 非同期プログラミングが一般化した今日では この戦略をチャットボットも採用できるのではないか?と僕は思います。


●コンフェデレイトの策略

クリスチャンは「どんどん発言していく」戦略に「ライブタイピング」機能の活用に加えて 更に新たな意義を見出していたようです。

The humans in a Turing Test are strangers, limited to a medium that is slow and has no vocal tonality, and without much time. A five-second Turing Test would be an easy win for the machines: the judges, barely able to even say “hello,” simply wouldn’t be able to get enough data from their respondents to make any kind of judgment. A five-hour test would be an easy win for the humans. The Loebner Prize organizers have tried different time limits since the contest’s inception, but in recent years they’ve mostly adhered to Turing’s original prescription of five minutes: around the point when conversation starts to get interesting.

A big part of what I needed to do as a confederate was simply to make as much engagement happen in those minutes as I physically and mentally could. Rather than adopt the terseness of a deponent, I offered the prolixity of a writer. In other words, I talked a lot.

チューリング・テストに参加する人間は、 見知らぬ人であり、ゆっくりとした声色のないメディアに限定されており、時間もありません。 5秒のチューリングテストは、機械にとっては楽勝です。 「こんにちは」と言うことすらできないジャッジは、 何らかの判断を下すのに十分なデータを回答者から得ることができないからです。 5時間のテストは、人間にとっては簡単に勝てるでしょう。 ローブナー賞の主催者は、コンテストが始まって以来、さまざまな制限時間を試してきましたが、 「会話が面白くなってきた頃」というチューリングの言葉を守って、 近年では、チューリングの最初の処方箋である5分にほぼ固執しています。

コンフェデレイトとして私がやるべきことの大部分は、 この数分間に肉体的にも精神的にも可能な限り多くのイベントを起こすことでした。 証言者のように淡々とするのではなく、作家のように諄々と話す。 言い換えれば、私はたくさん話しました。

つまり「ジャッジに対してできるだけ多くの情報を与える」ことで 「ジャッジが対話相手の人物像を想像することを助ける」と考察しています。 クリスチャンはこのアプローチに従ったジャッジに対する自身の応答に自信を持っていたようですが、 隣にいたダグ・ピータースの次の会話を覗いた時に打ちのめされたと語っています。

Judge: Hey Bro, I’m from TO.
Confederate: cool
Confederate: leafs suck
Confederate: ;-)
Judge: I am just back from a sabbatical in the CS Dept. at U of T.
Confederate: nice!
Judge: I remember when they were a great team.
Judge: That carbon date me, eh?
Confederate: well, the habs were a great team once, too …
Confederate: *sigh*
Judge: YEH, THEY SUCK TOO.
Confederate: (I’m from Montreal, if you didn’t guess)

Judge: よぉ兄弟、私はTOから来たんだ
Confederate: クール
Confederate: リーフス最低
Confederate: ;-)
Judge: 僕はT大学のCS学部でのサバティカルから戻ってきたところだ
Confederate: いいね!
Judge: 素晴らしいチームだったことを覚えてるよ
Judge: 僕には大昔のことだけどね(笑)
Confederate: まあ、ハブスもかつては素晴らしいチームだったけど...
Confederate: *ため息*
Judge: ええ、奴らも最低だ。
Confederate: (想像していなかっただろうけど、僕はモントリオールから来たんだよ)

訳注: ここではカナダのホッケーチームのトロント・メープルリーフス(leafs)と
モントリオール・カナディアンズ(habs)の話をしている。
両チームは伝統的なライバル関係にある。

ジャッジが共感できる話題を見つけた場合、 コンフェデレイトはより人間らしい対応ができると クリスチャンは考えていたようですが、 これもある面では「定型的な会話」になるんじゃないか?と僕は思いました。 例えば、相手が阪神タイガースのファンだとわかった場合 「バース、掛布、岡田」と発言すれば 会話相手は更に饒舌になるように思いますから。

ともあれ…

クリスチャンのコンフェデレイトに関する考察は非常に興味深い内容で、 チャットボットの開発者も1度コンフェデレイトを経験すると 解決すべき課題が具体的にイメージできるようになると思いました。


ローブナー賞とは?

クリスチャンの記事に時折挟み込まれるローブナー賞の様子は、 微笑ましいものです。例えば…

Ridiculous Canadians and their ice hockey, I’m thinking. Then I’m thinking how ridiculous it is that I’m even allowing myself to get this worked up about some silly award. Then I’m thinking how ridiculous it is to fly 5,000 miles just to have a few minutes’ worth of IM conversations. Then I’m thinking how maybe it’ll be great to be the runner-up; I can compete again in 2010, in Los Angeles, with the home-field cultural advantage, and finally prove --

“And the results here show also the identification of the humans,” Jackson announces, “and from the ranking list we can see that ‘Confederate 1,’ which is Brian Christian, was the most human.”

And he hands me the certificate for the Most Human Human award.

「愚かなカナダ人と彼らのアイスホッケー…」と私は考えていました。 そして、バカげた賞のことでこんなにも自分に言い聞かせているなんて、 なんて馬鹿げているんだろうと思ってしまいました。 それから、たった数分のインスタント・メッセージでの会話のために 5000マイルもの距離を飛んで来ることがどれほど馬鹿げているかを考えていました。 さらに、準優勝というのは素晴らしいことかもしれないとも考えました。 2010年にロサンゼルスで、ホームフィールドの文化的優位性を生かして再び出場し、 最終的には次のように証明することができて…

「そしてここでの結果は、人間の識別も示しています」とジャクソンは発表します。 「そしてランキングリストから、ブライアン・クリスチャンである ‘Confederate 1’ が最も人間的であったことがわかります」

そして、彼は "Most Human Human" の賞状を手渡してくれました。

実は、クリスチャンが記述している この感動的なシーンは前述のビデオにも登場します。 が、彼が言うほどには感動的ではない、 いや、もっと率直に語ると「非常にそっけないシーン」に見えます。 きっと、これは彼の心象風景だったのでしょう。

「オタクのオタクによるオタクのためのコンテスト」

これがローブナー賞の真実のように僕には思えます。 そしてビデオでは、このコンテストの創設者である ヒュー・ローブナー への感謝が繰り返し語られます。 一部では「売名行為」と揶揄されているローブナーですが、 さまざまな批判や妨害に耐え、 時には私財を注ぎ込んでまで、 この毎年開催されるコンテストを 長らく維持・運営してきた彼への深い感謝が感じられます。 米国人である彼が始めたにも関わらず、 ローブナー賞は英国人のためのコンテストです。 それが日本人である我々には見えにくい ローブナー賞のもうひとつの顔なのかも知れません。

ビデオやクリスチャンのレポートから感じるコンテストへの情熱は、以前読んだ スティーブン・レヴィ の名著 『ハッカーズ』 に登場する ホームブリュー・コンピュータ・クラブ を彷彿させるものです。 オールドファンの方々はご記憶のことと思いますが、 Apple を設立した「もう一人のスティーブ」こと スティーブ・ウォズニアック が毎回クラブに持ち込んでいた マイクロプロセッサによるホームコンピュータ(のボード)こそが 後の Apple の最初のベストセラーである Apple II となります。また開発したBASICインタープリターを 使ってビジネスを始めた ビル・ゲイツ を最初に酷評したのも、このクラブでした。

僕は、 こういった純粋で無垢で情熱的な衝動を (かつての)ローブナー賞にも感じてしまうのです。


ローブナー賞の現在

もっとも、このローブナー賞の「古き良き時代」は Loebner Prize 2009 の時点で終わりに向けて走り出していたように見えます。 クリスチャンは The Most Human Human の受賞には喜びつつも、 その際に感じた戸惑いについて次のように語っています。

I DIDN’T KNOW how to feel, exactly. It seemed strange to treat the award as meaningless or trivial, but did winning really represent something about me as a person? More than anything, I felt that together, my fellow confederates and I had avenged the mistakes of 2008 in dramatic fashion. That year, the 12 judges decided five times that computer programs were more human than confederates. In three of those instances, the judge was fooled by a program named Elbot, which was the handiwork of a company called Artificial Solutions, one of many new businesses leveraging chatbot technology. One more deception, and Elbot would have tricked 33percent of that year’s dozen judges -- surpassing Turing’s 30 percent mark, and making history. After Elbot’s victory at the Loebner Prize and the publicity that followed, the company seemingly decided to prioritize the Elbot software’s more commercial applications; at any rate, it had not entered the ’09 contest as the returning champion.

正直なところ、どのように感じればいいのかわかりませんでした。 この賞を無意味なもの、つまらないものとして扱うのはおかしいと思いましたが、 「受賞は私という人間の何かを表しているのか?」(と考えてしましました。) 何よりも、コンフェデレイトの仲間たちと一緒に、2008年の失敗を劇的な形で取り返せたと感じました。 前年、12人の審査員は、コンピュータプログラムの方がコンフェデレイトよりも人間らしいという判断を5回下しました。 そのうち3回は、Elbot というプログラムに騙されました。 このプログラムは、チャットボット技術を活用した数多くの新興企業のひとつである Artificial Solutions 社が開発したものです。 もし、もう一回騙せていたら、Elbot はチューリングの30%を超え、歴史に名を残すことになったのです。 Elbot がローブナー賞を受賞し、世間の注目を集めた後、同社は Elbot の開発を優先したようです。 いずれにしても、2009年のコンテストには、返り咲きのチャンピオンとして参加していません。

つまり、クリスチャンにコンフェデレイトとしての参加を 決意させたチャットボットと彼が対決することはなかったのです。

これはまた、ローブナー賞でのビジネス指向の台頭を示す出来事でもありました。 ローブナー賞で The Most Human Computer を獲得したチャットボットの多くは、 その後、何らかの形でビジネス化へと踏み出していきました。 これはかつてのホームブリュー・コンピュータ・クラブでも起こった現象です。

ヒュー・ローブナーは アラン・チューリング・イヤー (2012)の前年を最後にローブナー賞の運営からは退き、 Turing Centenary Advisory Committee(TCAC: チューリング100周年記念諮問委員会) のメンバーとなりました。そして2016年12月に亡くなりました。

2014年以降、ローブナー賞は ブレッチリーパークAISB (世界最古の人工知能学会) が運営を引き継いでいます。 2019年にはルールが変更され、 ジャッジもコンフェデレイトも廃止されました。 代わりに、チャットボットは一般の人々によって審査されています。

以上

*1:ローブナー賞コンテストの様子を収めた もうひとつの映像は次の Loebner Prize 2007 のビデオです。

www.youtube.com

噂のヒュー・ローブナーの自宅で 開催されたコンテストだったことが 映像からも窺い知れます。

*2:Loebner Prize 2009での Do Much More の 会話ログは次で公開されています。

2009 Loebner Prize Competition Transcripts

案外、たわいもない会話のような…😀

*3:ブライアン・クリスチャンの書籍は 次のリンクで辿れます。

www.penguinrandomhouse.com

ちなみにこの書籍がベストセラーになったため、 クリスチャンは一躍ノンフィクション作家の 仲間入りを果たしました。

なお日本語訳は草思社のサイトで確認できます。

www.soshisha.com

ちなみに文庫版 も刊行されています。 一般教養としてのAIを ギュッとまとめられているので、 おすすめの一冊です。

*4:哲学の学位を持ち、詩作による美術修士も取得しているクリスチャンには、 それが自然なことに思えたのでしょう😀