Decoding Intentions -- Artificial Intelligence and Costly Signals

OpenAI の CEO サム・アルトマンを解任した 旧取締役会のメンバーの一人だった ヘレン・トナー が執筆した 論文 の要約と表を翻訳しました。

この論文は GIGAZINE の記事 「OpenAIのサム・アルトマンCEO解任騒動は会社に批判的な論文を書いた取締役会メンバーを追い出そうとしたことが原因か」 で「アルトマン氏と取締役会の間に不和が生まれた大きなきっかけ」となったと紹介されてます。

この騒動は WikipediaRemoval of Sam Altman from OpenAI でも詳しく説明されています。

NOTEに 解説記事 を投稿しました。こちらもよろしく。


意図を読み解く ー 人工知能と高価なシグナル(告知・兆候)

Authors
Andrew Imbrie
Owen J. Daniels
Helen Toner


要旨

政策立案者は、 人工知能分野における意図をどのようにして信頼できる形で明らかにし、 評価することができるのだろうか? AI技術は急速に進化しており、 民間や軍事への幅広い応用を可能にしている。 AIの技術革新の大部分をリードしているのは民間企業だが、 その動機やインセンティブは、本社を置く国家のそれとは異なる場合がある。 政府と企業がより高性能なシステムの導入を競い合う中で、 誤算や不注意によるエスカレーションのリスクは高まるだろう。 地政学的な競争が激化する中、安全で責任あるシステム開発を行うためには、 誤解を防ぎ、明確な意思疎通を図るための政策手段をすべて理解することが不可欠である。

この要約では、 これまで一般的な議論ではあまり注目されてこなかった重要な政策手段、 すなわちコストと兆候について考察する。 コストのかかる兆候とは、 発信者が最初の約束や脅しを撤回したり履行できなかったりした場合に、 政治的、評判的、金銭的な代償を支払うことになる発言や行動のことである。 学術文献のレビューに基づき、 我々は4つの高価な兆候メカニズムを強調し、 AIの分野に適用する(表1に要約):

  • 制約方法とは、外国あるいは国内の聴衆に向けた公的なコミットメントの戦略的な展開を意味する。例えば、AI政策に関する一方的な声明、多国間機関での投票、AIモデルのテストや評価への公的なコミットメントなどがこれにあたる。
  • 回収不能コストとは、AIアルゴリズムのライセンスや登録要件、テストベッドやその他の施設を含むテスト・評価インフラへの大規模投資など、コストが最初から織り込まれているコミットメントに依存する
  • 分割可能コストとは、AIシステムの持続的検証技術や、データセンターにおけるAIチップの使用に関する会計ツールなど、送り手が現在ではなく将来に代償を支払うことになるコミットメントである
  • 削減可能なコストとは、より解釈しやすいAIモデルへの投資、AI投資基準の策定への参加、AI対応システムの代替設計原則など、前もって支払うが、兆候発信者の行動次第で時間とともに相殺されるコストである[1]。

本稿では、3つのケーススタディを通じて、AIの高価なシグナル(告知)メカニズムを探る。 1つ目のケーススタディでは、軍事におけるAIと自律性をめぐる兆候について検討する。 2つ目のケーススタディでは、人権、市民の自由、データ保護、 プライバシーへのコミットメントをAI技術の設計、開発、導入に組み込む民主主義的なAIについて検討する。 3つ目のケーススタディでは、 大規模言語モデル(LLM)の開発とリリースをめぐる民間企業の積極的な告知について分析する。

しかし、その長所と限界を理解することが重要である。 キューバ危機の後、米国はモスクワと直接ホットラインを結び、 そこからメッセージを送ることができた[2]。 兆候は、うっかりすると高くつくこともある。 民主主義的なAIは、 特定の価値観へのコミットメントについて強力なメッセージを送るが、 こうした原則を共有しない可能性のあるパートナーとの間で違反が生じるリスクがあり、 米国が偽善の容疑にさらされる可能性がある。 すべての兆候が意図的であるわけではないし、 商業主体は他の分野や国の政府や業界関係者とは異なるコストを概念化するかもしれない。 このような複雑さは克服できないものではないが、 民間企業がイノベーションを推進し、 その拠点となる国と利害が対立する可能性がある経済状況において、 兆候に課題をもたらす。

誤認や不用意なエスカレーションのリスクを考えれば、 官民のリーダーは、 兆候を首尾一貫した戦略に組み込むよう注意しなければならない。 コストのかかる兆候には、 兆候の伝達を目的とした透明性と、 プライバシーやセキュリティをめぐる規範との緊張関係など、 管理すべきトレードオフが伴う。 政策立案者や技術指導者が、 能力を「隠すか、明らかにするか」だけでなく、 どのように明らかにするか、 また、 どのようなチャネルを通じて意図するメッセージを伝えるかを検討することで、 兆候の伝達の機会は信頼性をもって拡大する[3]。 多価的な兆候、 すなわち複数の兆候を発信することは、 相補的または矛盾する効果をもたらす可能性がある。 公共部門と民間部門のリーダーによる互換性のあるメッセージは、 AIにおけるコミットメントの信頼性を高めることができるが、 政府関係者が異なる技術分野にわたる能力を評価するための適切なコンテキストを欠いている場合、 兆候を誤解する可能性もある。 政策立案者は、想定を明確にし、 エスカレーションのリスクを軽減し、 危機時のコミュニケーションに関する共通の理解を深めるために、 コストのかかる兆候を卓上演習や同盟国や競合国との 集中的な対話に取り入れることを検討すべきである。 兆候にはノイズが多く、 時に聴衆を混乱させることもあるが、 それでも必要なものである。



表1:高価なAIのシグナルの例


軍事におけるAIと自律性

制約方法

一方的な政策声明を発表して意思を伝える。 例えば、核の指揮統制の意思決定には人間を維持することを約束する。

回収不能コスト

訓練中および配備前のレッドチーム編成手順に投資し、 AI対応兵器システムの帰属を容易にするエンブレムの使用を検討する。

分割可能コスト

AI対応システムの持続的な検証技術にコミットし、 集中的なコンピュート・アカウンティングの取り決めを策定する。

削減可能コスト

要件を設定し、解釈可能なAIモデルと代替設計原則に投資するインセンティブを創出する。


民主主義的なAI

制約方法

民間企業のAIを活用した敵対的な攻撃に対して、 あらかじめ定義された行動を約束することで、 民間企業のAIの原則を守る。

回収不能コスト

AI技術が悪用されるシステム・リスクがある市場で事業を行う民間企業に対して、 潜在的リスクの評価指針(デューデリジェンス・ガイダンス)を公表する。

分割可能コスト

AI監査人のための共通の認証基準、ツール、慣行を開発する。

削減可能コスト

AIの安全性研究や、民主的価値を促進する プライバシー強化技術の開発に対する賞金コンテストを主催する。


民間企業の積極的な告知

制約方法

学習データ、モデルの性能、危険な能力に関する透明性など、 高度なAIモデルに関する重要な情報を公開する。

回収不能コスト

信頼できるホスティングサービスや、 テストベッドなどのテスト・評価インフラに投資する。

分割可能コスト

リアルタイムのインシデント監視と、 AI対応システムが関与するインシデントのデータ収集と分析に関する共通基準にコミットする。

削減可能コスト

AIの影響評価とAIシステムの内部監査結果を公表する。




Decoding Intentions -- Artificial Intelligence and Costly Signals

Authors
Andrew Imbrie
Owen J. Daniels
Helen Toner


Executive Summary

How can policymakers credibly reveal and assess intentions in the field of artificial intelligence? AI technologies are evolving rapidly and enable a wide range of civilian and military applications. Private sector companies lead much of the innovation in AI, but their motivations and incentives may diverge from those of the state in which they are headquartered. As governments and companies compete to deploy evermore capable systems, the risks of miscalculation and inadvertent escalation will grow. Understanding the full complement of policy tools to prevent misperceptions and communicate clearly is essential for the safe and responsible development of these systems at a time of intensifying geopolitical competition.

In this brief, we explore a crucial policy lever that has not received much attention in the public debate: costly signals. Costly signals are statements or actions for which the sender will pay a price —political, reputational, or monetary—if they back down or fail to make good on their initial promise or threat. Drawing on a review of the scholarly literature, we highlight four costly signaling mechanisms and apply them to the field of AI (summarized in Table 1):

  • Tying hands involves the strategic deployment of public commitments before a foreign or domestic audience, such as unilateral AI policy statements, votes in multilateral bodies, or public commitments to test and evaluate AI models;
  • Sunk costs rely on commitments whose costs are priced in from the start, such as licensing and registration requirements for AI algorithms or large-scale investments in test and evaluation infrastructure, including testbeds and other facilities;
  • Installment costs are commitments where the sender will pay a price in the future instead of the present, such as sustained verification techniques for AI systems and accounting tools for the use of AI chips in data centers;
  • Reducible costs are paid up front but can be offset over time depending on the actions of the signaler, such as investments in more interpretable AI models, commitments to participate in the development of AI investment standards, and alternate design principles for AI-enabled systems.[1]

We explore costly signaling mechanisms for AI in three case studies. The first case study considers signaling around military AI and autonomy. The second case study examines governmental signaling around democratic AI, which embeds commitments to human rights, civil liberties, data protection, and privacy in the design, development, and deployment of AI technologies. The third case study analyzes private sector signaling around the development and release of large language models (LLMs).

Costly signals are valuable for promoting international stability, but it is important to understand their strengths and limitations. Following the Cuban Missile Crisis, the United States benefited from establishing a direct hotline with Moscow through which it could send messages.[2] In today’s competitive and multifaceted information environment, there are even more actors with influence on the signaling landscape and opportunities for misperception abound. Signals can be inadvertently costly. U.S. government signaling on democratic AI sends a powerful message about its commitment to certain values, but it runs the risk of a breach with partners who may not share these principles and could expose the United States to charges of hypocrisy. Not all signals are intentional, and commercial actors may conceptualize the costs differently from governments or industry players in other sectors and countries. While these complexities are not insurmountable, they pose challenges for signaling in an economic context where private sector firms drive innovation and may have interests at odds with the countries in which they are based.

Given the risks of misperception and inadvertent escalation, leaders in the public and private sectors must take care to embed signals in coherent strategies. Costly signals come with tradeoffs that need to be managed, including tensions between transparency for signaling purposes and norms around privacy and security. The opportunities for signaling credibly expand when policymakers and technology leaders consider not only whether to “conceal or reveal” a capability, but also how they reveal and the specific channels through which they convey messages of intent.[3] Multivalent signaling, or the practice of sending more than one signal, can have complementary or contradictory effects. Compatible messaging from public and private sector leaders can enhance the credibility of commitments in AI, but officials may also misinterpret signals if they lack appropriate context for assessing capabilities across different technology areas. Policymakers should consider incorporating costly signals into tabletop exercises and focused dialogues with allies and competitor nations to clarify assumptions, mitigate the risks of escalation, and develop shared understandings around communication in times of crisis. Signals can be noisy, occasionally confusing some audiences, but they are still necessary.

Table 1: Examples of Costly AI Signals

Military AI and Autonomy

Tying hands

Issue unilateral policy statements to convey intent, such as committing to maintain a human in the loop for nuclear command and control decisions.

Sunk costs

Invest in red teaming procedures during training and before deployment and explore the use of emblems to facilitate attribution of AI-enabled weapons systems.

Installment costs

Commit to sustained verification techniques for AI-enabled systems and develop arrangements for intensive compute accounting.

Reducible costs

Set requirements and create incentives for investing in interpretable AI models and alternate design principles.

Democratic AI

Tying hands

Defend democratic AI principles by committing to predefined actions in response to AI-enabled adversarial attacks on democratic societies.

Sunk costs

Release due diligence guidance for private companies operating in markets where there is a systemic risk of misuse of AI technologies.

Installment costs

Develop common certification standards, tools, and practices for AI auditors.

Reducible costs

Sponsor prize competitions for AI safety research and the development of privacy-enhancing technologies that promote democratic values.

Private Sector Signaling

Tying hands

Release key information about advanced AI models, including transparency around the training data, model performance, and dangerous capabilities.

Sunk costs

Invest in trusted hosting services and test and evaluation infrastructure, including test beds and other facilities.

Installment costs

Commit to real-time incident monitoring and common standards around data collection and analysis of incidents involving AI-enabled systems.

Reducible costs

Publish AI impact assessments and the results of internal audits of AI systems