音声チャットボットを活用した学習支援アプリの開発

Development of learning support application using voice chatbot

2023/08/18
藤田昭人

2023/08/19: 早速、追記しました。

はじめに

本研究は（2021年度実施）昨年度発表した下記の研究の継続
- 音声チャットボットを活用した「ＡＩを体験」する実習授業
  - 音声チャットボットによる対話型ＡＩ体験実習
  - チャットボットのルール記述を利用したAIとプログラミング教育の試み
ＡＩが図書館司書の業務の「童話の読み聞かせ」を行うと仮定
- テーマ：聴衆の関心を惹くセリフをＡＩに教える
  - 対象は幼児から小学校低学年
  - 退屈したり集中できない児童の関心を惹くことが重要
  - 童話の段落ごとに聴衆を喚起する一言を挟んでいく
本年度も新たなテーマで実習授業を準備中
- テーマ：中学生・高校生向けの四択問題１０問を出題するＡＩ

生成系ＡＩのブーム

新たな実習テーマで教材の開発に着手（2022年10月〜）
- 前々年度、使用した実習教材がベース
- チャットボットの音声合成部分の実装を追加*1
生成系ＡＩの大ブームが発生（2022月12月〜）
- Stable Diffusion（2022年８月）
- ChatGPT（2022年11月）
３月〜５月：プロンプト・エンジニアリングに注目が集まる
- イベント「教員向け ChatGPT 講座～基礎から応用まで～」
  - 東京大学工学系研究科吉田塁先生のオンラインイベントの資料
  - 生成系ＡＩについて網羅的に解説している資料のひとつ

生成系ＡＩを応答文生成機能に活用する可能性検討に着手

ChatGPTの問題点　望ましくない応答も生成する

６月以降ChatGPTの利用も落ちついて来ている
- NRI ー日本のChatGPT利用動向（2023年6月時点）
  - 2023年に入ってから急増し、4月中旬にはChatGPTを提供するOpenai.comへの1日のアクセス数が700万を超えた
  - 2023年5月12日に過去最高の767万アクセス／日を達成しているが、基本的にアクセス数は横ばいもしくはやや減少傾向にある
利用者が増え、ネガティブな報告も増えつつある
- NHK ー生成AIと会話を続けた夫は帰らぬ人に…
  - ChatGPTとの会話にのめり込み自殺に追い込まれる
- How is ChatGPT's behavior changing over time?
- AIの知能が急激に低下してしまう「ドリフト」問題はなぜ発生するのか？
- ドリフト：ChatGPTを使い続けていると論点がズレていく

教育現場で生徒や学生に利用させるのはリスクが伴う

ChatGPTの問題点　意味を理解している訳ではない

大規模言語モデル（ＬＬＭ）
- 大量のテキストデータを使って事前に学習された自然言語処理のモデル
- LLMは入力に続く言葉を統計学の手法を使って推論しているだけ
- 応答文が生成された理由を明確に示すことが困難
専門家以外の反応：ＡＩが質問を理解していると誤解
- どんな質問にも返答を答えるが、その内容の妥当性は吟味しない
- 具体的で一般的な質問には相応の（不正確な）返答を返すが
- そうでない質問にはおかしな返答を返すことが多い
ＬＬＭのこの振る舞いはライトヒルレポートを彷彿させる
- 1972年に発表されたＡＩ研究を評価するレポート
  - AI techniques may work within the scope of small problem domains, but the techniques would not scale up well to solve more realistic problems.
  - ＡＩ技術は、小さな問題領域の範囲内では機能するかもしれないが、より現実的な問題を解決するためには、その技術はうまくスケールアップしないだろう。
- 第１次ＡＩブームの終焉のきっかけとなった

ＡＩ技術は60年前から格段に進歩したが、社会の反応はあまり変わらない？

ChatGPTの問題点　プライバシーと著作権の問題

EUではＡＩに法的な規制を設ける議論が始まっている模様
- 総務省ー EUのAI規制法案の概要
シンポジウム「生成ＡＩがもたらすインパクトと法的論点」
ＥＵでの法制化も来年以降：生成系ＡＩの社会的な足場はまだ不安定
- 教育現場では生徒や学生のプライバシー保護が最優先
- 著作権の法的保護：どのような影響が出るかはまだわからない

検討結果　生成系ＡＩの活用方法

生成系ＡＩは問題領域（用途）を限定すれば有効に見えるが…
- 妥当性をチェックしないので応答の精度はヒント程度
- 生成系ＡＩを使うアプリで妥当性の確認をするのはコストが大きい
- 生成系ＡＩを活用する場合には、処理フローに応答の妥当性を人間が確認するパスを組み入れるべき
実習の「中高生のテスト勉強をアシストするＡＩ」の実現には…
- 利用者（中高生）である個人にフォーカスした対話が望まれる
- これは集合知アプローチが前提の生成系ＡＩのサポート外に見える
- むしろワイゼンバウムの傾聴対話アプローチが有効では？
特定の個人にフォーカスした対話の実現
- 「知識」を学習することを前提とした対話は固有表現に着目すべき
- 対象「テスト勉強」に限定すれば、テスト問題から抽出できる
- 任意のテキストから固有表現を抽出する問題は生成系ＡＩが有効

第１次ＡＩブームと現在　歴史的な相似

年号	第１次	年号	第３次
1955		2005	シンギュラリティ
1956	ダートマス会議	2006	ディープラーニング
1966	ELIZA、ALPACレポート	2016
1967		2017	トランスフォーマ
1968		2018	GPT-1
1969	パーセプトロン批判	2019	GPT-2
1970		2020	GPT-3、Google、AI倫理研究者を解雇
1971		2021
1972	Mycin（マイシン）	2022	GPT-3.5
1973	ライトヒル・レポート	2023	GPT-4、ＡＩ規制論議
1974	DARPA、CMUのプロジェクトをキャンセル	2024	（さて、何が起こるか？）

用語の解説

＜作業中＞

2023/08/19 追記

今日、箕原先生からの質問にあったオープンソースの日本語大規模言語モデルの件ですが…

東大の松尾研（機械学習を使ったＡＩ研究で日本国内では有名です）からリリースされた Weblab-10B のオープンソース表記について早速クレームがついているようです。

■開発モデルの公開URL

今回開発されたWeblab-10Bの事前学習済みモデル・事後学習済みモデルは、商用利用不可のオープンソースとして公開します。（下記Hugging Faceのページを参照）

・事前学習済みモデルhttps://t.co/DH9lZcqdRq
・事後学習（ファインチューニング）済みモデル…
— 東京大学松尾研究室 (@Matsuo_Lab) 2023年8月18日

東京大学松尾研究室の皆様、下記プレスリリースにおけるオープンソース表記を速やかに削除もしくは適切な表現へ変更するようお願いいたします。通常些細なオープンソース詐称には要求しませんが、今回の発表の影響力から我々として座視することが難しいと考えます@Matsuo_Lab https://t.co/BYXGqb5Mtu
— Shuji Sado (佐渡秀治) コロナで背骨を骨折ニキ (@shujisado) 2023年8月18日

どうやら「商用利用不可」との条項が「オープンソースに適合しない」との指摘です。

おそらくソースコードを公開するという意味で「オープンソース」という用語を当てたのだと思うけど、商用利用不可にするとOpen Source Initiative (OSI)が提唱している「オープンソースソフトウェア」の定義と衝突するので、避けた方がいいと思いました。 https://t.co/HEiGFOU7qb
— Keiji / parody (@keiji_ariyama) 2023年8月18日

AI戦略会議の暫定論点整理というのが出てるのだけど、どうもEUのハードロー、米のソフトロー、日本のノーローというのは変化なさそう。利用者寄りな記述も気になるし、最近スナク英首相が発言した適切なガードレールとは随分意味が異なる気がするな。https://t.co/94gd1W44gt
— Shuji Sado (佐渡秀治) コロナで背骨を骨折ニキ (@shujisado) 2023年5月29日

日本でも生成系ＡＩの制作物に関する著作権問題についてネット上での場外乱闘が始まっているようです。

*1:音声合成部分のみサービスは次のURLで確認できます。
https://tycc-voice-chatbot.glitch.me/
フロントページで「チャットする」をクリックして、「励まして」と入力してみてください。
iPhoneの場合はSafariで起動してください。

はじめに

生成系ＡＩのブーム

ChatGPTの問題点 望ましくない応答も生成する

ChatGPTの問題点 意味を理解している訳ではない

ChatGPTの問題点 プライバシーと著作権の問題

検討結果 生成系ＡＩの活用方法

第１次ＡＩブームと現在 歴史的な相似