Credit:Canva . ナゾロジー編集部

artificial-intelligence

会話型AIを応用して「AIに説明書を読ませたら」学習速度が6000倍に！

2023.03.06 Monday

人間用に書かれた説明書はAIにも役立つようです。

米国のカーネギー・メロン大学（CMU）で行われた研究によって、人間用の説明書を事前に読むことで、ゲームの学習速度を最大で6000倍速くできる複合AIシステムが開発されました。

このAIシステムは人間の文章を読むための追加のAI「言語モデル」が搭載されており、ゲームの説明書から必要な情報を抽出して、ゲーム攻略のためAI自身がとるべき行動を推論することが可能となっています。

既存のAIはゲーム世界に繋がれたままひたすら試行錯誤を繰り返すことで上達していきますが、新たなAIは現実世界に存在する説明書の内容を自らのニューラルネットに刻み込み、ゲーム世界での行動に反映できるのです。

何気ない機能に思えますが、人間のために書かれた説明書を読むAIが開発されたのは、今回の研究がはじめてとなります。

どうやら人間の言葉を読めるAIにとって、マニュアルは非常に有用な学習源になるようです。

もし同じ言語モデルを他のAIにも加えることができれば、AIに新車の運転方法や新しい電化製品などの使い方を簡単に教えられるようになるかもしれません。

研究内容の詳細は2023年2月9日にプレプリントサーバーである『arXiv』にて公開されました。

Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals https://arxiv.org/abs/2302.04449

youtubeチャンネルナゾロジー

1兆匹の大発生！「素数セミ」の羽化周期が重なり一斉羽化

1兆匹の大発生！「素数セミ」の羽化周期が重なり一斉羽化

2つのブラックホールが合体すると？ホーキング定理、実証される

2つのブラックホールが合体すると？ホーキング定理、実証される

伝説は隕石落下に伴う大津波だった！トンガ王国を襲った「赤い波」の伝説を科学が証明！

伝説は隕石落下に伴う大津波だった！トンガ王国を襲った「赤い波」の伝説を科学が証明！

「お日様の匂い」の正体を解説！ダニの死骸は誤った知識

「お日様の匂い」の正体を解説！ダニの死骸は誤った知識

目次

AIは「人間用の説明書」を読むことで6000倍速く学習できると判明！

AIは「人間用の説明書」を読むことで6000倍速く学習できると判明！ — AIは「人間用の説明書」を読むことで6000倍速く学習できると判明！ / Credit:Canva

人工知能技術の進歩により、AIのゲームスキルはしばしば人間を凌駕するようになってきました。

しかしAIの学習が人間レベルまで到達するには一般に膨大な量の情報が必要であり、学習にかかる期間も非常に長いものになっています。

ゲーム世界に閉じ込められたAIは初期段階では非常に無垢な存在であるため、操作方法やクリア条件などを「0」から学んでいく必要があるからです。

研究では1980年代に出されたAtari社の古いゲームが用いられました — 研究では1980年代に出されたAtari社の古いゲームが用いられました / Credit:Atari 2600 – Skiing

たとえば、1980年代にActivisionが開発したAtari 2600用ゲーム「Skiing」では、上の動画のように、プレイヤーは障害物となる木を避けながら旗の間を通って最短時間でゴールインすることを求められます。

単純なゲームに思えますが、クリアは簡単ではありません。

ステージが進むごとに障害物と得点源の配置が複雑化していくからです。

（※Atari社のゲームは操作方法が簡単でありながらクリアするには高いスキルを要するものが多くAI研究では頻繁に「題材」となっています）

そのため既存のAIが「スキー」を学習するには800億フレームもの画像データが必要であり、まともにプレイした場合には延べ85年以上の時間がかかります。

（※実際にAIの学習を行うときには1000台以上の高性能コンピューターを並列処理することで学習時間の短縮が行われます）

学習が進めば進むほどAIのゲームスキルは卓越したものになっていきますが、人間の学習速度とは大きなギャップがありました。

そこで今回、カーネギー・メロン大学の研究者たちはまず、人間とAIのギャップの原因を探すことからはじめました。

するとAIが学習に膨大な時間を必要とする背景には「ゲームに対する根本的な知識と理解の不足」が存在していることが判明します。

AIは全てを0から学ぶ必要があるため、障害物としての木の役割や通るべき旗の役割など初歩的な部分を学ぶのに、何億回もの試行錯誤を必要としていたのです。

人間のプレーヤーの場合、このような初歩的な知識や理解は説明書から得ることが可能です。

そこで研究者たちは次に、AIに「人間用の説明書」を読ませるために、別のAI「大規模言語モデル」を組み合わせることにしました。

（※大規模言語モデルはネット上に存在する膨大なテキストデータを学習することで人間と自然な話し言葉で会話することが可能となっており、現在ではchatGPTなどをはじめとした会話型AIに導入されています）

また追加されたAI機能には説明書の情報を要約して質問形式で情報をまとめるQA抽出モジュールと、抽出された情報をゲーム内の特定の行動に反映する推論モジュールが含まれていました。

これによりAIは説明書の「木」や「旗」がどんなものを指すかを把握し、その情報をもとにゲーム内部でどう動くべきかを推論・判断することが可能になります。

（※推論モジュールの出した結論が正しい場合、AIに報酬となるポイントが内部的に与えられ事前知識として蓄積していきました）

事前の説明書の読み込みが終わると、研究者たちはAIをゲーム世界に繋ぎ、学習の進捗を観察しました。

すると既存のAIがゲームをマスターするのに800億フレームを要していた一方で、人間用の説明書を読んでいたAIは6000分の1にあたる1300万フレームで十分であったことが判明します。

ゲームは1秒間に30フレームで動作するため、既存のAIの延べ学習時間は85年もかかっていましたが、新たなAIはわずか5日間で同じ水準に達したことになります。

同様の説明書を読むことでの学習時間の短縮は「Skiing」以外の3つのゲームでも確認できました。

人類のあらゆるテキストデータから学習した会話型はAIの利用法をも変化させています。 — 人類のあらゆるテキストデータから学習した会話型はAIの利用法をも変化させています。 / Credit:Canva

なお今回の研究の背景にはchatGPTの存在など、AIがテキストから情報を抽出する能力の急速な高まりを利用したものと言えるでしょう。

研究者たちは同様の仕組みを他のAIに組み込むことができれば、AIの学習時間を大幅に節約することができると述べています。

もしかしたら未来の人型汎用人工知能は自分で説明書や科学書、哲学書を読むことで、人類には到達不可能なレベルの知性に到達できるかもしれません。

コメントを書くキャンセル

人気記事ランキング

Amazonお買い得品ランキング

日用品

1位

【Amazon.co.jp限定】【大容量】デカラクサイズアタック抗菌EX 洗濯洗剤液体洗ってもぶりかえすゾンビ臭断絶へ! つめかえ用 2800ｇ

【Amazon.co.jp限定】【大容量】デカラクサイズアタック抗菌EX 洗濯洗剤液体洗ってもぶりかえすゾンビ臭断絶へ! つめかえ用 2800ｇ

2位

【大容量】ワイドハイターEXパワー液体衣料用漂白剤見過ごせなくなった汚れやニオイ、洗剤にちょい足しで超絶スッキリ！！詰替用２４０0ml ツンとしないさわやかな花の香り

【大容量】ワイドハイターEXパワー液体衣料用漂白剤見過ごせなくなった汚れやニオイ、洗剤にちょい足しで超絶スッキリ！！詰替用２４０0ml ツンとしないさわやかな花の香り

3位

【Amazon.co.jp限定】【大容量】デカラクサイズアタックZERO ドラム式専用洗濯洗剤液体アタック液体史上最高の清潔力。菌の隠れ家蓄積0へ詰め替え 2200ｇ

【Amazon.co.jp限定】【大容量】デカラクサイズアタックZERO ドラム式専用洗濯洗剤液体アタック液体史上最高の清潔力。菌の隠れ家蓄積0へ詰め替え 2200ｇ

4位

【Amazon.co.jp限定】【大容量】デカラクサイズアタックZERO 洗濯洗剤液体アタック液体史上最高の清潔力。菌の隠れ家蓄積0へつめかえ用2200ｇ清々しいリーフィブリーズの香り(微香)

【Amazon.co.jp限定】【大容量】デカラクサイズアタックZERO 洗濯洗剤液体アタック液体史上最高の清潔力。菌の隠れ家蓄積0へつめかえ用2200ｇ清々しいリーフィブリーズの香り(微香)

5位

IROKA フレアフレグランス液体柔軟剤香水のように上質で透明感あふれる香りネイキッドリリーの香り 1200ml 大容量

IROKA フレアフレグランス液体柔軟剤香水のように上質で透明感あふれる香りネイキッドリリーの香り 1200ml 大容量

スマホ用品

1位

【Amazon.co.jp限定】バッファロー microSD 128GB 100MB/s UHS-1 U1 microSDXC【 Nintendo Switch/ドライブレコーダー対応】V10 A1 IPX7 Full HD RMSD-128U11HA/N

【Amazon.co.jp限定】バッファロー microSD 128GB 100MB/s UHS-1 U1 microSDXC【 Nintendo Switch/ドライブレコーダー対応】V10 A1 IPX7 Full HD RMSD-128U11HA/N

2位

Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 100W 結束バンド付き USB PD対応シリコン素材採用 Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)

Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 100W 結束バンド付き USB PD対応シリコン素材採用 Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)

3位

Apple AirTag

4位

Samsung microSDカード 256GB EVO Plus microSDXC UHS-I U3 Nintendo Switch 動作確認済最大転送速度130MB/秒 MB-MC256KA/EC 国内正規保証品

Samsung microSDカード 256GB EVO Plus microSDXC UHS-I U3 Nintendo Switch 動作確認済最大転送速度130MB/秒 MB-MC256KA/EC 国内正規保証品

5位

Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応テレワークリモート在宅勤務 0.9m ホワイト

Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応テレワークリモート在宅勤務 0.9m ホワイト

ゲーム

1位

スーパーマリオブラザーズワンダー -Switch

スーパーマリオブラザーズワンダー -Switch

2位

桃太郎電鉄ワールド ~地球は希望でまわってる! ~

桃太郎電鉄ワールド ~地球は希望でまわってる! ~

3位

Pikmin 4(ピクミン 4) -Switch

Pikmin 4(ピクミン 4) -Switch

4位

ニンテンドープリペイド番号 9000円|オンラインコード版

ニンテンドープリペイド番号 9000円|オンラインコード版

5位

【Switch用追加コンテンツ】ポケットモンスタースカーレット・バイオレットゼロの秘宝 |オンラインコード版

【Switch用追加コンテンツ】ポケットモンスタースカーレット・バイオレットゼロの秘宝 |オンラインコード版

小説

1位

変な家2 ～11の間取り図～

2位

変な家

3位

十角館の殺人〈新装改訂版〉｢館｣シリーズ (講談社文庫)

十角館の殺人〈新装改訂版〉｢館｣シリーズ (講談社文庫)

4位

近畿地方のある場所について

5位

変な絵

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!