『ChatGPTの頭の中』著者、ウルフラム氏に聞く

  • 2023.09.07
  • AI
『ChatGPTの頭の中』著者、ウルフラム氏に聞く
対話型AI、ChatGPTを搭載したアプリの登場や、企業内での活用がいよいよ本格的に進んでいる。
一方、その仕組みに関しては未知な部分が多い。なぜこれほど生身の人間に近い言葉を生み出すことができるのか。回答にウソが混じる「ハルシネーション」はなぜ起こってしまうのか。
アメリカのインターネット・ソフトウェア企業、ウルフラム・リサーチの創業者で、『ChatGPTの頭の中』(早川書房)を書いたスティーブン・ウルフラム氏に、ChatGPTの技術的な謎について聞いた。

「幻覚」をなくす方法はある?

ーーChatGPTを活用するうえで、もっともらしい嘘をつく「ハルシネーション(幻覚)」が課題になっています。

(次に来るのが確からしい単語を統計的に出力するChatGPTにおいて)ハルシネーションは、統計的には正しくとも事実関係として正しくない場合に起こる。

スティーブン・ウルフラム/理論物理学者。1959年ロンドン生まれ。理論物理学者。1980年カリフォルニア工科大学で理論物理学博士号を取得。1987年に数式処理システム「Mathematica」や質問応答システム「Wolfram|Alpha」の開発で知られるソフトウェア開発企業「ウルフラム・リサーチ」を創業、現在もCEOを務める。映画『メッセージ』(2016)では異星人の使用する文字言語の解析や、恒星間航行に関する科学考証を担当(写真:著者提供)

たとえば「鳥が月に向かって飛んだ」という文章について考えてみよう。

鳥が飛ぶこと、月が空にあることはそれぞれ理にかなっているが、鳥が月に向かって飛ぶことは実際には起こり得ない。実際に何が起こるかを知るためには、今のChatGPTが持っている言語の統計に関する情報だけでは不十分だ。

ChatGPTが言語について学習するとき、学んでいるのは言葉をどのように組み合わせるかであって、それが事実かファンタジーかを知ることは別の話。世界についてのより深い理解を必要とする問題だ。

私たちは計算言語である「Wolframウルフ(ウルフラム)言語」のようなものでこれを構築しようとしてきたが、ウェブ上の訓練だけで完璧にできるものではない。

ーーChatGPTに質問をすると、まるで人間と対話をしているかのような自然な回答が返ってきます。ただ、同じ質問をしても毎回同じ答えをするとは限らず、その都度違っている。この「ランダム性」こそが、ChatGPTの創造力の源泉なのでしょうか。

「わからない」というのが率直なところだが、私はそう推測している。

わかっているのは、(AIモデルの確率に関わる)パラメータを調整して数値を上げると文章はよりランダムなものになり、1.3くらいを超えると文章はまったくもってナンセンスな、意味をなさないものになるということだ。反対に、パラメータを0にすると、文章は非常に平坦で、退屈なものになってしまう。

一般論として、ランダム性は創造性と関係している。というのも、私たちがあるテキストを読んで「面白い」と思うのは、テキスト内に何らかの予想外なものが含まれているからだ。

それが、ChatGPTに生成されるテキストにランダム性があることが創造性を上げるのに有用だと私が推測する根拠だ。人間の脳でも、ニューロンの発火の仕方に何らかのランダム性があることをわれわれが発見する日がいつか来るだろう。

とはいえ、人間が豊かな創造性をChatGPTに求めるのは、文章を書くときくらいだ。コードを書くときなどは、パラメータは0にしておくのがいいだろう。

2012年に起きたある種の偶然

ChatGPTの頭の中 (ハヤカワ新書 009)

『ChatGPTの頭の中』 (ハヤカワ新書 。書影をクリックするとAmazonのサイトにジャンプします

ーー著書の中では、単純なAIモデルよりもChatGPTのように複雑なもののほうが、重み(入力データに対してどれくらいの影響を持たせるかを調整するためのパラメータ)の変更が簡単になる、と指摘されています。それはなぜですか。

(ChatGPTのような)ニューラルネットワークの目的は、パラメータの重みを変更しながら損失関数を最小化し、最適解を見つけることだ。AIの学習データの内容(正解データ)とニューラルネットワークが生成する出力データとの間の誤差を最小限に抑える。

それは、例えるならば山の風景を撮って、その山の最低点を見つけようとするようなものだ。

この方法では常に山を下る道をたどることになるが、 山全体の最低地点ではなく局所的な最低点にはまってしまうことがある。撮影された風景は2次元で、実際の山は3次元にあるわけだから、局所的な最低点に陥りやすい。これは直感的にもわかるだろう。

ただ、このような行き詰まりが生じるのは、(2次元や3次元といった)低次元の空間を扱っている場合だけ。例えば何十億次元もの空間を扱うときは、ある意味で山を降りるために選択できる道が常に存在することになる。

もっともこれについて直感的に理解することは難しいかもしれない。非常に高次元の空間を扱うと、常に最小値に向かって下降する経路が存在することは人々が予想していないことだった。

だから2011年頃までに行われたニューラルネットの実験の多くは、ニューラルネットを単純化しようとしていた。それが2012年、ある種の偶然から、非常に複雑なニューラルネットのほうが、単純化されたニューラルネットよりも訓練が容易であることが発見された。

鍵はモデルの「複雑さ」を軽減すること

ーーChatGPTは創造性豊かな対話ができる一方で、簡単な算数の計算を間違うことで知られています。AIが計算よりも自然言語のほうを得意とするというのは、直感に反するのですが……。

ChatGPTの成功が示しているのは、言語の種類に応じた構文を解析し、何か意味のある情報を伝える文章を理解するのがそれほど難しくないということだろう。

ChatGPTは言語や世界に関する多くの知識を必要とするが、その一方で大きな数を因数分解するときのように、何度も何度もアルゴリズムを繰り返す必要はない。次に続く単語を見つけるには、ニューロンの層を一度だけ通過して計算をしている。

われわれが人間の言葉で表現している物事には、論理学のような形で形式化できることがもっとたくさんある。論理学は古代ギリシアの哲学者であるアリストテレスにより2000年前に発明され、以来言語の意味文法と呼べるものを作る方法を理解しようとしてきた。ただ、現代ではあまり取り組まれていない。ChatGPTは、こうした理解が可能であることを示している。

ーーChatGPTのような対話型の生成AIは、これからどのような発展を遂げるのでしょうか。

今論点になっているのは、いかにモデルの複雑さを軽減できるかということだ。

通常大規模言語モデルを含むニューラルネットワークは、コンピュータで実数を表現する形式である単精度浮動小数点(32ビット)や倍精度浮動小数点(64ビット)を使用するのが標準的だ。

しかし、ニューラルネットワークを訓練した後で、例えば8ビットや4ビットといったもっと小さい数値を利用しても、良好な結果になることが発見されている。

一方で、ニューラルネットワークを訓練する際にはそのような低い精度の数値を使えない。ニューラルネットワークを訓練する際は、常に微少な変更を加え重みを更新していくが、精度が低すぎるビット数の数値ではそのような細かい変更を加えることができないからだ。

逆に言えば、これらのビット数を減らすことができれば、メモリサイズが減り、複雑さが軽減される。精度の低い数値の方がニューラルネットの情報を格納するのに必要なビット数が少ないため、ニューラルネットを小型のコンピューターに収めることができる。

ChatGPTに搭載されるLLM(大規模言語モデル)を実行するには、現状で大規模なコンピューティングリソースが必要だ。ただこれをもっと少なくすることは可能だ。

ChatGPTは約1750億のパラメーターを使用していると考えられるが、このうちのパラメーターのほとんどは必要ではないからだ。言語を解釈し、文章を書くために必要なのは言語に関する一般的な情報とある程度の常識だけだ。

現在、多くの人々が取り組んでいることの1つは、具体的な事実に関するデータをウルフラム言語などの外部データベースやサービスから取得し、LLMが言語インタフェース部分のみを処理できるようにすることだ。これが成功すればLLMはさらに多くのことを行うことができるようになるだろう。

AIの発展はこれからも続くのか

ーーChatGPTの有料版にはプラグイン機能が搭載されていて、ChatGPTだけではできない機能が外部のアプリケーションを併用することで使えるようになります。こうしてAIが「脳」としてツールを使う形でのAIの発展は、これからも続くのでしょうか。

そうだと思う。

私たち人間がしてきたことの歴史を見てみると、頭だけでできることは限られている。誰も頭の中でコンピュータのようにプログラムを走らせることはできないが、コンピュータを作ることで可能になった。

「脳」が行うようなことと、コンピュータが行う計算の力をフルに発揮するようなことを組み合わせることで、非常にパワフルになる。

東洋経済 Online より

AIカテゴリの最新記事