生成AIは業務システムの夢を見るか(1)|LLMに算数をやらせるな。

  • f
  • t
  • p
  • h
  • l
oka_AI_blog

生成AIに過度な理想を抱きすぎてはいけない

生成AIの活用を検討していない企業はいないでしょう。多くの会社が、自社の業務に生成AI、とりわけLLM(Large Language Model)を組み込み、生産性向上を成し遂げようと腐心しています。
テクノロジーは日進月歩で進化し、生成AIの性能は右肩上がりで向上し続けています。

そうした中で大きな議論の種となるのが、硬直化した既存システムと、新たな技術である生成AIをどのように組み合わせるかという点です。

業務と密接に結びついた大規模システムに、生成AIをいかにして組み込むべきなのか。ギックス上級執行役員であり、Chief Technologist 兼 Chief Architect(CT&CA) の岡 大勝(おか ひろまさ)に聞きました。

「国語」のLLM、「算数」のシステム

インタビュアー(以下、質問):岡さん。本日はよろしくお願いいたします。岡さんは、ZOZOTOWNのシステム刷新などに携わられてこられたので、「モダンな仕組みに精通している」という印象が強いのですが、実際には、DECやHPでのご経験も長く、また、UML記法の始祖であるラショナルにもいらっしゃったということで、いわゆる「古いアーキテクチャのシステム」への知見も多くお持ちだと認識しております。
こうした中で、昨今の生成AIブームに際して、どのようなスタンスでいらっしゃるのか、簡単にお聞かせいただいて構いませんでしょうか?

ギックス上級執行役員/CT&CA 岡 大勝(以下、岡) :はい。ありがとうございます。そうなんですよ。古い仕組みの経験が長いからこそ、モダンなアーキテクチャを積極的に導入することに大きな意義を感じています。また、多くの企業様の仕組みは、現時点ではまだ「古いアーキテクチャ」で動いているわけですから、それを前提にしたうえで、モダナイズしていくことが非常に重要になってきます。
そういう観点で、生成AIという新しい技術に関しては、システム・モダナイズの起爆剤になり得る存在ですので「とても喜ばしい」と希望を感じる反面、「その特性を十分に理解して進めないと、うまくいかないケースも多くあるだろう」という危惧も抱えています。

質問:なるほど。具体的には、どういう特性を認識しておく必要があるのでしょうか?

岡:一言で言うと「国語と算数の違い」ということになります。LLMが国語、いわゆるシステムが算数の世界です。

質問:システムが算数、という所からご説明頂けますか。

岡:みなさんご認識の通り、従来からシステムと呼ばれているものは、もともと「計算機」として生み出されたものです。読んで字のごとく、数字を計算するわけですから、完全に「算数」の世界です。
定められたルールに則って、与えられた数字を処理し、計算結果を出力します。
何回計算させても、同じインプットに対して、同じアウトプットを出力することが求められています。

そのため、テストしよう、品質を確かめよう、という場合には、「このインプットに対して、想定通りのアウトプットがでてきているか」を確認することになります。
想定通りならば、問題なく動いている、品質が確かである、ということになります。

質問:確かに、インプットとアウトプットがあらかじめ分かっているのが「システム」に求められることですよね。コンピュータ・システムに限らず、社会の仕組みとしてのシステムでも、この入力に対して、この結果が出てくること、が保証されています。まさに、それが「システム」ですね。

岡:そうなんです。ただ、これは、ユーザーにとっての強い制約につながります。つまり、「決められた形でインプットしなければ、期待通りの結果が得られない」のです。
電子計算機では、そもそも数字しか受け付けませんよね。業務システムにおいても、定められた形式で、定められた内容のデータを入れないと、システムは処理してくれません。エラーを返してくることになります。

必要な項目が50個、100個ある、となった場合には、それらをすべて正確に入力し、システムに渡さなければいけません。公的機関の入力システムのフォーマットなどを思い浮かべていただくと解りやすいと思いますが、「どの欄に、どの情報を、何文字以内で入れないといけない」とか「英数字も全角しか受け付けない」などの制約があったりしますね。
これらの制約は、非常に表面的なものですが、システムというものが「算数の世界」である以上は、このような「インプットの正しさに関する縛り」が非常に強いのは当たり前と言えます。

質問:ありがとうございます。たしかにそうですね。むしろ「そういうものだ」と思っていましたが、言われてみると、人間に不便を強いている部分が多くありますね。

岡:ええ。ひるがえってLLMです。これは「国語」です。自然言語を自然言語のまま処理してくれます。
これは、算数の世界のように、入力方式を規定しません。ユーザーが思うがままに情報を投げ込むことができます。これは、非常に大きな違いです。

質問:なるほど。そういう意味ではGoogleのような検索エンジンも、自由度の高い検索方式ですよね。

岡:良いポイントですね。あれは、LLMとは全く異なる仕組みですが、確かに「自然言語で情報を検索する」という取り組みとしては、非常に先進的な活動だったと言えます。
それまでは、Yahoo!に代表される、インデックス型の情報検索に頼っていました。情報があらかじめ分類されてて、そのツリー構造を辿りながら情報を探す、というやり方です。Googleによって、「言葉」をキーにして、その言葉を探しに行く、ということが可能になりました。「国語」に一歩近づいてきたといえるでしょう。

しかし、あの仕組みは「完全一致」が基本です。「似た言葉」を探すことはできませんでした。もちろん「似た言葉」を辞書として定義していくことで、少しずつ「似ている」という評価が可能になっていきます。ただ、それは、人がやるにせよ、機械がやるにせよ、「辞書を更新する」という活動が前提になっていました。

ここに、大きな転換点をもたらしたのが、LLM、とりわけ、Transformer型のLLMです。

LLMには「算数」はできない

質問:Transformer型のLLMは、何が凄いのですか。

岡:この話をし始めると3時間くらい話すことになってしまうので、今日は、本当にサワリだけに留めますね(笑)
要するに「いい感じで似た言葉」を認識してくれる、というところが非常に新しいのです。
仕組的には、ベクトル空間上に、いろんな言葉を配置して、その「近さ」で判定するということなのですが、これが非常によくできている。
よく出来過ぎていて、人間が、うまく理解して説明することができないくらいです。あまりにも「いい感じ」に動くので、なぜそんなに「いい感じ」なのかということについて、世界中の研究者がこぞって究明しようとしている状況です。

質問:ベクトル空間、ですか

岡:はい。極めてシンプルに平面で考えると、右上の方、とか、左下の方、とかいう風に「位置」が想像できると思います。この時に、新しい単語が投げ込まれた場合に、「あ、これは、右上の方にあるな」ということが分かると、同じように右上あたりにある情報群は「近い」という風に捉えられますよね。
このような考え方でいうと、この平面が1万枚あるような世界で処理されています。

厳密に言うと、平面がたくさんあるのではなくて、次元が非常に多い、ということにはなりますが、脳内のイメージとしては、ひとまずは「そんな感じ」で置いておいていただいて大丈夫だと思います。

この大量の次元の中で、いくつの次元を使うの、とか、どういう組み合わせで使うの、というあたりも、Transformerが適切に処理してくれる、というところも、非常に優れた仕組みなんですよね。

そんなわけで、Transformer型のLLMは「ある言葉」に対して、「近い意味」を認識してくれるので、自然言語をうまく処理して、会話することができるわけです。・・・ただ、もちろん、正確に言うと、会話しているように見せられる、というべきなのですが、ここもひとまずは、置いておきましょう。

質問:ありがとうございます。LLMが国語である、ということはわかりました。そうだとした際に、なにか注意すべきことがある、ということなんでしょうか?

岡:まさに、そこなんです。国語が得意なLLMは、算数の問題も国語で解こうとしてしまうんです。

質問:突然、「勉強ができない子」みたいな話になってきましたね。

岡:そう思いますよね。でも、本当にそうなんです。
4桁の足し算をする、というときに、6231+1395 という質問したとします。これを「計算」するのが算数です。しかし、国語でやろうとすると「6231+1395」に ”似た言葉” をベクトル空間に探しに行ってしまうんですね。
そのものズバリの情報が登録されていれば正解を引っ張ってくることもあるかもしれませんが、多くの場合は、「そんなものは存在しない」ので、近いところにある適当な数字を引っ張ってきてしまう、ということになるわけです。

質問:ヤバいですね。

岡:ええ、ヤバいんです。同様に「明日」とか「来月」とかも、その言葉を探しに行ってしまうので危険なんです。
いろんなところで「明日」とか「来月」という言葉は使われていますから、その言葉を探し当てたときに、「今日+1」とか「今月+1」とかいう風な、こちらが今まさに求めている情報が、近くに置いてあるわけがないんです。

これが、LLMの特性です。「国語は得意だけど、算数はできない」んです。

質問:ありがとうございます、よく分かりました。国語と算数の違いを踏まえて、「生成AIを業務システムに組み込むためのポイント」にお話を進めていきたいと思います。

次回へ続く)

  • f
  • t
  • p
  • h
  • l