連載「日本人が知らない、世界のスゴいスタートアップ」では、海外のベンチャー投資家やジャーナリストの視点で、日本国内からでは気付きにくい、世界の最新スタートアップ事情、テック・トレンド、ユニークな企業を紹介していきます。今回のテーマは、「AI(人工知能)の進化には身体が必要な理由」です。(聞き手・執筆:高口康太)
* * *
AIはどこまで賢くなるのか。
最近は3カ月ごとに、この議論に遭遇する。というのも米国株を牽引するテック企業、半導体企業の業績はAIへの期待によって裏打ちされている。もし、AIの進化が止まるということになれば、株価は大きく下がるだろう。
「AIが人類の知能を超えるシンギュラリティは実現するか」という議論は、数年前まで、「人間を超える存在を作っていいのか」という思想的な問題や、技術革新による失業をどう克服するべきかという社会的な課題につながっていたのだが、今では私たちの懐具合という矮小化された話題に着地している。まあ、それだけAIが身近な存在になったということなのだろう。
ただ、一方で今の技術路線での研究開発ではシンギュラリティにはたどりつけないという見方もあるという。いったい何が足りないのか。そして、シンギュラリティを目指すもう一つの道とはなにか。台湾の投資家、マット・チェン氏に話を聞いた。
鄭博仁(マット・チェン、Matt Cheng) ベンチャーキャピタル・心元資本(チェルビック・ベンチャーズ)の創業パートナー。創業初期をサポートするエンジェル投資の専門家として、物流テックのFlexport、後払いサービスのPaidyなど、これまでに15社ものユニコーン企業に投資してきた。元テニスプレーヤーから連続起業家に転身。ジョインしたティエング・インタラクティブ・ホールディングス、91APPは上場し、イグジットを果たしている。
モラベックのパラドックス
――AIブームはいつまで続くのか。最近、この議論を交わす機会が増えています。AIの能力は今後も飛躍的な発展を続けていく。人間と同等以上の知能を持つAGI(汎用人工知能)の誕生も近いと考える人は多い。ソフトバンクの孫正義会長は10年以内に人間の1万倍の知能を持つASI(人工超知能)が開発されるとの見通しを示しています。
一方で悲観論も。ChatGPTに代表される大規模言語モデル(LLM)の進化も、学習データの規模やモデルのパラメーターを増やしてもどこかで性能向上が打ち止めになる可能性が出てきました。データセンターの設備や電力の不足から拡大ができなくなるという、よりシンプルな問題もあります。
どちらの意見が正しいのか、素人には見通せない問題です。
マット・チェン(以下、M):素人だけではなく、専門家ですら結論が出ていない問題です。答えが分からないからこそ、世界中で手探りの競争が続いているのです。
ただ、この問題を考える補助線はあります。「モラベックのパラドックス」をご存知ですか。1980年代にハンス・モラベック、ロドニー・ブルックス、マービン・ミンスキーというAIやロボットの研究者が唱えたもので、「高度な推論よりも感覚運動スキルのほうがより多くの計算資源を必要とする」ことを意味します。
複雑な試験に合格したり、数学の難問を解いたり、あるいはレポートを作成したりといった知的作業は人間にとっては難しい、高度な作業に属します。一方で、ペンを拾ったり、卵をそっと持ち上げたりといった4歳児でもできる簡単な動作こそ、実はとても難しい作業だというものです。私たちが意識することなく感覚的に行っている動作は、長い進化の過程によって実装されたもの。それを解析してAIやロボットに再現させることは困難なのです。
そして、感覚運動スキルと思考能力は密接に関係しているとも考えられています。人間の子どもは体を動かしながら外界からの刺激を得て思考能力を獲得していきます。抽象的思考だけを重ねて、知能を獲得していくわけではないのです。
今のAIは、インターネットなどから膨大なデータを集めるというスケーリング則の力業によって、かつて想定されていた以上の性能を獲得することに成功しました。これはきわめて大きなブレークスルーであることは間違いありませんが、「モラベックのパラドックス」を克服し、AGIの実現にまで到達できるかは未検証の課題なのです。
身体を持つAIという選択肢
M:データと計算能力の力業がどこまでたどりつけるのかも重要な問題ですが、実は異なるルートからのアプローチもあります。それがエンボディドAI(Embodied AI)、つまり“身体を持つAI”と呼ばれるロボットです。
人間の子どもと同じように、身体を使って学習していくのです。視角、聴覚、触覚、嗅覚などのマルチモーダルなセンサーで世界を認識し、自らの体で移動したり物を動かしたりしながら徐々に学んでいく。その過程で新たな問題が見つかり開発策を発見していく……。人間の成長過程をトレースするような形で、ロボットを動かすAIが成長していくわけです。
――今のAIの基礎理論であるニューラルネットワークも、人間の脳の神経細胞の仕組みから着想を得たものですよね。人間のマネをするなんて遠回りにも思えますが、それが必要なのだ、と。
M:たとえばカップを持ち上げるという動作がありま人間には簡単でもロボットには難しいものですが、どうすればいいのかを人間が教えたりプログラミングしたりするのではなく、エンボディドAIが何度も試しながら力や角度を調整していき、最終的にはその動作を習得します。
このように「実践しながら学習する」ことができるため、エンボディドAIは従来のロボットよりも柔軟性があり、環境の変化に迅速に適応することができます。将来的には、複雑で変化の多い様々な場面に対応できるようになり、新しいタスクを自律的に学習する可能性も秘めています。
これは、より「賢い」汎用ロボットを実現するための新たなアプローチであり、同時にAIの新たなブレークスルーにつながる可能性を秘めています。
ロボットが集めるデータでは足りない
M:近年、ロボット開発では激しい競争がくり広げられています。2013年にボストン・ダイナミクスの四足歩行ロボットが公開された時には競合は少なく、それだけ目立つ存在でした。
ですが、現在では米テスラや中国のシャオミなどの大手企業も参入しています。昨年にはOpenAIやNVIDIAが人型ロボット・スタートアップのFigureに出資、米アマゾンもAIロボット・スタートアップのSkild AIに出資しました。現在、人型ロボットの開発に取り組む主要企業は10社以上にまで増えています。
――それだけホットな分野ということですね。可能性があると判断されるとベンチャーキャピタルからの出資が殺到し、複数の企業が競争をくり広げ、技術革新が一気に進む。生成AIでも見られた飛躍が、エンボディドAIでも繰り返されるのでしょうか。
M:そう期待しています。ただ、生成AIと比べると、エンボディドAIには爆発的な成長を妨げるボトルネックが存在しています。それがデータです。人間のような推論、適応能力を持たせるためには膨大なデータが必要です。エンボディドAIは自らのロボットの体を使ってそのデータを獲得していくわけですが、物理的なロボットの体が必要なため、ロボットの頭数を増やして学習を高速化することは困難です。
ChatGPTの開発に試用されたテキスト量は約4000億トークン(テキストデータの単位)という膨大なものでした。画像生成AIのMidjourneyは60億セットの画像、テキストのデータセットが使われました。テキストも画像もインターネット上に大量にデータがあるために収集しやすいですし、AIの研究用に処理されたデータセットが公開されていたことも背景にあります。各企業は独自にデータを集めなくとも、このようなパブリックなデータを使って研究開発することができたのです。
ですが、ロボット研究にはまだこうした環境は整っていません。グーグル傘下のディープマインドは先駆者として、ロボットに関するオープンデータベースを公開していますが、収録されているデータ量は約240万点にすぎません。さきほどのChatGPTやMidjourneyの開発に使われたデータ量と比べるとはるかに少ないのです。
仮想世界で“予習”するロボット
――エンボディドAIのアイデアは面白いのですが、ほとんどがコンピューターの中で完結する生成AIと比べると、開発ペースはどうしても遅くなってしまうというわけですね。
M:ただ、面白いのはこうした課題に対処しようというアイデアも生まれています。
今年設立されたばかりのスタートアップのHillbot(ヒルボット)は、データ問題解決の最前線に立つスタートアップです。3Dシミュレーション技術を利用して、コンピューターの中に架空の物理世界を構築し、その中でバーチャルなロボットを活動させることで、エンボディドAIの学習を行います。
共同創業者の一人、ロビン・ハンCEOは過去に創業した企業2社を売却に成功した、経験豊富な連続起業家です。IoT(モノのインターネット)やコンピュータービジョン、自然言語処理に関する特許を40件も保有するエンジニアでもあります。
もう一人の共同創業者であるハオ・スーはカリフォルニア大学サンディエゴ校の副教授で、AIの専門家です。画像認識AIの発展に大きな貢献をした巨大画像データベース「イメージネット」構築の主要な貢献者の一人という輝かしい業績を持ちます。その後も、3Dデータ版のイメージネットとも言うべき、シェイプネット、ポイントネットの構築を主導してきました。ヒルボットが取り組もうとしている、「現実世界をAIが学ぶためのデータが少ない」という課題にずっとフォーカスしてきたわけです。
たとえば、ロボットに様々な形の椅子を並べる方法を訓練するとしましょう。本物のロボットを使う場合にはロボットだけではなく、椅子も大量に用意し、何度も動作を繰り返させる必要があります。ヒルボットのソリューションでは仮想世界の中で何万種類もの異なる形の椅子を要し、複数のバーチャル・ロボットが同時にさまざまな動作を繰り返すことができます。
――ただ、そうやって作られた仮想世界は現実とは異なるのでは?
もちろん完璧ではないですが、物理世界を再現する3Dシミュレーション技術は近年、大きな成長を遂げています。ゲームがその代表例ですが、たんに画面が美しくなったわけではなく、現実世界とよく似たような挙動をしていますよね。ヒルボットはそうした技術の進歩を取り込んでいるわけです。また、あるカフェで働くロボットが欲しい、この倉庫で働くロボットが欲しいというニーズがあった場合には、その場所の写真を撮影し、3D仮想モデルに変換することで、バーチャル世界においてロボットは先に大量の学習を行うことが可能となります。
ハオ・スーは身体がなければAIに知性は宿らないとの発想からこの取り組みを始めていますが、ビジネスとしての目標はまず「汎用ロボットの性能向上」です。ロボットにすばやく仕事を覚えさせて、スピーディーに配備することを狙っています。まずは小売や物流の現場がターゲットになると見られています。
発表によると、同社の技術はロボットの訓練速度を5倍に高めることができ、新たなスキルをより早く学習できるようになります。
* * *
今の生成AI技術はこのままでもシンギュラリティに到達するのか、それとも身体を持ったAIこそがその候補なのか。専門家ですら結論がでない問題だと言うが、知的好奇心を刺激される議論だ。
ただ、身体感覚がなければ知性は宿らないのではないかという指摘には、かなりの説得力がある。エンボディドAIによって身体を獲得したAIがどのような進化を見せるのかは楽しみだ。身体を持ったAIが人間を超える知性を獲得するとなると、SF小説的なストーリーとしては完璧だが、そこにいたるまでの道のりは長い。まずはより賢くなった、汎用ロボットの活躍という、手近な未来を楽しみにするべきなのだろう。