【東方新報】近年、中国のAI業界は急速な進化を遂げている。その中で異彩を放つのが「深度求索(DeepSeek)」だ。
この企業は、2023年に中国の量的投資ファンド「幻方量化」によって設立されたばかりだが、すでに業界のゲームチェンジャーとなりつつある。なぜ彼らの技術がこれほど話題になっているのか? そして、その急成長の裏にはどんな問題が潜んでいるのか。
2024年5月、DeepSeekは「DeepSeek-V2」という大規模言語モデル(LLM)を発表した。このモデルが話題になった理由はその驚異的なコストの安さで、推論コストが100万トークンあたり約1元(約21円)だ。これは、オープンAI(OpenAI)のGPT-4やグーグル(Google)のジェミニ(Gemini)と比較しても破格の安さだ。
中国国内の大手テック企業もこの価格破壊に追随し、AI業界全体が価格競争に突入した。しかし、なぜここまでコストを抑えられるのか? その背後には、疑問の声も上がっている。
DeepSeekは勢いを緩めることなく、2024年12月には「DeepSeek-V3」をリリース。このモデルは6710億のパラメータを持つ「MoE(専門家混合)」モデルであり、特定のタスクごとに専門的なサブモデルを動的に活用できるのが特徴だ。
ベンチマークテストでは、メタ(Meta)の「Llama 3.1-405B」やフランスのAIスタートアップ「Mistral AI」を上回るスコアを記録し、一部のタスクでは米アンスロピック(Anthropic)の対話型AI「クロード(Claude)」やオープンAIのGPT-4に匹敵するパフォーマンスを発揮した。
しかし、ここで問題となるのがデータの出所だ。
DeepSeekは、大規模なAIモデルを訓練するために膨大なテキストデータを収集している。しかし、そのデータの一部が著作権を無視したものではないかという懸念が浮上している。
DeepSeekのモデルは、オープンソースをうたっているが、トレーニングデータの詳細は明かされていない。しかし、中国国内の一部報道によると、無許可で大量のテキストをスクレイピング(自動取得)しているのではないかとの指摘がある。
公式には中国語主体のモデルとされているが、実際には英語圏の大量のデータも学習していると見られる。欧米の出版社やニュースメディアのコンテンツが含まれている可能性があり、著作権的にグレーな部分がある。
中国ではデータの取り扱いに関する規制が厳しくなっているが、それでも依然としてAI企業のデータ管理に対する透明性は低い。DeepSeekがどのようにデータを収集し、管理しているのか、明確な説明が求められている。
欧米の大手AI企業は、著作権のあるコンテンツを学習させる際、ライセンス契約を結ぶケースが増えている。例えば、グーグルはニュースサイトと提携し、一部のコンテンツを正規に利用している。しかし、DeepSeekにはそうした契約の話がほとんど聞こえてこない。
DeepSeekの技術がいかに優れていても、データ利用の不透明性が続けば、国際的な信頼を得るのは難しいだろう。
DeepSeekの急成長を支えているのは、清華大学(Tsinghua University)、北京大学(Peking University)、浙江大学(Zhejiang University)などのトップ大学出身の若手エンジニアたちだ。特に、北京大学計算言語学研究所出身の羅福莉(Luo Fuli)氏は、DeepSeek-V2の開発に大きく貢献し、その後小米科技(シャオミ、Xiaomi)に移籍したことでも話題となった。
中国のAI業界は、「BAT(百度<Baidu>・阿里巴巴集団<アリババグループ、Alibaba Group>・騰訊<テンセント、Tencent>)」から「新興スタートアップ」へと勢力図が変わりつつある。DeepSeekのような新興企業が、巨額の資本を持つテック企業に対抗しながら技術革新を起こしているのは非常に興味深い。
DeepSeekは今後、マルチモーダル(画像・音声・動画を統合するAI)への進出を計画しているとされる。また、2025年にはさらに高度なLLMの発表も予想されている。
しかし、データの扱いについて透明性を確保しなければ、今後の発展にブレーキがかかる可能性もある。特に、国際市場での展開を視野に入れるなら、データ利用の規範を明確にすることが不可欠だ。
DeepSeekは、単なる「安くて高性能なモデル開発企業」ではなく、AIの倫理やデータ利用のルール作りにも向き合う必要がある。
急成長の裏に潜むリスクをどのように克服していくのか。今後の動向に注目が集まる。【翻訳編集】東方新報/AFPBB News|使用条件