DeepSeekの衝撃：LLM市場に新たな革新をもたらす中国発の大規模言語モデル（前編） • AQZ Tech Chronicles

2025年1月、AI業界に大きな衝撃が走りました。中国発の大規模言語モデルDeepSeekが、ChatGPTのo1モデルと同等の性能を持ちながら、約10分の1のコストで提供可能というニュースが世界中を駆け巡ったのです。この革新的なモデルの登場は、LLM市場に大きな変革をもたらそうとしています。

DeepSeekとは何か

DeepSeekは、2023年に中国のAI主導のクオンツヘッジファンド「High-Flyer」のCEO梁文峰氏によって設立されたAI開発企業です。最新モデルのDeepSeek V3は、約6,710億のパラメータを持つ大規模モデルで、以下のような革新的な特徴を備えています：

MoE（Mixture of Experts）アーキテクチャにより、6,710億パラメーターのうち必要な370億パラメーターのみを動的に活性化
Multi-head Latent Attentionによるメモリ使用量の最適化
マルチトークン予測と新しいネットワーク技術の導入

特筆すべきは、2025年1月にiPhoneのApp Storeで無料アプリランキング1位を獲得し、ChatGPTを上回る人気を示していることです。

MLA(Multi-Head Latent Attention)とは？

メモリ使用量を削減し、効率的に情報を処理します。今までのLLMは、図書館で本を探す際に「全ての本棚を一つずつ確認する」ような方法で情報を処理していました。これにより、大量のメモリと計算資源が必要でした。一方、MLAは「目次や索引を使って効率的に探す」ように、必要な情報だけを集中的に処理するため、メモリ使用量を大幅に削減できます。

MoE（Mixture of Experts）アーキテクチャとは？

計算資源を最適化し、複雑な問題を効率的に解決します。例えば、今までのLLMは、数学の問題を解く際に「全ての計算や処理を単一のモデルで行う」ため、複雑な問題でも無駄な計算資源を使っていました。

一方、DeepSeekMoEは、下記のように役割を分担しています。

共有エキスパートが基本的な計算を担当
専門エキスパートが複雑な部分を処理

これにより、効率的に問題を解きながら計算資源を最小限に抑えられます。 DeepSeekは6,710億パラメーターのうち必要な370億パラメーターのみを動的に活性化しています。

マルチトークン予測とは？

文章を生成する際に一度に1つの単語（トークン）しか予測できませんでしたが、 Metaが開発した新しい「マルチトークン予測」技術により、一度に4つの単語を同時に予測できるようになりました。これにより、文章生成の速度が3倍に向上し、さらに精度も大幅に改善されています。 DeepSeekもこの技術を採用しています。

ネットワーク技術の進化

一方、AIモデルを支えるネットワークインフラにも重要な進展がありました。大規模なAIモデルの学習では、大量のデータをスムーズにやり取りする必要がありますが、従来の技術では通信が混雑してしまう問題がありました。この課題に対して、新しいロードバランシング技術が開発されました。この技術は、データの流れを細かく分割し、ネットワークの混雑状況に応じて最適な経路を動的に選択することで、通信効率を97.6%まで高めることに成功しています。

ベンチマーク比較から見える実力

米国の規制により最先端のGPUが入手できず、型落ちのGPUを使用している中国企業が編み出した苦肉の策が、素晴らしいブレークスルーを生み出したと言えそうです。同じような現象は半導体でも見られ、米国の規制により中国企業が独自の技術を開発する動きが活発化しています。

プログラミング能力の評価

最近公開されたベンチマーク結果は、AIモデル間の能力差を明確に示しています。特に注目すべきは、評価対象による大きな差異です。

競技プログラミング的なスキルを測るCodeforcesでは：

GPT-4（O1モデル）: 89.0
DeepSeek V3: 51.6
Claude-3.5: 20.3

一方、実務的なソフトウェア開発スキルを評価するSWE Verifiedでは：

GPT-4（O1モデル）: 48.9%
DeepSeek V3: 42.0%
Claude-3.5: 50.8%

さらに、数学的思考力を測るAIME 2024では：

GPT-4（O1モデル）: 83.3
DeepSeek V3: 39.2
Claude-3.5: 16.0

この対照的な結果は、各モデルの特性を如実に表しています。Codeforcesがアルゴリズムとデータ構造の実装能力を測るのに対し、SWE Verifiedは実務でのソフトウェアエンジニアリングスキルを評価します。

公表された訓練コスト

DeepSeek-V3の最終訓練フェーズの費用は約560万ドル（約5.6-6百万ドル）とされています。この訓練では2,048個のNvidia H800チップを使用し、約2ヶ月間かかりました。激安です！もうNVIDIAなんていらない！から株価が下がりましたが、本当でしょうか？

これは「最終訓練フェーズ」の費用なので、それに至るコストやインフラ整備などのコストは含まれていません。 H800が型落ちとは言っても、中国では非常に人気があるために、1枚50万RMBもするという情報すらあります。この数字を採用すれば、2,048枚のH800の調達コストだけで約10億RMB、日本円で約200億円にもなります。

ちなみにスパコン富岳の開発費は1,300億円でした。

実用性の観点から：35年の開発経験による考察

ベンチマークスコアは実際の使用感を必ずしも反映していないと強く感じています。特にGPT-4（o1モデル）については、非常に高いベンチマークスコアを示しながら、実務での使用では基本的なエラーを犯すことがあると実感しています。

これは、ベンチマークテストが標準化された環境での一時的なパフォーマンスを測定しており、実世界の複雑さや、問題理解力、解決策の信頼性、コミュニケーション能力といった実務で重要な要素を十分に評価できていないことを示唆していると考えています。特に開発業務においてChatGPT 4oは人の話を全然聞きません…何度ひどい目に遭ったことか（涙）

DeepSeekをサラッと使ってみた感じでは、回答がくどくなく、理路整然としていて好感が持てます。 DeepSeekがCoPilotに統合されると面白そうですが、いずれにしろ本格的な活用はこれからなので、個人的には非常に楽しみです。

[後編に続く]