Estrilda
Stocks

DeepSeekの登場はGPUの重要性を高めるか、それとも低めるか?:AI開発におけるGPUの未来

Cover Image for DeepSeekの登場はGPUの重要性を高めるか、それとも低めるか?:AI開発におけるGPUの未来

近年のAI技術の急速な発展は、それを支えるハードウェア、特にGPUの重要性を増大させています。しかし、中国のAI企業DeepSeekが開発したDeepSeek-V3の登場は、AI開発におけるGPUの必要性について新たな議論を巻き起こしました。

DeepSeek-V3は、従来のAIモデルに比べて大幅に少ないGPUで同等の性能を達成したことで「GPUはもはやそれほど必要ない」という意見も出ています。一方で「AI ASICよりもCUDA+GPUの優位性が証明され、GPUの重要性が高まった」という意見もあり、AI開発におけるGPUの未来像は不透明です。

本記事ではDeepSeek-V3の特徴を解説し、AI開発におけるGPUの必要性について考察します。そして投資家がGPUとAI ASICのどちらに投資をすべきかを考えてみます。

DeepSeekとは?:推論能力に特化した革新的なAIモデル

DeepSeekは、中国のヘッジファンド「幻方(High-Flyer)」が資金提供するAI企業「DeepSeek」が開発した大規模言語モデル(LLM)技術を提供するプラットフォームです。High-Flyerはもともと金融業界で機械学習を活用したアルゴリズム取引で成功を収めており、その技術基盤をAI分野へと拡張する形でDeepSeekが誕生しました。

DeepSeekは特に生成AIや推論型AIモデルで注目を集めており、最新モデル「DeepSeek-R1」は、OpenAIの「o1」モデルと同等またはそれ以上の性能を持つとされています。DeepSeek-R1は、前モデルDeepSeek-V3をベースに、大規模強化学習(RL)と教師ありファインチューニングを組み合わせた多段階アプローチを採用することで、推論性能を飛躍的に向上させたモデルです。最大64Kトークンという長文脈処理能力を持ち、大量データや長文タスクにも対応可能です。

DeepSeek-V3は、最大6710億パラメーターを持つ次世代の生成AIモデルで、他のオープンソースAIを大きく凌駕する性能を発揮します。DeepSeek-V3は、6710億個すべてのパラメータをアクティブに活用しています。特に数学やコーディングなど特定の分野で圧倒的な優位性を持つ一方、コスト効率の高さも際立っています。

DeepSeek-V3は、以下の革新的な技術を採用することで、高性能と低コストを両立しています。

  • マルチトークン予測:一度に複数のトークンを生成することで、推論プロセスを高速化し、さらに投機的デコーディングにも活用できます。
  • MoEアーキテクチャ(Mixture of experts):エキスパートと呼ばれる複数の小さなモデルを組み合わせることで、効率的な学習を実現しています。DeepSeek-V3では、シグモイド関数をゲート関数として採用し、より多くのエキスパートから選択できるようにすることで、ソフトマックス関数に比べて柔軟なモデルになっています。さらに、群ベースの専門家選択アルゴリズムを採用することで、エキスパートの選択プロセスを効率化しています。
  • MLAメカニズム(Multi-head Latent Attention):注意機構のメモリ使用量を削減することで、計算効率を向上させています。
  • FP8訓練:低精度演算を用いることで、計算コストを削減しています。
  • DualPipeアルゴリズム:計算と通信を効率的に並列化することで、学習速度を向上させています。これは、大規模AIモデルの訓練において、計算タスクを複数のGPUまたはノードに分散させる際に生じる通信のボトルネックを解消するための技術です。DualPipeアルゴリズムは、計算と通信をほぼ完全にオーバーラップさせることで、効率的な並列処理を実現しています。

DeepSeek-V3 の特徴を従来のAIモデルと比較した表と、DeepSeek-R1 の制限をまとめた表を以下に示します。

項目DeepSeek-V3従来のAIモデル
パラメーター数6710億1750億 (GPT-3)
処理速度60トークン/秒20トークン/秒 (DeepSeek-V2)
コスト効率トレーニング費用 約557.6万ドルトレーニング費用 数億ドル
推論能力高い-
オープンソースMITライセンスで公開閉鎖的なモデルが多い
主な機能コーディング、翻訳、文章作成、数学的推論など-
適用分野多岐にわたる-
制限検閲による特定の質問への回答不可-

DeepSeek-R1-Lite-Previewは、2024年11月20日にDeepSeekがリリースした新しい言語モデルです。このモデルは、o1-previewレベルの数学的推論能力をベンチマークで示しており、注目を集めています。また、思考過程をリアルタイムで可視化できる機能も備えています。

さらに、DeepSeekのAPIでは、コンテキストキャッシュ機能が提供されています。この機能により、同じプロンプトに対しては料金が10分の1になるため、会話履歴を渡す際やfew-shotなどの場合にコストを削減できます。


DeepSeekの登場によるGPU必要性の変化

DeepSeek-V3は、わずか2,000個のNvidia H800 GPUと558万ドルの費用で、GPT-4oやClaude 3.5 Sonnetに匹敵する性能を達成しました。これは、従来のAIモデルに比べて大幅に少ないGPUで同等の性能を達成できることを示しており、AI開発におけるGPUの必要性について、以下の2つの異なる見解を生み出しました。

  1. PUはそれほど必要なくなるという意見:DeepSeek-V3のように、少ないGPUで高性能を達成できるAIモデルが登場したことで、GPUの重要性は低下する可能性があります。
  2. AI ASICよりCUDA+GPUの優位性が証明され、GPUの重要性が高まったという意見:DeepSeek-V3は、CUDA+GPUの組み合わせによって高性能と低コストを両立しており、AI ASICよりも優れていることを示しています。

DeepSeek-V3のトレーニングには、2か月弱の期間と約600万ドルの費用がかかりました。これは、他の類似モデルと比較して大幅に低コストです。DeepSeek APIの料金は、入力100万トークンあたり0.5ドル(キャッシュヒット時)/2ドル(キャッシュミス時)、出力100万トークンあたり8ドルとなっており、これは他の生成AIモデルと比較して非常に安価です。

DeepSeekとGPU必要性に関する意見の評価

「GPUはそれほど必要なくなる」という意見

「GPUはそれほど必要なくなる」という意見は、DeepSeek-V3の登場によってAI開発におけるGPUの必要性が一部のケースで減少する可能性を示唆しています。DeepSeek-V3は、従来のモデルに比べて大幅に少ないGPUで同等の性能を達成しており、AI開発におけるGPUの必要性に対する認識を変化させる可能性を秘めています。

OpenAIの初期メンバーであるAndrej Karpathy氏も、DeepSeek-V3の登場は、最先端のLLM開発に大規模なGPUクラスターが不要になる可能性を示唆するものであると述べています。しかし、DeepSeek-V3も依然としてGPUを使用しており、GPUが完全に不要になるわけではありません。また、より高度なAIモデルの開発には依然として大量のGPUが必要となる可能性があります。

「GPUの重要性が高まった」という意見

「AI ASICよりCUDA+GPUの優位性が証明され、GPUの重要性が高まった」という意見は、DeepSeek-V3がCUDA+GPUの組み合わせによって高性能と低コストを両立している点を強調しています。

ASICは特定のタスクに特化しており、汎用性が低いという課題があります。例えば地磁気センサー用のASICは、外部センサー出力のアナログ信号を処理することに特化しており、他の用途には使用できません。一方、GPUは汎用性が高く、様々なAIアルゴリズムに対応できるため、AI開発の長期的な視点から見ると、GPUの重要性はむしろ高まっていると言えるでしょう。

AI開発のアルゴリズムは今後10年間は進化を続けると予想されており、アルゴリズムが目覚ましく発展を続けていく間はGPUの重要性は揺るぎません。しかし、もしアルゴリズムの進化が停滞し始めれば、特定のアルゴリズムに最適化されたAI ASICの重要性が増す可能性も考えられます。

どちらの意見が的を射ているのか?

DeepSeekは中国政府による検閲のため、天安門事件などに関する質問に答えることができず、制限を抱えていることを示しています。しかしAIME 2024やMATH-500などのベンチマークでOpenAIのo1-1217を上回るスコアを記録するなど、米国が主導してきたAI開発競争において、中国が台頭していることを示しています。DeepSeek-V3は米国による高端GPUチップへのアクセス制限にもかかわらず、優れた性能を達成しており、AI開発における米国の優位性が揺るぎつつあることを示唆しています。

DeepSeek-V3はソフトウェアの最適化によって、限られたハードウェアリソースで最高の性能を達成できることを示しており、AI開発において高価なハイエンドGPUへの依存度を減らすことができる可能性を示唆しており、AIハードウェアの展望に大きな変化をもたらす可能性があります。

結論として、DeepSeek-V3の登場はAI開発におけるGPUの必要性を完全に否定するものではありません。むしろGPUの重要性は依然として高く、CUDA+GPUの組み合わせはAI ASICよりも優位性を保っていると考えられます。ただしDeepSeek-V3はAI開発におけるGPUの必要性について、より効率的なアルゴリズムとソフトウェアの最適化の重要性を示唆していることも事実です。AIアルゴリズムの目覚ましい発展がいつまで続くのかという観点が重要となるでしょう。


DeepSeek以外の最新動向

DeepSeek以外にも、AI開発におけるGPUの必要性に関わる最新動向として、以下のようなものがあります。

  • GPUクラスタの大規模化:AIモデルの規模が大きくなるにつれて、GPUクラスタも大規模化しています。AWSは、最大20,000個のNvidia H100 GPUを搭載したAIスーパーコンピューティングクラスターを発表しました。しかし、このような巨大なGPUクラスターの運用には、冷却や信頼性など、解決すべき課題も存在します。MetaのLlamaモデルの訓練では、1万6000台以上のGPUを用いた環境下で、チップやその他コンポーネントの故障が日常的に発生したと報告されています。
  • GPUの高速化:GPUの処理速度は年々向上しており、NVIDIAは1基あたりのVRAM容量が141GBに拡張されたNVIDIA H200 Tensor コア GPUを発表しました。しかし、大規模言語モデルをGPUメモリに収めるには、依然として課題が残っています。例えば、GPT-3に相当する1750億パラメータをFP32で記述すると約700GBのメモリが必要となります。
  • AIアルゴリズムの進化:AIアルゴリズムの進化は、GPUの必要性に影響を与える可能性があります。例えば、より効率的なアルゴリズムが開発されれば、必要なGPUの数が減少する可能性があります。エッジコンピューティング、フェデレーテッドラーニング、量子機械学習といった技術の進歩は、AIアルゴリズムの進化を加速させ、GPUの必要性にも変化をもたらす可能性があります。
  • ネットワーク技術の重要性:大規模GPUクラスターの構築には、ネットワーク技術も重要な要素となります。ネットワークの帯域幅や遅延は、AIモデルの学習効率に大きく影響するため、高速なインターコネクト技術や効率的なネットワーク設計が求められます。

今後のAI開発におけるGPUの役割

今後のAI開発において、GPUは以下のような役割を果たしていくと考えられます。

  • 大規模AIモデルのトレーニング:より高度なAIモデルの開発には、依然として大量のGPUが必要となります。しかし、DeepSeek-V3の登場は、GPUクラスタの大規模化だけが唯一の解決策ではないことを示唆しています。今後、より効率的なアルゴリズムやソフトウェアの最適化によって、必要なGPUの数を減らすことができる可能性があります。
  • エッジAIの推論:エッジデバイスでのAI処理には、低消費電力で高性能なGPUが重要となります。エッジAIでは、リアルタイム性が求められるため、限られた電力と計算リソースで高性能を達成できるGPUが不可欠です。
  • AIアルゴリズムの進化を促進:GPUの性能向上は、AIアルゴリズムの進化を促進する役割を果たします。より高性能なGPUが登場することで、より複雑で高度なAIアルゴリズムの開発が可能になります。
  • 代替ハードウェアの可能性:将来的には、GPU以外のハードウェアがAI開発で重要な役割を果たす可能性もあります。例えば、FPGAは、特定のAIアルゴリズムに特化したハードウェアとして、GPUよりも高い性能と電力効率を実現できる可能性があります。

GPUは、AI開発の基盤となるハードウェアですが、その役割は進化していく可能性があります。


投資判断のための考察

DeepSeek-V3の登場は、AI開発におけるGPUの重要性を再考させるものでした。AI ASICは特定のタスクに特化しており、汎用性が低いという課題があります。ASICの開発には、高額な開発費用と長い開発期間が必要となるため、大量生産が見込める場合を除き、コスト効率が悪くなる可能性があります。また、ASICは、一度設計してしまうと変更が難しいため、AIアルゴリズムの進化に対応できない可能性があります。一方、GPUは汎用性が高く、様々なAIアルゴリズムに対応できるため、AI開発の長期的な視点から見ると、GPUへの投資は依然として魅力的です。

DeepSeek-V3の開発は、High-Flyerの資金力と技術基盤によって支えられています。High-Flyerは高性能計算と分散システムに関する豊富な経験を持っており、DeepSeek-V3の開発に大きく貢献しています。

DeepSeek-V3の登場は、AI大モデルの訓練と推論におけるGPUの役割にも変化をもたらす可能性があります。DeepSeek-V3は、従来のモデルよりもはるかに少ないGPUで同等の性能を達成しており、AI大モデルの訓練に必要なGPUの数が減少する可能性を示唆しています。これは、GPU市場を独占しているNVIDIAにとって、大きな脅威となる可能性があります。

しかし、DeepSeekが発表したGPU使用量(2,048個のNvidia H800 GPU)が、米国の輸出規制を考慮して過少報告されている可能性も否定できません。実際にはより多くのGPUを使用してトレーニングを行っている可能性があり、その場合はDeepSeek-V3の開発コストは公表よりも高額になる可能性があります。

GPU市場はNVIDIAが独占状態にあり、価格が高騰しているという問題もあります。そのため、投資家はGPU市場の動向を注意深く見守りながら、DeepSeekの発表内容を鵜呑みにせず、他の情報源と照らし合わせて投資判断を行う必要があります。

結論

DeepSeek-V3の登場は、AI開発におけるGPUの必要性について新たな議論を巻き起こしましたが、GPUの重要性は依然として高く、CUDA+GPUの組み合わせはAI ASICよりも優位性を保っていると考えられます。DeepSeek-V3は、AI開発において、より効率的なアルゴリズムとソフトウェアの最適化の重要性を示唆しており、今後のAI開発において、GPUは、大規模AIモデルのトレーニングだけでなく、エッジAIの推論やAIアルゴリズムの進化を促進する役割を担っていくと考えられます。