DeepSeek R1がAIを革命 - オープンモデルがコストを削減

DeepSeekのR1は2025年1月20日に発表され、OpenAIの「o1」と比べてトレーニングコストを95%削減したことでAI業界に衝撃を与えました。オープンモデルであるR1は業界の常識に挑戦し、NVIDIAの株価さえも急落させました。以下は私なりの見解。

AIの世界は2025年1月20日にDeepSeekのR1モデルの予期せぬリリースからまだ驚きを隠せない。この中国のスタートアップは2023年7月に設立され、驚くべき成果を達成した。R1はAI研究コミュニティだけでなく、市場やあらゆる仮定を揺るがした。

多くの人々が様々な視点からオンラインでそれについて書いており、私も何かを付け加えることはできないと思っていたが、その誘惑に抗えず、この機会を逃さないように座って以下に箇条書きで私の考えを書いた。この日から少なくとも1年後に、私たちはこの投稿に戻り、多くのことがどのように変わったかを見ることができるだろう。

以下は、何が起こっているのか、R1がどのように異なるのか、そしてAIの未来にとって何を意味するのかの内訳である。

Two chinese men in matching traditional dress and is not AI generated

伝統的な同じ衣装を着た2人の中国人男性。AIとは無関係で、この画像がAIによって生成されたものではないという事実以外に特筆すべき点はない。

最初の出会い：R1について知った方法

リリース日: R1は2025年1月20日に公式に発表された。
知った日:
- 1月21日にオンラインで評価結果を初めて見た。
- 1月22日にチームに独自の評価を依頼した。
初期の印象: R1はOpenAIの最先端で公にアクセス可能なo1と比較してその性能面では革新的ではないが、コスト効率とアクセス性において革命的である。

R1はどのように異なるのか？

コスト効率

トレーニングコスト: DeepSeekはOpenAIのo1と比べて95%のトレーニングコスト削減を達成した。
VentureBeatの記事によれば、これはゲームチェンジャーである。
AIモデル開発はもはや巨額の予算を持つものに限定されず、シリコンバレーだけに集中しない。

オープンモデル

アクセス性: R1はオープンモデルであり、次のことが可能である:
- ダウンロード可能。
- 自身のハードウェアとデータで微調整可能。
- OpenAIのo1ではこれができない。
なぜこれが重要か: 完全に「オープンソース」ではない（トレーニングデータが公開されていないため、モデルのバイアスや制限がわからない）が、このレベルのアクセスは小規模なプレイヤーがモデルを革新し、カスタマイズすることを可能にする。
オープンな代替案: MetaのLlama-3やMistral 7Bのような他のオープンモデルも選択肢として注目に値する。

技術革新

パラメータのスマートな使用:
- R1は合計6710億のパラメータを持つ。
- そのうち訓練に使用されるのは370億のみであり、非常に効率的である。その反面、モデルの一部のみが使用されるため、カスタマイズ性を犠牲になるかもしれない。
GPUの使用:
- R1の訓練には約2000台のGPUが必要だった。
- これをGPT-4の驚異的な25,000台のGPUと比較すると圧倒的にR1が訓練用の費用削減に成功した。

R1がなぜ安価なのか？

訓練方法:
- DeepSeekは「純粋な強化学習」を使用している。
- これはマニュアルなしで自転車に乗ることを学ぶようなもので、試行錯誤と経験による。
- 高価な、キュレーションされた監督データへの依存を減らす。
アーキテクチャの選択:
- 少ないパラメータが訓練される = コスト削減。
- 高度な量子化技術を使用。「量子化」とはここでは訓練の精度を意味する。R1はGPT-4のより従来の（おそらく16ビットまたは32ビット？）量子化に比べ、精度が低いがバランスの取れた量子化を使用する。低い精度はモデルサイズを縮小し、同じデータでの訓練にかかる労力を減らす。
- モデル性能を犠牲にすることなくGPUを効率的に使用。

R1が市場に与えた影響

NVIDIAの衝撃:
- R1が発表された日に、NVIDIAの株価が17%急落。
- これは市場資本化を6000億ドル消失させ、アメリカ企業としては史上最大の一日での損失。6000億ドルといえば、ソフトバンク孫正義社長が、OpenAIのサム・アルトマンさんなどと組んでこれから4年間かけて「StarGate」プロジェクトに投入する予定の金額と近い。
- なぜか？R1はAIが最先端の性能を達成するために高級なGPUを大量に必要とするという仮定を覆した。
市場全体への影響:
- 技術セクター全体がショックを感じ、株価が3%下落した。
- 投資家はAI関連ベンチャーへの1兆ドルの投資のリターンを疑問視し始めている。

AIの未来にとってこれが意味すること

利点

AI開発の低コスト化: R1はコスト効率の高いAIモデルが可能であることを示した。
アクセス性の向上: R1のようなオープンモデルはAIの革新を民主化する。
競争の激化: これにより、基盤AIモデルの価格が下がり、企業や消費者に利益をもたらす可能性がある。

懸念

バイアスリスク:
- 一部の人々はR1の中国ベースのトレーニングによる潜在的なバイアスを懸念している。
- しかし、バイアスはすべての基盤モデルに共通の問題であり、中国以外のものも含む。
投資家の懐疑:
- R1によって示された低コストにより、投資家は大規模なAI資金調達を再考するだろうか？

私が思うこと

ポジティブ

競争の激化、価格の改善:
- R1のようなモデルは、Kafkaiのようなアプリケーションやプラットフォームの価格改善をもたらす可能性がある。
- 参入障壁が低くなることで、AIエコシステムにおける革新が促進される。
オープンモデルは未来:
- R1のオープン性は、より協力的なAI業界への一歩である。
- ローカルハードウェアでの微調整能力は、開発者により大きな制御と革新の機会を提供する。
強化学習がゲームチェンジャーに:
- DeepSeekは、高価な監督データセットが唯一の成功への道ではないことを証明した。
- このシフトは、より持続可能でスケーラブルなAI開発の実践につながる可能性がある。

懸念

業界の不確実性:
- 企業は、GPUへの大規模な投資なしでAIの卓越性を達成できるという事実にどのように対応するのか？
- AIに注ぎ込まれた1兆ドルは依然として正当化されるか？
バイアスの議論は続く:
- モデルのバイアスは新しい問題ではないが、R1の中国ベースの起源は注視され続けるだろう。
- モデルを微調整する際にこれらのバイアスに対処することが重要である。

次に何をすべきか？

Kafkaiにとって:
- R1をパイプラインに統合し、その能力を直接探求することを楽しみにしている。
業界にとって:
- R1は効率性、アクセス性、そしてAIの未来についての必要な会話を引き起こした。
開発者にとって:
- R1のようなオープンモデルは、より分散化された革新的なAI開発への道を開いている。

DeepSeekのR1の発表はAIの歴史における重要な瞬間を示している。それはR1が何をできるかだけでなく、それが何を象徴するかである: 現状への挑戦と、AIがよりアクセス可能で、手頃で、オープンな未来を垣間見ることができる。

あなたはどう思う？AIにおけるこの大きな変化に私たちは準備ができているのだろうか？ 🤔

更に読む

この記事を読んだ人は、こちらにも興味あるかもしれない

【革新的AI】Claude 3の驚異的な性能、日本語対応は?

この記事をレビューしてくらたCheuk Ting Hoさんに感謝する。