DeepSeek(ディープシーク)とは、中国のAI企業が開発した大規模言語モデル(LLM)を中心とした生成AI技術の総称です。2023年に梁文峰により設立され、オープンソース化を積極的に進めることで、コスト削減とAI技術の普及に力を入れています。
DeepSeekの主な特徴
- 高性能なモデル設計: Mixture-of-Experts(MoE)という仕組みを採用し、必要に応じて計算資源を切り替えることで効率的に学習を行います。
- オープンソース化: MITライセンスで公開されており、商用利用や改変が自由に行えます。
- 多言語対応と長文処理能力: 中国語や英語をはじめ、多数の言語に対応し、1度に扱える文章量(トークン数)が最大128Kと非常に大きいです。
- コスト効率の高さ: 他社のAIサービスと比較して、トークンあたりの利用料金が大幅に安い傾向があります。
DeepSeekの主なモデル
- DeepSeek-V3: 約6710億のパラメータを持つ大規模モデルで、数学やプログラミング、長文の文章生成などで高い性能を示します。
- DeepSeek-V2: V3の前身で、236億パラメータ規模のMoEアーキテクチャを採用しています。
- DeepSeek-Coder: コード生成に特化したモデルで、プログラミング言語を横断的にサポートします。
- DeepSeek-R1: 数学や推論タスクに強いモデルで、特に高度な計算が求められる場面に適しています。
DeepSeek-R1は2024年に披露されました。おどろくべき低コストで開発されつつも、米国で開発された生成AIと同等の性能を有し、さらには利用するためのコストも大幅に低く、世界に衝撃をあたえました。
DeepSeekは、低コストで高性能なAI技術を提供することを目指しており、特にオープンソースである点が魅力です。