Skip to main content

HKU ICB

DeepSeek改写Al业的游戏规则

Back

18 Feb 2025 | 深度观点

自1月20日DeepSeek发布新模型 DeepSeek-R1以来,这间来自中国的人工智能(AI)创业公司,火速成为全球科技圈的焦点。英美主流媒体纷纷报道了DeepSeek的研究进展,高度评价其卓越性能。

 

外媒CNBC甚至发文称,「DeepSeek-R1因其性能超越美国顶尖同类模型,且成本更低,算力消耗更少,引发了美国硅谷的恐慌。」更值得注意的是,超微(AMD)作为全球领先的芯片厂商,通过与DeepSeek合作,为AI推理带来新的想象空间,并有望动摇「辉达+OpenAl」主导的行业格局。业内掀起了关于DeepSeek如何打破算力需求「怪圈」的讨论,1月24日辉达股价应声下跌3%。

 

DeepSeek-R1在训练阶段,大规模使用强化学习技术,显著提升了模型的推理能力。在数学、代码、自然语言推理等任务上,其性能已媲美OpenAl o1的正式版。这一突破引发了海外A圈的广泛讨论,辉达(Nvidia)高级研究科学家在社交媒体表示,「我们正身处一个历史时刻,一家非美国公司正在延续OpenAl最初的使命:通过真正开放的前沿研究,赋能全人类。」Meta员工也在匿名社区爆料,「Meta的生成式人工智能团队正陷入恐慌,工程师们正疯狂拆解DeepSeek的奥秘。」

 

DeepSeek展现了更高的经济效益和推理效率。DeepSeek-V3的总训练成本仅为550万美元左右,不到Llama 3.1 405B训练成本十分之一。这一低成本高效益的模式,让Meta等硅谷巨头吃惊,也许会带领整个行业改变,甚至更多针对特定用途的企业模型涌现,打破赢家通吃的市场格局。这引发了一场激烈辩论,主题是资源雄厚的美国人工智能企业,能否守住技术优势。

 

有观点认为,Deepseek的低训练成本预示着,AI大模型对算力投入的需求将大幅下降,这无疑将冲击辉达的市场地位。业界关注到在有限硬件资源下,通过软件优化,也能实现顶尖性能的能力,减少对高端图像处理器(GPU)的依赖。

 

DeepSeek可能意味着,AI大模型的应用将逐步走向普惠,通过低成本高效率的模型训练及推理优化,正在改写AI行业的游规则。其开源策略和创新能力,不仅让硅谷巨头感到压力,也为全球AI行业带来新想象空间。随着 DeepSeek的崛起,AI大模型的门槛正在降低,行业格局或将迎来新变革。而且笔者认为,DeepSeek的崛起仅是中国新生代人工智的第一响。

 

 

 

 

作者简介:

车品觉 教授 Prof Herbert Chia

客座副教授

港交所董事

前红杉资本中国基金专家合伙人

前香港科技园公司董事会成员及前阿里巴巴集团副总裁兼首任数据委员会会长