本周,中国一个小型人工智能实验室 DeepSeek 公布了其尖端模型 R1 的技术秘诀,震惊了全球科技界。
对冲基金经理梁文峰创立的 DeepSeek 在周一发布了其 R1 模型,并在一篇详细的论文中解释了如何在有限的预算上构建一个大型语言模型,该模型可以在没有人工监督的情况下自动学习和改进。
这一成就在硅谷引发了激烈的争论,焦点在于资源更丰富的美国人工智能公司(包括 Meta 和 Anthropic)是否能够捍卫自己的技术优势。
与此同时,梁文峰的成就被视为中国在高科技领域自主创新能力的象征,尤其是在美国试图阻止中国高科技发展的背景下。2021年,梁文峰在运营量化交易基金 High-Flyer 的同时,开始为他的 AI 副业购买数千台英伟达图形处理器。
业内人士最初认为这只是亿万富翁寻找新爱好的古怪举动。然而,梁文峰的团队通过使用人工智能和算法来识别可能影响股价的模式而发家致富,他们变得熟练使用英伟达芯片通过股票交易赚钱。2023年,他推出了 DeepSeek,宣布他打算开发人类级别的人工智能。
“我们第一次见到他时,他是个书呆子,发型很糟糕,大谈建立一个1万个芯片的集群来训练自己的模型。我们并没有把他当回事,”梁文峰的一位商业伙伴说。“他无法表达自己的愿景,只能说:我想打造这个,它将改变游戏规则。我们认为只有字节跳动和阿里巴巴这样的巨头才能做到这一点。”
DeepSeek 声称,它仅使用了2048块英伟达 H800 和560万美元来训练一个包含6710亿个参数的模型,这只是 OpenAI 和谷歌训练同等规模模型所花费费用的一小部分。加州大学伯克利分校人工智能政策研究员 Ritwik Gupta 表示,DeepSeek 最近发布的模型表明“人工智能能力没有护城河”。
“第一个训练模型的人必须投入大量资源才能实现这一目标,”他说。“但第二个行动者可以更便宜、更快速地实现这一目标。”Gupta 补充说,中国的系统工程师人才库比美国庞大得多,他们懂得如何充分利用计算资源,以更低成本训练和运行模型。
尽管 DeepSeek 在资源有限的情况下取得了令人印象深刻的成果,但随着行业的发展,它能否继续保持竞争力仍是一个悬而未决的问题。当然,美国竞争对手也不会坐以待毙。他们正在打造英伟达下一代 Blackwell 芯片的超级“集群”,打造出强大的计算能力。
本周,OpenAI 表示将与日本软银成立一家名为Stargate的合资企业,计划在美国投资至少1000亿美元建设 AI 基础设施。埃隆·马斯克的 xAI 正在大规模扩展其 Colossus 超级计算机,使其包含超过100万个 GPU,以帮助训练其 Grok AI 模型。