AI大模型还会继续走“烧钱”之路吗?
贵、烧钱,是AI大模型效用足够激动人心的另一面。
AI大模型最烧钱的部分是算力,需要海量性能最先进的GPU芯片,其运行还需要巨量的电力能源支持;其技术核心是算法,需要大量顶级的人工智能专家和技术人员参与研发。
因此可以看到,美国的AI大模型项目动辄投资数十亿美元,大模型计划动辄投资数百亿美元、上千亿美元。
但DeepSeek此次对上述模式进行了一次让人震撼的改变——一家小型初创公司,仅100多名研发人员,在算力受限情形下,使用相对“极低”的训练费用,训练出技术水平堪比全球顶极的AI大模型,且实现了“极低”的用户收费。
DeepSeek公司R1模型训练成本仅为560万美元,远远低于OpenAI 、谷歌等美国科技巨头在人工智能技术上投入的“数亿美元乃至数十亿美元”。伴随着技术的精进,AI大模型研发的成本已经走上快速下行通道,DeepSeek显然大大加速了降本进程,而且从行业反映看,确实存在进一步加速降本的可能性。
但是,如果据此认为DeepSeek终结了AI大模型研发的昂贵路线,恐怕为时尚早。
首先,现阶段的DeepSeek R1其实只是AI大模型的一个具有“深度思考”功能的分支,一个分支的低成本还不能代表全部大模型能走上低成本之路。事实上,低成本之路能否走通,还需要全行业进行较长时间的验证。
其次,包括DeepSeek在内的中外AI大模型行业,真正要实现的目标并不是AI大模型本身,而是AGI——通用人工智能。目前业内尚不能确认AI大模型是否是实现AGI的正确解,更不能确认未来的AGI研发之路是否昂贵。
再次,从市场近期反应看,“终止昂贵之路”一说还没得到更进一步支持。
芯片巨头英伟达股价虽然多日下跌,但跌幅尚有限,美国科技股同样跌幅有限。此外,市场上暂时还没有传出AI大模型项目或计划大幅向下调整预算的消息,而Meta在2025年高达数百亿的AI预算甚至是在DeepSeek爆火之后才传出。
开,还是闭源?
无论美国还是中国,AI大模型领域的开源、闭源之争,均持续已久。
DeepSeek是坚定的开源路线支持者。任何人均可自行下载与部署,且提供论文详细说明了训练步骤与窍门,甚至DeepSeek APP上提供了用户可见的AI思考、推理过程。
DeepSeek爆火后,UC伯克利、港科大、HuggingFace等机构根据开源信息,纷纷实现低成本复现,对外称仅花30美元就能见证“啊哈时刻”(指可以令用户眼前一亮的时刻)。
原本,闭源路线在中美均有隐隐占优之势,但DeepSeek横空出世并爆火,增加了太多变数,势必会在业内再次引发开源、闭源之争。
DeepSeek在官方公众号上称:“以开源精神和长期主义追求普惠AGI,是 DeepSeek 一直以来的坚定信念。我们非常兴奋能与社区分享在模型预训练方面的阶段性进展,也十分欣喜地看到开源模型和闭源模型的能力差距正在进一步缩小。”
同样坚持开源路线的Meta 的首席人工智能科学家Yann LeCun近期发文表示,DeepSeek 的成功“并不是中国的人工智能超越了美国,而是开源模型正在超越专有模型”。
其在文中还表示,“DeepSeek受益于开放研究和开源,Meta的Llama也是如此。OpenAI 最初是一家开源人工智能公司,其使命是创造造福全人类的技术,但最近已转向闭源。”该评论对于闭源路线,隐有火药味儿。
闭源自有其道理。AI基础性研发投入巨大,闭源可以让企业更有动力投入,并利用技术领先获得市场地位,然后进行市场变现。而开源意味着技术共享,市场收益一般较闭源要小。
其中的典型代表便是苹果。苹果智能手机的操作系统和系列软件是闭源生态,当苹果市占率实现全球第一时,其“赢家通吃”效应显著。苹果之所以能长期拿走全球智能手机大部分利润,与其闭源生态密切相关。而安卓系统为开源生态,谷歌利用技术共享的方式开放给大量手机厂商,其赚钱方式为技术授权和知识产权收费模式。其利润远小于苹果。
2024年7月5日,百度CEO李彦宏在一场圆桌访谈中对开源与闭源模型进行了讨论,并谈了坚持闭源路线的理由。他解释说,同样参数规模下,开源模型的能力不如闭源,闭源模型可以根据用户需求提供多种变体,以平衡效果、推理速度和成本;无论是ChatGPT还是百度的文心一言,这些闭源模型的平均水平都比开源模型更强大,推理成本也更低。
对于开源模型,李彦宏也承认其价值。他表示,开源模型在一些学术研究、教学等领域有存在价值,可以用于研究大模型的工作机制,形成理论。
其实开源、闭源模式之争的背后,是关于如何平衡技术创新、商业利益和市场竞争力的讨论,是难以给出标准答案的选择题,并没有优劣与对错。
DeepSeek拉近了中美AI的技术差距吗?
DeepSeek爆火之后,大量的乐观评论也随之而来,认为意味着中美在AI领域的差距到了“微乎其微”的地步,甚至,还有人说中国已实现“弯道超车”。
DeepSeek还引发了资本市场的剧烈反应,有西方媒体称其为中国大模型“爆击华尔街”。
1月27日,美国股市开盘后,科技板块整体下跌,其中美国芯片巨头英伟达(NVIDIA)暴跌约17%。随后,美国、欧洲电力供应商的股价也遭受重创(AI大模型预训练、运行等对能源需求巨大)。
英伟达近期股价走势
甚至,有经济分析认为,DeepSeek可能影响全球经济。例如德银策略师George Saravelos在最新报告中认为,DeepSeek的出现可能对全球经济产生“积极的供应冲击”,甚至可能使美元“面临边际下行压力”。
客观、冷静地看,DeepSeek当然是重要的局部突破,但整体上中国AI领域尤其AI大模型领域与美国还是有着一定差距的。
首先,DeepSeek-R1代表大模型的“深度思考”能力,是通用大模型的一部分能力,因此其水平接近美国市场的头部同类模型,且是更早(4个月前)发布的模型,是一种局部突破,而非整体突破。
其次,尽管DeepSeek通用大模型V3也广受好评,但其受好评的前提是其具有极致的性价比,“性能接近”美国头部产品,且价格更低(是对方的百分之几)。显然,这不代表V3真的与ChatGPT在技术上没有差距。
再次,中国AI行业与美国行业在算法、算力和数据上的差距依然没有实质性改变。
算法方面,美国是AI大模型的原创研发国,技术路线和发展方向目前均主要由美国引领。算力方面,美国目前具有绝对优势,且随着美国对英伟达GPU芯片的出口限制日益严格,中国受限会愈加严重,而国内自主研发虽有重大进展,但尚需追赶和突破时间。数据方面,中文数据存在数量少且“互联网孤岛”加剧之势。
最后,从市场表现看中美差距依然较大。与美国相比,我国AI企业数量较多,但核心产业规模明显偏小。并且,我国AI企业估值与美国AI企业估值有拉大之势,OpenAI市场估值超过1万亿元人民币,马斯克主导的xAI估值已达400亿美元,而我国“六小虎”估值普遍为100亿至数百亿人民币,互联网大厂则普遍没有因为发展AI大模型得到较多的AI赋分。
尽管DeepSeek爆火不能完全代表中美AI技术水平接近,但确实进一步缩短了中美AI的技术差距。至于缩短了多少,或许还需要市场后续发展来给出答案。