百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大模型的“诅咒”被DeepSeek破除了吗?

myzbx 2025-02-15 00:15 12 浏览

DeepSeek的横空出世,引发了全球科技界的广泛关注。其在短时间内迅速崛起,不仅在性能上与OpenAI等国际巨头相媲美,更以极低的成本和高效的推理能力,成为全球增速最快的AI应用之一。本文将深入探讨DeepSeek的技术突破是否真的破除了大模型行业的传统“诅咒”,分析其背后的技术路径、开源模式以及对算力投入的影响,供大家参考。

新一年的全球科技圈,主角俨然是DeepSeek。从发布以来,DeepSeek在整个AI产业链上引发一系列连锁反应,无论是OpenAI,还是英伟达,其明显的震惊似乎皆验证着DeepSeek已奇袭成功。

而DeepSeek的初步表现也的确可圈可点,数据显示,上线5天DeepSeek日活跃用户已超过ChatGPT,上线20天的日活达2000万人次以上,已是ChatGPT的23%。当前,DeepSeek成为全球增速最快的AI应用。

在海外一众AI玩家不可置信的同时,国内AI领域一片“锣鼓喧天”:截至目前,阿里云、百度云、腾讯云、字节火山引擎均已正式支持DeepSeek;同时,百度昆仑芯、天数智芯、摩尔线程接连宣布支持DeepSeek模型。

这也标志着全球AI竞速赛中,国产厂商终于又跨出了一步。而DeepSeek的出现,是否为僵化已久的大模型行业破除了一些传统“诅咒”,很多至关重要的细节,其实还值得进一步深究。

一、DeepSeek出圈是“偶然性”的吗?

纵观当前围绕DeepSeek的几大主要争议,似乎每一点都指向同一个问题:DeepSeek是否真的实现了大模型的技术突破。早在DeepSeek公布其模型训练成本仅为行业1/10时,就有声音质疑,DeepSeek是通过大幅缩减模型参数规模,或依赖母公司幻方早期囤积的廉价算力实现的。

从某种角度来看,这些质疑有迹可循。

一方面,DeepSeek在缩减模型参数规模方面的“激进”有目共睹,另外一方面,DeepSeek背后的幻方确实有一定的算力储存。幻方是BAT之外唯一能够储备万张A100芯片的公司,有报道在2023年就曾公布过国内囤积超过1万枚GPU的企业不超过5家。

但值得一提的是,无论是模型参数规模的缩减,还是算力创新争议都无法否定DeepSeek“小力出奇迹”打法的实质意义。首先,DeepSeek-R1在参数量仅为1.5亿(1.5B)的情况下,在数学基准测试中以79.8%的成功率超越GPT-4等大模型。

其次,轻量化模型天然在推理能力与性能方面表现更出彩,训练和运行成本也更低。据悉,DeepSeek以仅需1/50的价格提供了GPT-4类似的性能,在中小型企业和个人开发者中抢夺了一定的市场地位。

至于幻方对DeepSeek的加成,与其说是一场资本的偶然游戏,不如说是国产大模型成长的必然结果。值得注意的是,幻方量化算是国内第一批闯入大模型赛道的企业,早在2017年,幻方就宣称要实现投资策略全面AI化。

2019年,幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100块GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。

2023年11月,DeepSeek 的首个开源模型 DeepSeek-Coder发布。也就是说,这个引起海外科技巨头集体破防的DeepSeek不是一夜之间的产物,而是国产AI厂商在大模型布局中早晚要走的一步。

不可否认,当前国内已具备培育“DeepSeek ”的客观条件。公开资料显示,一个全面的人工智能体系正在各方资本的追捧下诞生,国内人工智能相关企业超过4500家,核心产业规模接近6000亿元人民币。

芯片、算法、数据、平台、应用……我国以大模型为代表的人工智能普及率达16.4%。

当然,DeepSeek的技术路径依赖风险始终存在,这也让DeepSeek的出圈多了一丝偶然,尤其“数据蒸馏技术”不断遭受重重质疑。事实上,DeepSeek并非第一个使用数据蒸馏的大模型,“过度蒸馏”甚至是当前人工智能赛道的一大矛盾。

来自中科院、北大等多家机构就曾指出,除了豆包、Claude、Gemini之外,大部分开/闭源LLM蒸馏程度过高。而过度依赖蒸馏可能会导致基础研究的停滞,并降低模型之间的多样性。上海交通大学也有教授表示,蒸馏技术无法解决数学推理中的根本性挑战。

总而言之,这些都在反逼DeepSeeK乃至整个国产大模型赛道继续自我验证,或许,国内还会诞生第二个“DeepSeek”,从现实的角度来看,DeepSeek成功的必然远远大于偶然。

二、“开源时代”要来临了吗?

值得注意的是,相比于技术之争,DeepSeek也再度引发了全球科技圈对开源、闭源的激烈论证。Meta首席科学家杨立昆还在社交平台上表示,这不是中国在追赶美国,而是开源在追赶闭源。

谈及开源模型,还要追溯到2023年Meta的一场源代码泄露风波。彼时,Meta顺水推舟发布了LLama 2开源可商用版本,顿时在大模型赛道掀起开源狂潮,国内诸如悟道、百川智能、阿里云纷纷进入开源大模型领域。

根据Kimi chat统计,2024年全年开源大模型品牌超过10个。2025年开年不足两个月,除了大火的DeepSeeK之外,参与开源者数不胜数。

据悉,1月15日,MiniMax开源了两个模型。一个是基础语言大模型MiniMax – Text – 01,另一个是视觉多模态大模型MiniMax – VL – 01;同时,NVIDIA也开源了自己的世界模型,分别有三个型号:NVIDIA Cosmos的Nano、Super和Ultra;1月16日,阿里云通义也开源了一个数学推理过程奖励模型,尺寸为7B。

从2023年到2025年,无数AI人才争论不休后,大模型的“开源时代”终于要来了吗?

可以确定的一点是,比起闭源模式,开源模型能在短时间内凭借其开放性获得大量关注。公开资料显示,当年在“LLama 2”发布之初,其在Hugging Face检索模型就有超6000个结果。百川智能方面则显示,旗下两款开源大模型在当年9月份的下载量就超过500万。

事实上,DeepSeek能快速走红与其开源模式分不开关系。2月统计显示,当前接入DeepSeek系列模型的企业不计其数,云厂商、芯片厂商、应用端企业皆来凑了把热闹。在AI需求鼎盛的当前,大模型开源似乎更能促进AI生态化。

但大模型赛道开源与否,其实还有待商榷。

Mistral AI、xAI虽然都是开源的支持者,但它们的旗舰模型目前都是封闭的。国内大部分厂商基本也是一手闭源,一手开源,典型的例子如阿里云、百川智能,甚至李彦宏一度是闭源模式的忠实拥趸。

原因并不难猜测。

一方面,在全球科技领域里开源AI公司都不受资本欢迎,反而是闭源AI企业在融资方面更有优势。数据统计显示,从2020年以来,全球闭源 AI 领域初创公司已完成 375 亿美元融资,而开源类型的 AI 公司仅获 149 亿美元融资。

这对花钱如流水的AI企业而言,其中的差距不是一星半点。

另外一方面,开源AI的定义在这两年愈发复杂。2024年10月份,全球开放源代码促进会发布关于“开源AI定义”1.0版本,新定义显示,AI大模型若要被视为开源有三个要点:第一,训练数据透明性;第二,完整代码;第三,模型参数。

基于这一定义,DeepSeek就被质疑不算真正意义上的开源,只是为了迎合短期声势。而在全球范围内,《Nature》的一篇报道也指出,不少科技巨头宣称他们的AI模型是开源的,实际上并不完全透明。

前几日,受到“打击”的奥尔特曼首次正面承认OpenAI的闭源“是一个错误”,或许,赶着DeepSeek的热度,一场AI界的“口水大戏”又要拉开序幕。

三、大规模的算力投入即将“暂停”?

这段时间,不少沉迷囤积算力的AI企业因DeepSeek的横空出世遭到冷嘲热讽,英伟达这类算力供应商还在股价上跌了一个巨大的跟头。坦白来说,DeepSeeK在某些方面的确带来了新的突破,尤其在“垄断诅咒”上,缓解了一部分焦虑。

但全球大模型赛道的算力需求依旧不可忽视,甚至DeepSeeK自身都未必能暂停算力投入。

需要注意的是,DeepSeek目前仅支持文字问答、读图、读文档等功能,还未涉及图片、音频和视频生成领域。即便这样,其服务器还困在崩溃的边缘,而一旦想要改变形式,算力需求则会呈爆炸式增长,视频生成类模型与语言模型之间的算力需求差距甚大。

公开数据显示,OpenAI的Sora视频生成大模型训练和推理所需要的算力需求分别达到了GPT-4的4.5倍和近400倍。从语言到视频之间的跨度尚且如此之大,随着各种超级算力场景的诞生,算力建设的必要性只增不减。

数据显示,2010年至2023年间,AI算力需求翻了数十万倍,远超摩尔定律的增长速度。进入2025年,OpenAI发布了首个AI Agent产品Operator,大有要引爆超级算力场景的趋势,这才是关系算力建设是否继续的关键。

据悉,当前大模型发展定义总共分为五个发展阶段:L1 语言能力、L2 逻辑能力、L3 使用工具的能力、L4 自我学习能力、L5 探究科学规律。而Agent位于L3 使用工具能力,同时正在开启对L4的自我学习能力的探索。

根据Gartner预测,到2028年,全球将有15%的日常工作决策预计将通过Agentic AI完成。如果大模型赛道按照规划预想地一路狂奔,从L1到L5,全球各大AI企业对算力的建设更加不会忽视。

到L3阶段,算力需求大概会是多少?

巴莱克银行在2024年10月份的一则报告中预测过,到2026年,假如消费者人工智能应用能够突破10亿日活跃用户,并且Agent在企业业务中有超过5%的渗透率,则需要至少142B ExaFLOPs(约150,000,000,000,000 P)的AI算力生成五千万亿个token。

即便超级应用阶段的到来还遥遥无期,在目前大模型赛道加速淘汰的激烈战场上,也没有一家企业甘愿落后一步。微软、谷歌、亚马逊、Meta、字节跳动、阿里、腾讯、百度……这些海内外的AI巨头只怕会继续花钱赌未来。

另外,DeepSeek最为人称道的莫过于绕开了“芯片大关”。

然而,作为算力产业的基石,相同投入下,优质的算力基础设施往往会提供更高的算力效率与商业回报。《2025年算力产业十大趋势》中提到过,以GPT-4为例,不同硬件配置下其性能会发生显著差异。对比H100和GB200等不同硬件配置驱动GPT-4的性能,采用GB200 Scale-Up 64配置的盈利能力是H100 Scale-Up 8配置的6倍。

DeepSeek一问三崩的服务器,或许暗示着大模型赛道的“追芯”游戏在算力角逐环节中迟迟未能结束。据悉,2025年,英伟达下一代GPU GB300可能会出现多个关键硬件规格变化,而国内的AI芯片国产化进程也星夜兼程。

种种迹象显示,辛苦的算力建设一时半会无法停止,反而更卷了。

本文由人人都是产品经理作者【道总有理】,微信公众号:【道总有理】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于CC0 协议

相关推荐

攀升战境S5电竞主机评测:NVIDIA RTX 3060实力助阵,光追游戏走起

此次笔者将为玩家们推荐一款游戏主机——攀升战境S5。该主机是攀升电脑今年力推的游戏装备,主机采用一线品牌配件,特别是在显卡选用上严苛把关,精选GeForceRTX30系列显卡,玩家们大可以放心选购...

慎买-神牛闪光灯兼容性问题:神牛V350&松下S5M2

神牛V350和松下S5M2的兼容性问题。大家好,我是向往闪光灯人像的Fish。国庆期间,我购买了神牛V350闪光灯和神牛X2T引闪器,但这成为了我的噩梦。我原以为客服和松友们说这款闪光灯在松下S5M2...

Acer蜂鸟持续办公一整天(acer 蜂鸟s5)

移动办公在工作节奏日益加快的今天越来越普遍,目前大部分工作无法在手持设备上完成,笔记本依然是移动办公最明智的选择。为了实现移动办公,很多笔记本越做越轻薄,性能也越来越强,而续航却一直没有很大提升。笔者...

职业车手明年会骑什么?2021赛季各大世巡赛车队使用器材一览

新年的钟声即将敲响,意味着充满魔幻色彩的2020年即将过去。受新冠肺炎的影响,2020年的赛季非常不同寻常。因这一原因不得不延迟举行的各种比赛导致许多车队的赞助商无法得到足够曝光,这也间接导致了许多车...

三星部分手机系统升级路线图流出(三星系统在哪升级)

三星包括Note3和S5在内的手机在升级到4.4.2系统之后一直没有什么系统升级的消息,而最近流出的一张三星的系统升级路线图中出现了一共13台手机升级KTU84P(也就是Android4.4.4)...

索尼Xperia Z3配置大曝光:升级并不大

IT之家(www.ithome.com):索尼XperiaZ3配置大曝光:升级并不大索尼明天就会在IFA2014大会上发布其下代旗舰XperiaZ3智能手机,目前网上曝光了其原型机,并且机身背后...

不进反退 三星Exynos 5433只能运行32位模式?

三星GalaxyNote4将带有两个版本,除了国行使用的骁龙805以外,还有三星自家的Exynos5433版本。而这颗SoC的详细信息三星并没有公布,据外媒Anandtech称,他们从源码中确认...

尼康Z6III测评:对比EOS R6 II、A7M4、S5IIX

摄影器材测评网站DPReview刚刚发布了尼康Z6III的完整图文测评,该机获得金奖评级,得分达到91%。以下是该文章的摘录——尼康Z6III核心规格:2400万像素“部分堆栈式”传感器RAW连拍:机...

赛默飞Ion S5首批数据公布,玩爆前任PGMTM系列

北美时间9月1日,赛默飞发布了两款最新的NGS系统IonS5和IonS5XL,旨在提供更加简捷的靶向测序流程。10月29日IonS5测序仪的首批实验数据产生于阜外医院。阜外医院研究人员选用了主...

Excel技巧:快速制作批量文件夹,省时省力,加强工作效率

大家好,如果公司领导要求按人员姓名制作文件夹,以一人一档的形式呈现人员档案,办公人员一个一个制作费时费力,而且效力低下,今天为大家介绍快捷制作批量文件夹的方法下面我们用图片来进行演示操作打开表格,选...

国行、港版、美版Apple watch各版本售价一览

今天凌晨,苹果牌手表正式发布,苹果开始正式进入可穿戴设备领域,除了功能和外观,我相信大家更关心的是价格问题了,小编就将国行、港版、美版的Applewatch售价做一总结,以供参考。国行:美版:港版:...

松下全画幅微单S5和S1到底哪里不一样?

Hello,我是ET,欢迎大家来到我的“相机笔记”。————9月2日晚,松下正式发布了第4款全画幅微单LUMIXS5。这一篇,我们主要来说松下LUMIXS5和LUMIXS1到底有哪些区别...

融会贯通之典范 神舟S7-2021S5评测

便携、性能、续航,这简简单单的六个字道出了这么些年来笔记本电脑的设计方向,可是由于底层技术、模具设计等等原因,这三点并不能很好的融合在一起。虽说闻道有先后,术业有专攻,但能够有一台融会贯通的产品,不是...

三国志战略版:S5赛季装X指南,开荒不是一成不变,需要因地制宜

大家好我是零氪玩家花席,S5赛季已经开始,因为S5赛季的野地阵容和S4赛季没有区别,所以S5赛季开荒相对不难。你在S4有经验,并且多了很多武将和战法,还能用150赛季功勋兑换7500战法点。S5赛季新...

聊聊松下S5M2和S5M2X的区别(松下s5k和s5c有什么区别)

先简单说下哪里不同:12bitRAWHDMI外录支持直接将视频录制到USB-SSD上多了All-Intra和ProRes编码支持有线/无线IP推流,USB网络连接黑化的机身不过要特别强调一下,S5...