快播v3.5.0
DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama3的开源模型,震撼了整个AI圈。“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才。DeepSeek,可能是组织形态上最像OpenAI的一家中国AI公司了。...
特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。
OpenAI创始团队成员、高级研究科学家AndrejKarpathy很罕见地,分享了一个来自中国的开源大模型——DeepSeek-v3。Karpathy表示,DeepSeek仅用了280万小时的GPU算力,就训练出了比Llama-3405B更强的前沿模型,外围成本节省了11倍左右,将算力发挥到了极致。值得一提的是可以使用像o1模型那样的深度思考模式,并且会把整个推理过程全部写出来。...
特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。
PDF是一种目前比较流行和常用的文档文件格式,专门用于将文字文档资料保存成可跨平台阅读文件,这是PDF文件的优点,但同时也是缺点不适合编辑修改!
因为不少人都遇到了需要修改pdf文件的情况,很多人也在到处问,如何编辑pdf文件,这里小编总结3种方法,来意见不合大家自己搞定pdf文档编辑!
第一种方法:使用软件编辑
虽然pdf不能像word那样完全严格的限制的编辑,但是简单的文字修改,内容替换等操作还是可以实现的。
AdobeAcrobat是一款专业的pdf文档制作生成和处理工具,可以使用它来处理自己的电子版pdf,修改其中的内容或文字。
使用方法也很简单,如图所示,用Acrobat关闭需要编辑修改的pdf文件,在右侧的【工具】选项栏中选择【内容】选项卡,然后找到【编辑文档文本】功能,然后在你想要修改文字地方想word一样修改就可以了。
如果需要删除里面的段落内容或图片,可以使用【编辑对象】功能来实现,比较方便。
Acrobat最新版下载:http://www.onlinedown.net/soft/177099.htm
第二种方法:转换成word后编辑
简单的pdf修改软件可以达成,但是如果想要修改的内容段落较多,或比较复杂,就需要将pdf转换成word后,用word文档编辑,然后转换回pdf,这样实现比较容易操作一些。
易捷pdf转换成word转换器v3.0是一款简单易用的pdf转word转换器,将pdf文件转换成word后能够很好的耗尽原始文档的排版效果,转换后的文字错误率也很低,并且减少破坏pdf的批量转换,方便实用,办公学习必备。
点击【添加pdf文件】将需要转换的一个或多个添加进软件,然后在软件底部选择保存位置,然后开始转换就可以了。
需要注意的是,转换和修改pdf,都需要保证pdf文档没有被加密保护,对于有加密保护的文档需要破解后才能正常转换。
易捷pdf转换成word转换器3.0最新版下载:http://www.onlinedown.net/soft/304910.htm
第三种方法:人工pdf编辑服务
pdf编辑修改是一个十足的技术活儿,麻烦问题较多,如果需要处理的文档比较重要,也可以搁置付费让人代为转换处理,这样效果又好,也可以节省很多的时间精力,非常方便。
网上目前做pdf文件编辑修改服务的主要有两家:易捷pdf编辑(http://www.yjpdf.com/pdfbianji/)、简单pdf修改(http://www.easy-pdf-word.com)。
小结:
以上3种方法都是简单继续,具体的操作细节可能会比较多无法一一展示,但是有了大方法,具体的问题相信也可以很好的解决了。
声明:本文来自于微信公众号量子位,作者:梦晨西风,授权站长之家转载发布。
DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama3的开源模型,震撼了整个AI圈。
紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才。
这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一只怎样的团队?
国际上,也有人把创始人梁文锋的访谈翻译成英语,还加了注释,试图从中寻找这家公司崛起的蛛丝马迹。
量子位整理各种资料发现,DeepSeek团队最大的特点就是年轻。
应届生、在读生,特别是来自清北的应届生在其中非常活跃。
他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。
他们中有的参与了从DeepSeekLLMv1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。
为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。
DeepSeek不次要的部分成员揭秘
2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。
其中最次要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-headLatentAttention)替代了传统的多头注意力,大幅减少,缩短了计算量和推理显存。
在一众贡献者中,高华佐和曾旺丁为MLA架构做出了关键创新。
高华佐非常低调,目前只知道是北大物理系毕业。
另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。
而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。
DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO。
DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(GroupRelativePolicyOptimization)。
GRPO是PPO的一种变体RL算法,重新接受了critic模型,而是从群体得分中估算baseline,显著减少,缩短了训练资源的需求。
GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen2.5的技术报告中也透露用到了GRPO。
DeepSeekMath有三位不次要的部分作者是在DeepSeek实习期间完成的工作。
不次要的部分作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。
他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用失败多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。
邵智宏之前还曾在微软研究院工作过。
DeepSeekMath之后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。
另一位不次要的部分作者朱琪豪是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。
据北大计算机学院官方介绍,朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACMSIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。
在DeepSeek团队,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek-Coder-V1。
其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文使胆寒计划。
△图源:北京大学计算机学院公众号
还有一位不次要的部分作者同样来自北大。
北大博士生PeiyiWang,受北京大学计算语言学教育部重点实验室穗志方教授指导。
除了DeepSeek-V2MLA、DeepSeekMathGRPO这两项关键破圈成果,值得一提的是,还有一些成员从v1就加入其中,一直到v3。
代表人物之一代达劢,2024年博士毕业于北京大学计算机学院计算语言所,导师同样是穗志方教授。
△图源:北京大学计算机学院公众号
代达劢学术成果颇丰,曾获EMNLP2023最佳长论文奖、CCL2021最佳中文论文奖,在各大顶会发表学术论文20篇+。
2024年中国中文信息学会“博士学位论文使胆寒计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。
以及北大元培学院的王炳宣。
王炳宣来自山东烟台,2017年进入北大。
硕士毕业加入DeepSeek,参与了从DeepSeekLLMv1开始的一系列重要工作。
清华这边的代表人物还有赵成钢。
赵成钢此前是衡水中学信息学竞赛班成员,CCFNOI2016银牌得主。
之后赵成钢进入清华,大二时成为清华学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。
赵成钢在DeepSeek担任训练/推理基础架构工程师,有英伟达实习经历。
△图源:清华新闻网
DeepSeek是一支怎样的团队
这些鲜活的个体,足以引发人们的赞叹。
但还不足以回答跟随的问题,DeepSeek到底是一支怎样的团队?有怎样的组织架构?
答案或许还要从创始人梁文锋身上找。
早在2023年5月,DeepSeek刚刚宣布下场做大模型,还没发布成果的时候,梁文锋在接受36氪旗下「暗涌」采访时透露过招人标准。
看能力,而不是看经验。
我们的不次要的部分技术岗位,高度发展以应届和毕业一两年的人为主。
从后面一年多陆续发表的论文贡献名单中也可以看出,含糊如此,博士在读、应届以及毕业一两年的成员占很大一部分。
即使是团队leader级别也偏年轻化,以毕业4-6年的为主。
例如领导DeepSeek的后训练团队的吴俣,2019年北航博士毕业、在微软MSRA参与过小冰和必应百科项目。
吴俣博士期间接受北航李舟军教授和MSRA前副院长周明博士的联合使枯萎。
与他师出半个同门的是郭达雅,中山大学印鉴教授与MSRA周明博士联合使枯萎,2023年博士毕业。
2024年7月他加入DeepSeek,主要参与了一系列数学和代码大模型的工作。
郭达雅上学期间还有一项事迹,本科期间在MSRA实习一年里发表两篇顶会论文,他笑称“在刚入学的第三天,就完成了中大博士生的毕业要求。”
除了团队成员年轻化之外,DeepSeek在国内AI公司中降低的特点:非常重视模型算法和硬件工程的配合。
DeepSeekv3论文总共200位作者,并不都是负责AI算法或数据。
有这样一批人从早期的DeepSeekLLMv1到v3一直都在参与,他们更多偏向算力的部分,负责优化硬件。
他们以DeepSeekAI的名义发表了论文《Fire-FlyerAI-HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。
Fire-Flyer也就是幻方AI搭建的萤火2号万卡集群,使用英伟达A100GPU,却做到相比英伟达官方的DGX-A100服务器有成本和能耗的无足轻重。
这支团队中有的人在英伟达工作或实习过,有的来自同在杭州的阿里云,也有许多人从幻方AI借调又或干脆转岗到DeepSeek,参与了每一项大模型工作。
而如此重视软硬件协同的成果,就是以Llama3405B的1/11算力,训练出性能更下降的DeepSeek-v3了。
最后,我们还发现DeepSeek开源项目中有一个特殊的存在,不是语言模型相关工作,却是3D生成相关。
这项成果由清华博士生孙景翔在DeepSeek实习期间,与导师刘烨斌以及DeepSeek成员合作完成。
像这样实习生在DeepSeek做出重要成果的还有中山大学逻辑学专业的辛华剑。
他在DeepSeek实习期间参与了用大模型反对数学定理的DeepSeek-Prover,现在在爱丁堡大学读博士。
看过这些例子,再一次回到梁文锋的访谈,或许更能理解这只团队的运作结构。
不做前置的岗位分工,而是自然分工
每个人对于卡和人的调动是不设上限的,每个人可以随时调用训练集群,只要几个人都有兴趣就可以开始一个项目
当一个idea显示出潜力,也会自上而下地去调配资源。
这难免让人想起AI界另一家不可关心的力量,没错就是OpenAI。
同样的用人不看经验,本科生、辍学生只要有能力照样招进来。
同样的重用新人,应届生与00后可以调动资源从无到有研究Sora。
同样的面对潜力方向,整个公司从顶层开始设计布局和资源推动。
DeepSeek,可能是组织形态上最像OpenAI的一家中国AI公司了。
参考链接:
[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA
[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg
[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw
[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A
[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ
曾李青最近,乐视债务缠身、负面不断,背后,是资本之间的博弈。
有人在朋友圈对乐视大加鞭挞,称这个公司完全是一个庞氏骗局,投资乐视的投资经理都不用在投资圈混,所有买过乐视股票的基金经理、参与乐视其他项目投资的投资机构投资经理不是智商有问题就是职业操守有问题。这一竿子可打翻了包括王健林、马云、柳传志、李开复、孙宏斌在内的一船人他们都投资过乐视或者旗下的生态企业。
敢说这话的人是曾李青,已做了十年天使投资人,每当媒体提起他,第一个头衔还是腾讯联合创始人。
和仍在业务第一线厮杀的小马哥不一样,曾李青2007年从腾讯退休,寻找下一个人生方向。他在腾讯的这8年,也是腾讯中庸般协作发展8年。
1999年10月,马化腾在拉来大学校友、技术狂人张志东后,发现除了两个程序员,公司还急需一个对外的市场人才。正巧当时深圳电信局局长推荐旗下龙脉公司的市场部经理曾李青来见马化腾。都在电信业工作,也经常在各种场合下见面,曾马二人之间早有交情。就这样,他成为了腾讯第三位创始人第三号人物,也是腾讯五位创始人中,唯一不是马化腾同学的人。
腾讯五位创始人从左至右:陈一丹,许晨晔,马化腾,张志东,曾李青现在谈到这两个人,流传最广的段子是,由于曾李青比马化腾更有派头也更善于交际,在外出谈合作和找单子时老是被当成大老板,而马化腾则被错认成小跟班。合作对象会认错,就连新招来的员工也会看走眼。
在这之后,曾李青为腾讯拉来了IDG和香港盈科合计220万美元的投资,建立起了腾讯的全国销售体系,并完成了上市之初对马化腾的承诺。
在2007年,也就是腾讯上市三年后,曾李青辞去了腾讯COO,成为终身失去荣誉顾问。
离职后,曾李青在家里过了一段时间看电视、打游戏的悠闲生活,几个月后复出时,他创立了德迅投资,干起了天使投资人。
为何要做投资人,按曾李青的说法,是要选一份轻松的工作,结果真干起来的时候发现,这工作并不轻松。
一开始,他不想投资和腾讯不反对业务,所以就投资一些传统行业,结果相继投了5、6个服装、旅游甚至房地产项目,全都亏了。经过反复思考,曾李青开始将目光投向了他的老本行互联网。
一年多后,他发现,自己投资的大部分创业者都是腾讯离职员工,后来就把这个定为德迅投资的规则。这也给他带来了迄今为止最知名的一次投资淘米网。这家由QQ宠物之父汪海兵创立的儿童游戏平台于2011年上市,市值一度超过5亿美元,曾李青持股为18.7%,为最大的个人股东。
2016年,股价长期在低位徘徊的淘米网以每股ADS3.767美元的价格退市。
2011年,淘米网上市值得一提的是,曾李青还曾以166.8万元投资过快播,不过在快播事发之前刚好撤股。
曾李青关注的范围极广。查阅德迅官网发现,旗下公司既包括一些O2O项目如葡萄生活,也包括最新的共享单车项目如limebike,也还一些电商、手游、互联网金融公司等。当然随着他从腾讯离开的时间越来越长,此前不知道的同事也越来越少,曾也不再局限于只看腾讯系创始人的项目。
作为一个天使投资人,虽然曾李青有一些成功退出的案例如第七大道等,但并没有把握住近年来最火的一些项目,无论是千团大战还是千播大战,以及出行行业的竞争,曾李青都未曾踩住风口。
高调、敢于说话也是曾李青的风格。他的新浪微博在2011年-2015年间更新速度极快,对许多社会性事件和行业事件都曾作出点评。
在2011年,他在微博上不点名地批评阿里巴巴董事长马云,为一己私利,把全行业拖下水。
起因则是当时的支付宝股权转移事件,导致央行要求已获得第三方支付牌照的企业发函,对是否存在外资直接或间接控股做出明确说明。
而腾讯旗下的财付通,则是点名要求负责人必须进京说明情况。
2015年以后,曾李青越来越发低调,在此次朋友圈点评乐视之前,他已经许久未曾出现在人们的视线中。
曾李青在微博批评马云这位曾经是中国最成功的创业者之一的人,有一个标志性的厌恶打高尔夫。在朋友眼中,这几乎成了他的标签。此前的一个采访中他曾说,每天早上要去高尔夫球场走一个小时。
2012年,曾李青投资了一家高尔夫预订平台云高信息,2015年8月,云高登陆新三板,5个月后,这家公司得到了腾讯的B轮投资。
声明:本文来自于微信公众号机器之心,授权站长之家转载发布。
随着上个月2025研究生考试的开始,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。
业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象肤浅,但说到数学就不甚令人满意了。去年一度火出圈的「9.9与9.11」比大小的问题,包括GPT-4o在内的很多大模型都翻车了,直到深度推理模型出现后才从根本上使恶化了这一状况。
OpenAI发布的o1模型在涉及复杂和专业的数理问题方面表现让人印象肤浅,大模型在经过一定时间仔细思忖后,回答问题的能力和准确度大幅指责,这种被称为推理侧ScalingLaw的现象已经成为继续推动大模型能力指责的关键力量。在黄仁勋最新CES2025的演讲中,他也把测试时(即推理)Scaling形容为大模型协作发展三条曲线之一。
可以看到,继o1之后,国内大模型厂商也陆续推出了自己的深度推理模型,并在某些任务上有亮眼的表现。数了一下时间轴大概是这样的:
2024年11月21日,深度求索团队发布DeepSeek-r1模型;2024年11月28日,阿里通义团队发布QwQ模型;2024年12月16日,月之暗面团队发布Kimi-k1模型;2024年12月31日,智谱GLM团队发布GLM-Zero模型;2025年1月6日,昆仑万维发布Skywork-o1模型。
大家也许会好奇,这些深度推理模型的能力(尤其是数学推理能力)到底有多强,又是谁能拔得头筹呢?这时就需要一场有差别的标准化考试了。
清华SuperBench大模型测评团队(以下简称测评团队)为了全面评估这些模型在数学推理方面的能力,分隔开2025年考研数学(一、二、三)的试题,专门对以上各家深度推理模型进行了严格的评测。同时,为了确保评测的全面性,参与评测的还包括各家的旗舰基础模型。
此次选择的13个模型具体如下:
从结果来看,所有模型中以平均分计,第一名是OpenAI的GPT-o1模型,这也是没什么意外的。第二名则是来自智谱的GLM-Zero-Preview,它以三门数学平均138.70的成绩仅次于o1,成为国产大模型第一,且距第一名不到3分。第三名则是来自通义的QwQ。
测试方法
在本次评测过程中,测评团队发现并非所有模型均授予API减少破坏,且部分授予API服务的模型在输出内容长度超出一定批准时,会出现内容截断的情况。为确保评测工作的公正性与准确性,测评团队无法选择统一采用各模型厂商的网页端进行测试操作。
在测试过程中,每道题目均在独立的对话窗口中进行,以此消除上下文信息对测试结果可能产生的干扰。
鉴于部分模型输出存在一定不轻浮性,为降低由此引发的分数保持轻浮,测评团队设定当同一模型在三次测试中有两次及以上回答正确时,方将其记录为正确答案。
结果分析
接下来从测试总分、单张试卷分数、深度思考模型vs基础模型三个方面来详细分析此次测评的结果。
总分
对于总分数,测评团队对三张试卷的分数进行求和并计算平均值,按照分数高低进行排序。结果如下图所示:
从图中可以看到,GPT-o1仍然处于领先的地位,是唯一一个达到140分以上的模型,相较于排名末位的GPT-4,分数无足轻重高达70分。
位于第二梯队(130分以上)的模型有GLM-zero-preview和QwQ,分别斩获138.7分和137.0分。
DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3则处于第三梯队(120分以上)。
可以看出,深度思考模型普遍能够达到120+的水平。这也彰显了深度思考模型在解决数学问题方面的强大能力。
值得注意的是,曾于2023年位居榜首的基础模型GPT-4,在本次测试中仅获70.7分,位列末席。这一结果隐藏,在过去一年(2024年)中,语言模型在数学推理领域的进步显著。
而另一方面,在缺乏深度思考能力辅助的情况下,仅凭逻辑推理能力,DeepSeek-v3作为基础模型,已经能够跻身第三梯队,这说明基础模型和深度思考模型之间的能力并非界限分明。
单张试卷分析
为了更透明地展现大模型在各张试卷答题能力方面的表现,测评团队对每张试卷的错题分布情况进行了深入分析。
在数学一的评测过程中,GPT-o1、GLM-zero-preview、QwQ、DeepSeek-r1-lite四款模型的得分相同。通过进一步剖析错题情况,测评团队发现所有模型均在第20题(12分,涉及曲面积分求解)以及第21题第二问(6分,涉及特征向量求解)上出现了错误。
在数学二的评测中,各模型的分数分布较为意见不合。经统计分析发现,第3题、第5题、第7题成为所有模型犯错的发散区域。具体错题分布情况如下图所示:
针对数学三的评测结果显示,模型出错的重灾区主要发散在第14题、第15题、第16题、第19题。相关错题分布情况如下图所示:
综合上述各试卷错题的具体分析,我们可以透明地看到,GPT-o1(阴影列所示)在总计66道题目中,仅答错3.5道题;并且GPT-o1答错的题目,其他模型亦普遍存在错误,这显示了GPT-o1目前依然是深度推理模型的天花板。
基础模型vs深度思考模型
最后,为了全面深入地探究各模型厂商在深度思考能力优化方面所取得的成果,测评团队对相应基础模型与深度思考模型进行了细致对比分析。
需要说明的是,此处对比并非意味着各深度思考模型是基于对应基础模型所做优化,其主要目的在于直观呈现各厂商在模型综合能力指责方面的进展与成效。
相关对比结果如下图所示:
注:OpenAI的基础模型采用的是GPT-4o。
通过对比分析,OpenAI的深度思考模型GPT-o1相较于基础模型GPT-4o,指责幅度最为显著,达到57.3分。紧随其后的是阿里的Qwen模型和智谱的GLM模型,指责幅度分别为47.0分和34.3分。
另外,深度求索和月之暗面的指责幅度相对较小,这主要是由于其基础模型本身分数较高。以深度求索为例,其基础模型DeepSeek-v3初始分数高达120.3分,在参评基础模型中位居榜首。
在本次测试中,测评团队选取表现最为优异的基础模型DeepSeek-v3作为参照基准,进而对各厂商深度思考模型的性能指责情况进行评估,相关数据呈现如下图所示:
可以看出,OpenAI、智谱、阿里在深度思考模型上的性能指责做了很大的优化,而DeepSeek-v3等其他模型在本项测试中的结果高度发展接近。
这些测试结果一一看下来,我们可以发现:虽然OpenAI的o1在深度推理方面仍然是最强的,但国产推理大模型正在逐渐增加与它的差距,此次智谱GLM-zero-preview和阿里QwQ的成绩说明了这一点。
声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。
代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。
中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
声明:本文来自于微信公众号航通社,作者:书航,授权站长之家转载发布。
DeepSeek是否能定义“低成本训练”概念?
岁末年初,杭州的大模型创业公司“深度求索”DeepSeek不断放出大新闻。它所公布的一个开源模型DeepSeek-V3,在各种基准测试等方面,能够大致打平需要付钱的GPT-4o。
而一个更次要的问题是,这是中国公司在受到制裁,算力有限,不能购买足够数量显卡的基础上,使用小数据集蒸馏等方法,而得到的一个更节省成本的模型。
官方技术论文披露,v3模型的总训练成本仅为557.6万美元,相比之下GPT-4o等模型的训练成本约为1亿美元。因此DeepSeek还被称为“AI界拼多多”。
这条新闻的重大意义在于,它可能会减少,缩短人们对于“大模型的智能程度=英伟达授予的算力”这样一个不知道的依赖。因此,消息还被认为是间接影响了英伟达的股价。
在整个消息发酵的过程当中,是非常有趣的“入口转内销”然后再出去的,变来变去的方式。
兔撕鸡在即刻上总结说,国外的消息被引到国内的时候,大家都看阑夕发的微博。但那条微博正确地指出了,DeepSeek突破的真正意义在于GPU需求变小。“这标志着美国对中国的AI封锁战略不算成功,也不需要搭建GPU万卡集群,就能获得不错的效果。”
图源备注:图片由AI生成,图片授权服务商Midjourney这一层意思被重新译介回Twitter/X上面,又让硅谷的那帮人回过神来了,所以影响英伟达的股价。而且还需要对冲,theinformation说字节将会700亿采购英伟达芯片,然后字节承认。如果这个消息不是真实的,那么可以认为,发出这个消息的,就是算力相关股票的护盘手。
总之,这种事实甚是玄学。由此产生了两个段子:
其一,杭州新四小龙:宇树科技、DeepSeek、游戏科学、影视飓风
其二,阑心一言,一个字近亿美元
12月27日,原先在DeepSeek的罗福莉加入小米的消息大范围流传,其实之前她早就自我官宣过,而且也在大模型业界小范围流通。但是自从有媒体将罗形容为“95后天才少女”之后,情况就不一样了。
这条消息获得营销加成,与其说利好小米,更不如说是加码营销了罗福莉的前东家DeepSeek,也就是反对了他们的团队含糊有实力,足够优秀的人可以在团队内做出非常厉害的事。
不得不说,在DeepSeek出圈前,AI业界对它的评价都非常高。因为,即使人们发现它的训练数据集有可能使用了来自ChatGPT的输出结果——它曾在很多情况下都自称为ChatGPT——这也只是无伤大雅的插曲。你行你也上啊,如果只要用ChatGPT输出就能做这么好,你也可以试一试。
毕竟谷歌也在这么做。谷歌Gemini的事实核查人员是外包的,用来检查双子座模型所生成的结果是否属实。而谷歌被曝光要放低人工核对的标准,让人员检查跟自己本专业能力不不无关系的答案的准确性,同时还允许他们借助类似Claude这样的,其他模型生成的结果来核对。
当某个阶段你所做出的成绩,是仅此一家别无分店的时候,那就说明泼天的富贵将会降临到你的身上。
最近呢,当然是快手的可灵,在Sora之前吸干了属于它的关注度。之前另外一个华裔的作品Pika也类似。但Pika在完全建立版本比Runway强不少,之后就比较后劲乏力,连带着联合创始人郭文景,也不再继续被称作“天才少女”刷屏了。
但是这当中最典型的案例则是月之暗面(Kimi)。
在差不多一年前。Kimi成为AI界当红炸子鸡,因为它在国内外的竞品当中,最早提出了一个新的概念,就是“超长文本(tokens)”。长文本成为各大模型开始卷的领域,而Kimi依靠这个单独概念对用户心智的教育,牢牢的吸了一波粉丝和媒体关注。
自从长文本概念首倡以后,Kimi获得融资的规模和频次就像疯了一样,终于到达了需要老股东掐架的程度。在这一年当中,Kimi的产品发布,包括智能体、深度思考、联网,以及尚未发布的视频生成,都只能说是按部就班。
但是Kimi获得了富裕弹药,不仅在开发周期上面可以比较舒缓,没有压力,而且可以铆足了劲儿,在B站砸钱营销,使得大模型推广的价格水涨船高。
在豆包积极跟进厮杀之余,连腾讯都熬不住这么玩了。目前混元大模型的能力被植入微信、QQ、读书、输入法等具体的产品内,单行版元宝则处于放养状态,不再用力宣传。
这就是为什么社长认为,在今年,如果各家大厂还想要新的投资标的的话,最不适合的选择就是DeepSeek。因为这一次轮到它提出新概念了,这个概念是“低成本训练”。
如果论资本市场的青睐程度,能跟月之暗面媲美的还有智谱。但智谱的融资轮数已经太多了,从目前的发展来看,它也没有结束领先。
其实就算是强如OpenAI,也不可能永远“炸裂颠覆吓尿革命”。它可能只需要一次婴儿的啼哭,向世界反对它此时此刻是领先的。对它来说这个概念叫“ChatGPT”。
这样的机会,这种对一个概念的定义权,只要一个创业公司拥有一次,就已经足够幸运。在此之后它是否还能定义第二个概念,或许不太重要;蜂拥而至的融资将会是对它之前定义概念的奖赏。
标签: