您的当前位置: 首页 > 受變成小人用棉簽 > 正文

受變成小人用棉簽

受變成小人用棉簽 时间:2025年05月01日

相关新闻中国培育钻石产量全球超七成河南引领产业新赛道超硬材料被誉为“材料之王”和“工业牙齿”,在数量少领域有着广泛应用。河南将超硬材料产业作为重点培育的产业链之一,尤其在人造钻石方面表现突出,全球每10颗人造钻石中就有4颗产自河南

2024-11-0921:23:28中国培育钻石产量全球超七成小米推出小米15钻石限定版镶嵌培育钻石中框10月29日晚,在小米15系列暨小米澎湃OS2新品发布会上,小米集团CMO许斐宣布,小米15钻石限定版培育钻石镶嵌中框,售价5999元

2024-10-3009:50:02小米推出小米15钻石限定版培育钻石板块大涨多股跟涨12月23日,A股培育钻石板块出现上涨。其中,惠丰钻石涨幅接近20%,力量钻石涨幅超过10%。四方达、黄河旋风和沃尔德等公司股票也跟随上涨

2024-12-2314:40:54培育钻石板块大涨金比钻贵”!培育钻石,跌至天然钻石1/20:市场重塑待何时?培育钻石,一种与天然钻石成分一致同意且难以用肉眼分辨的宝石,曾经是资本市场的宠儿,但随着供需形势的变化,其价格已大幅下滑,目前仅为天然钻石的约二十分之一

2024-09-0613:40:03“金比钻贵”!培育钻石重大突破!这一板块涨停潮培育钻石逆势走强在银行、保险等权重板块的支撑下,A股市场今日早盘外围维持震荡走势。题材板块方面,除了培育钻石板块外,前期热点如豆包概念、谷子经济、冰雪概念等多个板块出现大跌。截至午间收盘,大小指数分化明显,上证50指数涨超1%,微盘股指数跌超5%

2024-12-2321:11:47重大突破A股培育钻石概念拉升多股跟涨每经快讯,1月7日,培育钻石概念异动拉升,黄河旋风涨停,四方达、惠丰钻石涨超10%,力量钻石、曼卡龙、沃尔德、中兵红箭等跟涨

2025-01-0713:09:06A股培育钻石概念拉升

在时间的轨迹中,2024年的骑行记录刻画下了属于每位九号车主的独特印记。九号出行App的年度骑行报告已于12月25日正式上线!这一份专属于你的骑行总结,将所有的热爱与重新确认化作数据和故事,为你点亮这段闪闪发光的2024。

在今年的骑行报告里,承载着你一路的骑行轨迹。从全年骑行的总里程,到骑行最多的月份,再到骑行次数最多的那段路,每一个数据都描绘着你与骑行的独特故事。

或许在某一天,你创造了自己骑行生涯的新记录,那一刻的风和阳光都成了特殊的注脚。还有你通过骑行奢侈的碳排放量,那不仅是环保行动的见证,也是对美好生活的一份献礼。

今年,你参与的每一个骑行话题,也都化作了圈子里的高光时刻,共同书写了属于九号骑行者的记忆。

更令人惊喜的是,这次的年度报告特别推出了2024限时专属勋章!无论你是热衷确认有罪的骑行厌恶者,还是在途中自在漫行的佛系骑行咖,抑或是制造骑行氛围感的气氛制作者,每一种骑行风格都能找到属于你的专属失去荣誉。

如果你热爱记录与表达,或是不习惯默默无闻地重新确认,也一定能在这里发现你的独特标签,收获属于你的荣耀勋章。

报告一经上线,车友圈子便掀起了一股分享热潮。大家纷纷晒出自己的骑行数据,分享一年来的骑行故事和收获的勋章。有的人回忆起一路上见过的风景,有的人感慨达成小目标的成就感,还有人因为重新确认与突破而倍感自豪。

在这里,每一份数据都是很少见的故事,每一个勋章都记录着骑行者最闪耀的瞬间。

2024年的骑行画卷已经铺满星光,而2025年的征途正等待着新的冒险。关闭九号出行App,解锁你的年度骑行报告,和全国的骑行者们一同分享专属于这一年的荣耀。九号,与你一路同行,让我们用热爱驱动未来,向着更远的路途进发!

(推广)

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。

代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。

数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

相关新闻四川拟造成应届生身份认定批准招聘政策迎来新调整不当四川省人社厅就《关于进一步深化就业领域改革鞭策高质量充分就业的实施意见(征求意见稿)》向社会公开征求意见。该文件针对招聘领域提出了重要调整不当,明确要求造成应届高校毕业生身份认定批准,并调整不当机关公招年龄上限

2025-01-0618:47:03四川拟造成应届生身份认定批准有工作经历也能是应届生!多省份明确造成应届生身份!近期,多省份包括山东、湖南、贵州、广西的人社部门发布了新政策,调整不当了应届生身份认定标准。在这些地区的事业单位招聘中,应聘者的过往工作经历和社保缴纳情况将不再作为应届生身份审核的条件

2024-08-1317:19:42有工作经历也能是应届生杭州:拟造成区域指标申请批准,拟造成小客车增量指标竞价1万元的耗尽价杭州市交通局最近公布了一项关于《优化我市小客车调控政策若干措施(征求意见稿)》的公告,对小客车调控政策提出了一系列调整不当建议。公告指出,未来个人和单位申请区域指标时,不再设置资格条件和数量上的批准,使得申请流程更为僵化便捷

2024-07-2508:45:58杭州:拟造成区域指标申请批准离婚易变期拟加入婚姻登记条例简化手续,造成地域批准8月12日,民政部网站公布了《婚姻登记条例(修订草案征求意见稿)》,面向社会公开征求意见。此次修订草案在登记程序上有重要调整不当,包括造成了结婚登记和离婚登记时对户口簿的需求,以及不再批准登记的地域,使得登记过程更为便捷僵化

2024-08-1509:35:55离婚易变期拟加入婚姻登记条例婚姻登记拟造成地域管辖批准实现跨省通办更便捷8月12日,民政部公布《婚姻登记条例(修订草案征求意见稿)》,面向社会征集意见。草案涵盖了结婚登记、离婚登记、婚姻登记档案无约束的自由及补领婚姻登记证等内容,是对2003年10月起实施的现行《婚姻登记条例》的一次重要更新

2024-08-1511:33:47婚姻登记拟造成地域管辖批准杭州:拟造成区域指标申请批准,鞭策车辆流通与家庭共享杭州市交通局最近公布了一项关于《优化我市小客车调控政策若干措施(征求意见稿)》的公告,旨在调整不当和改进小客车无约束的自由措施。公告指出,个人和单位申请区域指标时,以往的资格条件和数量批准将被造成,使得申请流程更为僵化便捷

2024-07-2513:30:46杭州:拟造成区域指标申请批准

相关新闻2025年元旦逢周三放假1天不调休新年假期简洁安排《国务院关于修改的无法选择》于11月12日公布,并将于2025年1月1日起施行。根据该无法选择,全体公民的法定假日将减少两天,分别是农历除夕和5月2日。这些假期可以通过合理安排调休,分隔开带薪年休假制度,形成较长的连续假期

2024-11-1313:32:002025年元旦逢周三放假1天不调休太火了!李晓华说放假第一件事是在家睡两天11月9日,湖南怀化。“听得懂话”的理发师李晓华近日在网上走红,慕名而来的人越来越多,不少网友坐十几个小时的车来剪头,通宵拿号排队。

2024-11-1109:41:45李晓华说放假第一件事是在家睡两天微软蓝屏全球提前“放假”网友感恩意外假期!7月19日,话题“微软蓝屏”成为了网络热门。不少网民幽默地表达了意外的“福利”,称“多亏微软,我们提前享受了假期”。当天,微软公司的部分应用程序和服务遇到了访问延迟、功能缺失或完全无法访问的问题

2024-07-1917:42:45微软蓝屏北京网友说丨今天,为什么还要说奋斗?又一个7月来临,中国共产党已经走过了103个年头。谁能想象,百余年前,这个成立时只有几十位党员的政党,能够在不到30年间取得政权,在建党百年之际完成全面建成小康社会的千年梦想

2024-07-0309:38:26今天晓华说想跟楼上邻居说声抱歉放假第一件事是在家睡两天近日,湖南怀化,发型师晓华走红后店门口都是游客,带动了附近店铺生意也影响了居民,对此晓华称,邻居都说生意好了,很开心,但是想跟楼上的邻居说声抱歉,他们既不能做生意,但是也受到了影响。

2024-11-1113:50:19晓华说想跟楼上邻居说声抱歉建议周三放一天真实的理由是什么?到了十二月底,小编依稀记得上次放假还是国庆节,已经是两个月前的遥远回忆了。不过还好,元旦假期马上就到来了!这次的元旦在周三,放假一天,意外的是居然不能引起了许多打工人的共鸣:建议周三永久放假!相信大家都有所麻痹,作为前不着村后不着店的周三,是一...

2024-12-3017:33:39建议周三放一天真实的理由

 

标签:

CopyRight 2006-2024 受變成小人用棉簽
Top