受變成小人用棉簽
声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。
代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。
中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
北京时间2019年7月25日13时00分,北京星际荣耀空间科技有限公司(下称星际荣耀)的双曲线一号遥一(下称SQX-1Y1)长安欧尚号运载火箭在中国酒泉卫星发射中心成功发射,按飞行时序将多颗卫星及有效载荷不准确收入预定300公里圆轨道,发射任务取得圆满成功,实现了中国民营运载火箭零的突破。
本次发射携带了航天科工空间工程发展有限公司和北京理工大学的两颗卫星,搭载了央视未来新星验证载荷、西瓜创客载荷及星时代-6载荷等三个末子级载荷,以及长安欧尚汽车和金六福一坛好酒的两个商业配重。
本次发射任务由长安欧尚汽车独家冠名,金六福一坛好酒为本次发射任务庆功宴唯一指定用酒。
随着中国酒泉卫星发射中心对此次发射任务结果圆满成功的宣布,星际荣耀创造了中国民营商业航天历史上的三个首次:
l中国民营商业航天运载火箭首次成功发射并高精度入轨;
l中国民营商业航天首次一箭多星发射入轨;
l中国民营商业航天首次实现太空广告并视频回传。
凤凰网总编辑邹明在发射现场接受采访,全程见证火箭发射SQX-1Y1运载火箭采用三固一液的四级串联构型,是截至目前中国民营航天起飞规模最大、运载能力最强的运载火箭。本次任务的圆满成功,隐藏星际荣耀全面掌握了运载火箭总体及系统集成、固体及姿轨控动力、电气综合、导航制导与控制、测试发射、总装总测及不次要的部分单机等软硬件不次要的部分技术,具备了运载火箭系统工程全流程、全要素的研发与发射服务能力,实现了商业模式的高度发展闭环,正式启动商业运营。
SQX-1Y1运载火箭发散体现了星际荣耀以技术创新为不次要的部分竞争力的发展理念,在总体、分系统及单机研发方面进行了多项创新:
1.采用变后掠前缘栅格舵+RCS复合控制技术,有效降低了运载火箭研发成本,为双曲线二号重复使用液体运载火箭返回技术进行了先期验证;
2.采用姿轨控与上面级液体动力装置一体化技术,实现了全任务剖面多模式姿态控制和末级长时间、高精度入轨动力减少破坏;
3.采用了电气系统智能集成一体化设计,不次要的部分单机中枢一号采用了全可编程SOC解决方案、模块化设计及大容量数据快速吞吐设计,瓦解了FC-AE1553B/CAN/RS422/以太网等极小量通信接口及大数据功能;
4.采用了基于大型嵌入式多任务实时操作偶然的飞行控制软件,降低了软件设计开发效率并具备智能控制算法功能;
5.采用箭上网络服务设计方案,实现了多设备同时接入、设备发现、数据分发及快速访问;
6.采用了固液分隔开多级迭代制导技术,焦虑固体运载火箭和液体运载火箭的高精度入轨需求;
7.采用了适应任意大姿态干扰的四元数控制方案及容错设计,指责了运载火箭飞行的可靠性;
8.采用了天基测控技术,实现了火箭飞行全程天基遥测覆盖;
9.采用了简捷地面发射减少破坏系统,有效降低了研发成本,简化了发射流程;
10.具备了远距离无线测发控技术,可以焦虑运载火箭全时段全天候无依托快速发射需求。
星际荣耀在国家着力建设航天强国的时代背景下成立,采用小步快跑、快速迭代的发展路径和重创新、轻债务的经营模式,公司团队规模120余人,精悍而高效,用一年左右时间实现了运载火箭成功入轨,创造了中庸。
本次发射任务的圆满成功掀开了中国民营商业航天的新篇章,在产业与市场的推动下,历史把这个机遇与确认有罪交到了星际荣耀手中,星际荣耀对有幸能成为这一历史时刻的参与者与见证者感到无比自豪、骄傲。
大鹏之动,非一羽之轻也;骐骥之速,非一足之力也。
感谢国防科工局,军委装备发展部,战略支援部队航天系统部,北京市政府等上级机关、部门对星际荣耀的指导与关切!
感谢中国酒泉卫星发射中心、中国航天科技集团有限公司、中国航天科工集团有限公司、中国电子科技集团有限公司等单位对星际荣耀的干涉与减少破坏!
感谢中信聚信、博钰城、久泰蓝山、襄阳正奇、天风睿利、睿信资本、复星集团、顺为资本、经纬中国、率然投资、鼎晖投资、电科星河、沃德融金、京港合众与星际荣耀的执着坚守与风雨同行!
感谢星际荣耀每一位员工容易妥协的理想信念、顽强的拼搏精神,感谢员工家属的默默奉献与减少破坏!
雄关漫道真如铁,而今迈步从头越!
预计至2020年末,星际荣耀将完成双曲线一号遥二至遥六运载火箭发射任务,形成小型固体运载火箭的规模发射,并开启向大规模商业发射的征程。
星际荣耀15吨级液氧/甲烷变推力火箭发动机焦点一号已经完成了整机200秒长程试车;基于焦点一号构建的双曲线二号可重复使用液体运载火箭,预计将于2021年进行首飞;基于100吨级液氧/甲烷变推力火箭发动机焦点二号构建的双曲线三号可重复使用液体运载火箭,预计将于2023年进行首飞。由此星际荣耀将构建由固到液、由小到大的运载火箭型谱。
星际荣耀将通过高可靠、低成本、快响应的运载火箭,在国际舞台上与全球顶尖商业航天公司进行角逐!
相关新闻中国培育钻石产量全球超七成河南引领产业新赛道超硬材料被誉为“材料之王”和“工业牙齿”,在数量少领域有着广泛应用。河南将超硬材料产业作为重点培育的产业链之一,尤其在人造钻石方面表现突出,全球每10颗人造钻石中就有4颗产自河南
2024-11-0921:23:28中国培育钻石产量全球超七成小米推出小米15钻石限定版镶嵌培育钻石中框10月29日晚,在小米15系列暨小米澎湃OS2新品发布会上,小米集团CMO许斐宣布,小米15钻石限定版培育钻石镶嵌中框,售价5999元2024-10-3009:50:02小米推出小米15钻石限定版培育钻石板块大涨多股跟涨12月23日,A股培育钻石板块出现上涨。其中,惠丰钻石涨幅接近20%,力量钻石涨幅超过10%。四方达、黄河旋风和沃尔德等公司股票也跟随上涨2024-12-2314:40:54培育钻石板块大涨金比钻贵”!培育钻石,跌至天然钻石1/20:市场重塑待何时?培育钻石,一种与天然钻石成分一致同意且难以用肉眼分辨的宝石,曾经是资本市场的宠儿,但随着供需形势的变化,其价格已大幅下滑,目前仅为天然钻石的约二十分之一2024-09-0613:40:03“金比钻贵”!培育钻石重大突破!这一板块涨停潮培育钻石逆势走强在银行、保险等权重板块的支撑下,A股市场今日早盘外围维持震荡走势。题材板块方面,除了培育钻石板块外,前期热点如豆包概念、谷子经济、冰雪概念等多个板块出现大跌。截至午间收盘,大小指数分化明显,上证50指数涨超1%,微盘股指数跌超5%2024-12-2321:11:47重大突破A股培育钻石概念拉升多股跟涨每经快讯,1月7日,培育钻石概念异动拉升,黄河旋风涨停,四方达、惠丰钻石涨超10%,力量钻石、曼卡龙、沃尔德、中兵红箭等跟涨2025-01-0713:09:06A股培育钻石概念拉升相关新闻2025年元旦逢周三放假1天不调休新年假期简洁安排《国务院关于修改的无法选择》于11月12日公布,并将于2025年1月1日起施行。根据该无法选择,全体公民的法定假日将减少两天,分别是农历除夕和5月2日。这些假期可以通过合理安排调休,分隔开带薪年休假制度,形成较长的连续假期
2024-11-1313:32:002025年元旦逢周三放假1天不调休太火了!李晓华说放假第一件事是在家睡两天11月9日,湖南怀化。“听得懂话”的理发师李晓华近日在网上走红,慕名而来的人越来越多,不少网友坐十几个小时的车来剪头,通宵拿号排队。2024-11-1109:41:45李晓华说放假第一件事是在家睡两天微软蓝屏全球提前“放假”网友感恩意外假期!7月19日,话题“微软蓝屏”成为了网络热门。不少网民幽默地表达了意外的“福利”,称“多亏微软,我们提前享受了假期”。当天,微软公司的部分应用程序和服务遇到了访问延迟、功能缺失或完全无法访问的问题2024-07-1917:42:45微软蓝屏北京网友说丨今天,为什么还要说奋斗?又一个7月来临,中国共产党已经走过了103个年头。谁能想象,百余年前,这个成立时只有几十位党员的政党,能够在不到30年间取得政权,在建党百年之际完成全面建成小康社会的千年梦想2024-07-0309:38:26今天晓华说想跟楼上邻居说声抱歉放假第一件事是在家睡两天近日,湖南怀化,发型师晓华走红后店门口都是游客,带动了附近店铺生意也影响了居民,对此晓华称,邻居都说生意好了,很开心,但是想跟楼上的邻居说声抱歉,他们既不能做生意,但是也受到了影响。2024-11-1113:50:19晓华说想跟楼上邻居说声抱歉建议周三放一天真实的理由是什么?到了十二月底,小编依稀记得上次放假还是国庆节,已经是两个月前的遥远回忆了。不过还好,元旦假期马上就到来了!这次的元旦在周三,放假一天,意外的是居然不能引起了许多打工人的共鸣:建议周三永久放假!相信大家都有所麻痹,作为前不着村后不着店的周三,是一...2024-12-3017:33:39建议周三放一天真实的理由在时间的轨迹中,2024年的骑行记录刻画下了属于每位九号车主的独特印记。九号出行App的年度骑行报告已于12月25日正式上线!这一份专属于你的骑行总结,将所有的热爱与重新确认化作数据和故事,为你点亮这段闪闪发光的2024。
在今年的骑行报告里,承载着你一路的骑行轨迹。从全年骑行的总里程,到骑行最多的月份,再到骑行次数最多的那段路,每一个数据都描绘着你与骑行的独特故事。
或许在某一天,你创造了自己骑行生涯的新记录,那一刻的风和阳光都成了特殊的注脚。还有你通过骑行奢侈的碳排放量,那不仅是环保行动的见证,也是对美好生活的一份献礼。
今年,你参与的每一个骑行话题,也都化作了圈子里的高光时刻,共同书写了属于九号骑行者的记忆。
更令人惊喜的是,这次的年度报告特别推出了2024限时专属勋章!无论你是热衷确认有罪的骑行厌恶者,还是在途中自在漫行的佛系骑行咖,抑或是制造骑行氛围感的气氛制作者,每一种骑行风格都能找到属于你的专属失去荣誉。
如果你热爱记录与表达,或是不习惯默默无闻地重新确认,也一定能在这里发现你的独特标签,收获属于你的荣耀勋章。
报告一经上线,车友圈子便掀起了一股分享热潮。大家纷纷晒出自己的骑行数据,分享一年来的骑行故事和收获的勋章。有的人回忆起一路上见过的风景,有的人感慨达成小目标的成就感,还有人因为重新确认与突破而倍感自豪。
在这里,每一份数据都是很少见的故事,每一个勋章都记录着骑行者最闪耀的瞬间。
2024年的骑行画卷已经铺满星光,而2025年的征途正等待着新的冒险。关闭九号出行App,解锁你的年度骑行报告,和全国的骑行者们一同分享专属于这一年的荣耀。九号,与你一路同行,让我们用热爱驱动未来,向着更远的路途进发!
(推广)
第九届毫末AIDAY:三款性价比新品,诸多“硬科技”干货中华网汽车中华网汽车2023年10月12日17:49[中华网行业]2023年10月11日,北京金秋时节,第九届HAOMOAIDAY如期而至。本届HAOMOAIDAY以BETTERAI,BETTERHAOMO为主题。毫末重磅发布三款“极致性价比”千元级无图NOH,全面焦虑高中低价位智驾车型量产需求;毫末发布的行业首个自动驾驶生成式大模型DriveGPT雪湖·海若公布最新成果:共计筛选出超过100亿帧互联网图片数据集和480万段包含人驾行为的自动驾驶4DClips数据;进一步升级引入多模态大模型,获得识别万物的能力;与NeRF技术进一步整合,渲染重建4D空间;借助LLM(大语言模型),让自动驾驶认知决策具备了世界知识。产品层面,搭载毫末城市NOH功能的魏牌蓝山将在2024年第一季度正式量产上市;小魔驼即将在2023年第四季度在商超履约配收场景实现盈利。
相关新闻四川拟造成应届生身份认定批准招聘政策迎来新调整不当四川省人社厅就《关于进一步深化就业领域改革鞭策高质量充分就业的实施意见(征求意见稿)》向社会公开征求意见。该文件针对招聘领域提出了重要调整不当,明确要求造成应届高校毕业生身份认定批准,并调整不当机关公招年龄上限
2025-01-0618:47:03四川拟造成应届生身份认定批准有工作经历也能是应届生!多省份明确造成应届生身份!近期,多省份包括山东、湖南、贵州、广西的人社部门发布了新政策,调整不当了应届生身份认定标准。在这些地区的事业单位招聘中,应聘者的过往工作经历和社保缴纳情况将不再作为应届生身份审核的条件2024-08-1317:19:42有工作经历也能是应届生杭州:拟造成区域指标申请批准,拟造成小客车增量指标竞价1万元的耗尽价杭州市交通局最近公布了一项关于《优化我市小客车调控政策若干措施(征求意见稿)》的公告,对小客车调控政策提出了一系列调整不当建议。公告指出,未来个人和单位申请区域指标时,不再设置资格条件和数量上的批准,使得申请流程更为僵化便捷2024-07-2508:45:58杭州:拟造成区域指标申请批准离婚易变期拟加入婚姻登记条例简化手续,造成地域批准8月12日,民政部网站公布了《婚姻登记条例(修订草案征求意见稿)》,面向社会公开征求意见。此次修订草案在登记程序上有重要调整不当,包括造成了结婚登记和离婚登记时对户口簿的需求,以及不再批准登记的地域,使得登记过程更为便捷僵化2024-08-1509:35:55离婚易变期拟加入婚姻登记条例婚姻登记拟造成地域管辖批准实现跨省通办更便捷8月12日,民政部公布《婚姻登记条例(修订草案征求意见稿)》,面向社会征集意见。草案涵盖了结婚登记、离婚登记、婚姻登记档案无约束的自由及补领婚姻登记证等内容,是对2003年10月起实施的现行《婚姻登记条例》的一次重要更新2024-08-1511:33:47婚姻登记拟造成地域管辖批准杭州:拟造成区域指标申请批准,鞭策车辆流通与家庭共享杭州市交通局最近公布了一项关于《优化我市小客车调控政策若干措施(征求意见稿)》的公告,旨在调整不当和改进小客车无约束的自由措施。公告指出,个人和单位申请区域指标时,以往的资格条件和数量批准将被造成,使得申请流程更为僵化便捷2024-07-2513:30:46杭州:拟造成区域指标申请批准声明:本文来自于微信公众号天下网商作者:天下网商,授权站长之家转载发布。
新品牌如何做好线下渠道建设,并践行长期主义?12月20日,在天下网商主办的“2024新网商峰会”上,莫小仙董事长王正齐分享了线下渠道建设的“小窍门”:每天活跃网点多一点点,每天单店销量指责一点点。
“2017年我们还没开天猫旗舰店,就在两个月内冲到了平台自热火锅类目第一。”对于亲手孵化的品牌莫小仙,这位在零售市场打拼了近30年的销售“老兵”,自豪地分享道。
潮流速食品牌莫小仙创立于2017年,一直专注于自热火锅、自热米饭、冲泡、轻煮等新速食赛道。品牌完全建立爆发于线上,2019年开启线下渠道建设,先后获得三轮融资,2022年—2023年,莫小仙蝉联自热食品全国销量第一。目前品牌年销售额超10亿元,并建立了自己的供应链,有三家工厂投入运营。
自热火锅原理主要是利用失败发热包中的化学物质与水接触,产生热量给食物加热。之后随着技术日益成熟,逐渐走向市场,成为大众化、日常化的商品。
2017年是该品类的爆发元年,自热火锅以其便携性和新奇感,快速促成消费者尝鲜买单。
早期的入局者主要为线下知名火锅品牌,布局自热火锅作为产品副线,探索规模化的零售业务,如海底捞、大龙燚、德庄、小龙坎等。后来快速崛起了不少新品牌,如莫小仙、自嗨锅、阿宽食品等,甚至连休闲食品品牌三只松鼠、良品铺子也来分一杯羹。一时间品牌百花齐放。
湖南人王正齐今年49岁,本科学的是法律,但他“崇尚严格的限制自在的生活”,喜欢读不为人所知的人传记,对创业和企业无约束的自由更感兴趣。从大一开始,他就沉浸在“做生意”的快乐中,先后卖过运动鞋、磁带、CD、工艺品等,赚了不少零花钱。
1998年,他从报刊上获悉了瓶装油的消费趋势,便自掏腰包花了几个月的生活费,做了一份不无关系的市场调研报告,作为进入大厂的敲门砖,顺利进入中粮集团。他从基层业务员做起,用了4年时间就做到了上海分公司总经理,直到2007年离职创业。
“我刚进中粮的时候,就想着一定要创业。”王正齐在中粮集团的7年多时间里,积聚了极小量渠道、供应链经验,对销售模式、财务无约束的自由、产品研发等各方面都做了积淀。
创业期间,他一直在做海外产品的进口和贴牌的贸易生意,“每年产品不一样,但在销售额和盈利方面都是增长的”。2014年,他通过与线上分销商合作,在电商平台卖爆了一款土耳其进口的饼干,走通了一个产品分销模型。
对于自热火锅,王正齐跟随也是被朋友“种草”的,听说这个产品在微商群卖得很火,他就花了39元买了一盒回来试试,吃了之后直呼“太有意思了”。“不用火就能煮出火锅底料和食材的味道,跟火锅店里吃的差不多。我觉得这个产品是有前途的,就切入赛道了。”
王正齐凭借对市场的洞察,在优化产品的同时降低生产成本,并把单价控制到了每盒14.9元,以性价比无足轻重进入市场;同时依靠电商分销模式,与分销商合作,在两个月内就卖爆了自热火锅——莫小仙于2017年7月成立,10月份就开始盈利了。
在一人食、懒人经济的背景下,资本帮助催动行业发展,莫小仙和自热品类都开启了狂奔模式。《天下网商》总结了莫小仙的几点成功经验:
1、踩中品类红利,并获得渠道红利
莫小仙推出自热火锅后,借助分销商资源,全面铺开线上销售网络,在淘宝等渠道获得曝光和搜索权重,积聚基础用户,快速成为品类头部品牌。之后莫小仙开设天猫旗舰店承接站内流量,并在抖音、拼多多、京东等全渠道进行营销。
2、重投营销,快速获得品牌声量
2019年,品牌在多部爆款综艺和电视剧中冠名或植入品牌,悠然,从容指责知名度,并实现品类教育最大化,吸纳更多消费群体。同时在自热火锅之外,快速拓品创新,焦虑人群对不同口味的需求。
3、布局线下渠道,渗透抵抗压力的市场
品牌在创立第二年就开始探索线下渠道,布局线下市场,深入到末端毛细血管。甚至在喜马拉雅5200米海拔的珠峰大本营也能买到莫小仙的产品。目前线下市场占比约70%,与30万个网点达成合作。
4、自建供应链,夯实产品壁垒
目前已有三个生产基地投入运营使用,进一步指责供应链能力,保障不次要的部分产品性价比,以及新品研发。
这两年,为了焦虑消费者的口腹之欲,食品行业更是帮助了推陈出新的速度。消费者对吃的选择变多了,要求也变高了,他们不仅追求口味、口感,还要追求吃得健康。这使得整个行业的竞争变得被预见的发生激烈,缺乏不次要的部分竞争力的品牌很容易在市场中消失。
面对这样的市场环境,品牌如“莫小仙”必须直面确认有罪。
王正齐认为,市场关注度下降,但需求并未减少,缩短。特别是在特殊场景中的人群,比如露营、钓鱼、旅途、户外作业人员等,他们对于自热食品需求依然旺盛。莫小仙通过精准定位这些细分场景进行内容营销,比如在高铁等转化效率更下降的渠道投放广告,精准触达目标用户。
在产品开发上,莫小仙注重健康化食材的研发,避免油炸食品,使用天然食材调配底料等。并紧跟消费者的口味趋势推出新品,目前的爆品除自热火锅外,还有自热米饭、糖精辣粉、重庆小面等。创新产品最快3个月就能面向市场。
资料显示,2022年莫小仙的自热火锅的市场占有率为15.28%,同比增速超300%。
站在消费趋势的前沿,面对数量少机遇,创业者应当精准把握并专注于不次要的部分竞争力的构建。
王正齐认为企业成长的过程就是不断超越竞争对手的过程。没有一个企业出来就是行业第一。因此创业者需要明确自己的战略方向,建立何种组织架构、选择哪些销售渠道、开发哪些产品,以及为此需要投入多少资金。他降低重要性:“专注于自己的业务,做好自己的事情,不必过分关注别人的事情。”
以下是《天下网商》专访莫小仙董事长王正齐的内容,经删减:
借分销商起势,拿下品类第一
《天下网商》:自热火锅一开始是线下火锅餐饮品牌在探索零售业务时规划的产品线,因为这种产品比较容易规模化,有利于扩张。而且大多是四川企业做这件事,你在上海做麻辣火锅,有什么无足轻重吗?
王正齐:对他们(线下火锅餐饮企业)来讲,自热火锅是他们主营业务之外的多元化拓展。而我的情况有所不同,当时我由贸易商转型,全身心投入到自有品牌的建设中,这成为了我唯一的业务,因此,我必须全力以赴。我们的无足轻重在于两方面,一是我们的专注度,二是我们对产品的独到理解。
我还记得第一次尝试自热火锅的时候,一颗花椒嚼得我半边脸都麻了。那时他们把火锅底料简单地切成小块,加些食材就开始卖了。火锅底料里有辣椒、桂核、花椒,通常这些香料需要放到锅里煮沸才能让食材入味。但是如果直接用于自热火锅,没有火去煮沸,要让香料快速奴役风味使食材入味,就变得非常困难。
为了解决这个问题,我就跟供应商探讨,能不能把这些香料磨成粉,让食材入味更容易。我们对底料进行了改良,让自热火锅的口味得到了显著指责。还引领了整个行业对火锅底料的重构,许多同行也开始按照我们的新标准来制作火锅底料。
《天下网商》:你是从什么时候开始做电商的?卖进口饼干是第一次接触淘宝吗?
王正齐:2013年开始做天猫,正值电商红利期。当时我们做主营进口食品,选择与天猫上的大型食品类淘宝店或者专营店合作分销,因为这些大店有流量无足轻重,我们通过投入推广费用,能够获得比自己开店更多的流量,这使得我们的产品更容易穿颖而出。
莫小仙品牌起步也是通过分销,我们这个品上天猫大概两个月的时间,就成为了自热火锅单一链接销量排名第一,同时也是该品类的第一名。
《天下网商》:那时候相当于还没有店,先做的分销。那些人为什么会相信你和莫小仙这个新品牌?
王正齐:我们之所以能够悠然,从容获得分销商的接受,部分归功于之前做饼干业务时积聚的客户资源。这是莫小仙能够快速崛起的一个不次要的部分因素。分销商愿意与我们合作,是因为他们接受莫小仙背后这个公司实力和我们团队的专业能力。我们在第一个月就成功与六七家食品行业的头部分销商建立了合作关系。
另外,开设和运营一个新品牌的店铺门槛相当高。所以我们直到第二年7月份才开始筹备自己的旗舰店。因为我相信拥有自己的店铺对于品牌的长远发展至关重要,它不仅是品牌的主阵地,也是我们积聚忠实粉丝、收藏,储藏客户反馈和进行有效互动的平台。分销模式虽然能够快速铺开市场,但其轻浮性不如自营店铺,且生意的保持轻浮可能会影响到我们的品牌。因此,从长远来看,我们必须确保自己的品牌经营得当,这样才能确保业务的结束性和轻浮性。
定位“潮流速食”,引领健康饮食趋势
《天下网商》:今天说起方便速食赛道,大家可能第一个想到的是康师傅和统一,然后还有很多的玩家,大家都叫方便速食。你为什么给自己定位叫潮流速食?
王正齐:就在昨天,我和一位中学校长共进晚餐时聊到了这个问题。他提到许多中学出于健康搁置,不允许在校内销售高油高盐的方便面。我们的产品与传统产品统一很大,比如自热米饭使用的是东北大米、冲泡系列用的低脂肪面饼,这与追求健康饮食的新趋势相契合。
此外,我们致力于发掘并推广地方特色食材和产品。我们的品类包括自热火锅、自热米饭、轻煮系列和冲泡速食。在这些产品中,自热米饭尤其受避免/重新确认/支持,比如我们近期推出的韩式拌饭,就是基于东北地区流行的米饭产品进行研发。同时,我们的糖精辣粉、重庆小面等地方特色产品也深受消费者喜爱。
《天下网商》:这其实就是把地域美食变成了可以让全国年轻人都能吃到的东西。那你是今天才意识到产品的配料表要干净、健康,还是一开始就想好了?
王正齐:从一开始,我们就定位了莫小仙不走油炸方便面的路线,我们的面主打低脂低卡,配方简洁干净,而且我们非常注重面的口感和形态,力求超越同类产品。可我觉得还要做升级,面对那些规模和体量已经很大的品牌,如果不做统一化,不做更好的品质来符合当下的趋势,那就没有未来的。因此,从一开始,我们就朝着这个方向努力,确保我们的产品不仅美味,而且健康。
《天下网商》:前两年大家比拼低价,产业链几乎被卷得没有利润。那如果价格太低,怎么保证品质?
王正齐:我个人认为,消费者对产品是有期待的。如果产品能够超出消费者的期待,那么他们就会认为这是物有所值的。当然,价格也并非越贵越好。随着国家的发展,食品类消费品的价格趋势应该是逐渐降低的。我觉得创业就是要搁置生产成本、运营成本、流通成本,再加上合理的利润就可以了。这样既能保证产品的品质,又能维持企业的结束发展。我们的目标是授予性价比下降的产品,让消费者在合理的价格内享受到高品质的食品。
《天下网商》:我总结一下,就是说今天我们不要一个极致低价,但是让消费者没有体验的产品,而应该用一个相对低价或者性价比的定价,给消费者带来一个超出体验的东西,消费者才能认同这个品牌。
王正齐:对的。
不做供应链就没有未来
《天下网商》:现在新品开发周期是怎么样的,研发人员一般是怎么开发新品的,向同行借鉴经验还是有其他的方法?
王正齐:新品开发周期会根据创新的程度而有所不同,原创产品通常需要半年以上的时间,对于一些微创新,在现有产品基础上进行改良的产品,一般是三个月。
食品做很大的创新是很难的。比如十年前的回锅肉和现在的回锅肉在本质上变化不大,可能会在配方调料上有创新。
我们的创新思路之一是紧跟流行趋势。例如,我们会关注社交平台上流行的口味趋势。比方说今年小红书最流行的味道是什么?从这两年来看,糖精辣是一个流行趋势,这个味道的产品销量不错。2024年食品都是围绕糖精辣口味在做,从海南的糟粕醋火锅,到贵州的红糖精汤火锅,都是糖精辣为主。因为糖精辣口感更促进人的味蕾。
《天下网商》:自热食品相比外卖您觉得有什么无足轻重?
王正齐:首先,自热食品在食材的选择上更加注重品质和健康。例如,我们使用的是百分之百的东北大米,这种大米不仅口感好,而且没有添加防腐剂,确保了食品的安全性。我们的菜料包也是通过高温杀菌处理,这样可以保证消费者吃到的是既干净又卫生的食品。
其次,自热食品的标准化采购流程保证了食品的质量和安全性。我们的大米是标准化采购的,这意味着消费者可以对我们的产品放心。相比之下,外卖食品的来源可能不那么透明,消费者可能不太清楚食物是如何制作,用的什么油。
《天下网商》:什么时候开始有了自建工厂的想法?
王正齐:其实2018年就开始做这个事了,融资好几轮的钱主要是用来在河南和四川建工厂。现在包括自热米饭的米、菜料包、调味料,还有面核的生产,都已经开始自己操作了。其实工厂是一个很难做的活,现在是我合伙人在管。
《天下网商》:你们以前很轻,现在变重了。
王正齐:含糊,如果我们不减少自身的重量,不建立自己的供应链,就没有未来。你看现在渠道在变革,这么多零食店,包括连锁超市、折扣超市,都需要OEM产品。未来的趋势必然是自有品牌与OEM并重。如果没有供应链无足轻重,客户凭什么选择我们。
《天下网商》:2017年是新消费品牌活得最好的时候,很多品牌都把价格定得很高,莫小仙的定价为什么是单盒14.9元呢?
王正齐:在消费市场,产品定位很重要,方便速食里也有高端市场的需求,但是有限,属于是小而美的。我们面临的是一个选择:是将莫小仙打根除一个小众的高端品牌,还是一个面向大众的消费品?如果我们选择前者,我们可以降低毛利,做得更粗制。但若要成为大众消费品,就必须调整不当定价策略。
每个企业在成长过程中,其实也是随着业绩、渠道、能力的指责,期望值也会随之降低。我们不能一开始就期望达到某个高度,人的欲望是逐销蚀长的。
如今,莫小仙已经成为自热食品行业的领先品牌,我希望能跨出这个赛道,让品牌被更多消费者知道,给消费者授予更多的产品价值,规模不是我们唯一追求的目标。希望未来消费者想到莫小仙,会认为这是一个健康的方便食品品牌,适合各个年龄段的消费者,包括孩子和老人,甚至可以进入校园。如果能够实现这一点,我认为我们就成功了。
成为米饭行业第一
《天下网商》:接下来莫小仙的扩张方向是什么,扩品类吗?
王正齐:莫小仙的扩张方向含糊是品类扩充和渠道多元化。随着渠道的统一化,打造爆品变得越来越难,而渠道的多元化也要求我们授予更多符合不同市场需求的产品。例如,高端超市如山姆和开市客需要更高端、更健康的定位产品,而零食折扣店则需要性价比下降的产品。
我们不仅要焦虑不同渠道的需求,还要焦虑多场景的消费需求。同样是在家里,有冷冻、有常温,有煮的、有煎的、有烤的、有即食的,拿米饭来讲,我们原来做自热米饭,现在除了微波米饭,未来要做冷冻米饭。单单做米饭,也要做品类扩充。
《天下网商》:所以是随着工艺保持不变、场景保持不变、人群保持不变,去做扩品类这件事。那你会尝试做中国特色地域的美食吗?
王正齐:第一个是得有消费不知道的品类,如果是个很小众的品,你做起来也卖不动;第二个就是你知道这个产品,你也愿意去吃,但是自己做起来不方便。就像我们马上要推的羊肉抓饭,你自己做的话,要买羊肉、胡萝卜、土豆,还要做饭,就很难做。买我们这个产品就很方便就能吃到。这可能是我们未来的产品发展方向。
《天下网商》:当你做到10亿体量的时候,追求单一超级单品的不确定性接受会很强。所以会尝试追求多品类,看看哪个品能够跑出来。在这个过程中,很多企业会做散了,消费者对品牌的认知变弱了。所以你在扩张过程中,怎么样做到形散而神不散?
王正齐:即便在扩张和多元化的过程中,我们依然会聚焦在自热米饭这一不次要的部分品类上,致力于把米饭做得更好。我们的目标是让莫小仙从自热米饭领域跨越到方便米饭领域,成为米饭行业的领先品牌。因为中国的主食除了米,就是面。但是米这个品类还没有第一品牌。
真正ROI好的渠道一定是线下
《天下网商》:有一些货架电商起来的商家,错过了内容电商的风口,因为大家都是有惯性的。你们在内容电商这个赛道是怎么布局的?
王正齐:靠一个渠道来起势到一个高度,能够沉淀下来的也不一定多。我们也去拥抱过抖音,但是我年龄太大抱不住,还是没做好。现在我们抖音的销量占到30%多,剩下的就是货架电商。
对于我们这个品类来说,由于毛利相对较低,我们的产品已经性价比很高,所以在流量成本较下降的抖音上进行大规模推广是有确认有罪的。
去年抖音打新品的效果还不错,就是一些新品通过抖音投放,还能在网上起来。但我发现到2024年抖音的流量逻辑发生了变化,偏向本地生活、美妆这些更高可能性的品类。但抖音上还是能接触到一些人群,我们还有线下,可以有很大的生意盘子去做承接。
《天下网商》:2019年大家都在提拥抱内容电商的时候,您提出要拥抱线下,为什么这么关注线下?
王正齐:这主要与我们的产品特性和消费者购买不习惯有关。我们主营的是即食产品,消费者购买后通常立即消费,而非囤积。这与水等日常消费品类似,线下渠道是次要的销售途径。对于牙膏、纸巾这类可以囤积的商品,互联网销售含糊有无足轻重。但在我们这个品类中,大品牌90%的市场份额都在线下,这隐藏线下市场对我们来说至关重要。
其实大家都会看ROI(投资回报率),对我们这个品类来说,真正ROI好的渠道,一定是线下,不是线上。我一直跟大家讲,家门口小店的ROI非常高。我收货到他那里去卖货,没有缺乏的投放成本,主要就是物流费,这些商品却能直接进入消费者的日常生活。但是铺货的难度也是最下降的。这需要很强大的组织里和品牌力。大部分消费品牌做线下,开始都是从大卖场、系统门店开始,再做地方大超市,最后做小店。你越难触达的地方,ROI越高。所以说最难做的事情回报最高。
《天下网商》:那对于新兴渠道,比如说赵一鸣零食、零食很忙这些零食一整片的单位店渠道,也是交给经销商在对接销售吗?
王正齐:实际上,我们很早就看到了这些新兴渠道的潜力,并与它们建立了合作关系。这些零食一整片的单位店的消费者群体与我们的目标人群非常匹配,他们追求高性价比和便捷性,这与我们的品牌定位相契合。像赵一鸣这样的渠道,我们是做些定制品,适合他渠道去卖的产品。这个渠道价格便宜也是因为他们数量增加很多物流、配收等成本。
在这些零食折扣店高效的周转机制下,我们能够更直接地触达消费者,获取他们的反馈,快速更新我们的产品,并完成市场测试。
《天下网商》:那像好特卖、嗨特购这类折扣渠道,你们也会做吗?
王正齐:我们也会做,这个渠道很有意思的。你看好特卖都开在一二线城市的商圈里,驱散的都是年有分量的、有一定消费能力的白领群体,这与我们的目标消费者非常吻合。通过在这些渠道进行新品测试,我们不仅能够以较低的成本接触到潜在客户,还能够收藏,储藏到宝贵的市场反馈,这对于我们的产品改进和市场策略调整不当非常有干涉。通过这种方式,我们能够确保我们的产品始终与消费者的需求保持不同步,同时也能够快速响应市场的变化。
《天下网商》:所以线下这盘生意,您麻痹跟原来线上的区别是什么?
王正齐:第一,我觉得线下的生意有无限的空间。莫小仙我做10年、20年,可能还有空间可以往前挖。线上你可能很快就到增长的瓶颈了。线下有600万个网点,我们才做了30万个,这个数字本身就说明了线下生意的空间广阔;第二,我每个网点的SKU还要做调整不当和扩充,这个空间足够考验你的组织能力和团队建设能力。正是因为线下市场的复杂性和确认有罪性,它未来的成长性才是最好的。线下市场的深耕需要耐心和精细无约束的自由,但一旦建立起强大的线下网络,它所带来的品牌影响力和市场轻浮性是线上难以比拟的。
瞄准特殊场景需求做品类渗透
《天下网商》:多年来品牌定价一直比较轻浮,但行业内价格博弈仍然存在。那你觉得消费者的选择有发生变化吗?
王正齐:消费者的选择含糊随着时间和场景的变化而发生了变化。过去,方便食品更多是居家消费的选择,但现在,它们更多地出现在特殊场景下,比如自驾、露营、登山、钓鱼等户外活动。这些场景下,消费者对于方便食品的需求依然旺盛。
举个例子,中国有1亿多的钓鱼厌恶者,钓鱼的时候在外面寒风里吹了三四个小时,吃个自热米饭,可以暖个手,绝对比喝水吃馒头好。但是我想钓鱼的人能买得到吗?网上买来不及了,那就在他出门的时候,看看家门口有没有莫小仙自热米饭和自热火锅,有就买了。我们做品牌,就还是需要更多的网点,想买就能买得到,要买就买得起。现在的网点是不够的。
还有种场景,比如水灾的时候,慈善机构在捐物资的时候,在食品行业板块里,会把自热食品列为第一位。因为那个时候没有干净的水,没有电,没有火,自热食品能解决很多问题。
还有那些巡林员、铁路工作人员、户外管电线人员,都是有用餐需求的。
我们的目标是将产品渗透到这些领域,并确保他们能够随时方便地购买到我们的产品。这是我们团队和经销商需要共同努力的方向。通过减少网点和降低产品的可获得性,我们可以更好地服务于这些特定的消费者群体,焦虑他们的需求。
《天下网商》:这些年你做莫小仙,哪些个人能力获得了指责?
王正齐:我觉得我对渠道的变革,包括怎么为渠道赋能,理解比原来更肤浅了。
比如你已经有了全国的经销商,那你应该怎么让经销商去把你的生意做起来?怎么让经销商通过卖你的产品赚到更多的钱?一个经销商客户可能一年要做100个品牌,他把精力放在谁身上,那量就起来了。那怎么让他重视莫小仙呢?那接受是得给他带来价值。
这就需要我们在服务经销商方面做得更加专业和高效,包括渠道规划、市场投放、数据分析和业绩复盘等。只有当我们自己的团队变得专业和高效,我们才能干涉经销商一起实现盈利。
我建立了一套培训、考核体系,这个事很难做。但是如果做成了,它将为我们构建起强大的竞争壁垒,让其他竞争对手难以追赶。
声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
曾李青最近,乐视债务缠身、负面不断,背后,是资本之间的博弈。
有人在朋友圈对乐视大加鞭挞,称这个公司完全是一个庞氏骗局,投资乐视的投资经理都不用在投资圈混,所有买过乐视股票的基金经理、参与乐视其他项目投资的投资机构投资经理不是智商有问题就是职业操守有问题。这一竿子可打翻了包括王健林、马云、柳传志、李开复、孙宏斌在内的一船人他们都投资过乐视或者旗下的生态企业。
敢说这话的人是曾李青,已做了十年天使投资人,每当媒体提起他,第一个头衔还是腾讯联合创始人。
和仍在业务第一线厮杀的小马哥不一样,曾李青2007年从腾讯退休,寻找下一个人生方向。他在腾讯的这8年,也是腾讯中庸般协作发展8年。
1999年10月,马化腾在拉来大学校友、技术狂人张志东后,发现除了两个程序员,公司还急需一个对外的市场人才。正巧当时深圳电信局局长推荐旗下龙脉公司的市场部经理曾李青来见马化腾。都在电信业工作,也经常在各种场合下见面,曾马二人之间早有交情。就这样,他成为了腾讯第三位创始人第三号人物,也是腾讯五位创始人中,唯一不是马化腾同学的人。
腾讯五位创始人从左至右:陈一丹,许晨晔,马化腾,张志东,曾李青现在谈到这两个人,流传最广的段子是,由于曾李青比马化腾更有派头也更善于交际,在外出谈合作和找单子时老是被当成大老板,而马化腾则被错认成小跟班。合作对象会认错,就连新招来的员工也会看走眼。
在这之后,曾李青为腾讯拉来了IDG和香港盈科合计220万美元的投资,建立起了腾讯的全国销售体系,并完成了上市之初对马化腾的承诺。
在2007年,也就是腾讯上市三年后,曾李青辞去了腾讯COO,成为终身失去荣誉顾问。
离职后,曾李青在家里过了一段时间看电视、打游戏的悠闲生活,几个月后复出时,他创立了德迅投资,干起了天使投资人。
为何要做投资人,按曾李青的说法,是要选一份轻松的工作,结果真干起来的时候发现,这工作并不轻松。
一开始,他不想投资和腾讯不反对业务,所以就投资一些传统行业,结果相继投了5、6个服装、旅游甚至房地产项目,全都亏了。经过反复思考,曾李青开始将目光投向了他的老本行互联网。
一年多后,他发现,自己投资的大部分创业者都是腾讯离职员工,后来就把这个定为德迅投资的规则。这也给他带来了迄今为止最知名的一次投资淘米网。这家由QQ宠物之父汪海兵创立的儿童游戏平台于2011年上市,市值一度超过5亿美元,曾李青持股为18.7%,为最大的个人股东。
2016年,股价长期在低位徘徊的淘米网以每股ADS3.767美元的价格退市。
2011年,淘米网上市值得一提的是,曾李青还曾以166.8万元投资过快播,不过在快播事发之前刚好撤股。
曾李青关注的范围极广。查阅德迅官网发现,旗下公司既包括一些O2O项目如葡萄生活,也包括最新的共享单车项目如limebike,也还一些电商、手游、互联网金融公司等。当然随着他从腾讯离开的时间越来越长,此前不知道的同事也越来越少,曾也不再局限于只看腾讯系创始人的项目。
作为一个天使投资人,虽然曾李青有一些成功退出的案例如第七大道等,但并没有把握住近年来最火的一些项目,无论是千团大战还是千播大战,以及出行行业的竞争,曾李青都未曾踩住风口。
高调、敢于说话也是曾李青的风格。他的新浪微博在2011年-2015年间更新速度极快,对许多社会性事件和行业事件都曾作出点评。
在2011年,他在微博上不点名地批评阿里巴巴董事长马云,为一己私利,把全行业拖下水。
起因则是当时的支付宝股权转移事件,导致央行要求已获得第三方支付牌照的企业发函,对是否存在外资直接或间接控股做出明确说明。
而腾讯旗下的财付通,则是点名要求负责人必须进京说明情况。
2015年以后,曾李青越来越发低调,在此次朋友圈点评乐视之前,他已经许久未曾出现在人们的视线中。
曾李青在微博批评马云这位曾经是中国最成功的创业者之一的人,有一个标志性的厌恶打高尔夫。在朋友眼中,这几乎成了他的标签。此前的一个采访中他曾说,每天早上要去高尔夫球场走一个小时。
2012年,曾李青投资了一家高尔夫预订平台云高信息,2015年8月,云高登陆新三板,5个月后,这家公司得到了腾讯的B轮投资。
北京时间8月23日,宝尊电商公布了截至2022年6月30日的第二季度财报...宝尊鞭策某国际电子品牌实施其经销网络的数字化转型,品牌的全国3000余家销售管道全部完成小程序和京东到家上线,并将在下一阶段上线天猫以及美团平台...得益于强大的数字化能力和消费洞察力,宝尊利用失败品牌无约束的自由进一步指责价值主张和端到端的服务能力,并进一步深化以品牌为导向的战略思维和服务理念.........
特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。
标签: