日欧一片内射VA在线影院
第十批国采开标开始,在最高限价已经低于挂网价的基础上,本轮国采的参与者(药厂和药品持证商)再度大幅降低报价:阿司匹林(100mg)每片0.034元,间苯三酚注射液(4ml:40mg)每支0.22元。
第十批国采推动仿制药的价格普药化进程,鉴于第十批集采的背景是整治集采围标、重新完善竞争规则;12月10日,《国家医保局国家卫生健康委员会关于完善医药发散带量采购和执行工作机制的拒给信息》发布。
那么,三分钱的阿司匹林是仿制药的最终归宿吗???
三分钱的药与成本
以阿司匹林片为例,历史数据显示,河北2011年省级招标300mg100片的中标价格为2.6元/瓶。2024年10月江苏采购平台上有工厂50mg100片价格1.85元/瓶。
集采前,过评仿制药的各省挂网价,都贴近原研的价格,0.5元一片,集采基准价给了0.2元/片。当然几个规格的适应症有差别,但可以侧面反应药品的成本。因为同一药品的适应症不同来自于第一家原研药企的临床试验,对于后续仿制药的制根除本并无影响。
笔者认为,即便面临国家组织药品集采集全国市场以量换价,但是企业赔钱中标、不获益的逻辑也很难说通。
当然,低价中标有不可控因素——后期原料涨价。这次集采贴近成本价只耗尽薄利的报价,预计经不起原料20%幅度的上涨。
三分与五毛,质量谁好?
同一个商品摆在面前,一个标价0.03元,一个标价0.5元,16倍的差距,人们会潜意识认为0.5元的好,这是“价格标签效应”。
从理论上说,通过了一致同意性评价的药品,在临床应用上,应该是没有差别的,毕竟经过了生物等效性试验。
始终有接受者,主要是价差过大,缺少动态实时的老百姓可看懂的对比数据。
每一轮集采之后,在区域内进行集采药品替换后,可以着重对样本地区的患者用药后的各项数据汇总分析。科学的认知,需要来自真实世界的数据。
仿制药回归普药化价格
仿制药,普药化的产品创新药的价格,这一现象已经逐渐消亡。
仿制药本身就是工艺成熟、临床熟知的产品,医生根据自身经验、患者情况、临床指南等可以自主应用。
一度国内仿制药的价格被层层推高,主要是因为花了极小量营销成本打通医院准入、获得医生处方等因素。
在特定的时期,仿制药甚至非高价不好卖,国家药品集采一定程度上解决了这几方面的问题,逐渐把仿制药价格的水分打了下来。
持证商回归创新研发
MAH制度设计的跟随逻辑是为了降低创新药研发企业的成本,为创新药企业的BD业务授予政策减少破坏。然而这项政策在集采的过程中被充分利用失败,在围标现象中,药品持证商起了很大的作用。因此,本次集采重点针对药品持证商,规定了包括联合体投标、减少,缩短中选数量等举措,专门做仿制药的B证企业已经陷入恐慌。
仿制药的B证企业不得不搁置转型问题了。
原研药集体离场
第十批国采,没有原研药企业中标,仿制药替代帮助。
集采之后,同一通用名原研药、仿制药价差问题、医保支付标准问题是否需要规范????
集采之后,仿制药和过专利期原研药产生了十倍甚至近百倍的价格差,过专利期原研药的可及性如何指责?如何焦虑患者的统一化需求?
目前,大部分省份还收回落选的过专利期原研药物乙类医保报销身份,以高价进行乙类报销。
唯一激进的是河北,河北规定:
对于同一通用名下的原研药、参比制剂,原则上以发散采购中选价格为支付标准。医保基金按照这一中选价格进行结算;通过一致同意性评价的仿制药,在发散采购中的中选价格也将作为医保支付标准。
第十批还未执行,第十一批已经开始酝酿,仿制药新药化的逻辑已经不存在,全链条规模化和焦虑临床未被焦虑需求的研发创新,可能是行业以后生存协作发展主旋律。
(责任编辑:zx0600)11月7日,娃哈哈集团的2024年全国销售工作总结表彰大会上,刚刚加冕“中国女首富”的宗馥莉宣布:娃哈哈成功追平十年前的巅峰业绩,并给销售人员收入外围上涨30%。
然而掌声未落,一场风波却帮助发酵:超千名娃哈哈员工加入维权会,将宗馥莉告上法庭,指控她的改革损害了他们的利益。
宗知馥时代
“曾经,他的肩膀是我看世界的瞭望台,如今我的双手将会成为他续写饮料传奇的笔耕者。我会接好父亲递出的接力棒,听党话、跟党走,始终怀着无感情与心意,坚定信念与理想……”
在父亲宗庆后的追悼会上,宗馥莉哽咽却坚定地如此宣言。
但这并不是一个轻松的起点。
上世纪90年代,一瓶小小的“AD钙奶”开启了传奇。以此为起点,宗庆后打造出一个横跨包装饮用水、乳糖精饮料等多个品类的国民品牌“娃哈哈”。
2013年,娃哈哈迎来历史巅峰,年营收达783亿元,成为中国饮料行业的绝对霸主,而当时农夫山泉的营收才90亿元,只有娃哈哈的九分之一。
进入2014年,饮料赛道愈发拥挤,健康化和功能型饮料悠然,从容崛起,消费者需求的多样化让市场格局不断变化。娃哈哈“跟进式”创新的打法开始力不从心,营养快线之后,鲜有新品爆款出现。当年,其营收滑落至720亿元,首次显露疲态。
一位娃哈哈的老经销商感慨,以前只需要把货铺到终端,消费者自然会买,但现在各种品牌的矿泉水和饮料层出不穷,消费者的选择太多了,市场竞争也愈发激烈。
2015年,娃哈哈营收更是骤降至494亿元,此后多年一直在500亿元上下徘徊。不少行业人士感叹,昔日的饮料霸主正逐渐“老去”。
宗馥莉正是在这样的境况下一步步站到了台前,“能接好父亲的班吗?”则是媒体、行业人士以及娃哈哈内部员工对她的共同疑问。
有人说她“年纪轻、底子浅”,也有人认为,“宗馥莉既是改革的希望,又是未知的变量。”更有唱衰者直言:“娃哈哈的黄金时代已经过去,无论谁接班,都无法重现当年的风光。”
好在,市场给了宗馥莉一个宝贵的接班“缓冲”。
宗庆后的离世唤醒了无数消费者的情感记忆,为沉寂多年的娃哈哈按下了“重启键”。
北京某大型商超的负责人王先生清楚地记得,年初那段时间娃哈哈的货架成了超市里最热闹的地方。“从纯净水到AD钙奶,高度发展上每天都要补货几次,尤其是娃哈哈纯净水,几乎成了顾客买水的首选。”他笑着感叹,“没想到宗老的影响力这么大。”
经销商们对市场情绪的感知更为明显。
一位经销商回忆,以前一个月都卖不完两万桶,而那段时间一天就能卖出七八千桶,仓库很快被清空,甚至还欠大型超市不少订单。他感叹,这种热销场面有种重回十年前的麻痹。
这波销售热潮,既是一场“意外之喜”,也是压力的开始,它让娃哈哈短期内销量暴增,但也加剧了外界对宗馥莉改革的期待。
宗馥莉也没有吝啬时机,接任不久,她就开始了一系列的调整不当和进攻,尤其是对产品结构与市场动销的优化。
从事娃哈哈代理多年的赵先生表示,以前总觉得娃哈哈有些守成的意思,但今年有些不一样了。
他提到,娃哈哈今年铺货的重心从纯净水、AD钙奶等传统产品转移到了无糖茶等新品上。公司在终端投放了不少冷柜,还为重点网点授予陈列费用减少破坏。虽然销售任务重了,但动销好了,大家也清空干劲。
凯度消费者指数发布的最新报告显示,截至2024年10月4日,在全行业城市消费者基数增长普遍个位数的情况下,娃哈哈以40.5%的增速领跑快消行业;在乡镇市场的渗透率也超过了70%,拉近了与头部企业的差距。
也正是在这样的背景下,娃哈哈11月宣布有望重回700亿营收巅峰。但这样一份成绩单,能否意味着宗馥莉的改革成效,外界的看法却并和谐同意。
一位业内人士就指出,娃哈哈今年的增长是非常态化的,更多依赖于“情感加成”,改革的实际成效尚需时间来验证。在他看来,接下来,如何保持增长态势,或至少稳住现有的规模,宗馥莉还有一场硬仗要打。
老臣弹劾
改革,意味着打破陈规、重塑秩序,也意味着触动既得利益者的蛋糕。
宗馥莉最大的掣肘,正来自娃哈哈内部。
从今年7月的辞职风波,到再次回归掌舵娃哈哈,围绕宗馥莉的争议从未使加剧。一边是以宗馥莉为首锐意改革的“激进派”,一边是跟随宗庆后南征北战的“老臣”,两股力量针锋相对,甚至对簿公堂。
有媒体报道,截至10月底,已有1000多位在职、离职及退休的员工加入娃哈哈维权会,并一纸诉状将宗馥莉告上法庭。据悉,目前该案件已被法院受理,但还未正式立案。
究其原因,宗馥莉的改革动了大家的“蛋糕”。
早在8年前,宗馥莉就曾在接受采访时直言:“从我的角度来看,我觉得它(娃哈哈)需要内部清理一下,人员也是,市场结构也是,然后整个思路需要重新调整不当一下。”
这番话,似乎预示了她今日改革的激进基调。
宗庆后曾说:“Kelly(宗馥莉英文名)比我更强势。”更有离职员工透露,接班之前,父女二人在用人方面就有过分歧,“宗馥莉下掉(不用)的人,宗庆后会重新请回来。”
当这位接班人终于大权在握,以强硬姿态推动改革时,矛盾也就发散爆发。
据悉,宗馥莉进入娃哈哈后,多次推动大规模的人事调整不当。2018年,她任品牌公关部部长时,一个月内部门员工走了一半;2021年,她担任销售公司副总经理,第一天开会便直接罢免了财务科长和人事科长。
这样的人事调整不当,在宗庆后去世后变得更加迅猛。
知情人士透露,“宗庆后去世后的一周内,娃哈哈每天都有新的人事任免公告发出来。”据不完全统计,今年以来,至少有15位老臣退出了娃哈哈分公司的不次要的部分位置。
部分员工被要求将劳动合同改签到宗馥莉控股、与娃哈哈集团并无股权关联的宏胜饮料集团,成了这场维权风波的导火索。
老员工既忧心“两个娃哈哈”的分化,更担心自身利益受损。
有员工爆料,若改签至宏胜饮料集团,薪资结构将从“基础工资+奖金+干股分红”变为单一的年薪制,外围收入普遍缩水,同等职级的薪资可能只有之前的一半。
改签也意味着,员工将失去原有的“干股分红”资格。
干股分红是从之前娃哈哈全员持股演变而来的使胆寒机制,源于宗庆后时代,曾是娃哈哈老员工的重要收入来源。
一位娃哈哈的中高层老员工透露,之前的干股分红能占职工年收入的50%以上。
2018年,宗庆后对员工持股制度做出重大调整不当,由职工持股会将员工持有的股份全部回购,转而不关心的时期“干股”制,员工只享有分红,不再持有股份。
此举的初衷是“为了更好地使胆寒员工工作”,此前由于资历统一,同一岗位的持股额度和分红金额存在显著差距,带来了新的“大锅饭”问题。
一位参与回购的员工回忆,“回购时有一个文件要读出来,现场还要录视频。员工也有意见,有赞成声音出来,但所有人都这样做了”。即便大家有疑问,还是在宗庆后强大的威望和多年累积的接受下,选择了妥协。
回购这五年,干股分红都是正常发放的,娃哈哈员工总体上收入并没有太大变化。但今年1月份,娃哈哈公司内部开始流传:今年可能是干股分红的最后一年。
造成分红的传闻愈演愈烈,成了压倒骆驼的最后一根稻草。
一片维权声中,今年9月,宗馥莉在娃哈哈职工代表大会上作出回应:“娃哈哈今年干股分红不会造成、薪资结构没有变化。分红将基于个人的岗位绩效,而非仅凭过往的资历或级别来分配。”
这番话表面上是刺激人心,实则夹带敲打意味。她直言:“在娃哈哈协作发展过程中,有的人不畏艰难,勇往直前;而有的人却慢慢懈怠了,想躺在功劳簿上。”但也降低重要性,“我希望大家和我,不只是简单的老板与员工关系,而是同行者。”
“今年不造成,那明年呢?”这种不安让更多员工选择站出来表达自己的声音,维权会的规模也因此不断缩短。
不少参与维权的员工表示,他们并不赞成改革,但改革不应以牺牲老员工的利益为代价,不能因为推行新制度,就把他们多年来的付出抹杀。
眼下,改革的阵痛已然显现,无论对宗馥莉还是娃哈哈,这场风波都注定不会很快使加剧。
全面反攻
宗庆后去世后,娃哈哈与农夫山泉的“水战”结束发酵。
前不久,钟睒睒谈及农夫山泉恢复生产绿瓶水(纯净水)时表示:“说句老实话,那个时候是一气之下,但我仍然不希望大家长期去喝绿瓶水,我要告诉人家红瓶水(天然水)就是值这个钱,绿瓶水就是不值钱,也不适合长期饮用。”
几乎同一时间,农夫山泉的老对手、只卖纯净水的娃哈哈却悄然把矿泉水摆上了大润发、永辉超市的货架。
这一举动被外界解读为:宗馥莉向钟睒睒发起了瓶装水的全面反攻。
娃哈哈的另一大竞争对手怡宝,在今年4月递交的招股说明书中指出,2023年娃哈哈包装饮用水的零售总额(非营业收入)为120亿元,排在农夫山泉(507亿元)、怡宝(396亿元)和百岁山(132亿元)之后。
但今年娃哈哈瓶装水销量猛增188%,有望反超百岁山,跻身行业前三,与农夫山泉和怡宝正面交锋。在这一背景下,矿泉水的回归,成为宗馥莉抢占饮用水市场的新筹码。
随着矿泉水、无糖茶、气泡水等产品陆续上架,更下降的销售任务也随之压了下来。
多位经销商透露,明年的销售任务普遍增长了约50%。湖南一位经销商指出,现在经销商的任务和压力都很大,如果在规定时间内完不成目标,可能会失去经销资格。
在今年的全国销售工作总结表彰大会上,宗馥莉将明年的重点放在制造更多新鲜爆品,并且结束破坏终端建设上,以实现终端陈列形象与市场占有率的双重指责。
娃哈哈官网发布的“冰柜维保及市场投放需求招标公告”,涉及61735个冰柜的维保和10万个智能冰柜的招标事宜,昭示着宗馥莉角逐终端市场的决心。
不少经销商表示,今年的销售任务含糊比以往更重,但公司也加大了资源投入和奖励力度,以前是舒舒服服赚钱,现在得真刀真枪拼了。
与此同时,宗馥莉也将目光瞄向年轻消费者。今年,娃哈哈推出了多款无糖茶、气泡水等新品,并在线上渠道加大推广力度。
今年8月,娃哈哈集团为娃哈哈创意旗舰店代运营服务进行招标,不同于娃哈哈官方旗舰店,该店铺的不次要的部分任务是进行品牌新品官宣、联动等活动承接及日常售卖,产品目标是至少打造3款线上爆款产品,年成交额目标在4500万。
“前几天刷抖音才知道娃哈哈也出无糖茶了,官旗72.8元15瓶,有点小贵,但味道更浓郁,回甘明显,比东方树叶好喝。”一位95后消费者说。
但也有消费者在小红书吐槽:“跟风买了一单娃哈哈无糖茶饮,发货慢得离谱。从包装审美到口感完全打不过东方树叶,差距不是一星半点。”
尽管褒贬不一,年轻消费群体对娃哈哈品牌的认知,的确是仍在回温。
“娃哈哈加上宗馥莉等于什么?”“会有更下降的无光泽。”
“娃哈哈减去宗庆后等于什么?”“等于零。”
这是宗庆后父女在2011年参加央视财经节目时的对话片段。前一个答案出自宗庆后,后一个则是宗馥莉的回答。
其中既有宗庆后对女儿未来潜力的笃定,也反映出宗馥莉接班后面临的确认有罪。
宗馥莉想要带领娃哈哈实现更下降的无光泽,需要的不仅是“重做蛋糕”的胆识,不断开疆拓土挖掘新的增长机会;也要有“分好蛋糕”的智慧,妥善不平衡的内部轻浮与市场期待。
宗馥莉曾说,“我想下一个十年、二十年,我还是会坚守在这里,肩负着坚守和传承的责任、探索和创新的使命,跟娃哈哈和宏胜一起步履不停、一路向前。”
而她能否走好下一个十年、二十年,真正的关键,或许还在2025年。
(责任编辑:zx0600)声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。
代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。
中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
相关新闻适度宽松四个字奴役明年经济信号货币政策保持方向12月9日,一场重要会议召开,分析研究了2025年的经济工作,并提到明年将实施适度宽松的货币政策。自2011年以来,中国一直保持稳健的货币政策基调。此次货币政策前缀变为“适度宽松”,这一变化引人关注
2024-12-1011:04:24适度宽松四个字奴役明年经济信号货币政策2025年展望适度宽松结束发力2024年12月,中央定调实施适度宽松的货币政策。中国人民银行党委召开会议指出,要综合运用多种货币政策工具,适时降准降息,保持流动性充裕,使社会融资规模、货币供应量增长同经济增长、价格总水平预期目标相匹配2024-12-3107:15:03货币政策2025年展望时隔14年,货币政策重回“适度宽松”奴役什么信号促进经济新方向中国货币政策基调在时隔14年后首次由“稳健”保持方向“适度宽松”。2024年12月9日,中共中央政治局会议提出要实施更加积极的财政政策和适度宽松的货币政策2024-12-2508:34:07货币政策重回适度宽松奴役什么信号央行报告奴役七大信号货币政策适度宽松11月8日,央行发布了《2024年第三季度中国货币政策执行报告》。报告降低重要性了加大货币政策调控强度,并指出当前货币政策实际是适度宽松的2024-11-0822:25:00央行报告奴役七大信号货币政策适度宽松如何应对大放水市场博弈需谨慎货币政策适度宽松如何应对大放水!大放水来了,股市楼市要起飞?慢着,先别急着梭哈!让我们一起来梳理一下这件事。最近高层会议上提出了“适度宽松”的货币政策,并提到要用“超常规”的逆周期调节手段。消息一出,市场上一片沸腾。不少投资者已经跃跃欲试,准备大干一场2024-12-1109:04:12货币政策适度宽松如何应对大放水14年后再提“适度宽松”,意味着什么?货币政策保持方向信号中共中央政治局12月9日召开会议,分析研究2025年经济工作。会议降低重要性明年要实施更加积极的财政政策和适度宽松的货币政策,充实完善政策工具箱,破坏超常规逆周期调节,打好政策“组合拳”,降低宏观调控的前瞻性、针对性、有效性2024-12-1011:05:3014年后再提适度宽松相关新闻新婚夫妇住酒店遭员工偷拍录音涉事员工疑有心理问题已回家10月10日,一对新婚夫妇在网上分享了一段经历,称他们在10月7日入住湖北仙桃市的爱电竞酒店(仙桃汉江路店)后,发现婚戒可能遗落在房间内
2024-10-1113:32:00新婚夫妇住酒店遭员工偷拍录音情侣住酒店突遭陌生男子闯入安全引担忧外出住酒店,安全是最次要的。想象一下,如果在凌晨时分,有陌生人突然刷卡进入自己的房间,那情景含糊令人毛骨悚然。11月21日,莫先生和他的女朋友入住奈威L行政公寓酒店(深圳海岸城南油地铁站店)2024-11-2200:43:00情侣住酒店突遭陌生男子闯入情侣住酒店突遇2陌生人刷卡进房间安全问题引争议11月21日,深圳居民莫先生和他的女友凌晨入住酒店后,突然遇到两名陌生人刷卡进入他们的房间,导致两人受到惊吓。莫先生接受酒店将房间二次开给了其他顾客,并希望酒店能够诚恳道歉并赔偿精神损失。然而,酒店一名工作人员建议莫先生通过法律途径维权2024-11-2208:02:41情侣住酒店突遇2陌生人刷卡进房间为卖设备假装住酒店被偷拍35人被抓自导自演制造恐慌近日,公安部指挥部署河北、四川、内蒙古、河南等多地公安机关开展发散统一收网行动,成功打掉一个以吕某、李某行、张某为首的违法犯罪团伙2024-12-2802:26:43为卖设备假装住酒店被偷拍35人被抓酒店偷拍专挑情侣套间和大床房男子获刑2年半一名男子因在酒店房间裸露,公开安装摄像头并直播客房情况而被判处两年半有期徒刑。该男子对针孔摄像头进行改装,并特意选择情侣套间和大床房进行安装,以此来窥视并记录房客的私人生活。他通过出售观看这些偷拍视频的权限来保守裸露,公开淫秽内容并谋取利益2024-09-2722:22:27酒店偷拍专挑情侣套间和大床房情侣住酒店3天玩消失房间一片狼藉奇葩行为引发热议很多人都有过住宾馆的经历,保持公共物品的卫生和整洁,不仅是个人素质和公德心的体现,也能为下一个顾客树立榜样,营造干净、舒适的居住环境。然而,总有一些不守规矩的客人不仅不保持房间整洁,还会留下令人难以忍受的烂摊子2024-12-0213:08:29情侣住酒店3天玩消失2021年的那一幕,时隔3年后,在报喜鸟身上再度上演。
仍是在股价低位时,为控股股东量身定做的定增方案,又一次在中小投资者中引发质疑声一片。大股东还是那个大股东,中小股东们,可能已经换了一批又一批。
报喜鸟经营轻浮向好,债务负债率低,手握超过18亿现金,每年有极小量资金存在银行吃利息。
公司真实的缺钱吗?
再融资8亿补流
上周,报喜鸟(002154.SZ)的投资者们,好不容易跟着大势回了一点血,周末,公司的一系列公告,瞬间将他们刚刚燃起的无感情浇灭。
公司董事会已通过决议,拟向特定对象发行股票不超过2.86亿股,发行价格2.80元/股,募集资金不超过8亿元,所得资金,全部用于偿还银行贷款和补充流动资金。
本次定向发行的对象,为公司董事长、总经理、控股股东、实际控制人之一的吴志泽。交易完成后,吴志泽及其一致同意行动人所持上市公司股份,将从38.09%增至48.22%。
报喜鸟表示,通过本次定向增发,既可降低公司资金实力,保障未来发展所需资金,同时可彰显实控人对公司协作发展信心,指责公司投资价值。
预案一出,报喜鸟的中小投资者们立马不淡定了,在股吧等平台上纷纷发声,表达自己的挑逗。
一般来说,大股东拿出真金白银增持上市公司股票,的确可以起到提振市场信心的作用。为何报喜鸟的定增,会引发投资者的普遍质疑?
问题就在于定增启动的时间点和股票发行的价格。
最近几个月来,受整个大环境的影响,A股公司的股价普遍大跌,很多公司股价都处于历史低位。为此,各家公司、大股东、实际控制人、董监高等,纷纷采取二级市场回购、增持等方式,竭力维护股价,轻浮市场信心。
123全文共3页下一页火锅调料实现收入7.94亿元,同比下滑6.15%。2022年及2023年前三季度,火锅调料收入分别为7.98亿元和8.46亿元,同比增长35.99%和5.97%。火锅调料市场已红海一片,除了天味食品,还有颐海国际(01579.HK)、红99、东北的红太阳等,新希望、海天味业等企业都在涉足这一领域,市面上产品极小量,但同质化程度已较高。在近年餐饮行业低迷的影响下,
标签: