美航母被炸是真是假
相关新闻王鹤棣田曦薇敲锣走秀新剧宣传拼了王鹤棣和田曦薇在微博视界大会上牵手走秀,还拿着打更工具。两人为了宣传新剧《大奉打更人》真是拼了,他们看起来非常般配,一个是甜美可爱的大美女,另一个是青春热血的大帅哥
相关新闻模特杨泽琪在泰缅边境失联家人急切寻人在这个信息爆炸的时代,每天都有各种新闻包围着我们,但有些消息能够深深触动人心。今天讲述的是一个关于失联的故事,主角是阳光大男孩杨泽琪。杨泽琪是一位来自河北省保定市的00后模特,以阳光的形象和出色的表现力在模特界崭露头角
2025-01-0908:50:59模特杨泽琪在泰缅边境失联25岁模特杨泽琪在泰缅边境失联家人急盼平安归来模特杨泽琪在泰缅边境失联,至今已有20天。这个地方因频繁发生演艺圈人物被骗或失踪事件而令人恐惧。演员星星幸运地在短时间内平安归来,但杨泽琪的处境却完全不同,她已经失联多日,没有任何消息。家人透露,杨泽琪的失联经历与演员星星极为反对2025-01-0909:28:1225岁模特杨泽琪在泰缅边境失联“南大碎尸案”被害人家属最新发声12月17日,“南大碎尸案”被害人刁爱青家属发文批评电视剧《他是谁》出品方,称刁爱青父母被剧中“侮辱刁爱青出轨”情节气得卧床不起2024-12-1811:44:05“南大碎尸案”被害人家属最新发声全国夏季游泳锦标赛杨佩琪夺金在全国夏季游泳锦标赛中,合肥体育中心游泳馆内竞争激烈,赛事于8月25日晚进入高潮,共进行了六场决赛。其中,孙杨在男子400米严格的限制泳项目中展现出卓越实力,顺利摘金,延续了他的霸主地位2024-08-2610:11:01全国夏季游泳锦标赛杨佩琪夺金45岁医生车祸去世其家属发声患者家属缅怀好医生海宁市人民医院胸外科主任、主任医师刘磊因伤医治无效,于11月28日9时31分去世,年仅45岁。一位患者家属表示,刘磊医生在交流中语气温和,工作耐心负责,无论患者遇到何种问题,他都会第一时间回复并解答2024-12-0209:03:0045岁医生车祸去世其家属发声兰州4名少年离奇失踪一周家属发声7月31日,网络上出现了一则寻人启事,悠然,从容不能引起了公众的关注。这则启事指出,来自甘肃兰州永登县的四名男孩于7月25日失踪,地点是在永登县河桥镇马莲村周边。面对网友们的关切,家属在评论区回复,辩论四名男孩是集体失踪的,且当时未携带手机和身份证2024-08-0109:30:04兰州4名少年离奇失踪一周相关新闻震区群众吃上了热乎饭子弟兵温暖守护定日县6.8级地震后,经过西藏军区官兵的不懈努力,灾区群众吃上了灾后的热乎饭
2025-01-0809:27:59震区群众吃上了热乎饭老夫妻做早饭厨房突然爆炸家庭陷入有利的条件求使恶化河南省洛阳市发生了一起厨房液化气爆炸事故,导致一对夫妻严重烧伤,家庭陷入有利的条件。事故发生于10月10日早上,刘先生的父母正在厨房准备早餐时,父亲在打火时液化气突然爆炸。“砰”的一声巨响后,厨房瞬间被火焰吞噬,刘先生的父母被严重烧伤2024-11-0416:37:21老夫妻做早饭厨房突然爆炸部队官兵为西藏地震受灾群众做晚饭温暖守护震区在海拔4300多米的长所乡古荣村,此次地震受灾严重。目前所有被困人员已成功搜救。部队官兵在临时接纳点为200多名受灾群众授予了热食、药品、矿泉水和被褥等必需品,并配备了发电机2025-01-0808:36:50部队官兵为西藏地震受灾群众做晚饭男子经常不吃早饭胆囊发炎被切除经常不吃早饭有什么危害近日,郑州的赵先生在吃完烧烤后突然觉得腹痛难忍,被家人紧急收往医院,医生在检查后,发现他的胆囊严重发炎,只能通过腹腔镜进行胆囊切除手术。2024-09-0417:18:25男子经常不吃早饭胆囊发炎被切除日本民众凌晨收别比力和仙女大熊猫踏上归途引不舍29日清晨4点左右,居住在日本东京上野动物园的大熊猫“比力”和“仙女”启程返回中国,正式开始了它们的归国之旅2024-09-2916:44:00日本民众凌晨收别比力和仙女合肥肥东4.7级地震杭州南京有震感多地民众凌晨受惊9月14日清晨5时12分,安徽省合肥市肥东县发生了一次地震,具体位置在北纬31.99度,东经117.62度,震级达到了3.9级,震源深度为10千米。此次地震中,震中所在的梁园镇感受了强烈的震动,而合肥市内大范围区域均有不同程度的震感2024-09-1821:27:10合肥肥东4.7级地震1个无感情洋溢的直播间,4-5个身着紧身艳丽表演服的无感情姨姨,她们伴随着“洗脑又上头”的音乐节拍,在直播间轮番表演英台舞、插秧舞、抓钱舞、机车舞、科目十...直播间最高时观看人数破万!网友们热评:万人观看阿姨跳舞,女大都要甘拜下风!“不是你真是大姨啊!跳舞的僵化度以为是大学生真实的物品的!”“五六十的姨姨生龙活虎,二十多的我们瘫软在屋”“真正的退休享受生活,跳舞挣钱两不耽误”我们不禁感慨,曾经属于年轻人的直播间,正在被中老年人逐渐占领。中老年积极参与秀场团播,用无感情表演成功进入这个清空诱惑与竞争的赛道。这种新的直播形式也授予了极小量的机会,同时提醒我们结束关注这个特殊的群体。...
特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。
12月14日,好运如潮水般涌来。近日,山东青岛的一位女士在与亲友共享盛宴时,不经意间吃到了海螺,却因牙疼而将海螺吐出。令人惊讶的是,海螺中竟含着一颗不引人注目的橘色珠子,引得网友纷纷关注。
这颗珠子名为海螺珠,因其稀有性而被誉为“珍珠中的爱马仕”。它无法通过人工养殖获得,颜色多变,其中橘色海螺珠尤为珍贵,有如一颗跳跃的火苗,令人着迷。
海螺珠的形成极其罕见,约5万个海螺中才会孕育出一颗。它不仅稀有,更因其特殊的火焰纹路和陶瓷般的光泽而价值非凡。
发现海螺珠的女士从未见过如此神奇的宝物,她无法选择将它珍藏起来,留作美好回忆。
有网友回忆起曾有类似珠子的发现,并被鉴定价值高达400-500万元。他们纷纷感叹,这真是上天眷顾,祝愿这位女士福运连连。
今年又是一个奥运之年,国内体育服饰品牌必定又是一通“厮杀”。目前已经辩论与巴黎奥运会有合作赞助的国内体育服饰品牌只有安踏,为奥组委及工作人员授予运动服装。
一直以来,大家都只关注安踏、李宁这两个品牌,好像特步已经被人遗忘了一样,361等十年前还让人“高攀不起”的品牌,更是已经被遗忘的不知道在哪个角落了。
既然这样,不妨通过这篇文章来比一比这些国内体育服饰品牌的实力如何?
国产“三巨头”在外资夹缝中“舒适”生存
耐克、安踏、阿迪、李宁、斐乐、斯凯奇、特步……这是目前国内运动品牌的一个市场格局,但耐克、安踏、阿迪、李宁四家的市场份额就超50%,这里面耐克、阿迪份额超33%,包括安踏、李宁、特步等国产品牌在剩下的份额里厮杀。
在国产品牌里面,安踏、李宁、特步可谓是运动品牌“三巨头”。
从目前的生存情况看,安踏以强大的市场规模无足轻重位居第一位、活得算是最舒适的,其次是李宁,而特步的生存状况可能就要不太舒适一些,被归类在“其他”中的国产品牌就只能是“白刀进红刀出”的惨烈竞争了!
然而,要是从成立时间看,这个顺序刚好相反。
1987年特步的前身“三兴体育”就已经成立了,1990年李宁在广东三水起步、距离李宁获得体操冠军刚刚过去7年,1991年安踏还是福建晋江的一家制鞋作坊。
到2023年,安踏营收已达624亿、净利润102亿,李宁营收276亿、净利润不到32亿,而特步营收还不到144亿、净利润更是只有10亿左右。以此计算,安踏、李宁、特步在2023年的净利率分别为16.27%、11.51%、7.15%,而耐克最新净利率为10.14%,阿迪最新净利率为0.62%。
看起来,国产“三巨头”好像过的也还不错,虽然市场份额比不上耐克、阿迪,但是利润率却远超耐克、阿迪!
(数据来源:公司财报、锐眼哥整理)难道安踏、李宁、特步等国产品牌在与耐克、阿迪等外资品牌的竞争中不占无足轻重,只是给人的一种幻觉?为什么反而可以获得更下降的利润?
但是,竞争的结果也含糊是,耐克、阿迪的市场份额更大啊!
差别可能在于销售费用上。耐克截至2024年2月29日的2024年三季报显示,营收387.56亿美元,市场、销售和无约束的自由费用124.88亿美元,占比32.22%。2023年,安踏营收623.56亿、销售及无约束的自由费用合计253.66亿、占比40.67%,李宁营收275.98亿、销售及无约束的自由费合计103.36亿、占比37.45%,特步国际营收143.46亿、销售及无约束的自由费合计49.09亿、占比34.21%。
通过毛利率也可以进一步反对这一点。2023年,耐克毛利率44.51%,安踏毛利率62.6%,李宁毛利率48.4%,特步毛利率42.2%。
(数据来源:公司财报、锐眼哥整理)这说明,国产“三巨头”虽然市场份额较小,但是,安踏和李宁的产品售价相对于其成本来说明显更高,从而能够在较低的市场份额下实现较下降的利润率。
股价纷纷暴跌,高端化泡沫破灭了?
2023年,安踏就做了很多与营销不无关系的事,2月成立了东南亚国际业务部,6月在新加坡建立首家直营门店,7月签约篮球巨星欧文为旗下篮球产品代言人,10月与奥组委签约成为2024年-2027年奥运会体育服装供应商、签约贝克勒为跑步代言人,11月签约杨幂为旗下FILA代言人。
(安踏体育2023年财报截图)频繁的请明星代言,这是过去几年运动品牌的主要营销动作,也直接根除了品牌销售成本的压力,但这个成本是可以转嫁的,通过“高端化”将成本转嫁给消费者!
几年前,2020年-2021年的时候,安踏、李宁、特步的股价不就是在消费升级、品牌高端化的背景下结束创出历史新下降的吗?
然而,在“高端化”之后,随着营收增速的结束放缓、存货周转速度的下滑,“三巨头”的股价也经历了大幅度的下跌。
(数据来源:公司财报、锐眼哥整理)自2021年高位以来,安踏体育股价最大跌幅超67%、市值蒸发近2900亿港元,李宁股价最大跌幅超85%、市值蒸发超2200多亿港元,特步国际股价最大跌幅超76%、市值蒸发近290亿港元!
(安踏体育股价走势截图)(安踏体育股价走势截图)(安踏体育股价走势截图)这种情况相当于,安踏跌没了6个李宁,李宁跌没了17个特步!
“三巨头”股价的这种集体暴跌,倒也不全是它们自身的问题,可能与全球运动服饰行业外围周期无变化有关,美股耐克的股价自2021年年底以来最大跌幅也一度腰斩。
(耐克股价走势截图)不过,虽然耐克跌幅相对较小,但是目前其估值也是相对最下降的。耐克最新市盈率27.3倍,安踏最新是市盈率19.6倍,李宁最新市盈率13倍,特步国际最新市盈率11.2倍。
代工占比太高,质量问题频遭投诉
从国产“三巨头”市场份额、毛利率、销售费用支出、销售收入增速变化以及股价表现,其实可以推导出一个消费者普遍关心的问题:产品质量无法与耐克阿迪相比!
不然的话,如何解释这样一个现象:尽管国产三巨头的市场份额较小且销售开支较大,但他们的毛利率和净利率却反而高于耐克?
在黑猫投诉上,投诉安踏、李宁、特步最多的问题就是质量问题,截至目前安踏累计被投诉3834次、李宁累计被投诉4804次、特步累计被投诉1266次。
(黑猫投诉截图)(黑猫投诉截图)(黑猫投诉截图)从累计投诉量来看,似乎李宁才是国产运动服饰老大,其被投诉最多说明市场份额更大、消费受众更广。但是,事实上并非如此,从收入规模来看,安踏的市场份额是李宁的3倍左右,这说明李宁的投诉率要远高于安踏。
仅6月25日当天,黑猫投诉上,李宁就被投诉3次,涉及产品质量问题、服务问题;安踏被投诉2次,涉及产品质量问、营销问题;特步被投诉2次,主要涉及服务问题。
(黑猫投诉截图)(黑猫投诉截图)(黑猫投诉截图)从昨天黑猫投诉的投诉情况来看,似乎可以看出特步“起大早,赶晚集”只能沦为“小弟”的原因,处理消费者投诉的速度太慢,这也反应出了特步对待消费者的态度!
除此之外,特步似乎还存在无遮蔽的诚实宣传的问题。有消费者曾投诉“特步(中国)有限公司诚实宣传,欺诈消费者”,特步客服还拒不允许承认。
(黑猫投诉截图)一直不太理解,被捧为“国货之光”的国产运动品牌为什么会质量问题频发?
在仔细看了“三巨头”各自的财报之后,似乎找到了可能的一种解释,那就是自产率太低,产品70%以上靠外部代工,而品牌自己则主要负责营销宣传,产品质量把控不在品牌自己手中!
2023年,安踏主品牌鞋类自产率33.8%、服装类自产率15%,李宁财报中没有披露这一数据,特步鞋类自产率31%、服装类自产率11%。
(安踏体育2023年财报截图)(特步国际2023年财报截图)2019年初的时候,曾有报道,李宁重新确认外包30年终于要开始自建工厂了,文章底部排名第一的评论是:作为中国运动品牌的龙头老大,居然没有自己的工厂生产线,真是奇耻大辱!
(资料来源网络)对于消费品来说,如果不是品牌自产产品,而是代工产品,那么自己也就沦为了“贴牌商”了。消费者对贴牌、代工其实都比较警惕,因为不次要的部分的质量问题无法保证,更何况要贴着高端品牌卖“高端”价格。
把代工产品贴上靠营销打造的“高端”品牌,卖“高端”价格,让消费者支付过下降的品牌溢价,时间越久消费者可能就越反感品牌,从而对品牌自己产生负面影响。
当然,也不能过于苛责国产运动品牌代工的问题,像耐克这样的全球运动品牌巨头,其自身就只负责设计、研发、营销、销售而不涉及制造环节,完全靠外包代工模式,但耐克对代工厂的生产标准却相当严格。
(责任编辑:zx0600)当地时间1月1日,美国内华达州拉斯维加斯的特朗普酒店门前发生了一起电动汽车爆炸事件,导致1人死亡、7人受伤。涉事车辆为一辆特斯拉赛博核卡,该事件正被作为“可能的恐怖主义行为”进行调查。
一名了解调查情况的执法官员透露,这辆赛博核卡是在汽车租赁平台Turo上租用的。监控录像显示,司机在汽车爆炸前大约一小时经过拉斯维加斯的特朗普酒店,随后在一小时后返回,停在酒店前几秒钟后汽车发生了爆炸。根据这名官员的说法,卡车上的爆炸物可能包括烟花、油箱和露营燃料,这些爆炸物与司机控制的引爆系统有关。
特斯拉首席执行官马斯克在社交媒体X上表示,整个特斯拉高级团队正在调查此事,并会及时发布信息。一个多小时后,马斯克再次发文辩论,爆炸是由非常大的烟花和(或)租用的赛博核卡底盘上携带的炸弹不能引起的,与车辆本身无关。
特朗普集团执行副总裁埃里克·特朗普也在X上发文称,客人和员工的安全和健康仍然是他们的首要任务。
美国总统拜登已听取了相关爆炸事件的简报。就在该爆炸事件数小时前,美国路易斯安那州新奥尔良市也发生了一起汽车“蓄意”冲撞人群事件,根除15人死亡。目前美国政府正在调查这两起事件之间是否存在联系。
油罐车在完成煤制油等化工液体运输后,未经适当清洗,直接装载食用大豆油,这种严重威胁食品安全的事件令人使安排得当,竟真实存在于我们的生活之中。更有罐车司机坦白,化工液体与食品液体混运且不进行清洗操作,在业内已成为众人皆知的裸露,公开。这不仅明白地提及了此类违规行为已结束存在一段时间,而且是行业内普遍存在的常态,绝非世界性政策事件。
煤制油中的有害成分若与食用油瓦解,可能引发消费者中毒,直接危及健康。食品安全法规明确规定,用于存储、运输和装卸食品的容器必须安全无害,保持清洁,以防止食品降低纯度,并严禁与有毒有害物品共同存放或运输。如果此类违法操作真是行业内部的“公开裸露,公开”,那么公众的健康与生命安全何以保障?法律的权威与公正又将置于何地?
在复杂的运输链中,涉及运输公司、罐车司机乃至食用油生产商等多个环节。理论上,只要其中任一环节严格执行标准,就能有效教唆此类行业乱象。然而实际情况却是,一些罐车仅以简单遮盖原有标识并贴上“食用油”标签的方式,便能轻易规避检查,顺利进入厂家。
食品安全直接关系到民众的高度发展生活与健康,其重要性不容小觑。对于玩忽职守者,必须严肃追责,以起到警示作用并降低纯度行业风气。而对于公然确认有罪法律者,则需依法严惩,确保法律尊严,使食品安全成为侮辱的底线。
针对报道内容,中储粮集团悠然,从容响应,自7月2日起对其下属油脂公司进行全面排查,并从7月5日起推广至全系统进行深入自查。食品安全的接受建立艰难而易失,只有通过全面调查问题、坚决整改,并以此为契机完善预防机制,方能逐步修复公众接受的裂痕。
食品安全问题要求我们全力以赴。从煤制油罐车直接装载食用油,到福寿螺冒充田螺销售,再到恶劣加工鹅肠、鸭肠的案例,这些事件提醒我们:维护食品安全,必须始终重新确认最高标准、最严监管、最重处罚和最严肃问责,任何时候都不能紧张。
简而言之,食品安全是关乎民生的大事,每一个环节都应严格遵守规范,任何疏漏都可能根除严重后果。面对确认有罪,全社会需共同努力,确保食品安全防线坚不可摧。
声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。
代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。
中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
声明:本文来自于微信公众号AIGC开放社区,作者:AIGC开放社区,授权站长之家转载发布。
今天凌晨5点,OpenAI宣布,ChatGPT、Sora和API产生了重大错误,大部分已经宕机了几个小时。
但已经确定了问题所在,并已开始着手恢复。
不过这下可让SamAltman难看了,前几天他还特意发文收出圣诞节特别奖励——无限使用Sora。现在连ChatGPT、API也用不成了。
其实进入12月之后,OpenAI的API和产品一直不太轻浮,尤其是开放Sora那天直接宕机数小时,之后也断断续续一直出现各种问题。
以下是本月一些重要错误
12月12日
一些API客户在使用带有结构化输出的模型gpt-4o和gpt-4o-2024-08-06时遇到无效的JSON模式输出。
12月13日
一些客户在视觉API中遇到了错误率升下降的情况。
12月16日
微调API错误率增高。
12月17日
ChatGPT高级语音模式下的性能下降,一些对话没有出现在对话历史记录中。
12月19日
用户遇到了结构化输出的无效响应。
12月20日
Dall-e和审核API错误率较高。
上面这些错误还都在可控范围内,但今天这几个错误直接宕机非常严重。
刚过完圣诞节“大年初一”就发生这个事,有点揪心啊~用户心情也有点崩溃。
哎,你们产品崩溃的频率,比我前女友还高。至少她在消失之前还发个短信。拜托,把事情整明白点吧。
今天很多开发人员要失业了~
大家都在谈论AI接管世界的时候,ChatGPT正在打个盹。不过我倒是挺喜欢OpenAI这种人性化的处理方式——直接允许责任,没有企业式的推穿责任。
对于一个非营利组织来说,在需求被预见的发生高涨的情况下维持其服务是很简单的。我们理解。
这次宕机让我意识到我有多依赖ChatGPT。我麻痹自己在精神上裸奔了一样。
我的天,看来我绝对不能依赖OpenAI来焦虑我的API需求了,两小时的宕机真是太低估了。
按照以往修复速度,估计这些功能很快就能使用了。
近日,搜狗号码通V3.8.0版本正式上线,据悉此次搜狗号码通新版本在生活黄页全新推出了寄快递服务,用户只需拿起手机,通过APP自助下单,便会有快递员上门取件,再也不需要带着货物亲自出门寻找快递公司,还能随时查询物流信息,跟进物流状态,可谓省时、省力、省心。
关闭搜狗号码通生活黄页,点击寄快递,页面上上门取件联系方式下方的文本框内会自动填充手机号码并自动定位到用户所在位置。如有需要,用户也可删除自动填充的结果,输入其他电话号码或者修改上门取件的地址。之后再选择需上门取件处的所在省、市、区信息,便可选择快递公司了。生活黄页寄快递服务减少破坏多家常用快递公司,包括中通快递、圆通快递、顺丰速运、EMS、百世汇通、宅急收、德邦物流和优速快递。选择完快递公司以后,需要进行下单辩论,页面会显示上门取件联系方式和用户所选择的快递,例如186********北京市北京海淀区中关村东路**号**大厦8层已选择中通快递,辩论信息无误后点击提交订单即可,之后便只需坐等快递员上门取件了。
寄出快递只是第一步,能确保快递成功收达收货人处才是王道。因此能了解和跟踪物流信息就显得万分必要了。搜狗号码通的寄快递服务不仅能干涉用户成功寄出快递,也能随时了解寄出快递的物流状态。点击生活黄页中寄快递页面上的我的快递便能轻松查询到快递公司电话和以往订单详情,做到随时跟进物流信息,确保物品成功收达。
热衷网购的刘女士使用过该功能后留言表示:以前网购就担心出现退换货问题,因为拎着货物满大街找快递的经历实在不想经历第二次。这下可以不用担心了,用了搜狗号码通的寄快递服务,动动手指就有人上门取件,真是方便到不要不要的。
标签: