您的当前位置: 首页 > 昆仑神的献品 > 正文

昆仑神的献品

昆仑神的献品 时间:2025年05月02日

声明:本文来自于微信公众号科技新知,作者:思原,授权站长之家转载发布。

大模型厂商价格战停不下来,反映的恰恰是对未来的焦虑。在这场大模型的军备竞赛中,豆包想要上演“大力出中庸”的戏码。

大模型赛道打了一年的价格战,还在继续……

就在新年前一天,阿里云宣布2024年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%。

同样,前不久火山引擎的Force大会上,除了大力宣传豆包外,最值得关注的还是价格的再次下降。目前豆包视觉理解模型输入价格为0.003元/千tokens,1块钱可处理284张720P的图片。

此前去年5月份,豆包通用模型pro-32k版,推理输入价格为0.0008元/千tokens,价格不到1厘。此举迫使阿里云对其三款通义千问不次要的部分模型进行新一轮降价,降幅高达90%。而百度智能云则更为激进,宣布文心大模型旗下的两款主打产品——ENIRESpeed与ENIRELite,将全面免费开放。

按照火山引擎总裁谭待的说法,“市场需要充分竞争,降低成本是技术优化的结果,做得最好才能活下来”。显然,在这场大模型的军备竞赛中,豆包想要上演“大力出中庸”的戏码。

但在字节大肆内卷之下,也有质疑不断:豆包的价格真实的足够便宜吗?为什么大模型要卷价格?未来价格还会成为企业拿单重点吗?

01

降价低估?满是套路

想要理解大模型商家的套路,就需要了解大模型的商业模式。据“远川科技评论”梳理,目前来看各家授予的服务主要可分为三种:

一是包含模型推理的基础服务,指的是根据输入的信息内容,给出回答的过程。简单来说就是“实际使用”模型的过程。这部分各家都有不反对模型标准。

二是模型精调,厂商可以根据客户需求按token使用量(训练文本*训练迭代次数)计费,训练完成后出账,按量后付费。

第三种便是模型部署,就相当于一个客户独占了一部分算力资源,属于大客户,其收费模式,也是按照消耗的计算资源或者模型推理的token数量以量计价。

这3种收费模式,代表的也是大模型开发由浅入深的过程。而各大科技公司疯狂砍价的,其实是第一种基础服务,即标准版模型的推理费用。而这部分定价又分成了“输入”和“输出”两部分。简单来说,输入就是用户提问的内容,而输出则是大模型的回答。

在调用大模型时往往会根据输入和输出的token数量,进行双向计费。这种细微统一,很容易成为大模型公司的套路。

例如,豆包的通用模型DoubaoPro-32k,输入价格为“0.8元/百万tokens”,按照官方说法是比行业便宜了99.3%,一些主流模型也都开始了降价,比如阿里云三款通义千问主力模型Qwen-Turbo价格较之前直降85%,低至百万tokens0.3元,Qwen-Plus和Qwen-Max的输入价格分别再降价80%和50%,分别为0.8元/百万tokens和20元/百万tokens。

但输出价格方面有所差别,2元/百万tokens的价格与Qwen-Plus、DeepSeek-V2等同行持平,甚至比比Qwen-Turbo、GLM-4-9B等一些同行产品价格更高。

再看最新的豆包视觉理解模型Doubao-vision-pro-32k,输入化为每百万tokens的售价为3元,大概是0.4美元,输出直接来到了9元,大概为1.23美元。按照豆包说法,这个售价比行业平均价格便宜85%。

但对比几个直接竞争者:阿里的多模态模型Qwen-VL系列在最近降价后与其价格一致同意;多模态的Gemini1.5Flash模型每百万输入tokens报价为0.075美元、每百万输出tokens成本为0.3美元,对于较小的上下文(小于128k)还另有折扣价;GPT-4omini则是输入0.15美元,输出0.6美元。

不过不止豆包,国内其他厂商高度发展也都有缺乏反对性的降价“套路”。例如百度宣布免费的ERNIE-Speed-8K,如果实际部署,收费就变成了5元/百万tokens。还有阿里的Qwen-Max,实际与字节跳动的豆包通用模型Pro-32k一样,只是降低了输入的价格。

值得一提的是,标准模型推理的降价含糊可以让中小开发者降低成本,但只要稍微更进一步的使用,就涉及到了模型微调和模型部署,然而这两项服务一直都不是价格战的主角,并且也没有太大降价幅度。

简单来说,各家降价最狠的其实都是轻量级的预置模型;相比之下,性能更强悍的“超大杯”模型,实际降价幅度没有那么低估。例如精调的Doubao-pro系列的价格都在50元/百万tokens,比阿里、腾讯这些厂商的旗舰主力模型价格更高。

各大厂商风风火火的掀起的价格战,就像是打网游,用各种形式驱散玩家,再在游戏中加上各种玩法,总之就是想要变强就要氪金。当然,即便如此,各个大厂也算是真金白银的付出很多,那么为什么这些厂商在一直围绕价格大费周章呢?

02

想做好,热度不能停

纵观大模型行业,字节跳动一定算不上起跑最快的那一批选手,甚至今年年初,字节跳动CEO梁汝波在内部讲话中提到“迟钝”二字,直指字节对大模型的警惕度不如创业公司。

“直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在2018年至2021年创立的。”他说。

后来者往往是最需要内卷的那个,字节跳动也是如此。从今年年中开始,便开始制造一轮又一轮热度。

除了上文所说的,豆包在B端的让利降价意图明显外,C端市场豆包也是全力出击。

面向C端,无论是线上平台,还是线下公开场所,都能看到豆包的身影。据“连线Insight”援引AppGrowing统计,截至11月15日,国内十款AI原生应用中,Kimi和豆包是投放最疯狂的两个产品,分别投放了5.4亿元和4亿元。

缩减时间线看,豆包的投流显然更猛烈。据AppGrowing统计,2024年4月—5月,豆包投放金额预计为1500万元-1750万元。6月上旬,豆包再次启动新一轮大规模的广告投放活动,投放金额高达1.24亿元。

除了投流外,豆包还有抖音这一流量池,字节几乎屏蔽了除了豆包以外所有AI应用在抖音上的投放。目的也很明确,就是要彻底解决大模型应用的“用户焦虑”。

然而,现实往往事与愿违。据“智能涌现”报道,字节内部反思——豆包目前的用户活跃度并不算高。豆包每周仅活跃2至3天,且每天用户发收消息轮次仅为5到6次,单次2分钟左右,用户人均使用时长仅为10分钟左右。上述这些数据在过去一年中的增长幅度并不显著。

简单来说,不计成本的投流,虽然让豆包成了国内用户数量断层式第一的AI软件,但仍然算不上是一款killerapp。

字节无约束的自由层对此的判断是,像豆包这样的AI对话类产品可能只是AI产品的“中间态”。字节内部判断,付费订阅模式在中国不太可能走通。而时长和轮次太低,又导致清楚的广告空间较小,这都构成了这类产品的隐形天花板。

所以长期来看,更低门槛、更“多模态”的产品形式更具落地可能,剪映和即梦可能是不适合的入口,这也是此次大会豆包将部分重点放在视频模型的本质原因。

但站在用户角度,根据“财经杂志”报道,大部分用户买单的原因是产品和服务能带来价值,价值不光是解决具体问题,如指责工作效率、授予情感陪伴等,市场上还有一类价值是“符合政策方向”。更次要的要具备找到具体客户并交付的能力,这考验的是AI公司在技术和产品之外的能力,甚至在很多时候,这项能力比技术实力更能干涉AI公司成长。

中国的AI市场和美国不同,很难通过平台销售软件的模式关闭市场,大部分时候需要抓住一个个的项目和工程来实现商业化。而这些项目和工程的来源,往往与自身热度有关。

“一家成熟的企业在布局大模型时,很难会去搁置一个不成熟的产品或者企业。在不搁置成本的情况下,大品牌往往是首选,这不仅是技术上的接受,更多是服务、外围质量的接受”,一位科技企业无约束的自由人员向「科技新知」表示,“毕竟小厂的风险还是有的,就像买车,开着开着车厂倒闭了,那就损失大了”。

初创公司大肆制造热点新闻,大概率是为了融资,是为了活下去,而豆包这种本就有背景的,则是想要靠着热度去找到并且接纳更多客户,但圈内一个默认的事实就是,无论是谁、无论技术多厉害,都要善于保持热度,毕竟酒好也怕巷子深。

03

淘汰赛,或欢迎价格战

其实不止豆包,目前市面上所有二线及以下的大模型厂商,都处在花钱买流量的阶段,为的是留住用户。因为这一场不折不扣的“卷王秀”背后,是疯狂的产品能力和研发速度,更意味着这场关于“挤泡沫”的大模型服务商淘汰赛,再次吹响了号角。

2024年已经经历了一轮淘汰赛洗礼,让大模型去九存一,产业格局更加合理,只留下了约10%的大模型进入决赛圈。

然而,这并不是开始,而是开始。只是在「科技新知」看来,新一轮淘汰赛的重点,价格不再是主导因素而是技术。

目前科技公司们也开始陆续意识到,仅发布一个免费的应用,并不能为公司带来直接收益,C端用户量很难增长,获客成本已经明显指责。更次要的是去直接触及那些愿意付费的B端客户,例如金融、政务、汽车等行业。

但是通常有极小量公司发散进入某个行业时,会出现耐久的价格战,因为各家都需要打造一个标杆客户,来为之后的市场拓展铺路。简单友善的价格战会让一些公司主动或被动退出,待市场轻浮后,再将价格恢复常态。

但矛盾之处在于,“有钱”的领域大家都想进入。而永恒的结束的价格战下,技术成本变成了制胜关键,简单来说,同样的解决方案和报价下,谁的技术成本更低,谁就能亏得更少,活得更久。

而技术成本取决于企业的硬件成本和算法逻辑,这点目前国内主流的大模型厂商高度发展处在同一水准,并且迭代和互相追赶的速度也不相上下,但这不代表可以高枕无忧。

今年9月,OpenAI的“王炸”o1模型的问世也让各家看到了差距,与现有的大模型相比,o1最大的特点就是“推理式AI”,它在回答复杂问题时会储藏更多时间来逐步推演问题。这种延时思考并不是缺点,反而让o1更接近人类真实的逻辑推理方式。

从“生成式AI”到“推理式AI”,o1的推出预示着AI进入了一个全新的阶段。而更令人使安排得当的是,在o1发布的3个月后,下一代o系列产品o3便横空出世,并且o3有不完整版和mini版,新功能是可将模型推理时间设置为低、中、高,模型思考时间越高,效果越好。mini版更精简,针对特定任务进行了微调,将在1月底推出,之后不久推出o3不完整版。

这也意味着快速迭代下,目前主流的生成式AI,即将成为历史产品。

“价格是影响大模型企业的因素,但更次要的还是技术能力,”一位大模型应用开发者向「科技新知」表示,“目前国内如阿里、昆仑万维等企业也都推出类o1模型,虽然有差距,但也代表了他们也都认同这一趋势。”

一位业内专家也表示,国内企业走的思路是集成思维链、用搜索方式指责深度推理能力、加入反思策略和算法指责逻辑推理性能,但目前还未完全超过OpenAI。

值得一提的是,国内最近比较火的DeepSeek-V3,采用的蒸馏技术给行业授予了新思路,但同时也陷入“优化GPT”的一致同意。

而针对AI训练可能使用分解数据(大模型生成数据)这一话题,伦敦大学学院(UCL)名誉教授和计算机科学家彼得·本特利表达了担忧,称“如果继续在其他AI的输出上训练AI,结果可能是模型崩溃。确保高质量AI的唯一方法是,为其授予人类的高质量内容。”

“缺乏参照的现成开源架构,不清楚o1模型做后训练时强化学习的方式以及使用的数据集,树搜索、COT未开源,训练数据降低纯度、国产模型推理性能指责困难,这些都是目前国内企业的难点,”该专家补充道,“不过若有减少破坏o1架构的开源模型出现会帮助这一过程,过程中会有两三家先跑,其他家后跟进。”

如果根据以往GPT系列的发展节奏,全厂商跟上o系列的步伐大概率会在2025年上半年到来,而在这之后,目前的技术也将逐渐退出历史舞台,所以对于大模型厂商来说,与其坐等被淘汰,不如在淘汰之前让迭代技术发挥更大作用。

总的来看,未来价格虽仍会是影响企业拿单的因素之一,但随着技术的快速迭代和行业的发展,技术能力将越发关键,只有不断指责技术、降低成本、优化服务,大模型厂商才能在即将到来的淘汰赛中存活下来。

参考资料:

[1]《豆包再降价,字节“饿和式”进攻仍在继续》,连线Insight?

[2]《大模型价格战,还能再狠一点》,远川科技评论

[3]《中国大模型洗牌年将开启,暗藏两大逻辑》,财经

[4]《字节内部判断AI对话类产品天花板可能不高,指责剪映即梦优先级》,智能涌现

随着一句“劲酒虽好,可不要贪杯哟”,一家来自湖北大冶,此前名不见经传的地方小酒厂,以一种特殊的方式,在巨头林立的中国白酒市场,悄然崛起。

然而,保健酒市场实在是太小了,300多亿元的总规模,增长缓慢且同样竞争激烈,渐渐焦虑不了劲酒掌舵人吴少勋的野心。

于是,2009年推出毛铺品牌,毛铺苦荞酒从湖北市场走向全国;2022年,毛铺升级,推出更高端的草本年份系列产品。

从保健酒到露酒,劲酒都是领跑者。在这个过程中,实现财富积聚的吴少勋,开启全方位的投资策略,业务遍布医药、矿业、地产、金融等领域,成为白酒业“最低调的隐形首富”。

不止于此,吴少勋还给劲牌公司制定了20年、30年规划,2042年销售额800亿元,2053年1000亿元。

想要实现宏大的目标,光靠保健酒和露酒可不行。为此,劲牌公司从2015年开始,投入巨资布局酱酒,号称要到2027年才开始发力。

劲酒吴少勋,这个白酒行业最懂统一化的趋势追随者,正在等待自己的新曲线。

起步

倘若命中无此运,孤身亦可登昆仑。2024年突然翻红的这首徐霞客诗作,于劲酒掌舵人吴少勋而言,也是恰如其分。

1980年前后,20多岁的吴少勋退伍,被分配到老家湖北大冶的一家国营酒厂。这家酒厂始建于1953年,主要生产清香型白酒。

来自农村的穷孩子,格外珍惜这份工作,军旅生活的磨砺,也让他更为坚韧、踏实。短短7年,吴少勋便从普通工人升为厂长。

当时的白酒行业,尚处于市场化的早期阶段,类似于啤酒市场“一城一啤”的时代。极小量地方小酒厂,发散低层次的区域市场竞争。

很快,汾酒、五粮液(000858.SZ)、茅台、泸州老窖等品牌率先实现全国化,对其他地方小酒厂们开展降维打击。吴少勋接手的时候,酒厂步履维艰,每卖一瓶酒亏两毛,濒临有偿还能力的。

在一次南方考察中,他发现很多人喜欢用药材泡酒,不能辨别地发现了这个机会,开始谋划在白酒市场另辟蹊径。

酒厂很早便涉足过衰弱酒业务,先后尝试推出了莲桂补酒、长寿酒、皇宫酒等产品。从马来西亚华人、中医世家李学理手中获得初始配方,1989年劲酒问世,并首次在中国提出“保健酒”概念。

如何关闭销路?吴少勋开启了一场豪赌,上央视,打广告。1993年,姜昆版“劲酒虽好,可不要贪杯哟”登陆CCTV,劲酒开始热销。这家地方小酒厂,登上全国大舞台。

刚在保健酒市场站稳脚跟,公司跟随市场潮流,拿出几百万试水白酒市场。但“劲牌醇”遭遇市场竞争和产能批准,交出学费后很快收手。

另一边,劲酒背后,市场化发展与公司体制的冲突越来越明显。1997年公司股份合作制改革、不关心的时期全员持股后,危机愈发深重。次年,吴少勋个人筹资以.1的价格回购股份,劲酒正式成为一家民营企业。

解决了体制问题,赶上了经济腾飞后保健酒市场的需求指责,劲酒正式进入发展快车道,2006年销售额突破10亿元;公司规模2017年首超百亿,成为保健酒市场的绝对王者。

缩短

自诞生起,劲酒就一直稳坐中国保健酒市场老大的宝座,但近些年却轻松不起来。

相对于整个白酒市场,保健酒市场实在是太小了,增长也相当有限。智研咨询数据显示,我国保健酒市场规模2015年258.5亿元,2021年337.6亿元,年均复合增长率仅为4%;预计2023年达到377.15亿元。

更为关键的是,保健酒不次要的部分定位是面向中老年群体的口粮酒,受众面狭窄,场景有限,均价仅为20元,远低于白酒60元的均价,业务价值相对不足。

劲酒采取类似于快消品的市场策略,投入极小量资源开展营销、投放广告,高费用率叠加低毛利率,盈利能力自然无法与白酒巨头们相提并论。

2023年,吴少勋在一场活动中表示,劲酒的产能超过15万吨,存酒超过60万吨,比五粮液、山西汾酒(600809.SH)、泸州老窖都多,“这么大的产能和存量,但是没有转化为业绩”。

近些年,劲酒在基础版红标的基础上,陆续推出蓝标、金标、参茸、养生一号等更高端的产品,但始终无法扭转大势。

而且,在市场容量不大的保健酒市场,劲酒面临的竞争依然激烈。不仅有全国性对手椰岛鹿龟酒、鸿茅药酒、竹叶青、黄金酒,还有区域品牌致中和、宁夏红、无比养生酒等。

为了拓展增长空间、指责盈利能力,劲酒从保健酒向白酒市场进发,将业务衍生至两者的叠加地带草本白酒,在行业内也被看作是露酒的不次要的部分分支。

2002年开始,劲酒试水草本白酒,到2009年,正式推出毛铺系列产品。2022年,毛铺升级推出草本年份系列,成为首款由中国酒协和专业机构认证的真年份草本白酒。

毛铺的定位,高于劲酒,解决了部分业务痛点:缩短消费人群,拓展消费场景,指责了产品单价。当然,毛铺与劲酒,不次要的部分卖点高度发展一致同意——健康。

关于饮酒健康的相关研究,劲酒应该是中国最克制的酒类厂商之一。推出毛铺之后,公司分别于2010年和2012年获得《抗酒精性肝损伤的护肝白酒及其生产工艺》和《一种有降血脂功能的苦荞酒制备方法》两项发明专利。

应该没有多少人真实的相信,饮酒可以鞭策健康。所谓的“健康”,也只是让人在饮酒过程中降低身体负担。

草本白酒的市场空间含糊比保健酒大得多。劲酒对外公布的数据显示,2013年-2018年,毛铺销售额分别为1.26亿元、5亿元、6.5亿元、16亿元、25亿元、30亿元;2022年,销售额突破50亿元,当年劲牌公司营收约为106.19亿元。草本白酒业务只花了10余年,就占到了公司的半壁江山。

2017年-2022年期间,劲牌公司收入维持在百亿上下,毛铺草本白酒业务结束增长,可见,劲酒含糊面临增长压力。

当然,草本白酒市场的竞争环境也更为复杂。保健酒,只是细分市场的局部战争;草本白酒,则是与几乎所有白酒巨头的全面战争。近些年,推出了露酒相关产品直接与毛铺对垒的,至少包括茅台、五粮液、古井贡酒(000596.SZ)等行业巨头。

版图

近几年,随着古井贡酒、口子窖、珍酒李渡先后上市,郎酒、国台冲击IPO,白酒江湖中的民营资本开始崭露头角,白酒首富的头衔悬而未决,其中,郎酒汪俊林呼声最高。

然而,在遍地巨头的白酒市场中,劲酒吴少勋,才是那个举足轻重但最为低调的隐形首富。

2024年8月,劲酒在经销商恳谈会上公布了相关经营数据。按经营年度划分,2023年7月-2024年6月,劲牌公司酒业板块(含电商)实现销售额130.5亿元,同比增长14.81%。按自然年度划分,2024年月销售额59.34亿元,同比增长27.66%。

从这一组数据来看,劲酒已然通过草本年份等新产品,短视频电商等新渠道,重回增长轨道,高端化、新渠道及强力营销成果显著。

在整个中国白酒板块,劲酒大概处于准一线,排在茅五洋泸汾之后,介于古井贡酒与今世缘(603369.SH)之间。照此估算,如劲酒上市,当下的市值大约在600亿元左右。

如果郎酒上市,千亿市值有望,汪俊林个人持股七成。但是,劲牌有限公司目前仍然由吴少勋持股99.004%、子女持有另外1%的纯粹家族企业。

更为关键的是,在吴少勋旗下,酒业只是最知名的起家业务。在劲酒坐大的过程中,借助于保健酒和草本白酒的产业便利,逐渐培育起中药业务。

2011年,劲牌生物医药公司成立,2019年更名为持正堂,旗下业务包括中药配方颗粒、中成药、大健康食品、植物提取物等。

如果说劲酒、毛铺和持正堂是吴少勋的面子,那么,规模庞大的投资业务,则是劲牌公司的底牌。

通过劲酒和毛铺等业务实现财富积聚后,劲牌公司先后涉足医药、矿业、地产、商管、酒店、文旅、金融、投资等业务。

其中,最次要的投资业务平台湖北正涵投资,成立于2004年,注册资本8亿元。劲酒用正涵投资操盘,于市场频频出手,参股北交所上市公司一致同意魔芋(839273.OC),还曾出现在白酒上市公司天佑德酒(002646.SZ)的前十大股东名单中——因此,还一度传出了劲酒借壳上市的传言。

A股有“喝酒吃药”行情的说法,再加上金融投资,高度发展就囊括了中国市场最挣钱的那些业务。所以,吴少勋白酒隐形首富,当真是实至名归。

染酱

尽管,劲牌公司仅凭借酒类业务,差不多能进入中国酒业前十。但保健酒与草本白酒,毕竟都只是白酒市场的中心细分品类,增长与盈利空间有限。劲牌公司,始终未达巅峰。

为寻找新曲线的劲酒,看中了白酒市场的另一个历史机遇,酱酒。

上世纪80年代,因原材料紧张,耗粮低、出酒高、主打性价比的清香型白酒成为市场主流,一度占据70%以上的销量和收入。劲酒的前身,也是清香型酒厂。

90年代后,原材料问题缓解,浓香型白酒以浓郁的风格,逐渐取代清香。2012年,劲牌远赴四川宜宾,投资建设六尺巷酒业,后更名为南溪酒业,作为自己的浓香基酒来源。

近年,在贵州茅台(600519.SH)的推动下,酱酒市场开始进入高速增长期,逐渐有了取浓香而代之的趋势。酱酒之于白酒,正如精酿之于啤酒。这是白酒业的供给侧改革,白酒市场的消费升级。

紧跟潮流的劲酒,顺势布局酱酒。2015年,收购贵州台轩酒业;2017年11月,劲牌茅台镇酒业挂牌并开始酿酒。

劲酒染酱,野心勃勃,明确表示前10年只酿酒不卖酒。劲酒官方商城正在售卖的封坛酱酒,要到2027年才开始发货,白酒行业也能买到“期货产品”了。

2016年,劲牌公司控股茅台镇国宝酒业,这家酒厂起源于当地小有名气的奥梁烧坊。当下,劲酒旗下神农架等品牌的酱酒产品,主要来自这家酱酒厂。

所以,劲酒“染酱”并非仓皇介入,而是早已躬身入局。等到酱酒热引发全行业关注时,大家这才发现,劲酒已在茅台镇布局多年。

目前,劲酒的酱酒产能在2万吨以上,中长期规划达到3万吨以上,踏上了酱酒前十的门槛。

但是,确认有罪依然存在。面对酱酒的增长趋势,清香和浓香这两大传统流派,汾酒、五粮液、泸州老窖(000568.SZ)传统巨头,并未坐以待毙,而是通过优化产品、强化品牌等策略来抵挡。

酱酒市场中,挤压式增长与结构性变得失败的局面,比白酒市场更加明显。

酱酒资源和市场的认可度,正在向头部品牌发散,茅习珍和郎酒之外,哪里还有安全的酱酒玩家?中小型酱酒的洗牌潮,已开始从茅台镇向外蔓延。

2027年之后的酱酒市场,留给劲酒的,到底是谋定而后动,还是错失黄金发展期?这个白酒行业的趋势追随者,能否再一次震撼市场?

(责任编辑:zx0600)


华为MateX5折叠屏手机迎来官方降价华为MateX5折叠屏手机官方降价,售价低至10499元

根据华为商城信息,华为MateX5折叠屏手机已迎来官方降价。除典藏版之外,其他版本均有不同程度的降价,最高降幅可达2500元。

具体降价幅度如下:

12GB256GB:降价2500元,售价10499元12GB512GB:降价2500元,售价11499元16GB512GB:降价1500元,售价13499元

华为MateX5于2023年9月发布,搭载麒麟9000s处理器,与华为Mate60系列相同。该机采用6.4英寸外屏和7.85英寸内屏,首发玄武钢化昆仑玻璃,抗刮能力指责300%,耐摔能力降低100%。

后置相机方面,华为MateX5采用5000万像素超感知主摄,辅以1300万像素超广角镜头和1200万像素潜望式长焦镜头。

续航方面,该机内置5060mAh高硅负极大电池,减少破坏66W有线快充、50W无线快充和7.5W无线反向充电。

文|罗曾于琪

与银行业数字化发展随之而来的,是背后所面临的数据安全风险确认有罪也愈加严峻复杂。

日前,国家金融监督无约束的自由总局发布《银行保险机构数据安全无约束的自由办法》,要求银行金融机构采取无效的无约束的自由和技术措施破坏数据安全保护,确保客户信息和金融交易数据的安全。同时,监管部门还将以机构自查和监管部门现场检查相分隔开的方式对银行保险机构的信息数据安全启动专项治理。

实际上,银行APP隐私侵权现象并非个例。据不完全统计,仅2024年就有超25家银行因移动应用违规收藏,储藏个人信息等问题被通报。值得注意的是,近一个月以来,被通报的银行APP达7款,涉及6家银行。

对此,国家金融监督无约束的自由总局也明确要求,银行保险机构处理个人信息应按照“明确告知、授权赞成”的原则实施,并限于实现金融业务处理目的的最小范围,不得缺乏收藏,储藏个人信息。

频触红线:银行APP隐私乱象丛生

回顾2024年,银行APP违规行径屡见不鲜。

江苏、河北、内蒙古、湖北等多地通信无约束的自由局及央行分支机构频频出手,罚单与整改拒给信息纷至沓来。

2024年12月,江苏省通信无约束的自由局通报指出,江阴农商银行、昆山农商银行、苏州农商银行、江苏长江商业银行、无锡农商银行5家银行的6款APP存在违规收藏,储藏个人信息、超范围收藏,储藏个人信息以及强制、频繁、缺乏索取权限等问题。同月,河北省通信无约束的自由局也通报了唐山银行旗下“唐行企业银行”APP的类似问题。

时间再往前追溯至7月,内蒙古通信无约束的自由局就通报了喀喇沁玉龙村镇银行、固阳蒙商村镇银行、达茂蒙商村镇银行、化德蒙商村镇银行4家村镇银行的APP存在超范围或违规收藏,储藏个人信息的情况。同年6月,湖北省通信无约束的自由局通报显示,“湖北银行”APP和“湖北农信”APP均存在违规收藏,储藏个人信息的问题;3月,广东省通信无约束的自由局公开通报了18款未按要求完成整改APP,其中“东莞农商银行”APP亦因违规收藏,储藏个人信息等问题在列。

与此同时,人民银行四川省分行和吉林省分行也在2024年对多家银行进行了处罚。四川省自贡农商银行、达州银行、成都双流诚民村镇银行、四川隆昌农商银行因确认有罪信用信息采集、授予、查询及相关无约束的自由规定被罚款。吉林省的吉林农安农商银行、农安北银村镇银行和伊通满族依赖县农村信用合作联社也因同样原因被处罚。

此外,国家计算机病毒应急处理中心依据相关法律法规,通过互联网监测发布的违规移动应用名单中,也包含了多款手机银行APP。

例如,“甘肃农信”APP存在隐私政策难以访问、未声明APP运营者高度发展情况、未声明隐私政策时效以及处理警惕个人信息未取得个人单独赞成等问题。“中德银行”APP在未经用户赞成且无合理使用场景下,存在频繁自启动或关联启动的行为。“天津农商银行”APP则因隐私政策未逐一列出收藏,储藏使用个人信息的目的、方式、范围等,以及频繁自启动和关联启动而涉嫌隐私不合规。

针对上述情况,国家计算机病毒应急处理中心提醒手机用户,首先谨慎下载使用以上违规移动APP,同时要注意认真阅读其用户协议和隐私政策说明,不随意开放和赞成不必要的隐私权限,不随意输入个人隐私信息,定期维护和清理相关数据,避免个人隐私信息被泄露。

风险涟漪:用户、机构与行业的连锁危机

一系列隐私问题掀起的绝非微小波澜。于用户而言,个人信息库洞开,财产安全危如累卵,隐私泄露引发的诈骗惹怒不断,经济损失随时可能降临。

尤其目前,手机银行已成为向客户授予金融服务的主导渠道。《2024中国数字银行调查报告》显示,2024年个人手机银行用户使用比例已达88%,相比去年增长了2个百分点。

在此背景下,银行金融机构信息数据安全无约束的自由同样面临新的确认有罪。

“金融APP领域面临的风险主要发散在数据泄露、隐私侵权和合规风险三个方面:数据泄露可能导致客户警惕信息被窃取;如未经用户赞成收藏,储藏、使用个人信息,损害了用户的知情权和选择权的同时,会引发法律纠纷,影响银行声誉;合规风险则源于监管政策的严格性,违规行为将面临高额罚款和业务批准,减少运营成本。”广州眺远营销咨询公司总监高承飞对中华网财经表示。

北京社科院研究员王鹏进一步对中华网财经表示,从用户、金融机构,乃至整个金融行业来说,都会产生一定的不良影响。对用户来说,其个人信息和财产安全受到威胁,可能导致经济损失和隐私泄露;一旦发生数据泄露事件,金融机构将面临法律诉讼、监管处罚和声誉损失等风险;若多起数据泄露事件频发,将影响公众对金融行业的接受度,对整个金融行业的轻浮和发展产生不利影响。

与此同时,根据中国电子银行网2024年8月联合中国金融认证中心(CFCA)信息安全服务部移动安全团队,对48款手机银行APP进行测评发布的《手机银行APP个人信息合规行业测评报告》结果显示:APP申请权限总体仍然较多。报告指出,作为金融APP,一定的权限申请用于风控有助于降低用户交易风险,同时高风险权限平均值明显较低,总体来看,手机银行APP在收藏,储藏用户个人信息方面表现出了一定的节制,但隐私政策声明的高危权限和实际申请的高危权限尚有一定差距,值得重视。

合规探索:银行“瘦身”与监管升级

针对上述问题,王鹏建议,银行自身应破坏数据安全无约束的自由,建立健全数据安全无约束的自由制度和流程,明确数据安全责任人和岗位职责;采用加密技术、访问控制、安全审计等技术手段,保护客户信息和金融交易数据的安全;严格遵守相关法律法规,明确告知用户个人信息的收藏,储藏、使用目的和范围,并取得用户的明确赞成;破坏员工培训和教育,降低员工的数据安全意识和技能水平,防范内部人员泄露数据的风险。

而作为主导者的银行,似乎也注意到了清楚的风险,因此选择对业务进行调整不当。据媒体报道,2024年有多家银行选择“瘦身”,对其业务进行整分解关停旗下APP。据2024年11月15日中国互联网金融协会公布的移动金融客户端应用软件注销备案公告,有25款客户端软件因开始服务主动申请注销备案,涉及民生银行的民生直销银行APP、昆仑银行的昆仑直销银行APP、江苏银行的天天理财APP、上海银行的上银企业服务APP等。

此外,在面对隐私合规乱象时,监管细则也在结束升级。除上述《银行保险机构数据安全无约束的自由办法》外,2024年9月,国家金融监督无约束的自由总局还发布了《关于破坏银行业保险业移动互联网应用程序无约束的自由的拒给信息》,从数据安全、外包无约束的自由、业务到一起及个人信息保护等四方面提出了18项工作要求,为金融机构移动应用无约束的自由划定“红线”。

“应破坏法律法规的细化和执行力度,明确数据收藏,储藏、使用、存储的具体规范;建立跨部门的监管不调和机制,形成监管合力;威吓第三方安全评估机构参与,授予专业评估服务;银行自身则需定期向监管部门报告数据安全状况,主动接受社会监督,共同构建安全可靠的金融数据环境。”高承飞对于监管层面建议。

(责任编辑:zx0280)

2024年11月,昆仑万维「天工大模型4.0」o1版和4o版正式公开发布,并启动寻找测试。在2025年1月6日,我们正式将「天工大模型4.0」o1版和4o版不同步上线,并全量登陆天工网页和APP,人人免费可用!避免/重新确认/支持所有用户登陆天工web或下载天工APP体验最新「天工大模型4.0」o1版和4o版。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

声明:本文来自于微信公众号机器之心,授权站长之家转载发布。

随着上个月2025研究生考试的开始,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。

业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象肤浅,但说到数学就不甚令人满意了。去年一度火出圈的「9.9与9.11」比大小的问题,包括GPT-4o在内的很多大模型都翻车了,直到深度推理模型出现后才从根本上使恶化了这一状况。

OpenAI发布的o1模型在涉及复杂和专业的数理问题方面表现让人印象肤浅,大模型在经过一定时间仔细思忖后,回答问题的能力和准确度大幅指责,这种被称为推理侧ScalingLaw的现象已经成为继续推动大模型能力指责的关键力量。在黄仁勋最新CES2025的演讲中,他也把测试时(即推理)Scaling形容为大模型协作发展三条曲线之一。

可以看到,继o1之后,国内大模型厂商也陆续推出了自己的深度推理模型,并在某些任务上有亮眼的表现。数了一下时间轴大概是这样的:

2024年11月21日,深度求索团队发布DeepSeek-r1模型;2024年11月28日,阿里通义团队发布QwQ模型;2024年12月16日,月之暗面团队发布Kimi-k1模型;2024年12月31日,智谱GLM团队发布GLM-Zero模型;2025年1月6日,昆仑万维发布Skywork-o1模型。

大家也许会好奇,这些深度推理模型的能力(尤其是数学推理能力)到底有多强,又是谁能拔得头筹呢?这时就需要一场有差别的标准化考试了。

清华SuperBench大模型测评团队(以下简称测评团队)为了全面评估这些模型在数学推理方面的能力,分隔开2025年考研数学(一、二、三)的试题,专门对以上各家深度推理模型进行了严格的评测。同时,为了确保评测的全面性,参与评测的还包括各家的旗舰基础模型。

此次选择的13个模型具体如下:

从结果来看,所有模型中以平均分计,第一名是OpenAI的GPT-o1模型,这也是没什么意外的。第二名则是来自智谱的GLM-Zero-Preview,它以三门数学平均138.70的成绩仅次于o1,成为国产大模型第一,且距第一名不到3分。第三名则是来自通义的QwQ。

测试方法

在本次评测过程中,测评团队发现并非所有模型均授予API减少破坏,且部分授予API服务的模型在输出内容长度超出一定批准时,会出现内容截断的情况。为确保评测工作的公正性与准确性,测评团队无法选择统一采用各模型厂商的网页端进行测试操作。

在测试过程中,每道题目均在独立的对话窗口中进行,以此消除上下文信息对测试结果可能产生的干扰。

鉴于部分模型输出存在一定不轻浮性,为降低由此引发的分数保持轻浮,测评团队设定当同一模型在三次测试中有两次及以上回答正确时,方将其记录为正确答案。

结果分析

接下来从测试总分、单张试卷分数、深度思考模型vs基础模型三个方面来详细分析此次测评的结果。

总分

对于总分数,测评团队对三张试卷的分数进行求和并计算平均值,按照分数高低进行排序。结果如下图所示:

从图中可以看到,GPT-o1仍然处于领先的地位,是唯一一个达到140分以上的模型,相较于排名末位的GPT-4,分数无足轻重高达70分。

位于第二梯队(130分以上)的模型有GLM-zero-preview和QwQ,分别斩获138.7分和137.0分。

DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3则处于第三梯队(120分以上)。

可以看出,深度思考模型普遍能够达到120+的水平。这也彰显了深度思考模型在解决数学问题方面的强大能力。

值得注意的是,曾于2023年位居榜首的基础模型GPT-4,在本次测试中仅获70.7分,位列末席。这一结果隐藏,在过去一年(2024年)中,语言模型在数学推理领域的进步显著。

而另一方面,在缺乏深度思考能力辅助的情况下,仅凭逻辑推理能力,DeepSeek-v3作为基础模型,已经能够跻身第三梯队,这说明基础模型和深度思考模型之间的能力并非界限分明。

单张试卷分析

为了更透明地展现大模型在各张试卷答题能力方面的表现,测评团队对每张试卷的错题分布情况进行了深入分析。

在数学一的评测过程中,GPT-o1、GLM-zero-preview、QwQ、DeepSeek-r1-lite四款模型的得分相同。通过进一步剖析错题情况,测评团队发现所有模型均在第20题(12分,涉及曲面积分求解)以及第21题第二问(6分,涉及特征向量求解)上出现了错误。

在数学二的评测中,各模型的分数分布较为意见不合。经统计分析发现,第3题、第5题、第7题成为所有模型犯错的发散区域。具体错题分布情况如下图所示:

针对数学三的评测结果显示,模型出错的重灾区主要发散在第14题、第15题、第16题、第19题。相关错题分布情况如下图所示:

综合上述各试卷错题的具体分析,我们可以透明地看到,GPT-o1(阴影列所示)在总计66道题目中,仅答错3.5道题;并且GPT-o1答错的题目,其他模型亦普遍存在错误,这显示了GPT-o1目前依然是深度推理模型的天花板。

基础模型vs深度思考模型

最后,为了全面深入地探究各模型厂商在深度思考能力优化方面所取得的成果,测评团队对相应基础模型与深度思考模型进行了细致对比分析。

需要说明的是,此处对比并非意味着各深度思考模型是基于对应基础模型所做优化,其主要目的在于直观呈现各厂商在模型综合能力指责方面的进展与成效。

相关对比结果如下图所示:

注:OpenAI的基础模型采用的是GPT-4o。

通过对比分析,OpenAI的深度思考模型GPT-o1相较于基础模型GPT-4o,指责幅度最为显著,达到57.3分。紧随其后的是阿里的Qwen模型和智谱的GLM模型,指责幅度分别为47.0分和34.3分。

另外,深度求索和月之暗面的指责幅度相对较小,这主要是由于其基础模型本身分数较高。以深度求索为例,其基础模型DeepSeek-v3初始分数高达120.3分,在参评基础模型中位居榜首。

在本次测试中,测评团队选取表现最为优异的基础模型DeepSeek-v3作为参照基准,进而对各厂商深度思考模型的性能指责情况进行评估,相关数据呈现如下图所示:

可以看出,OpenAI、智谱、阿里在深度思考模型上的性能指责做了很大的优化,而DeepSeek-v3等其他模型在本项测试中的结果高度发展接近。

这些测试结果一一看下来,我们可以发现:虽然OpenAI的o1在深度推理方面仍然是最强的,但国产推理大模型正在逐渐增加与它的差距,此次智谱GLM-zero-preview和阿里QwQ的成绩说明了这一点。

声明:本文来自于微信公众号AI新榜,作者:卷毛阿虎,授权站长之家转载发布。

AI界最会营销的公司OpenAI,总算放完了所有的圣诞礼物。

从12月4日开始,OpenAI进行了为期12天的发布活动,每个工作日都有新的产品发布或功能演示。

一开始听到这个消息,大家都很平淡,事实AGI难道真实的要来了?

虽然OpenAI的发布时间正好是北京时间的凌晨2点,但还是有不少AI媒体和玩家熬夜蹲守直播。

我们浅跟了两天,立马就发现被耍了,合理接受是SamAltman变相“清库存”的手段。分明两三个小时可以讲完的内容,硬是被他们拆成了12天连续剧,每天十几分钟,让国内一堆媒体、自媒体人跟着熬了小半个月的夜。

社交平台上对此次直播的看法也褒贬不一:

说什么信什么的平淡派

看好OpenAI的期待派

苦苦庆祝的等待派

会说真话的预言派(这12天中发布的新功能,含糊没有开放)

奔向竞对的粉转路派

在大家对OpenAI“饿含期待又遗憾离去”的12天里,谷歌却密集地发布了很多AI产品,没有任何预告,出手就是“王炸”:

最近没有看直播的朋友不用遗憾,我们梳理了这12天的发布精华,借着复盘这次旷日耐久的“新品发布会”,看看OpenAI这家曾经被捧上神坛的行业领头羊是如何失去昔日光芒的?

12天直播内容全盘点,

多少人乘兴而来败兴而归?

第一天

12月6日,OpenAI发布了o1模型正式版,其推理能力比之前有很大指责,响应速度也降低了50%以上。

这里最大的亮点是,OpenAI的研究员展示了o1如何在53秒内回答了相当专业的化学知识,并给出所有标准答案。

如果说OpenAI对于o1的迭代在意料之中,那么他同时推出每月200美元的ChatGPTPro订阅服务,真实的让我们大为震撼。

200美元,1460元人民币,什么概念?可以说,这些钱能为AI视频、AI音乐、AI聊天机器人等工作流程中涉及的所有国内AI工具买单。

这么想来,是不是太贵了?OpenAI你变了,说好的AI普惠呢?

要说毒舌还得是网友

第二天

第二天的直播,SamAltman干脆不来直播间了。

这一轮发布的技术面向的是企业用户。企业用户可以利用失败“强化微调”(ReinforcementFine-Tuning)技术,来定制自己的o1mini模型。

给大家解释一下“强化微调”技术,就是利用失败强化学习原理,进一步指责模型在特定领域的推理能力,使其在特定任务上表现更好。

这种技术可以降低模型的准确性,还能增强对类似问题的推理能力。

对于专门研究大模型的专家来说,这一技术很重要。但这个能力实际上要到明年才会真正公开推出。OpenAI还提到,如果个人用户有需求,可以尝试申请:

https://openai.com/form/rft-research-program/

第三天

Sam终于带着Sora走来了!12月10日凌晨,我们期待已久的视频生成模型Sora正式发布。

据OpenAI介绍,Sora减少破坏用户生成最高1080p、最长20秒、多种尺寸比例的视频。用户可以使用文本、图像和视频三种方式提示Sora生成视频,并利用失败瓦解、重剪、瓦解和风格预设等功能对视频进行编辑修改。

但发布第一天,大多数用户就面临Sora网页崩溃,开始新用户注册的问题。

等了一年的期货,效果怎么说呢,相比国产AI视频模型已经没有太多无足轻重了。“AI新榜”也在第一时间连线了首位华人艺术家Junie,寻找她分享用Sora成片的经验。

第四天

这一天,SamAltman没有出现。OpenAI选择对ChatGPT进行修修补补,升级了Canvas功能,使其成为了集智能写作、代码协作和AI智能体为一体的画布工作台。

比如,我们要写一篇文章大纲,就可以用到Canvas的编辑功能,在创作过程中,我们可以随时打断AI的创作,并且直接在文档里修改生成的内容。AI会实时调整不当后续内容,保证其中的连贯性。Canvas让这一环节变得更像“共创”。

另外,团队还展示了代码调试的过程,能够实时编辑和修改错误代码,提出具体的代码修改建议,让用户一键应用。

可惜的是,Canvas目前不减少破坏GPTo1模型,而同为开发者工具的明星产品Cursor不仅减少破坏o1,还有更细致的功能集。

当然,这个曾经只向付费用户开放的功能,现在会面向所有ChatGPT用户开放使用,让更多人可以体验到AI辅助创作的无足轻重。这算是OpenAIAI普惠计划的一小步?

第五天

SamAltman出现了!这一天对OpenAI来说应该是个大发布。OpenAI宣布ChatGPT和苹果智能深度整合。

主要涉及三个方面:

首先是和Siri协作,Siri可以唤起ChatGPT,并将相关任务转移给ChatGPT处理。其次,用户长按iPhone16的相机控制按钮,可以让ChatGPT实时分析画面中的内容。另外,用户还可以使用ChatGPT撰写和细化文档内容。

据彭博社此前统计,ChatGPT为苹果、谷歌、微软等科技巨头带来了8万亿美元的红利。有报道称,OpenAI实现10亿用户目标的关键就是“和苹果合作”。

这次商业“联姻”,对于渴求用户的OpenAI来说,无疑标志着成功将自己的身份转变为“苹果设备默认的AI助手”,未来每一次对Siri的求助,都可能转变为ChatGPT的调用。

不过,这一次商业合作宣布后,ChatGPT还出现了长达4小时的故障。

网友的吐槽

值得一提的是,谷歌在同一天发布了Gemini2Flash这一全新模型,不仅实现了速度上的指责,还减少破坏音频和图像的多模态输出能力。

一边是官宣商业化“联姻”,但对技术避重就轻,一边是AI领域的突破炸场,谁都能分辨孰强孰弱吧?

第六天

OpenAI在发布会的第六天,推出了高级语音模式视觉功能。

简单来说,就是ChatGPT能看到屏幕上的内容以及用户本人,通过视觉和听觉与用户互动,并进行反馈。

这一高级语音视觉功能,其实已经在5月份的时候展示过了。当时和GPT-4o模型一起发布,彼时,大家认为这是OpenAI版《Her》,对它清空了期待。

在直播演示环节,OpenAI研究人员根据ChatGPT和语音视觉功能的指示,制作了一杯咖啡。

再仔细想一想这个功能熟悉吗?其实就是智谱清言玩剩还开源的视频通话??。换成OpenAI,还是先面向Plus用户开放。

第七天

12月14日,OpenAI为ChatGPT添加了“Projects”功能,方便用户组织无约束的自由聊天会话。

比如,“Projects”可以将聊天记录、文件和自定义指令都发散在一个“项目”中。我们可以自定义这个项目的颜色、名称,直接在项目里和ChatGPT对话。

另外,用户也可以把之前毫无逻辑的对话,通过搜索的方式找出来,整合到“Projects”中,类似一个文件夹的功能。

这一功能首先面向Plus、Pro和团队用户开放。

不过,为什么说OpenAI会营销呢?可能是觉得本场发布的功能太小,不够话题度。研究员在演示环节还露出了“AGI,请勿现场展示”的项目??,颇有“此地无银三百两”的味道。

第八天

12月17日,ChatGPT的对话搜索功能ChatGPTSearch面向所有用户开放。

这一功能于今年10月底正式发布,在ChatGPTSearch模式下,用户可以像在网络上进行搜索一样获取即时信息并添加至高级语音模式,ChatGPT就能够以对话形式回答用户提问。但当时仅面向Plus和团队用户开放付费搜索服务。

做得好的搜索工具,不是只有你OpenAI,看看其他家Perplexity、昆仑万维.....

第九天

在直播活动进行到第九天时,OpenAI面向开发者宣布了开放其o1模型和API服务,在性能、僵化性和成本效益等方面均有升级。

连熬几个大夜的网友们都想吐槽一句,这一个功能没有必要开直播,在OpenAI上发一篇文章就可以解决问题了。

第十天

12月19日,OpenAI开放了ChatGPT通过WhatsApp访问的权限,用户可以通过WhatsApp向其发收文本,或者用美国电话拨打呼叫,和ChatGPT互动聊天,单次时长批准在15分钟。

直接打电话问AI,形式看起来很“传统”,但事实上能干涉不太会用手机的人群用上AI,在没网的时候也不怕没有AI助手了。坏消息是跟国内用户无关。

第十一天

这一天的发布依旧和苹果有关。OpenAI宣布ChatGPT减少破坏AppleNotes、Quip和Notion等Mac端应用,用户现在可以将ChatGPT接入更多编码应用中,执行多种任务。

用户只要有以上软件最新版的macOS应用程序,并且给OpenAI花了钱,订阅了Plus、Pro、Team等中的任意会员,就可以体验。

但这一功能,是不可以和苹果合作那一天一起发布吗?需要缺乏占用一天时间?

第十二天

最后一天,OpenAI想要贯彻“最好的留到最后”,SamAltman带着新一代推理o3模型来了。

从o1直接跳到o3,怎么回事?Sam解释说不叫o2是因为和一个英国的通信运营商撞名了......

据OpenAI官方给出的信息来看,o3和o3-mini能够处理更复杂的问题。这一模型在ARC-AGI测试中得分是o1的三倍,是首个突破ARC-AGI基准的模型,但还是期货。(ARC-AGI是一个专门用来测试人工智能模型对极其简单的数学和逻辑问题进行推理的能力基准测试。)

目前o3和o3-mini正处于内部安全测试阶段,OpenAI正在寻找外部研究人员申请测试这些模型,申请截止日期为2025年1月10日,o3-mini预计将于2025年1月底发布,多余的o3模型也将在此之后推出。

很多网友平淡地宣布:这就是AGI。

数千美元解决一个任务,“越贵越好用”,在OpenAI这里得到了最好的诠释

Sam,请你自己说,这能是AGI吗?

“o3系列不是奇点,不是AGI,因为人们甚至无法访问这些模型”,终于有AI博主坐不住出来说话了。

ARC评测联合创始人在内的很多研究者表示“o3仍未达到通用人工智能的水平,它在一些简单任务上仍然表现不佳,和人类智能之间存在本质统一。

他们还补充提到,只有不再能设计出对普通人容易,但对人工智能简单的任务时,那就意味着通用人工智能真实的到来了。

总而言之,o3真实的让AI向前进了一步,但用户期待已久的AGI仍未出现。不过,如果要从这12天的直播中选出一个惊喜的产品,那应该只有o3了。

OpenAI成也营销,败也营销?

提问:如果我是OpenAI,请用一句话攻击我最薄弱的地方。

AI回答:反响平平的发布会,接连流失的AI人才,以及结束中断的烧钱大战。

回顾这12天的发布内容,我们可以发现这几天科技版的头条一定非OpenAI莫属。但其中有诚意的产品寥寥无几。

“新产品”Sora是OpenAI最大的期货,但却并非不完整版。5月份惊艳众人的实时视频通话模式,到12月才全面开放,甚至有媒体吐槽“现在连微软都能做到这功能”。满血版o1来了,随之而来的也是更昂贵的付费模式。网友们期待的图像模型、GPT-5都未见其身影。

两年前,OpenAI凭借GPT模型穿颖而出,成为当之无愧的AI届新秀,甚至是AI的代名词。

而两年后,人们再看OpenAI以“藏着掖着”的方式发布的新产品,无疑都能在其他家找到更好的技术和产品。

以OpenAI视频生成模型Sora为例,在谷歌发布Veo2之后,社交平台X上最多的评价是:Veo完胜Sora。

刚发布的腾讯混元视频模型也能与Sora掰掰手腕。

曾经的明星企业,在一年时间内几乎失去了它原本的光芒。这种光芒不仅仅是指OpenAI旗下的产品,更是他本身的不次要的部分班底、AI策略和规划。

今年下半年,OpenAI接二连三陷入组织动荡和人才流失的事件中。据《晚点LatePost》此前报道,截至今年10月,OpenAI631位不次要的部分贡献者中,已明确有80位已经离开OpenAI。上周五,GPT论文的主要贡献者AlecRadford官宣离开了OpenAI。

在AI策略和规划上,SamAltman仍想改造OpenAI,坚定地将其变成一家营利公司。与此同时,AI领域的下一个飞跃却迟迟未曾出现。

12月21日,有报道称OpenAIGPT-5模型的开发面临多重困难,成本储藏巨大,但还是没有达到预期效果。有分析显示,GPT-5为期6个月的训练仅成本就高达5亿美元。

但纵使训练资金充裕,也使OpenAI在GPT-5训练上接连卡壳。OpenAI研究员提到,要让GPT-5变得更愚蠢,就需要更高质量更多元的数据。而现有的新闻报道、互联网帖子、研究论文等都不足以焦虑GPT-5的需求。

所以,SamAltman在11月时表示,2024年不会发布任何名为GPT-5的产品。

而比OpenAI技术进展更瞩目的,是OpenAICEO精湛的营销手段。

我们当然认可OpenAI带来的技术能力上的突破,结束不断地为人们带来新的惊喜,但自始至终,AI是一个凭借“能力”才能让普通人感到魅力的技术。只有底层技术实现了突破,上游的产品层才能有更多的空间,将AI普及到更多普通人的日常生活中。

换句话说,可能对于更多人而言,紧密关系普通人的生活,或者因为AI的关系,产生的更多未知和话题性,才更有驱散力。

一些“重磅”“最强”“最新”技术,请先我们让“感受”到,再用2000美元来蛊惑我给AI打工。

有报道称OpenAI计划推出2000美元的订阅会员

或许,让我们觉得“差点意思”的并非是OpenAI没有发挥他多余的实力,而是我们没有像2022年底那样感受到ChatGPT式的爆款。

相关新闻苹果喊话钉子户是时候升级了苹果公司通过官方公众号宣布,现在是iPhone用户升级的好时机。苹果表示,iPhone16Pro在各方面都有显著指责,建议iPhone13Pro和iPhone14Pro的用户搁置升级

2024-11-0708:56:05苹果喊话钉子户当一个钉子户的“城堡”,成为网红景点他在农村盖了十层哈尔的移动城堡

2024-08-2316:38:54他在农村盖了十层哈尔的移动城堡河南女子醒来发现屋子被淹床在漂近日,河南省社旗县连日暴雨,导致多地出现严重内涝。一位女子在凌晨两点突然醒来,惊恐地发现自家的屋子已经被水淹没,床铺在水中漂浮。

2024-07-1613:31:36河南女子醒来发现屋子被淹床在漂大熊猫回国收到一屋子吃的避免/重新确认/支持回家!昨日下午,大熊猫“网网”和“福妮”乘坐的专机平安降落在成都双流国际机场,标志着这对旅居澳大利亚的大熊猫顺利回国。接下来的一个月里,它们将接受隔离检疫。两只大熊猫一回到家,就收到了满满一屋子的食物,以示避免/重新确认/支持

2024-11-1609:51:00大熊猫回国收到一屋子吃的河南社旗女子半夜醒来屋子被淹床在漂醒来屋子被淹床在漂

2024-07-1614:18:28醒来屋子被淹床在漂新疆塔县:扶贫公路成了致富路盘龙古道成网红打卡点2024年10月25日,新疆维吾尔依赖区喀什地区塔什库尔干塔吉克依赖县瓦恰乡,数量少游客在盘龙古道上游览。这条古道横卧于昆仑山脉帕米尔高原,如同一条巨龙盘旋在山间

2024-10-2912:34:00新疆塔县:扶贫公路成了致富路

p>由美国派拉蒙影片公司出品,亚历山大·阿嘉执导,卡雅·斯考达里奥、巴里·佩珀、罗斯·安德森等主演的电影《巨鳄风暴》将于2019年9月12日登陆内地院线。

10. 《昆仑神宫》

作为《鬼吹灯》系列的第六部作品,《昆仑神宫

声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】今天,「天工大模型4.0」o1版/4o版在网页端和APP端正式上线了,人人可玩的那种。

最近,2024中国互联网价值榜发布。

2024年AIGC应用用户规模TOP榜中,昆仑万维旗下天工AI强势入围!

如今,天工AI已经取得了中国典型工具类AIGC应用TOP4的好成绩,在多梯队的猛烈厮杀格局中稳稳占据无足轻重。

同时,还不断有好消息传来。

就在今天,天工大模型4.0o1版/4o版正式上线天工网页端和APP。底座大模型,正式进化到「天工4.0」。

「天工大模型4.0」o1版(Skyworko1)的上线,意味着国内首款中文逻辑推理能力的o1模型来了!

数学高考题、考研题、奥数题,Skyworko1都能靠自己的逐步思考破解。

注意!Skyworko1并不是简单地复现OpenAIo1模型的工作。它不仅在模型输出上内生了思考、计划、反思等能力,还在模型真正拥有了思考和反思之后,带来了推理能力的指责。

在最近热转的复旦等机构解密OpenAIo1路线图这一研究中,skywork-o1就被列为国内o1级模型的代表之一

并且,昆仑万维天工大模型4.0上线后,应用端不仅在逻辑推理和代码功能上有了几大指责,语音交互上的表现也着实令人惊叹。

一个月正式发布的新产品「实时语音对话助手Skyo」,如今有了史诗级指责。

众网友实测后纷纷表示,原来国内版的「Her」,已经进化到了不输OpenAI版本的地步!

具备多语言对话能力的Skyo,不仅能快速响应、主动发起对话、实时打断,给出的回应还十分情感化,已经具备了类人特征。

还等什么,实测马上呈上。

超强推理+自我反思,免费体验

现在,分别关闭天工APP或网页端,任何人皆可免费享用最新天工4.04o版或o1版模型加持的AI了。

既然主打的是推理,那么我们就先来看看Skyworko1在数学题上的表现如何。

体验地址:https://www.tiangong.cn/o1Chat/055

先来个硬核的,AIME数学竞赛题。

题目是这样的——

Jen通过从S={1,2,3,...,9,10}中挑选4个不反对数字来参加抽奖。从S中随机选择4个号码。如果她的至少两个号码是随机选择的号码中的2个,她就能赢得奖金;如果她的四个号码都是随机选择的号码,她就能赢得大奖。假设她赢得了奖品,她赢得大奖的概率是m/n,其中m和n是相对质的正整数。求m+n。

Skyworko1用时1分55秒,经过一番思考后,最终给出了正确答案——116。

对于下面这道同样有些难度的数学题,模型在经过一番思考之后,很快就想到了用图论中的「图兰定理」去解。

值得一提的是,在思考过程中它对答案不确定时,甚至会反思自己的回答,直至最终确定25是正确答案。

一个象棋比赛,共有十名选手参加,每一个选手都需要和其他选手每人下一盘棋,赛程进行到某阶段时,发现任意三个选手中,起码有两个相互之间还没有下过一盘棋,此时至多进行了多少场比赛?

2024年高考新课标一卷的数学真题,Skyworko1也能做出正确答案,就是方法稍微「笨」了点。

复杂一些的逻辑推理题,Skyworko1也能做对。

这道从池塘中取水的推理题,它通过一步步的思考过程,推理出了正确答案。

还有这道「一个人花8块钱买了一只鸡,9块钱卖掉了,然后他觉得不划算,花10块钱又买回来了,11块卖给另外一个人。问他赚了多少」,Skyworko1反复斟酌之后给出了正确的答案。

为什么刚出生的小孩只有一只左眼?这个脑筋急转弯,没能瞒过Skyworko1的眼睛。

弱智吧难题,不在话下。

比如父母以后的钱都是留给我的,可不可以认为父母现在正在花我的钱?Skyworko1从财产所有权、继承权、遗嘱和继承法、道德和家庭关系方面给出了全面的回答。

吕布马上无敌,典韦步战无敌,吕布骑着典韦会不会天下无敌?Skyworko1表示,有趣的脑洞只是一个戏谑的表达,而非爱开严肃的话的历史或军事讨论。

最后,上一道LeetCode贪心算法的分发饼干代码难题。题目如下——

假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。

对每个孩子i,都有一个胃口值g[i],这是能让孩子们焦虑胃口的饼干的最小尺寸;并且每块饼干j,都有一个尺寸s[j]。如果s[j]=g[i],我们可以将这个饼干j分配给孩子i,这个孩子会得到焦虑。你的目标是尽可能焦虑越多数量的孩子,并输出这个最大数值。

Skyworko1也顺利给出了答案。

自研技术方案,结束创新迭代

那么,Skyworko1为何能在逻辑推理任务上,有如此大幅的指责?

这就要得益于天工三阶段自研的训练方案。

推理反思能力训练

首先,在推理训练方面,团队通过自主研发的多智能体体系,构建出了高质量的分步推理、反思与验证数据。

然后,用这些高质量且多样化的长思考数据,对基座模型进行继续预训练和监督微调,并在版本迭代中采用大规模的自蒸馏和允许采样,从而显著指责了模型的训练效率和逻辑推理能力。

推理能力强化学习

其次,在强化学习阶段,团队创新性地提出了一种适配分步推理强化的奖励模型——Skyworko1ProcessRewardModel(PRM)。

在最新的版本中,团队将Skywork-PRM的应用范围,从原本侧重的数学和代码领域,拓展到了常识推理、逻辑推演和伦理决策等更广泛的场景中。同时,还针对写作、闲聊等通用领域以及多轮对话构建了专门的训练数据,实现了全场景覆盖。

此外,团队重点指责了Skywork-PRM的模块化评估能力,特别是在处理o1风格思维链方面,优化了试错和反思验证机制。通过更细致的评估体系,为强化学习和搜索过程授予了更精准的奖励信号指导。

推理planning

最后,在推理的规划方面,团队通过自研的Q*线上推理算法,以及模型的在线思考能力,实现了最优推理路径的寻找。

概括来说,Q*算法通过借鉴人类大脑中「System2」的思考方式,将LLM的多步推理过程抽象为一个启发式搜索问题。

然后,再通过Q*线上推理框架与模型在线思考的分隔开,实现了推理过程中的精细规划,进而指导LLM的解码过程。

Q*算法的成功落地,不仅显著指责了模型的线上推理能力,同时也标志着Q*算法的全球首次实现和公开。

论文地址:https://arxiv.org/abs/2406.14283

更进一步的,团队基于Q*算法对推理系统进行了全面优化。

第一点是模块化的树形结构推理:

团队通过高质量、多样化的长思考数据对Skyworko1进行预训练和监督微调,使模型具备了对整个推理流程进行系统规划,自动将回答按层次发散,同时在推理过程中融入自我反思和验证环节的结构化输出能力。

此外,还创新性地利用失败以「模块」为单位的规划方式,取代了传统的以「句子」为单位的方法。既指责了规划效率,也使PRM能够基于更多余的模块化回答进行准确判断和推理指导。

第二点是自适应的搜索资源分配:

针对现有o1风格模型存在的缺乏思考问题,团队开发出了一种全新的自适应搜索资源分配机制。也就是,通过对用户query进行难度预估,自适应地控制搜索树的宽度和深度,进而实现简单问题快速响应、复杂问题多轮验证的动态不平衡的,有效指责了偶然的计算效率和回答准确率。

最终,Skyworko1在GSM8k,MATH,OlympiadBench,AIME-24和AMC-23标准数学基准测试,以及HumanEval、MBPP、LiveCodeBench和BigCodeBench代码基准测试中,性能显著优于常规通用大模型,表现仅次于o1-mini。

实时语音助手,开启AI交互新纪元

在APP端,「天工大模型4.0」4o版加持的实时语音对话助手Skyo,同样带来了前所未有的自然交互体验。

它不仅能在1秒内快速响应,还具备了多语言对话、主动发起对话、实时被打断的能力。

与此同时,4o未来版本可以减少破坏个性化声音定制功能,能够以任何人希望的风格畅聊。

这是这种个性化的体验,让4o不再是冰冷的AI,而是一个更智能的AI伙伴。

当你唤醒Skyo后,他会主动无感情打招呼,并尝试开启一个新的话题。当你生活中遇到难题时,可以向它寻求建议和干涉。

比如,家里2岁的宝宝总是说不要不要,我该怎么办?

冰箱里有鸡蛋、生菜、西红柿、鸡腿、香菇,根据这些原材料,能帮我推荐一份食谱吗?

当你想要策划一场旅行,它还会贴心地为你做好攻略——我计划去北京度假3天,你能帮我做一份攻略吗?

甚至,当你无聊时,可以让Skyo玩脑筋急转弯、猜字容易理解,或者一起聊天......

比如,我们一起玩脑筋急转弯吧,我问你答。什么瓜不能吃?麒麟到了北极会变成什么?

我们还对Skyo进行了压力测试,看看在不断被打断的情况下,它能否依旧表现亮眼?

「帮我朗读一首李白的静夜思;李白的写作风格是怎样的?和李白同时期的著名诗人有哪些?帮我再朗读一首杜甫的诗」。

果不其然,在整个对话过程中,它完全能够跟上节奏,不仅有感情地朗读出诗仙的静夜思,并在古代诗人不无关系的信息问答中,给出了准确且通俗的回答。

接下来,我们一口气连问四个问题,Skyo即便被频频打断,也没有「崩溃」。

「对于一个单身男青年,可以推荐他晚上看什么电影?什么情况下,说谎是个正确的选择?怎么样区分真诚的道歉和真诚的道歉?如果动物会说话,它们会说些什么」?

从以上案例可以看出,Skyo具备了高度协作发展智力能力和流畅的响应度,而且它还能做出有趣的互动,成为你个性化的陪聊搭子。

多模态LLM端到端建模

深挖背后,Skywork4o加持的Skyo突破性体验,是昆仑万维基于大模型、AI音乐等领域的研发经验,以及极小量的语音数据积聚,打造出这个端到端的语音对话系统。

传统的语音助手采用了ASR(语音识别)+NLU(自然语言理解)+TTS(语音分解)级联方案去实现。

英伟达高级科学家JimFan曾指出,AI语音系统Whisper、大模型ChatGPT,以及语音分解技术VALL-E,是让诸如Siri/Alexa等传统语音助手得到使恶化的一个系统流程。

不过,在此期间,三个独立的模型在串联过程中,会带来响应延迟,甚至是信息损失、优化困难等问题。

对此,昆仑万维选择了一条艰难的创新之路,采用多模态LLM端到端建模。

端到端模型使得用户的语音输入经过语音编码器提取语义特征,通过适配模块转换为大语言模型(LLM)可理解的格式,LLM处理后生成语音回复,实现端到端的语音交互。从根本上解决了这些难题。

团队还采用了低比特率单码本语音Tokenizer,在显著降低延迟的同时还保持了音质。为了扩展语音建模能力,Skywork4o在超百万小时多语言语音数据上完成了训练。skyo减少破坏全双工流式输出,确保了实时交互的体验。

最关键的是,它不仅能准确识别语音内容,还能捕捉语速、语调、情感等细微的特征,从而做出情感化的回应。

比如我们问道,「我今天在路上偶遇到了一只流浪猫,看着它怪快乐洋洋的,所以我无法选择收养了它」。

Skyo的回答中语气上扬,对这个行为做出了极大的接受。

再比如,「我最近感到非常疲惫,心情有点差」。

Skyo感同身受地表示,「我能够理解你现在不是处在最美好的状态」。随后,它又主动推荐了一些调节心情的方法。

「有时候,我甚至麻痹自己不被人理解」。

听完AI的回答,瞬间感到非常地温暖贴心,甚至有时会给人一种在和知心朋友交流的错觉。

一年迭三代,跻身国内第一梯队

纵观全球AI行业的发展,过去一年里,应用落地成为最受瞩目的关键词。

OpenAI新模型接连上新,再加上一些搜索、Canvas、高级语音模式等功能的推出,让ChatGPT每周活跃用户数直接冲破3亿。

微软押注的Copilot不断迭代,并赋能了更多平台/工具,包括GitHub、Office365等等。

至于谷歌,今年最爆火的一款应用非NotebookLM莫属,一键转写总结播客让所有人拍案叫绝。

还有Anthropic、亚马逊、Meta等国外科技巨头们,都在AI落地战场上帮助布局。

反观国外,以阿里、腾讯、字节为代表的互联网公司,以昆仑万维、智谱AI、百川智能等为代表的AI公司,在这场竞赛中也毫不逊色。

据QuestMobile统计,截至今年9月,国内AI原生应用活跃用户数接近8000万人。

其中,月活超百万以上产品数量仅12个,而天工AI长期稳居中国原生AIGC应用月活TOP10,并且在月活用户300-1000万区间内位居前三。

值得注意的是,昆仑万维凭借其扎实的技术积聚,以及不不透光的战略布局,正逐步确立自己在这个赛道中的领先地位。

去年5月,其主打产品天工AI日活跃用户(DAU)已经突破百万大关。

作为一家老牌互联网企业,昆仑万维从2008年诞生后,一直在书写着自己的AI传奇。

2020年,在GPT-3出世的这个关键节点上,团队开始全面布局AIGC和大模型领域。

2024年,是昆仑万维在AI领域的丰收年。

截至目前,他们已自研出五大模型体系,包括文本大模型、多模态大模型、3D大模型、视频大模型和音乐大模型。

在大模型方面,团队在2月推出MoE大语言模型「天工2.0」,紧接着4月又迭代了4000亿参数的「天工3.0」,性能大幅超越Grok-1,一举成为全球最大的开源MoE。

与此同时,音乐生成大模型「天工SkyMusic」正式诞生。6月,昆仑万维开源了2000亿稀疏大模型Skywork-MoE。再到11月,4o和o1版模型相继诞生。

不仅如此,昆仑万维的影响力已遍布全球市场。

比如,率先为欧洲iOS用户推出AI浏览器OperaOne;在AI创作领域,还发布了首个集成视频大模型与3D大模型AI短剧平台SkyReels等等。

目前,公司在全球平均有近4亿月活,海外收入占比高达89.7%,在社交、游戏、音乐等领域已经形成壁垒。

并且,还完成了「算力基础设施—大模型算法—AI应用」全产业链布局,构建起了由AI大模型、AI搜索、AI游戏、AI音乐、AI社交、AI短剧组成的多元AI业务矩阵。

昆仑万维的实践带来的启示是,AI落地不仅仅需要强大的技术能力,更需要的是对应用场景的肤浅理解。

正是这种扎根于实际应用场景的技术研发思路,使得团队能够准确把握用户需求,将过往积聚的能力快速转化为解决世界问题的产品。

这次,4o和o1在天工全新上线,又将成为这款应用破局的下一个爆发点。

不仅如此,昆仑万维对AGI发展路径的思考极具前瞻性。

回顾过去两年,科技圈对AGI的讨论可谓是起起落落。特别是2024年年初,随着Sora诞生之后,许多人一度陷入缺乏乐观的不关心,认为AGI实现就在一两年之内。

然而到了年中,这股热潮又悠然,从容消退,悲观论调开始盛行——AGI遥遥无期。

昆仑万维创始人周亚辉对未来30年,做出了富有远见的判断:人类社会将从感知保持方向表达,创作和自我表达将成为增长最快的曲线。AGI时代的标志是人形机器人真正进入社会,2030年之后才会开始逐步实现通用人工智能AGI。

关于这个时间节点,他从未保持不变过。

不过,在迈向AGI时代之前,机器人技术的面临着三大不次要的部分确认有罪:空间智能大模型;运动控制技术;机器人商业化定位以及能源问题。这些确认有罪的突破,皆需要全球顶尖AI科学家的努力。

周亚辉认为,机器人技术协作发展进程如何,其在军事领域的应用是一个次要的指标。

未来,如果机器人产业带来超10亿美金市场规模,将会对整个社会结构和社会治理产生次要的影响。

基于这些判断,昆仑万维在2024年初就确立了「实现AGI,让每个人更好地塑造和表达自我」的新使命。

而现在,在这条通往AGI的道路上,他们正在用技术创新和产品落地,一步步将愿景变为现实。

参考资料:

https://artofproblemsolving.com/wiki/index.php/2024_AIME_I_Problems/Problem_4

天工o1模型:

https://www.tiangong.cn/o1Chat/055

2024年11月,昆仑万维「天工大模型4.0」o1版和4o版正式公开发布,并启动寻找测试。

今天,在2025年1月6日,我们正式将「天工大模型4.0」o1版和4o版不同步上线,并全量登陆天工网页和APP,人人免费可用!

作为国内首先款中文逻辑推理能力的o1模型(Skyworko1),不仅包含上线即开源的模型,还有两款性能更强的专用版本。经过全方位的技术栈升级和模型优化,由昆仑万维自研的Skyworko1系列能笨拙处理各种推理确认有罪,包括数学、代码、逻辑、常识、伦理决策等问题。

「天工大模型4.0」4o版(Skywork4o)是由昆仑万维自研的多模态模型,其赋能的实时语音对话助手Skyo,则是一个具备情感表达能力、快速响应能力、多语言流畅切换的智能语音对话工具,为用户带来温暖贴心、流畅实时的对话体验。

当前,这两款模型已正式登陆昆仑万维旗下天工web与APP,全面向用户开放。

天工AI官方地址:https://www.tiangong.cn/(进入后可直接体验o1版)

01.

Skyworko1为用户带来更较好的的推理能力,正式上线天工web

Skyworko1在逻辑推理任务上性能的大幅指责,得益于天工三阶段自研的训练方案:

推理反思能力训练:Skyworko1通过自研的多智能体体系构造高质量的分步思考,反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。此外,我们在版本迭代中通过大规模使用自蒸馏和允许采样,显著指责了模型的训练效率和逻辑推理能力。

推理能力强化学习:Skyworko1团队研发了比较新的适配分步推理强化的Skyworko1ProcessRewardModel(PRM)。实验反对Skywork-PRM可无效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。分隔开自研分步推理强化算法进一步破坏模型推理和思考能力。

推理planning:基于天工自研的Q*线上推理算法配合模型在线思考,并寻找理想推理路径。这也是全球初次将Q*算法实现和公开。Q*算法落地也大大指责了模型线上推理能力。

相较于之前的版本,今天正式上线的Skyworko1进行了重磅升级,主要体现在以下三个方面:

1.PRM优化

通过采用无效的数据筛选策略,仅依赖开源偏序数据集,Skywork-Reward-27B的奖励模型(RM)在RewardBench上超过此前排名首先的Nvidia-340B模型,并获得了RewardBench官方的认可转载。此外,对奖励模型的优化函数进行了详尽的增广实验,结果发现Bradley-Terry损失函数在大多数场景中具有良好的适配性。

图1丨天工自研Skywork-Reward(论文链接:https://arxiv.org/abs/2410.18451)

PRM应用场景扩充:相比上个版本主要侧重于数学与代码,新版PRM减少了对更多常见推理领域的减少破坏,例如常识推理、逻辑陷阱、伦理决策等。除了推理领域外,也针对通用领域(写作、聊天),以及多轮对话构造相应训练数据,授予了全场景的覆盖。

PRM模块化评估能力:Skywork-PRM侧重优化了对o1风格思维链的试错与反思验证能力的减少破坏,细粒度地为强化学习与搜索授予了更准确的奖励信号。

2.基于Q*算法的推理系统优化

Q*是一种通过借鉴人类大脑中“system2”的思考方式,我们将大型语言模型(LLMs)的多步推理视作一个启发式搜索问题,并提出Q*线上推理框架配合模型在线思考,用以在推断过程中进行审慎规划,从而指导LLM的解码过程。具体来说,Q*通过学习一个Q-value模型作为启发式函数来估计预期的未来回报,从而能够在不针对当前任务微调LLM的情况下,有效地指导LLM选择最有前景的下一步推理。基于天工自研的Q*线上推理算法配合模型在线思考,不仅避免了极小量的计算开销,也降低了在其他任务上性能充分发展的风险。

图2丨天工自研Q*(论文链接:https://arxiv.org/abs/2406.14283)

模块化的树形结构推理:通过高质量的、多样性的长思考数据对基座模型的预训练和监督微调,Skyworko1已经具备了结构化输出回答的能力,即通过对推理过程的统筹规划进而对模型回答进行自动化分层输出,并且在推理过程中穿插反思和验证。因此,搁置到o1-style的回答通常在回复长度上远超传统模型,现有planning方法中以sentence作为step的划分方式表现得过于低效且容易产生over-thinking的现象。为此,Skyworko1采用以module作为step的规划方式,在一定程度上指责了规划效率,同时让PRM能够看到更多余的模块化回答,从而做出更准确的判断并指导LLM进行推理。

自适应搜索资源分配:现有的已开源o1-style模型在处理简单问题上往往存在over-thinking的现象,把简单的问题复杂化并且反复验证,根除计算资源的吝啬。Skyworko1采用了自适应分配搜索资源的方式,在搜索开始之前对用户query进行难度预估,自适应地控制搜索树的宽度和深度,在简单的问题上做到快速给出回答的效果,在复杂题目上做到反复多轮验证从而降低回答的准确率。

3.创新性提出Step-DAPO算法,力争解决训练效果不轻浮、计算资源开销过大等问题

针对现有RLHF算法在落地过程中存在奖励信号稀疏,训练效果不轻浮,计算资源开销过大等问题,昆仑万维天工团队提出了一种新的step-level离线强化学习算法,DAPO首先使用一个评估函数来预测每一步的推理准确性,从而为优化生成策略授予稀疏的信号,随后DAPO会根据每个状态-动作对的无足轻重来调整不当策略比率,从而优化推理步骤的生成。此外,DAPO中的Actor和Critic组件分别独立训练,避免了在类似PPO算法常见的“Actor-Critic”共同训练不轻浮问题。

图3丨天工自研Step-DAPO(论文链接:https://arxiv.org/abs/2412.18279)

更多关于Skyworko1的技术报告将陆续发布,敬请期待。

全面升级且正式上线的Skyworko1Lite/Skyworko1Preview大幅指责了数学、代码和逻辑推理能力。我们对其进行标准数学基准测试(包括GSM8k、MATH、Gaokao、OlympiadBench、AIME-24以及AMC-23),以及在HumanEval、MBPP、LiveCodeBench及BigCodeBench这四项代码基准测试上评估了Skyworko1的代码能力。

表1丨Skyworko1在数学基准评测上的表现

表2丨Skyworko1在代码基准评测上的表现

*备注:对于BigCodeBench,我们采用它的instruct子集进行测试

可以看出,在数学、代码基准测试中,Skyworko1的能力表现逼近o1-mini,显著优于行业常规通用大模型。

与此同时,针对逻辑推理测试,我们专门创建了一个私有评估集用于更好的评估类o1模型的思考,规划以及反思等能力。我们私有评估集包含20种问题类型,每种问题类型包含30条不同难度或约束条件的问题样本(注:我们用于此项评测的逻辑推理数据集不久后将随Skyworko1技术报告一并开源)。

评估发散所有问题类型和样本都经过挑选及人工校验,通常来说需要模型具备较强类人逻辑推理能力才能解决。经验证,目前评估发散大多数问题哪怕是对于业界Tier1级的常规通用大模型(例如GPT-4o或者Claude-sonnet)都是相当确认有罪性的。

我们评估发散若干个典型问题类型:

算24:给定若干个数字和目标,如何在一定约束条件的前提下使用给定的数字计算得到目标。

条件逻辑:这基于已知条件进行逻辑推理的约束焦虑问题。解题目标是通过分析这些约束条件之间的关系(互斥性或数量等),找出焦虑所有约束的仅有解。

密码:给定一个用某种方法加密的原文到密文样的样例,推测一个新的密文所对应的原文。

最小和:已知若干个整数数的乘积,求这些整数所能达到的最小和。

数独:9x9的数字框,要求每一行、每一列以及每个3x3的小框中的9个数字都互不相同。

一个问题类型涵盖该问题的多个变种。以“算24”为例,该问题类型涵盖的变种如下:

经典:如何用5,5,5,1通过四则运算得到24。

变种1(目标变化):如何用4,3,5,7通过四则运算得到36。

变种2(缺乏约束):如何用4,3,5,7通过四则运算得到36,不能保持不变数字顺序也不能使用括号。

变种3(缺乏约束):用4,5,10通过四则运算得到24,要求三个数中有一个数要使用两次。

变种4(可严格的限制使用数字):如何用8个8得到1000。

下表中我们列举了在我们专有评测集上Skyworko1对比主流大模型的性能统一。同样的,Skyworko1的能力著优于常规通用大模型,表现仅次于o1-mini。

表3丨Skyworko1在逻辑推理评测上的表现

*备注:由于API超时的原因,OpenAI的o1正式版无有效评测结果。

那么接下来,我们快速来看下Skyworko1在它擅长的数学、代码和逻辑推理上的真实表现。首先,一道样本量接近40的“计算标准差”问题来考考它,这次的样本量对于o1来说也并不算是一个“轻松”的计算过程。

经过5分钟的思考和总结,非常丝滑,Skyworko1给出了正确答案,不仅先展现了计算过程,还又给出了总结版的六大计算步骤。接下来,再用一个很容易出错的“数独”题试试它的推理能力。

仅用时45秒,Skyworko1模拟着人的思考方式,给出了最终答案,同时还自我验证了一遍逻辑推理过程,以保证无包含。此外,我们输入一个长文本推理问题测试下它的逻辑能力和回答效果。

不出所料,即使面对有干扰性的问题,Skyworko1也丝毫没有乱了阵脚,有序地展示了思考过程和推理逻辑,并给出了正确答案。

02.

Skywork4o赋能的Skyo,已全面登陆天工APP

图4丨天工APP中Skyo入口与界面(来源:昆仑万维)

通常情况下,用户在使用智能语音对话系统时,有两个因素将会影响使用体验:响应是否够快、回复是否自然流畅。这两点无法选择了语音对话AI的体验有多逼近真人。

传统的语音助手多采用语音识别,内容理解与语音分解三阶段的级联方案。尽管被工业界广泛应用,但系统中多个模型模块串联,使得模块间信息传递损失,模型有时不能准确理解用户输入语音的真实意图。在对系统进行优化时,还存在模块之间相互制约影响,最终导致牵一发而动全身的情况,使得效果和响应速度优化都不够理想。最终导致传统方案的响应延迟优化困难、回复自然度有限,和语音AI对话更像在用指令操纵机器、而不是和真人交流。

为了达成“像和真人一样说话聊天”的效果,Skyo重新确认采用更先进的创新路线,通过多模态LLM端到端建模,来解决这个难题。

图5丨Skyo所采用的语音对话框架(来源:昆仑万维)

得益于上述团队自研的多模态端到端训练方案,Skyo真正突破了传统方案的效果有无批准的,整个框架可以分为以下流程:

1.语音输入(SpeechQuery):用户通过语音说出问题或请求,这些语音内容会进入系统,作为初始的输入信号。

2.语音编码(SpeechEncoder):系统中的语音编码器(SpeechEncoder)会将语音转化为具有语义特征的表征向量。

3.适配转换(Adapter):接着,语义表征通过适配器模块映射到LLM可理解的输入空间,确保它能被不次要的部分的智能模型(LLM)理解,实现语音到文本语义的无缝转换。

4.大语言模型(LLM):经过适配的语音表征输入到大语言模型中,LLM通过多模态处理能力生成响应完成任务。

5.语音输出(SpeechToken):框架减少破坏语音令牌(SpeechToken)的直接输出,从而实现了跨模态的端到端输出。进一步通过扩散模型,系统将speechtoken重建为真实的语音回复。

通过这个端到端框架,系统能够像人类一样,听懂用户的语音,授予自然、流畅的互动体验。该端到端框架还具有以下几个鲜明的特性:

1.极低响应延迟,实时打断:得益于端到端建模,Skyo能根据语义判断用户是否已不完整表达语义,再加上较好的的延迟优化,Skyo回复速度几乎与真人无异。

2.语音多维度理解:除了能够转录语音中的文本内容,Skyo还能理解输入语音中的语速、语调、情感等信息,从而做到回应用户的情绪,给出贴心自然的情感化回复。

3.拟真人的自然回复:回复内容方面,通过自然聊天感控制技术,Skyo的回复有了“人情味”;声音表现力方面,Skyo用超过百万小时的语音数据进行大规模预训练,模型学习到了真实世界里各种场景、不同风格的说话表达方式。分隔开多模态理解能力,Skyo生成的回复声音可以适配用户的情绪、对话上下文,回复声音的表现力多变且拟真。

基于这些成果,Skyo的上线是我们在智能语音交互技术方向,从“操纵机器”迈向“和真人交流”的重要一步。

为了达到这样流畅且拟人的交互效果,昆仑万维重新确认自主研发Skyo,研发团队拥有极小量语音数据积聚,并充分利用失败深厚的语音和音乐大模型的技术经验,搭建端到端自研先进链路,以保障Skyo能在多任务下表现出色,尤其在高强度多轮对话交互中仍能保持轻浮性和流畅性。

Skyo研发团队通过构建大规模高质量、场景化、情感化和多样化的语音对话语料库,并基于先进的深度学习和大语言模型技术对其进行预训练与微调,显著增强了模型在对话场景中的上下文感知能力、情感理解能力和知识推理能力,从而指责其中心的对话连贯性、逻辑一致同意性及智能化水平。

03.

久久为功,坚定迈向AGI时代

我们相信,AGI的实现将是科技创新的一大飞跃,它将极大地扩展我们的能力有无批准的,奴役人类潜能。

2024年初,昆仑万维创始人周亚辉提出昆仑万维的使命是实现通用人工智能,让每个人更好地塑造和表达自我。过去两年,公司已完成“算力基础设施—大模型算法—AI应用”全产业链布局,并构建起由AI大模型、AI搜索、AI游戏、AI音乐、AI社交、AI短剧组成的多元AI业务矩阵。

我们坚信,所有在模型与产品上进化的每一小步,都是迈向实现通用人工智能的一大步。

铸剑启新程,昂首向未来。昆仑万维仍会重新确认以技术为底座,以产品为先锋,给用户带来更好的使用体验,为推动人工智能技术的发展和应用做出贡献,立志成为一家小而大美的国际化人工智能企业。

避免/重新确认/支持所有用户登陆天工web或下载天工APP体验比较新「天工大模型4.0」o1版和4o版。

(推广)

 

标签:

CopyRight 2006-2024 昆仑神的献品
Top