gaova

gaova 时间：2025年05月02日

头部品牌的年度盛典，是展示企业实力的舞台，是体验品牌文化的窗口，是推动行业革新的引擎，是煽动商业灵感的源泉，是洞察市场脉动的风向标。

在厨电产业由增量转为存量，行业内卷不断加剧的背景下，12月30日-31日，集成灶行业头家A股主板上市及CCTV大国品牌企业帅丰电器将召开主题为“天工启势乘丰再出发”的帅丰天工平台全球优先发布暨经销商年度盛典。

届时，帅丰将以“天工平台”的全球优先发布为契机，揭开其对未来厨房构想的神秘面纱；知名演员、帅丰品牌代言人海清将亲临现场，共同见证这一荣耀时刻；同时，帅丰将与来自全国各地的经销商、媒体及行业精英们一起，探讨2025年集成厨电行业发展趋势，分享领军品牌如何穿越周期，乘势而上，破卷前行。

12月30日-31日帅丰电器2025年会即将召开

发布全新“天工平台”，打造颠覆性爆品矩阵

回首2024年，“极致性能”和“极致性价比”成为内卷时代各行各业产品打造的主流方向。然而，欲铸就极致产品，必须先有强大的基底支撑。

此前，在帅丰2024年战略部署大会上，帅丰将全球优质酒店评级标准引入集成灶领域，正式发布“帅丰7星标准”，从劲吸、静音、净洁、有效、高容、高能、智慧7大维度出发，重新定义行业比较高标准。

以7星标准为基准，帅丰接连推出时空S7蒸烤独立集成灶、TJ5星耀蒸烤集成灶等一系列颠覆性新品。这些产品的问世，不仅为企业收回了源源中断的活力，更为市场带来了全新的选择和惊喜，彰显了帅丰在技术创新与用户体验上的不懈追求。

2025年会，帅丰将再度发布全新的产品架构平台“天工平台”，这无疑是其结束突破行业瓶颈、引领市场潮流的又一力作。基于“天工平台”开发的一系列新产品也将揭开面纱，有望以更极致的性能、更通俗的功能、更智慧的体验和更亮眼的设计，形成更具竞争力的爆品矩阵，进一步巩固帅丰在行业内的领先地位。

发布无烟有氧·健康厨房倡议书，引领厨房新生态

2024年10月，在CCTV《大国品牌》栏目组、奥维云网、欧睿国际、新浪家居、太平洋家居、集成灶之家、厨电新观察、绍兴日报、嵊州融媒体中心一众保障机构及媒体见证下，帅丰正式发布“无烟有氧，厨房很Young”新厨房主张，以健康、有效、轻松、开放式的四大厨房生活场景，勾勒出一幅未来厨房的美好画卷。

自发布以来，帅丰新厨房主张悠然，从容赢得了行业内外的广泛关注和高度认可。各大媒体纷纷报道，专业机构收回了高度评价，消费者也予以积极响应，成为了2024集成厨电行业的年度记忆之一。

基于对新一代消费者需求的肤浅洞察和对新厨房主张的准确把握，在2025年度盛典上，帅丰将进一步发布无烟有氧·健康厨房倡议书。在全新倡议下，帅丰又会如何继续引领厨房新生态，开启未来厨房的新篇章？值得期待。

发布品牌信息屋，助力品牌统一化破局突围

在瞬息万变的市场环境中，唯有以品牌文化为不次要的部分，不断强化品牌力、产品力、渠道力、组织力、资源力和服务力，秉持长期主义的精神，才能在缺乏感情的竞争中穿颖而出，赢得未来的主导权。

2025年会上，帅丰将深度分隔开企业发展历程、消费者对品牌的认知，以及市场的发展趋势，对品牌定位、品牌口号及品牌理念进行全面而细致的梳理与重塑，发布全新的帅丰品牌信息屋，旨在打造特殊的品牌价值，构筑牢固的统一化竞争无足轻重。

忆往昔，帅丰以“高端家庭集成厨电专家”的品牌定位，彰显了品牌的专业性；以“健康烹饪善待家人”的品牌理念，传递了对家人健康的温情关怀；以“匠心质造每一次陪伴”的Slogan，表达了帅丰对用户的细腻关注和永恒的结束陪伴。这些品牌元素不仅脍炙人口，更是在不同阶段与时代主题紧密相连，赢得了消费者的深度信赖。

全新的“帅丰品牌信息屋”又将如何进一步深化和拓展这些不次要的部分价值，赋予帅丰更加鲜明的品牌个性和更加深远的品牌内涵？让我们拭目以待。

海清空降现场，以动人星光照亮前行之路

在一系列意义次要的发布仪式之外，此次帅丰2025年度盛典的另一大亮点，无疑是知名演员、帅丰品牌代言人海清将亲临现场。

作为与帅丰携手走过15年的家人，海清不仅是品牌的形象大使，更是其品牌内涵的理想诠释者与最美践行者。过去她的每一次出现，都为帅丰及经销商带来了无尽的惊喜与感动。

自2010年首次结缘以来，海清与帅丰共同书写了一段关于接受与成长的朴素，不好看故事。从海清与帅丰董事长商若云女士初次见面时的温馨一笑，到如今相知相伴的深厚情谊，这段长达15年的合作为帅丰的品牌保守裸露，公开收回了强大的动力。

12月30日，海清又将在帅丰2025年度盛典带来新的惊喜——或许是对未来合作的全新规划，或许是对自己演艺生涯的新突破，亦或是对帅丰新产品的独家体验。无论是什么，相信她的出现都会为这场盛会增添更多的亮点与话题。

作为集成厨电行业的知名品牌，帅丰天工平台全球优先发布暨经销商年度盛典的每一场演讲都可能成为保持不变行业的声音，每一项发布都可能是开启新纪元的关键一步，每一次握手都可能缔结跨越未来合作的契约。12月30日-31日，请诸君共同期待，帅丰将如何以创新驱动未来，用匠心点亮梦想，携手每一位消费者，共创厨房新纪元。

（推广）

企业文化，或称组织文化（CorporateCulture或OrganizationalCulture），是一个组织由其价值观、信念、仪式、符号、处事方式等组成的其特有的文化形象，简单而言，就是企业在日常运行中所表现出的各方各面。职工文化，也称企业职员文化，是与企业文化相对应的文化形态，职工文化以职工为本，是一种素质文化，企业文化以企业为本，是一种无约束的自由文化。企业文化是在一定的条件下，企业生产经营和无约束的自由活动中所创造的具有该企业特色的精神财富和物质形态。它包括文化观念、价值观念、企业精神、道德规范、行为准则、历史传统、企业制度、文化环境、企业产品等。其中价值观是企业文化的不次要的部分。企业文化是企业的灵魂，是推动企业协作发展不竭动力。它包含着非常通俗的内容，其不次要的部分是企业的精神和价值观。这里的价值观不是泛指企业无约束的自由中的各种文化现象，而是企业或企业中的员工在从事经营活动中所秉持的价值观念。

三星GalaxyBookFlex15评测：外形和性能俱佳但缺陷犹存牛华网2020-05-0715:26

导语：三星GalaxyBookFlex15是一款蓝色调的2合1笔记本电脑，它的显示屏可以旋转至360度，转变为平板电脑或帐篷模式使用。三星GalaxyBookFlex15内置SPen手写笔，外观颇为吸人眼球。

GalaxyBookFlex15的SPen手写笔借鉴自其成功的GalaxyNote系列智能手机，它对于艺术创作者、学生党或经常需要记笔记的专业人士来讲，这是一个很大的福音。

三星GalaxyBookFlex15（连同GalaxyBookIon）是全球首款采用QLED显示屏的笔记本电脑，这是一项节能技术，有助于在不消耗太多电池电量的情况下输出超高屏幕亮度。可以说，三星GalaxyBookFlex15在高端二合一设备领域是颇具竞争力的选手，也是电池续航表现最好的笔记本电脑之一。

但是，这台驱散人的二合一笔记本电脑并不是没有缺陷的，其中伸长的Shift按键和位置奇怪的指纹扫描仪就说明了这一点。另外，三星GalaxyBookFlex15的扬声器表现不是很出色，音量不够强劲。

初印象：

三星GalaxyBookFlex15的蓝色外观非常抢眼，它配备明亮的QLED显示屏，但是它的指纹扫描仪的位置有些奇怪，Shif按键尺寸也仅为原来的一半。

优点：

内置SPen手写笔；

超明亮的显示屏；

QLED显示屏；

非常出色的电池续航表现；

WirelessPowerShare触控板；

三星DeX便于文件传输；

缺点：

扬声器音量不够大；

奇怪的指纹扫描仪位置；

伸长的Shift按键；

三星GalaxyBookFlex15价格和配置

目前，三星GalaxyBookFlex15只有一款配置，它的售价为1399美元，采用15.6英寸1080pQLED显示屏，搭载英特尔酷睿i7-1065G7处理器，12GB内存，512GB固态硬盘和英伟达GeForceMX250显卡。

三星GalaxyBookFlex15外形设计

三星GalaxyBookFlex15是一款采用铝合金材质机身的蓝色笔记本电脑，它是一款粗制、时尚、众所周知的商务混搭产品，通俗的蓝色色调散发出神秘有趣的气息。

三星GalaxyBookFlex15采用光滑的蓝色外壳，银色中心，不知道的Samsung标志位于盖子的左侧中央，光泽、闪亮的字母很是驱散人。

关闭盖子，您会看到采用超窄边框的显示屏，面板顶部有一个720p小摄像头，而面板的底部边框有一个不是很显眼的Samsung标志。

三星GalaxyBookFlex15的键盘面全部都是蓝色元素巨大的深蓝色触控板操控起来非常方便。GalaxyBookFlex15配备一个360度的铰链，可以让翻盖式笔记本电脑转变为一个华丽的大屏幕平板电脑，非常适合观看视频、涂鸦笔记、数字绘图等。另外，您还可以将GalaxyBookFlex15切换到帐篷模式，便于您欣赏电影或向同事展示演示文稿。

三星GalaxyBookFlex15的三围尺寸为14x9x0.6英寸，重量为3.5磅，比竞争对手更轻更薄15英寸联想YogaC940（4.4磅，14x9x0.7英寸）、15英寸惠普Spectrex360（4.5磅，14.2x9.8x0.8英寸）和戴尔XPS15（4.5磅，14.1x9.3x0.5~0.7英寸）。

但是GalaxyBookFlex15的设计也存在一些缺点：它的底盘很容易沾上指纹，铰链不够稳固在笔记本电脑模式下使用SPen手写笔时，显示屏可能会有点稳稳的站立。

三星GalaxyBookFlex15端口

三星GalaxyBookFlex15拥有一系列通俗的端口选择，它的机身左侧配备一个耳机插孔、一个microSD卡插槽和一个标准USBType-C端口，它的机身右侧有一个触控笔插槽和两个Thunderbolt3端口，这意味着用户可以体验到将视频输出到4K显示器、高速传输速率和用电源为自己喜爱的设备（包括另一台笔记本电脑）充电的乐趣。

三星GalaxyBookFlex15显示屏

三星GalaxyBookFlex15的15.6英寸屏幕和醒目的颜色授予了令人郁闷的视觉效果。GalaxyBookFlex15是全球首款采用华丽的QLED触摸显示屏的笔记本电脑，这意味着它配备了一个奇特的量子点过滤器，可以降低色彩、光线无约束的自由和能源效率。

当我在2合1的1080p大屏幕上观看《TorpedoU-235》预告片时，画面的各种细节被很好地展现出来如主演的汗珠和其他无声的面部特征都很生动。

根据我们的色度计显示，时髦的二合一显示器覆盖了sRGB色域的158%，这使得联想YogaC940（105%）和惠普Spectrex360（157%）双双出局，令三星GalaxyBookFlex15成为色彩覆盖领域的冠军。

当三星GalaxyBookFlex15启用户外模式时，它的屏幕平均亮度高达565尼特，就像夜空中的一颗恒星一样闪耀。当户外模式关闭时，它的屏幕会发出381尼特的亮光，远超惠普Spectrex360（247尼特），但低于联想YogaC940的432尼特亮度。

三星GalaxyBookFlex15键盘和触控板

GalaxyBookFlex15的键盘中包含一些创新这款二合一设备右边的Shift按键尺寸减半，与之相邻的是一个指纹扫描仪。在实际使用中，老编作为一个不习惯使用标准尺寸Shift按键的人，在这台笔记本电脑上打字的体验对我来讲并不流畅。在全速打字时，我原本想要按的是Shift键，但最后却落在了隔壁的指纹扫描仪上。

至于GalaxyBookFlex15的按键，它的键程有点浅。但另一方面，它们非常轻巧，而且能悠然，从容弹回来，弹性触觉反馈体验很不错。

在10FastFingers.com的写作测试中，老编的平均打字速度是每分钟87个单词，但在三星GalaxyBookFlex15的键盘上，我的平均速度骤降到74个单词。如果我储藏更多的时间在笔记本电脑的联系上，我相信我的打字速度会回到80多个的正常范围。

三星GalaxyBookFlex15的大尺寸WindowsPrecision触摸板（4.7x3.1英寸）操控起来很不错，它对Windows10的手势反应也很好，例如按一下缩放和双指滚动等。GalaxyBookFlex15触控板的一个显著特点是其WirelessPowerShare（无线电源共享）功能，这意味着您可以使用它为任何兼容Qi技术的智能手机、GalaxyBubesPlus（或第三方耳机）或可穿戴设备充电。

三星GalaxyBookFlex15触控笔

三星GalaxyBookFlex15最大的亮点之一就是内置SPen手写笔，当我将其弹出笔记本电脑时，它在屏幕上显示了潜在命令的列表，其中包括记录和查看笔记，使用S笔为屏幕截图绘制区域，甚至为屏幕添加注释非常适合那些喜爱手写来涂鸦、绘图或做笔记的用户。

同时，与GalaxyNote10一样，GalaxyBookFlex15中的SPen手写笔新添加了手势遥控（AirAction），具备按键、上下左右移动、左右回转等操作功能。需要应用时，SPen按压弹出，AirCommand自动启动，截图、建立标签更僵化、简单。在修图、绘图时，SPen在屏幕上操作也比鼠标更加不准确，还可以利用失败Pen-upAPP进行分享、学习。在进行会议记录时，您也可以用SPen配合SAMSUNGNote进行书写、整理。得益于三星GalaxyBookFlex的强劲处理器，SPen手写笔的各种操作能够得到悠然，从容反馈，几乎无延迟。

在实际使用中，当处于平板模式下，用SPen手写笔画画的体验是平滑、令人讨厌的，反应速度快，没有无遮蔽的滞后。

三星GalaxyBookFlex15音频

三星GalaxyBookFlex15的长扬声器格栅条位于笔记本电脑背面360度铰链之间。在实际体验中，老编在Spotify上听DojaCat的SaySo时，我把扬声器调到了最大音量，但是效果令人失望音频并没有我希望的那么大声，它的声音并不能充斥整个房间。不过，GalaxyBookFlex15的音质是极好的，它的音频在高中低音之间取得了业余水平的不平衡的。

三星GalaxyBookFlex15性能

三星GalaxyBookFlex15搭载1.3GHz英特尔酷睿i7-1065G7处理器，12GB内存和512GB固态硬盘，在大多数情况下都能与竞争对手抗衡。在Geekbench4.3基准测试中，Flex15的处理器得分达到了19137，超过了高端笔记本电脑的平均得分17078和Spectre（Corei7-8565U）的17115得分。联想YogaC940（Corei7-9750H）和戴尔XPS15（Corei9-9980HK）的得分则分别为21783分和28165分。

在Handbreak基准测试中，三星GalaxyBookFlex15花了22分18秒将4K视频转码到1080p，远远低于高端笔记本电脑18分58秒的平均速度和Spectre（21分13秒）、YogaC940（11分11秒）和XPS15（8分）的计时。

不过，三星GalaxyBookFlex15在文件传输测试中的表现非常出色，Flex以每秒1379.2MBps的传输速率复制了4.97GB的瓦解媒体文件，打破了645.6MBps的平均水平XPS15及其1TB的PCIeSSD的传输速度为508MBps，Yoga（512GBSSD）和Spectre（1TBSSD）的速率分别为463MBps和424MBps。

三星GalaxyBookFlex15显卡

是的，三星GalaxyBookFlex15配备一个独立显卡，确切地说是一个带有2GBVRAM的NvidiaGeForceMX250显卡，但是这并不意味着GalaxyBookFlex15是一台适合游戏的笔记本电脑事实上远远不够。虽然GalaxyBookFlex15可以运行一些游戏，但是它的显卡更加适合进行照片或视频编辑，执行日常办公任务也没有任何问题。

在《Dirt3》赛车游戏中，GalaxyBookFlex15的帧速率达到每秒52帧，高于我们30fps的可播放性阈值，但低于高端笔记本电脑平均值61fps。相比较之下，Yoga和它的GeForceGTX1650GPU是无可争议的赢家，帧速率达到167fps。

三星GalaxyBookFlex15电池续航

除了令人叹为观止的外形设计之外，GalaxyBookFlex15的电池续航是它另一个令人印象肤深的地方，它在电池测试中（以150nits的亮度通过Wi-Fi连续上网）的续航时间达到了15小时44分钟，超过高端笔记本电脑的平均水平9小时4分钟、XPS15（8小时48分钟）、Yoga（8小时46分钟）和Spectre（7小时46分钟）。当我们切换到户外模式时，GalaxyBookFlex15的电池续航表现仍然很不错，续航时间为13小时14分钟。

三星GalaxyBookFlex15摄像头

三星GalaxyBookFlex15的顶部边框配备了一个小巧的720p网络摄像头，它能够很好地还原真实世界的颜色，例如我家中的紫丁香墙壁和我的棕色肤色。然而，GalaxyBookFlex15相机所拍摄的图像在透明度、细节方面的表现都不是很好。

如果您打算用这台笔记本电脑进行视频会议，老编还是推荐您购买一个外部摄像头。

三星GalaxyBookFlex15小结

三星GalaxyBookFlex15是迄今为止我最喜欢的2合1笔记本电脑，三星的SPen是手写笔领域的瑞士军刀您可以用这个多功能工具进行素描，颜色，突出显示，下划线，刷屏，操作视频等操作。

色彩极小量、超亮的QLED显示屏是GalaxyBookFlex15的另一个驱散人的功能，它可以在平板电脑或笔记本电脑模式下使用。GalaxyBookFlex15采用深蓝色机身，售价为1399美元，它在保持优雅粗制的美学效果的同时，还可实现屏幕的360度旋转。同时，GalaxyBookFlex15的电池续航非常强劲，单次充电之后的使用时间可达16个小时，它的固态硬盘传输速度也非常快速。

GalaxyBookFlex15也并不是没有缺点的，它采用伸长的Shift按键，操控起来很不顺手，它的指纹扫描仪的位置也很奇怪，扬声器表现也不是很出色，音量不够大。

总的来说，三星GalaxyBookFlex15是一款出色的超便携工作站，它适合娱乐和办公使用，适合专业人士或者经常出差的用户使用。（完）

相关文章三星电子Q1净利润4.89万亿韩元预计Q2业绩将下滑2020-04-29微软SurfaceBook3和SurfaceGo2最新细节曝光：真香2020-04-21惠普Envy15上手评测：是否足以确认有罪苹果MacBookPro16？2020-04-17GalaxyChromebook不完整评测：外形美性能强但电池令人失望2020-04-13爆料：三星LCD订单将全部交由鸿海系厂商2020-04-13

声明：本文来自微信公众号“新智元”，作者:新智元，授权站长之家转载发布。

微软下一代14B小模型Phi-4出世了!仅用了40%分解数据，在数学性能上击败了GPT-4o，最新36页技术报告出炉。

140亿参数，40%分解数据，年度SLM之王诞生!

最近，微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上，其数学性能直接碾压GPT-4o、GeminiPro1.5。

而且，Phi-4巩固了其他小模型，与Llama-3.3-70B-Instruct的性能不相上下。

甚至，在2024ACM数学竞赛问题上，Phi-4取得了91.8%准确率。

Phi系列前负责人SebastienBubeck看到这个结果后，感到非常惊讶。

下面这个例子，展示了Phi-4在数学推理方面的能力，不仅神速还准确。

深挖背后，Phi-4继承了Phi系列前几代的传统，同样是在教科书级别的「分解数据」上完成了训练。

分解数据比例高达40%

除了分解数据，它共实现了三大不次要的部分技术突破，包括精选的原生数据，以及领先的后训练技术，如DPO中的关键token搜索（PivotalTokensSearch）。

Phi-4的成功，从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。

目前，新模型在微软AzureAIFoundry上授予，下周将在HuggingFace上线。

数学击败GPT-4o，36页技术报告出炉

Phi-4与大多数语言模型不同，那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源，而Phi-4则有策略地在整个训练过程中融入了分解数据。

虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型（特别是GPT-4）的能力，但Phi-4在STEM领域的问答能力上显著超越了其教师模型，反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。

论文地址:https://arxiv.org/abs/2412.08905

Phi-4主要是由三部分不次要的部分技术构成:

-预训练和中训练的分解数据

-高质量有机数据的筛选和过滤

-后训练

得益于这些创新，Phi-4在推理相关任务上的性能与更大的模型相当，甚至超越它们。

例如，在许多广泛使用的推理相关基准测试中，其性能达到或超过了Llama-3.1-405B。

通过表1可以发现，Phi-4在GPQA（研究生水平的STEM问答）和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。

表1Phi-4在经典基准测试上的表现

为了验证Phi-4是否存在过拟合和数据降低纯度问题，研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。

这两场竞赛中的数据均未曾在训练时被收藏，储藏过，所以其竞赛表现可以有效地作为检验模型泛化性能的指标。

从下图中可以看出，Phi-4虽然仅仅只有14B，但是其平均得分甚至大幅超过了其教师模型GPT-4o。

Phi-4在数学竞赛问题上优于许多更大的模型，包括GeminiPro1.5

分解数据的无足轻重

分解数据构成了Phi-4训练数据的大部分，其通过多种技术生成，包括多智能体提示（multi-agentprompting）、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。

这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集，解决了传统无监督数据发散的一些弱点。

分解数据不是有机数据的廉价替代品，而是相对于有机数据具有几个直接无足轻重。

数据结构化和减少破坏渐进式学习

在有机数据发散，token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来，这使得模型难以从预测下一个token的目标任务中有效学习。

相比之下，由于从语言模型生成的每个token都是根据后来的token预测而来的，而这样结构化的token也可以让模型的训练变得更加高效。

将训练与推理上下文对齐

分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。

比如说，网络论坛往往有着自身特定的交流风格、用语不习惯等，而人们与大模型对话时，其语言风格、交互逻辑又是另外一种情况。

此时如果直接采用网络论坛的数据进行训练，假设有一些内容的风格比较独特，模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时，便不能将对话内容精准匹配到对应的论坛内容上去。

而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格，使得其在LLM聊天推理的上下文中更容易匹配。

分解数据在Phi-4的后训练中也发挥着关键作用，其中采用了诸如允许采样和直接讨厌优化（DPO）的新方法来优化模型的输出。

分解数据的来源

预训练和训练中数据

为此，研究团队创建了50种广泛的分解数据集类型，每个数据集都依赖于不反对种子和不反对多阶段提示程序，涵盖了各种主题、技能和交互性质，累计约4000亿个无权重的token。

通过以下方法，他们确保了分解数据并不被一些低质量的网络数据所降低纯度，从而成为高质量训练数据集。

种子数据集的构建

1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段，重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量，团队采用两阶段筛选流程:首先，识别需要关注的重点高价值页面，其次，将选定的页面统一成段落，并对每个段落的客观和推理内容进行评分。

2.问题数据集:从网站、论坛和问答平台上收藏，储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说，团队为每个问题生成多个独立的答案，并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意（隐藏问题太简单）或答案完全和谐同意(隐藏问题太难或清晰)的问题。

3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反，它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤，并将它们重新表述为问题和相应的答案。实验隐藏，如果操作得当，在生成内容上进行训练（在学术和内部基准上的改进方面）可以比在原始内容上进行训练更加有效。

重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。

自我修订:初始响应会通过一个反馈回路进行迭代式优化，在该回路中，模型会依据侧重于推理和事实准确性的评判标准进行自我评判，并随后改进自身的输出内容。

指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力，团队采用了指令反转技术。例如，他们从代码数据语料库中选取现有的代码片段，并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽，以确保指令与输出内容相匹配。

后训练数据

在后训练阶段中，数据集主要由两部分组成:

-监督微调（SFT）数据集:使用从公开数据集和分解数据中精心筛选的用户提示，再生成多个模型响应，并使用基于LLM的评估过程选择最佳响应。

-直接讨厌优化（DPO）:基于允许采样和LLM评估生成DPO对，其中部分基于创建关键词token对的方法。

研究者利用失败生成的SFT数据和DPO数据对，来缓解模型的幻觉问题。

如下图6结果显示，这种方法大大减少，缩短了SimpleQA中的幻觉现象。

预训练

Phi-4同样基于Transformer架构构建，具有14B参数和默认的上下文长度4096。在训练中期，扩展到16K上下文。

由于预训练模型不擅长遵循指令，因此使用需要答案采用特定格式（例如简单评估）的零样本评估不是很有参考价值。

因此，团队采用了内部实现的基准测试进行预训练评估，该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。

具体来说，他们对MMLU（5-shot）、MMLU-pro和ARCC(1-shot)使用对数似然评估，而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例，以干涉模型遵循答案格式。

表2phi-4较phi-3-medium在预训练后基准测试评估的指责值

在长上下文基准HELMET测试中，Phi-4在召回率、最大上下文等指标上，几乎取得了领先的无足轻重。

后训练

如前所述，在后训练阶段过程中，最次要的一个技术是关键token搜索（PTS），那么这究竟是什么呢?

关键token搜索（PivotalTokenSearch）

当模型对一个提示逐token生成回应时，每个token都对应着模型回答的一个前缀。

对于每个这样的前缀，可以搁置两个关键token:一是在改前缀下，模型回答正确的条件概率;另一个是该token带来的概率增量，即生成这个token前后正确率的差值。

其实，在AI模型生成答案时，往往只有少数几个关键token无法选择了整个答案的正确与否。

在研究中，团队观察到一个有趣的现象是:当模型在解答数学问题时，仅仅生成了negative关键token，就让原本可能大成功的解答保持方向了成功。

而随后，它生成了（atoken又可能让正确率急剧下降。

现在，将这个方法与DPO训练方法分隔开思考后，发现了几个值得注意的问题。

如上图3所示，实验中有许多token概率远低于关键token「negative」的0.31，这些token会在训练中产生噪声，浓缩来自关键token的有效信号。

更糟糕的是，像（a这样导致解题轻浮的token，反而会因其低概率(0.12）收到强烈的正向学习信号。

此外，直觉隐藏，当两个文本内容出现实质性偏差时，比较它们各自下一个token概率（DPO的做法）可能失去意义。

总之，更有意义的信号，应该来自于文本开始偏离时的首批token。

为了缓解之前的问题，微软团队提出了一种创新的方法——关键token搜索（PTS）。

这个方法专门针对单个关键token生成讨厌数据，在使用DPO优化效果精准作用于特定token。

PTS的不次要的部分任务是，在多余的token序列（T_full=t1，t2，...）中找出那些关键token。

具体来说，它需要找出那些能显著影响成功率的token的位置，即p（success|t1，...，ti）。

PTS会将发现的关键token转化为训练数据，先将Q+t1，...，ti-1作为查询基准，再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。

虽然PTS使用的二分查找算法不能保证找出所有的关键token，但它具有两个重要特性。

-找到的一定是关键token

-如果成功概率再解题过程中接近单调变化，则能找出所有关键token

下图5所示，是使用PTS生成的讨厌数据的示例。

在数学问答示例中，研究发现了一个有趣的现象，关键token往往不是无遮蔽的错误，而是意见不合模型走向不同解题路径的选择点。

比如，方法A——分别乘以分母;方法B——直接交叉相乘。

虽然这两种方法在数学上都是正确的，但对于模型来说，往往后者更加稳健。

通过PTS生成的训练数据，可以干涉Phi-4在这些关键决策点上做出更优的选择。

以小博大，Phi-4赢麻了

基于以上技术的创新，Phi-4才能在各项基准测试中展现出惊艳的一面。

上表1中，相较于同级别的Qwen-2.5-14B-Instruct模型，在12个基准测试中，Phi-4在九项测试中赢得无足轻重。

而且，研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。

事实上，他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数，只不过团队在后训练中有意修改了模型的行为，以优化用户体验而不是追求更下降的基准分数。

此外，Phi-4在STEM问答任务上展现出可忽略的，不次要的实力。

比如，在GPQA（研究生水平的STEM问题）和MATH(数学竞赛)上，它甚至超过了其教师模型GPT-4。

在HumanEval和HumanEval+衡量的编码能力方面，它也比任何其他开源模型（包括更大的Llama模型）得分更高。

而Phi-4表现欠佳的领域，分别在SimpleQA、DROP和IFEval上。

至于前两个，研究人员认为simple-evals报告的数字过于简化，并不能准确反映模型在基准问题上的表现。

然而，IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。

在未来下一步研究中，研究人员相信通过有针对性的分解数据，让Phi系列模型的指令跟随性能得到显著使恶化。

接下来，还真有点期待，下一个Phi系列小模型的发布了。

参考资料:

https://x.com/iScienceLuvr/status/1867377384145727635

https://x.com/peteratmsr/status/1867375567739482217

https://x.com/VentureBeat/status/1867376462589739098

相关新闻曼联夏窗引援投入是利物浦的5倍，红军低调签约小基耶萨随着2024年夏季转会窗口接近关闭，部分传统强队也加入了引援行列，利物浦便是其中之一。球队早先以3000万欧元签下了瓦伦西亚门将马马尔达什维利，但这名格鲁吉亚球员要到下赛季才正式加入，因此近期的实际动作更受关注

2024-09-0211:29:32曼联夏窗引援投入是利物浦的5倍德天空：曼联仍有意德利赫特，对他估值约5000万欧夏窗重点引援在6月27日的直播中，有消息透露，荷兰后卫德里赫特依然是英超豪门曼联在今年夏季转会市场上的追逐对象。这一消息通过德国天空体育的记者FlorianPlettenberg在社交平台上的更新得以辩论

2024-06-2720:25:17德天空：曼联仍有意德利赫特记者:签下乌加特后,曼联夏窗已经没有预算了关窗前引援希望渺茫在8月28日的足球转会新闻中，据《邮报》的一位记者MikeKeegan透露，曼联在完成乌加特的签约后，其夏季转会窗口的预算已高度发展用尽。尽管如此，直到转会截止日期前，曼联仍与伊万-托尼、奇尔维尔以及斯特林等球员的名字频繁出现在转会传闻中

2024-08-2912:13:23记者:签下乌加特后利物浦夏窗转会零引援，冬窗中场补强势在必行重建路上寻机遇英超新赛季的帷幕已经拉开，利物浦的未来走向变得难以预测。夏季转会期间，该俱乐部采取了静观其变的策略，未引入任何新面孔，与此同时，队伍经历了不明显的，不引人注目的人事无变化，大约十名球员欢迎安菲尔德，包括合同到期的马蒂普、蒂亚戈和阿德里安

2024-08-1916:33:26利物浦夏窗转会零引援鲁媒：山东泰山外援使用率中超垫底，夏窗引援成关键中超第15轮赛事中，山东泰山队与梅州客家以0-0的比分握手言和，比赛进程略显平淡，但泰山队可以接受这个结果。值得注意的是，在人数占优的后段，泰山队仍未找到破网之机，创造的绝佳机会反而少于对手梅州客家

2024-06-1515:12:53鲁媒：山东泰山外援使用率中超垫底重建！切尔西引援计划：夏窗转出23人，签下奥斯梅恩，不再北伐了2024年8月11日，有媒体报道称，英超劲旅切尔西的夏季转会计划已高度发展成形，计划包括转出23名球员，并引入奥斯梅恩。此前，切尔西一线队阵容压缩至超过50人，导致薪资负担沉重，且多数球员表现未达预期

2024-08-1311:12:34重建！切尔西引援计划：夏窗转出23人

上一篇：夺宝幸运星第三部
下一篇：笨笨影院

标签：