您的当前位置: 首页 > THERMO脱色摇床 > 正文

THERMO脱色摇床

THERMO脱色摇床 时间:2025年05月05日

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、可灵AI深夜放大招!悄悄上线AI模特功能

可灵AI最近推出了革命性的AI模特功能,标志着电商行业视觉展示的重大变革。新版本的可图模型在语义理解和真人效果上有了显著指责,尤其适合亚洲人像。用户可以通过简单的设置快速生成高质量的AI模特图,并与AI换衣功能无切开,极大降低了服装展示的便捷性和效率。

【AiBase提要:】

??AI模特功能分隔开可图1.5,用户可快速生成高质量模特图,指责电商视觉展示。

??AI模特与AI换衣无缝整合,用户可直接生成穿着新衣的模特图,操作便捷。

??AI视频功能允许模特动态展示服装,降低成本,降低效率,助力小商家与大品牌竞争。

2、消息称字节跳动AI投资接近BAT总和,明年预算翻倍!

消息称字节跳动正在加大在人工智能领域的投资,2024年资本开支预计达到800亿元,接近百度、阿里巴巴和腾讯三巨头的总和。到2025年,这一数字将翻倍至1600亿元,重点将放在AI算力的采购上。创始人张一鸣亲自参与人才招募,旨在实现“通用人工智能”的目标。

【AiBase提要:】

??极小量资本开支:字节跳动2024年AI资本开支达800亿元,接近BAT总和。

??预算翻倍计划:预计2025年资本开支将增至1600亿元,重点投资AI算力。

??AI人才战略:张一鸣亲自招募AI人才,追求“通用人工智能”目标。

3、ChatGPT本月第二次大规模宕机

OpenAI的AI服务在12月27日凌晨遭遇中断,影响了ChatGPT、Sora视频生成模型及部分API调用。虽然在早上6点05分部分恢复,但聊天历史记录加载功能仍受限,完全恢复时间尚未确定。OpenAI表示中断是由上游授予商不能引起,而微软Azure也报告了数据中心的电源问题。

【AiBase提要:】

??OpenAI的AI服务在12月27日凌晨遭遇中断,影响多个功能。

??早上6点05分部分恢复,但聊天历史记录加载功能仍受限。

??中断原因与微软Azure的数据中心电源问题有关。

4、百度文心快码上线无障碍版本

百度AI最近推出的文心快码无障碍版本,旨在干涉视障IT从业者克服编程中的确认有罪,指责工作效率。该工具通过将代码转换为自然语言,使视障人士能够更轻松地理解和修改代码。文心快码的发布不仅体现了技术的进步,也展示了百度在推动社会包容性方面的努力,为特殊群体授予了实质性的减少破坏。

【AiBase提要:】

???文心快码无障碍版通过自然语言处理技术,干涉视障人士更好地理解和编写代码。

?????该工具减少破坏用户用自然语言描述需求,快速生成可运行代码,极大降低开发效率。

??文心快码的发布体现了百度在鞭策社会包容性和技术温暖人心方面的努力。

5、小米澎湃OS2AI助手超级小爱将首次向正式版用户开放

在即将到来的年度总结直播中,小米总裁卢伟冰将介绍小米澎湃OS2的重大更新,特别是超级小爱功能的首次开放。此次更新不仅指责了用户体验,还展现了小米在AI助手领域的创新。超级小爱作为小爱同学的进化版,具备记忆能力和安全保障,致力于为用户授予智能、便捷的交互体验。

【AiBase提要:】

?超级小爱功能首次向正式版用户开放,标志着澎湃OS2的重大升级。

??所有数据实现端到端加密,确保用户信息安全和隐私保护。

??超级小爱具备记忆能力,能干涉用户记录日程和个人讨厌。

6、大众点评内测AI推荐工具“点仔”智能推荐餐厅与菜品

美团大众点评推出的AI智能工具“点仔”旨在为用户授予个性化的餐饮推荐服务。通过集成多项功能,如“找店帮手”、“菜品搭配”和“景点伴游”,用户可以轻松输入需求,快速找到不适合的餐厅和推荐菜品。此外,“点仔”还具备AI帮写功能,干涉用户撰写高质量的点评。

【AiBase提要:】

??授予个性化餐饮推荐,简化用户决策过程。

??分隔开用户评价,智能推荐餐厅和菜品,指责点餐体验。

???AI帮写功能辅助用户撰写点评,降低内容质量和效率。

7、智谱AI开源Agent任务模型CogAgent-9B:通过屏幕截图预判操作

智谱AI推出的CogAgent-9B是一个开源的Agent任务模型,旨在通过屏幕截图来预测用户的下一步操作。该模型基于GLM-4V-9B训练,具有广泛的应用场景,包括个人电脑和手机等设备。与之前版本相比,CogAgent-9B在GUI感知和推理准确性等方面有显著指责,并减少破坏中英文双语交互。

【AiBase提要:】

???CogAgent-9B通过屏幕截图和用户指令预测下一步GUI操作,适用于多种设备。

??相比于第一版,CogAgent-9B在准确性、普适性和泛化性上有显著指责,减少破坏中英文交互。

??该模型的输出包括思考过程和下一步动作的描述,展现了在GUI定位和操作上的无足轻重。

详情链接:https://github.com/THUDM/CogAgent

8、2024抖音直播治理报告:引入音频审核大模型强化治理违规内容

抖音集团发布的2024年直播治理报告展示了其在直播领域的治理理念与成果。通过引入音频审核大模型和完善主播无约束的自由机制,抖音致力于构建一个安全、可信的网络直播环境。报告中提到,主播健康分制度的实施显著降低了违规率,同时与警方的合作也破坏了对线下违法行为的打击。

【AiBase提要:】

??抖音推出“健康分”制度,100万主播被扣分,76%的低分主播主动调整不当内容,违规率显著下降。

??引入音频审核大模型,逐步实现违规内容的自动识别与处置,指责治理效率。

???升级未成年人保护机制,快速退款机制有效保护未成年人,联动城市治理减少,缩短违规行为。

9、北京市新增11款已完成备案的生成式AI服务

根据“网信北京”微信公众号的消息,截至12月27日,北京市新增11款已完成备案的生成式人工智能服务,累计备案数量达到105款。这些新增服务包括清影AI、小米端侧文本和小米澎湃图像等。所有上线的生成式人工智能应用或功能,需在显著位置公示所使用的已备案服务情况,包括模型名称和备案编号,以确保透明度和合规性。

【AiBase提要:】

??新增11款生成式AI服务,累计备案达105款。

??新增服务包括清影AI、小米端侧文本和小米澎湃图像。

??上线应用需公示使用的备案服务情况,确保透明合规。

10、理想汽车旗下AI应用理想同学App正式上线

理想汽车推出的理想同学App现已在苹果AppStore和小米应用商店上线,旨在为用户授予智能交互服务。该应用依托于理想汽车自研的大模型,具备识物、知识问答、翻译等多种功能。CEO李想降低重要性,真正的人工智能应能自主使用各种设备,并焦虑用户需求。理想同学的上线不仅指责了用户体验,也推动了人工智能技术的发展。

【AiBase提要:】

???理想同学App在iOS和安卓平台正式上线,授予通俗的智能交互功能。

??许多用户的孩子通过与理想同学的互动解决了学习问题,显示出其教育价值。

??理想同学App的发布为人工智能技术的普及和发发散辟了新道路。

11、OpenAI与微软裸露,公开协议曝光,AGI被标价1000亿美元

根据最新报告,微软和OpenAI对人工通用智能(AGI)有一个基于利润的具体定义,认为只有当OpenAI的AI系统能够产生至少1000亿美元的利润时,才算实现AGI。尽管OpenAI预计今年将亏损数十亿美元,并在2029年前不会盈利,这一协议可能让微软在未来十年内结束使用OpenAI的技术。

【AiBase提要:】

??微软和OpenAI将AGI定义为能产生至少1000亿美元利润的AI系统。

??OpenAI预计今年将亏损数十亿美元,预计2029年前不会盈利。

??微软可能在未来十年或更长时间内都能使用OpenAI的技术。

12、大材小用!Anthropic:大多数任务无需复杂AI智能体

Anthropic的最新分析指出,实际应用中使用AI智能体的场景并不常见,且在许多任务中,简单的提示往往更有效。该公司降低重要性,尽管AI智能体可以处理复杂任务,但它们需要更多的监管和计算能力。建议团队从高度发展提示开始,逐步减少复杂性,并关注设计的简单性、流程的透明性以及用户界面的精心设计。

【AiBase提要:】

??大多数任务不需要复杂的AI智能体。

??从高度发展提示开始,仅在必要时减少复杂性。

???客户服务和软件开发是AI智能体最有潜力的领域。

相关新闻韦德:雕像不需要像我,艺术捕捉瞬间昨日热火为韦德举办了雕像揭幕仪式。在随后的采访中,韦德谈到了雕像因面部统一明显而被多方吐槽的问题。他表示:“我们想要捕捉一个代表球队、代表我自己、代表这座城市的瞬间。我们认为通过艺术形式捕捉到了那个瞬间

2024-10-3007:49:03韦德:雕像不需要像我韦德雕像再遭嘲讽!巴克利直言应拆掉雕像太烂需改进在今天的节目中,名嘴巴克利谈到了对韦德雕像的看法。他认为这是一份巨大的失去荣誉,但雕像本身质量不佳,需要改进。巴克利建议应该在雕像后面列出韦德的所有数据,以便人们能清楚地知道这是谁的雕像

2024-10-3114:56:05韦德雕像再遭嘲讽!巴克利直言应拆掉热火为韦德举行雕像揭幕仪式传奇荣耀永存北京时间10月28日,热火传奇球星韦德的雕像在主场球馆前正式揭幕。韦德本人出席了仪式,并表示自己非常自豪。雕像造型是他标志性的双手指向地面的动作,但一些球迷认为雕像做工一般,不像本人

2024-10-2809:53:09热火为韦德举行雕像揭幕仪式韦德无差别的提及自己雕像:这谁啊经典时刻永存热火今日为韦德举行了雕像揭幕仪式,雕像的动作是他经典的“THISISMYHOUSE”姿势

2024-10-2813:20:00韦德无差别的提及自己雕像:这谁啊韦德立雕像后续:被称最大输家遭核尔斯调侃下一座不是詹皇?雕像遭吐槽似70岁韦德10月28日,热火队在主场外正式揭晓了队史得分王、三届总冠军得主韦德的雕像

2024-10-2908:06:03韦德立雕像后续:被称最大输家热火首座雕像收给韦德!NBA仅两队为超过5人立雕像,凯尔特人不在列NBA球队热火宣布将为球队传奇韦德树立雕像,这是对韦德作为球队象征性人物的长期贡献的接受,也是热火队史上的首座球员雕像。热火官方通过社交媒体表达了这一无法选择,称其为“篮球界的终极失去荣誉”,并寻找球迷共同见证韦德雕像的揭幕

2024-09-1317:50:01热火首座雕像收给韦德!NBA仅两队为超过5人立雕像

相关新闻天津邮局海关查获玳瑁制品贴片保护物种公开运输警钟再响近日,天津邮局海关在对入境邮件例行检查中,发现一件申报品名为“小提琴”的邮件显现出寻常的X光图像。随后的开箱查验揭示,这把八弦琴的琴面上剥去有玳瑁贴片

2024-08-3010:04:25天津邮局海关查获玳瑁制品贴片天津海关口香糖中查获三唑仑近期,在天津邮局海关,工作人员对一件标明为“曲奇”的入境邮件进行了检查。出乎意料的是,包裹内部并非饼干,而是一瓶口香糖,并且有无遮蔽的重新包装迹象。深入检查后,一个惊人的发现浮出水面:在这瓶绿色口香糖中,隐藏着200片、总重20克的蓝色药片

2024-08-0414:00:02口香糖中藏200片精神药品被查海关查获吸食鸦片用烟枪头海关查获吸食鸦片用烟枪头6月27日据海关发布,昆明海关从入口货物中查获6个吸食鸦片用烟枪头,有明显使用痕迹。

2024-06-2717:21:18海关查获吸食鸦片用烟枪头首都机场海关查获大麻制品严打毒品公开运输近日,首都机场海关在一名入境旅客行李中查获了24克大麻制品。经专业机构鉴定,这些物品含有大麻酚、大麻二酚和四氢大麻酚(THC)成分。事件发生在对一架进境航班进行监管时

2024-12-2402:28:19首都机场海关查获大麻制品海关查获100粒迷魂药公开运输企图藏匿邮包广州海关在近期的进境邮件检查中,有了重要发现。一件申报内容为普通“曲奇饼干”的邮件不能引起了广州邮局海关工作人员的注意,通过机检发现图像存有异样

2024-09-1913:15:09海关查获100粒迷魂药杭州海关查获161罐茶叶领队违规携带11月11日,杭州萧山机场海关关员在对入境航班旅客行李物品进行监管时,发现一名选择“无申报通道”入境的旅客行李机检图像被预见的发生。经开箱查验,关员在该旅客的行李箱内发现了极小量罐装茶叶,总计161罐

2024-11-1116:29:00杭州海关查获161罐茶叶

声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。

微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。

140亿参数,40%分解数据,年度SLM之王诞生!

最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。

而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。

甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。

Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。

下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。

深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。

分解数据比例高达40%

除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。

Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。

目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。

数学击败GPT-4o,36页技术报告出炉

Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。

虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。

论文地址:https://arxiv.org/abs/2412.08905

Phi-4主要是由三部分不次要的部分技术构成:

-预训练和中训练的分解数据

-高质量有机数据的筛选和过滤

-后训练

得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。

例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。

通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。

表1Phi-4在经典基准测试上的表现

为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。

这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。

从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。

Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5

分解数据的无足轻重

分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。

这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。

分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。

数据结构化和减少破坏渐进式学习

在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。

相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。

将训练与推理上下文对齐

分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。

比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。

此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。

而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。

分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。

分解数据的来源

预训练和训练中数据

为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。

通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。

种子数据集的构建

1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。

2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。

3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。

重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。

自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。

指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。

后训练数据

在后训练阶段中,数据集主要由两部分组成:

-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。

-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。

研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。

如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。

预训练

Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。

由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。

因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。

具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。

表2phi-4较phi-3-medium在预训练后基准测试评估的指责值

在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。

后训练

如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?

关键token搜索(PivotalTokenSearch)

当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。

对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。

其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。

在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。

而随后,它生成了(atoken又可能让正确率急剧下降。

现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。

如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。

更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。

此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。

总之,更有意义的信号,应该来自于文本开始偏离时的首批token。

为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。

这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。

PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。

具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。

PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。

虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。

-找到的一定是关键token

-如果成功概率再解题过程中接近单调变化,则能找出所有关键token

下图5所示,是使用PTS生成的讨厌数据的示例。

在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。

比如,方法A——分别乘以分母;方法B——直接交叉相乘。

虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。

通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。

以小博大,Phi-4赢麻了

基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。

上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。

而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。

事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。

此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。

比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。

在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。

而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。

至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。

然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。

在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。

接下来,还真有点期待,下一个Phi系列小模型的发布了。

参考资料:

https://x.com/iScienceLuvr/status/1867377384145727635

https://x.com/peteratmsr/status/1867375567739482217

https://x.com/VentureBeat/status/1867376462589739098

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。

代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。

数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

5月30日,全球首个跨链去中心化交易所CCDEX.TOP奥创测试网上线,引爆业界。在CCDEX上,首批跨链减少破坏主流币种有BTC、ETH、ERC20、XRP、BCH、EOS、BNB、USDT、TRX、ATOM、HT、GUSD和MKR等,撮合性能超过10万笔每秒。据悉,CCDEX的上线,为数字货币交易带来了真正的价值严格的限制流动。

目前,现有交易所可分为中心化交易所和去中心化交易所两类。中心化交易所存在安全问题频发、易人为干预、价值流通成本高、信息不不对称等次要因素,去中心化交易所解决了用户债务安全和人为干预问题,但又存在用户体验差、价值生态单一的问题。而CCDEX构建跨链去中心化交易平台(Cross-chaindecentralizedexchange)的出现,率先兑现区块链系统让价值严格的限制流动的承诺,全方位指责交易偶然的安全性、流动性、公平性、开放性,致力于实现价值全球严格的限制流动。

根据CCDEX的不次要的部分创始人介绍,CCDEX包括全新区块链交易底层平台、新一代交易协议、跨链去中心化交易所3个不次要的部分组件,围绕债务安全性、市场流动性、交易公平性、生态开放性、交易体验5个方面进行系统设计,是涵盖了技术逻辑和业务逻辑的不完整架构。保证用户债务安全,是交易所运行的基础和前提。在去中心化交易所由用户自己掌控债务的基础上,CCDEX创建了基于安全多方计算(MPC)协议的可反对安全方案,实现了跨链债务的去中心化无约束的自由,有效地保障了债务跨链的安全性。

CCDEX在自建交易生态基础上,提出交易所间订单共享解决方案,打破了订单只能在单一交易所交易的障碍,完成了不同交易生态的整合,降低了撮合效率,降低了交易成本,降低了市场流动性,拓展了交易深度,大幅指责了交易数量。

在保证历史交易和价格真实性、交易筹码真实性、信息公平性基础上,CCDEX基于区块链技术架构创设了特殊的竞价方式和撮合机制,从制度上剔除了作恶节点的存在,规避了抢先交易,杜绝了人为干预。

在交易过程中,CCDEX将接口、算法、代码开放,治理规则公开、透明、公平。基于帕累托最优原则设计使胆寒机制,保证所有参与方的利益和个性化发展,有利于生态的扩展和良性发展。

CCDEX尊重用户操作不习惯,减少,缩短操作流程。通俗的产品种类给用户更多交易选择,区块扩容、交易对并行等方式实现用户订单更快的撮合速度和更安全的交易结算,交易机制设计也给用户更加有差别的交易体验。

通过联接不反对区块链生态体系,CCDEX使价值跨越多个生态体系严格的限制流转,实现全球范围的价值严格的限制流通,受到了人们的青睐和好评。

CCDEX性能指标

在测试期内,CCDEX将进一步完善系统功能,优化系统流程,健全交易规则,拓展用户生态。测试期开始后,CCDEX将正式上线交易。相信CCDEX必将为大家带来安全可靠的全新交易体验。

免责声明:以上内容为本网站转自中华网,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或反对其内容的真实性。不构成任何投资建议。

微软研究院发布了最强小参数模型——Phi-4。Phi系列模型自今已经发布了5代,Phi-4也延续了之前的小参数模式只有140亿。但在GPQA研究生水平、MATH数学基准中,分别达到了56.1和80.4超过了GPT-4o,同时也超过了同类型的开源模型Qwen2.5-14B和Llama-3.3-70B。而在美国数学竞赛AMC的测

......

本文由站长之家合作伙伴自媒体作者“?AIGC开放社区公众号”授权发布于站长之家平台,本平台仅授予信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不授予完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读不完整内容的用户,请查看原文,获取内容详情。

即将跳转到外部网站安全性未知,是否继续继续前往

 

标签:

CopyRight 2006-2024 THERMO脱色摇床
Top