季sp公开训街管教
声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。
【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。
Sora、Veo2接连发布之后,AI视频生成的战场又热闹了起来。
就在昨天,通义万相视频生成模型迎来了重磅升级!
他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。
刚一上线,就被预见的发生火爆,等待时间甚至一度达到了1小时
此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。
通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。
在实用性方面,通义万相2.1也得到了不明显的,不引人注目的指责,尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。
以下都是我们实测出的Demos,就说够不够拍电影大片吧!
更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。
以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出特殊的东方韵味。背景高级简洁,杂志摄影感。
从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。
那么,通义万相2.1究竟给我们带来了哪些惊喜?
我们经过一番实测后,总结出了5大要点。
1.首创中文文字生成
通常来说,文字生成是AI视频模型进化的一大痛点。
我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。
为什么之前的AI视频生成工具,都在「重步走」中文文字生成这个难题?
这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要搁置笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。
而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!
这一切,只需要你动动手指,输入简单的文字提示就够了。
天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。
水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。清空童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天快乐无边」。
一只柯基坐在桌前冥想,背后一个「静」字非常应景。
一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。
2.更轻浮的复杂运动生成
对于大多数AI视频模型来说,无法逃穿「体操」魔咒。有人称,这是AI视频最新的「图灵测试」。
你会经常看到,AI体操视频生成中,有序的,不弄湿的/排列的肢体、不不调和的动作满屏皆是。
这仅是复杂肢体运动的一种,因为涉及到精细细节和高水平动作不调和,成为了AI视频生成的一项重要评判标准。
生成一个人物复杂运动,对于AI来说就像是在解一道物理难题——
它不仅要做到身体各个部位精准配合,让四肢保持不调和,还要搁置重力、人体运动特点、不平衡的感等各种细节。
在最新升级中,通义万相在多种场景下展示了惊人的「运动天赋」。
滑冰、游泳、跳水这些极易出错的名场面,万相2.1也通通Hold住,没有出现任何诡异的肢体动作,和不符合物理规律的场景。
平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后竖式的,展现了她的技巧和优雅。
在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。
就看这个跳水动作,完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花,都非常符合自然规律。
一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。
特写镜头下,女孩以手指轻触红唇,然后开怀大笑。这么近的怼脸特写,表情肌的走向和分布都十分自然,脸部纹路和嘴角笑起的弧线,也逼真似真人。
特写镜头下,一位美女面容粗制,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏核。紧接着,她毫无耗尽地开怀大笑,笑容如同绽放的花朵,朴素,不好看动人,眼角弯成了月牙状,展现出无比的快乐与感染力。
3.更优美轻盈的运镜控制
同一个场景下的视频,为什么专业人士拍出来就是不一样?某种程度上讲,秘诀在于「运镜」。
那么,对于AI来说,教它运镜就相当于在教机器人当导演。
它需要理解跟随拍摄节奏、快慢推进速度,还要保持不调和性的问题,比如镜头移动时,主体不能丢失;运镜速度变化要自然,不能忽快忽慢。
更次要的是,AI还得有艺术感,运镜效果要符合视觉不习惯,动态美感要恰到好处。
在通义万相2.1版本中,AI展现出了专业级的运镜效果。
穿着禅衣的小狐狸,在360度运镜下欢快跳舞,这不,梦幻般的效果一下子就来了。
穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。外围风格清新自然,清空东方韵味。近景动态特写。
此外,新模型还能自动根据场景需求,智能调整不当运镜速度,完美把控了镜头的节奏。
海王在暴风雨中驾驭巨浪前行,这种级别的运镜绝对经得起考验,出现在大荧幕上也毫不违和。
暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格
实验室中女医生精心设计的特写镜头,细腻的表情刻画,以及背后灯光、实验器材等多种元素碰撞,让整个角色立即具备了通俗的层次感。
富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深不准确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。
下面这个镜头中,穿过一条两盘种满树木的郊区住宅街道,给人一种实时拍摄的麻痹。
Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast
4.真实的物理规律模拟AI视频模型不理解物理世界,一直以来饿受诟病。
比如,Sora不仅会生成8条腿的蚂蚁,而且眼瞧着手都要被嫁接了,也切不开西红柿,而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。
这一次,通义万相在物理规律理解上,得到显著指责。通过对现实世界动态和细节深入认知,就能模拟出真实感十足的视频,避免「一眼假」情况的出现。
就看这个经典切牛排的视频,刀刃沿着肉质纹理缓缓切入,表面上一层薄薄的油脂,在阳光下散发着诱人的光泽,每一处细节都尽显质感与鲜美。
在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。
它具备更强大的概念组合能力,能够准确理解和整合元素级的概念,使其在生成内容时更加智能。
比如,柯基+拳击,会碰撞出什么呢?
AI生成的柯基打斗的画面,真给人一种人类拳击的现场感。
两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在接纳视角下拍摄,没有无遮蔽的运镜变化。
AI大牛Karpathy最爱考验AI视频的难题,就是「水獭在飞机上用wifi」。这道题,万相2.1完美做出。
5.高级质感、多种风格、多长宽比更值得一提的是,万相2.1能够生成「电影级」画质的视频。
同时,它还能减少破坏各类艺术风格,比如卡通、电影色、3D风格、油画、古典等等。
不论是哥特式电影风格,还是中国古典宫廷风格,AI将其特点呈现得淋漓尽致。
哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在最近的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与松弛的氛围。近景动态骑马场景。
这个中国古典宫廷风格的画面,镜头由群臣向前推进,聚焦在身披龙袍的皇帝身上,好像正在上映的一部古装剧。
中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧无光泽的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景分隔开,快速推进和跟随拍摄。
养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕,背后的向日葵与乡村老宅相映成趣,构筑出一幅清空岁月与质感的画面。
Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.
大文豪李白的「举头望明月,低头思故乡」,AI直接把氛围感拉满。
古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。
对于词穷的创意者来说,通义万相「智能体扩写」功能非常友好。比如,我想生成一个「超快放大蒲公英,展现宏观梦幻般的抽象世界」。
若想要细节更通俗的描述,直接交给AI就好了。它会自动生成一段文案,可以直接复用,也可以二次编辑修改。
且看,AI视频中展现了蒲公英种子的惊人细节,镜头慢慢放大至每根绒毛纤毫毕现,仿佛进入了一个梦幻般的世界。
此外,万相2.1还能减少破坏5种不反对长宽比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配电视、电脑、手机等不同终端设备。
不次要的部分架构创新
那么,到底是什么让通义万相,能在激烈AI视频生成竞争中穿颖而出?
它又藏着哪些让人眼前一亮的「黑科技」?
接下来,让我们逐一分解此次2.1版本的技术创新突破点。
自研VAE与DiT双重突破通过采用自研的高效VAE和DiT架构,阿里团队在时空上下文关系建模方面取得重大突破。
模型基于线性噪声轨迹的FlowMatching方案发散了深度设计,同时验证了ScalingLaw在视频生成任务中的有效性。
通义万相2.1视频生成架构图
在视频VAE层面,通过分隔开缓存机制和因果卷积,团队提出了一个极具创新性的视频编码解决方案。
通过将视频拆分为多个若干块(Chunk)并缓存中间特征,替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关,与原始视频长度无关。
由此,这一关键技术能够减少破坏无限长1080P视频的高效编解码,为任意时长视频训练开辟新途径。
如下图所示,展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。
值得一提的是,通义万相VAE在较小的模型参数规模下,取得了业内领先的视频数量增加重构质量。
通义万相2.1视频VAE和其他方法的结果对比
DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力,同时保持高效的训练过程。
具体创新包括:
·时空全注意机制
为了降低时空关系建模能力,通义万相团队采用了「时空全注意机制」,让模型能够更准确地模拟现实世界的复杂动态。
·参数共享机制
团队引入了「参数共享机制」,不仅指责了模型性能,还有效降低了训练成本。
·优化文本嵌入
针对文本嵌入进行了性能优化,在授予更优的文本可控性的同时,还降低了计算需求。
得益于这些创新,使得新模型在相同计算成本下,凹显出收敛的优越性,并更易实现ScalingLaw的验证。
超长序列训练和推理通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能,团队制定了训练的分布式、显存优化的策略。
这一策略在保证模型迭代时间前提下,优化训练性能,在业界率先实现了100万Tokens的高效训练。
在分布式训练策略上,团队开发了创新的4D并行策略,分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行,显著指责了训练性能和分布式扩展性。
通义万相4D并行分布式训练策略
在显存优化上,采用了分层显存优化策略优化Activation显存,解决了显存统一问题。
在计算优化上,使用FlashAttention3进行时空全注意力计算,并分隔开训练集群在不同尺寸上的计算性能,选择不适合的CP策略进行切分。
同时,针对一些关键模块,去除计算冗余,使用高效Kernel实现,降低访存开销,指责了计算效率。
在文件系统优化上,分隔开了阿里云训练集群的高性能文件系统,采用分片Save/Load方式,指责了读写性能。
在模型训练过程中,通过错峰内存使用方案,能够解决多种OOM问题,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。
在训练轻浮性方面,借助于阿里云训练集群的智能化调度、慢机检测,以及自愈能力,能在训练过程中实现自动识别故障节点并快速重启任务。
规模化数据构建管线与模型自动化评估机制规模化的高质量数据是大型模型训练的基础,而无效的模型评估,则指引着大模型训练的方向。
为此,团队建立了一套多余的自动化数据构建系统。
该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意,能够自动构建高质量的视频数据,同时还具备多样化、分布均衡等特点。
针对模型评估,团队还开发了覆盖多维的自动化评估系统,涵盖美学评分、运动分析和指令遵循等20多个维度。
与此同时,训练出专业的打分器,以对齐人类讨厌,通过评估反馈帮助模型的迭代优化。
AI视频生成下一个里程碑
去年12月,OpenAI和谷歌相继放出Sora、Veo2模型,让视频生成领域的热度再一次升温。
从创业新秀到科技巨头,都希望在这场技术革新中寻找自己的位置。
但是相较于文本的生成,制作出令人信服的AI视频,含糊是一个更具确认有罪性的命题。
Sora正式上线那天,奥特曼曾表示,「它就像视频领域的GPT-1,现在还处于完全建立阶段」。
若要从GPT-1通往GPT-3时刻,还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。
当AI真正打破现实创作的局限,赋予创意工作者前所未有的想象,新一轮的行业变革必将随之而来。
此次,通义万相2.1取得重大突破,让我们有理由相信,AI视频的GPT-3时刻正帮助到来。
参考资料:
https://tongyi.aliyun.com/wanxiang/videoCreation
相关新闻LPL夏季赛组内赛赛程公布:五周激战,谁能登顶?7月3日,LPL夏季赛组内赛的日程安排揭晓,比赛时段横跨五周,自7月5日起至7月31日止。赛事以每日一赛的节奏发散,涅槃组与登峰组轮番上阵。首战由涅槃组的EDG对垒RNG拉开序幕,登峰组则由AL对抗FPX
2024-07-0315:10:27LPL夏季赛组内赛赛程拜仁冬训计划:放假12天,1月6日和萨尔茨堡踢友谊赛备战密集赛程拜仁俱乐部在5-1大胜萨尔茨堡后迎来了圣诞假期。俱乐部官方透露了今年冬歇期的计划,主帅孔帕尼为全队放假12天,伤员将在假期进行单独训练。球队将于1月2日重新集结,并于1月3日面对球迷进行一场公开训练2024-12-2506:50:29拜仁冬训计划WTT常规赛国乒9月6日赛程公布:阻击日韩强敌迎来7场外战考验北京时间9月6日,乒乓球WTT阿拉木图常规赛即将迎来正赛第二天的较量,目前国乒选手总体表现良好,外战取得21胜3负的成绩,目前只有袁励岑、李雅可、袁励岑/石洵瑶输给了外协会运动员,而徐瑛彬、刘炜珊、蒯曼/陈熠则是一轮游不敌队友。2024-09-0616:32:47WTT常规赛国乒9月6日赛程公布:阻击日韩强敌曼谷球星赛:男单签位公布,林高远孤军奋战,张本、林昀儒同区乒乓球WTT曼谷球星赛正在进行,资格赛未完,正赛签位已揭晓。男单项目中,国乒选手林高远身处上半区,面对来自韩国、日本的诸多强手,如李尚洙、张禹珍、赵大成、安宰贤、吉村真晴、及川瑞基,以及中国台北的庄智渊、黄镇廷,确认有罪重重2024-07-0311:22:38曼谷球星赛:男单签位公布足协杯资格赛赛程公布:12月16日首轮,12月20日踢排名赛22队争夺正赛席位10月15日,足协杯官方公布了2025年足协杯资格赛的赛程。12月16日,2025年中国足协杯资格赛将在珠海索卡训练基地开赛。22支业余球队将通过抽签分成6个小组,进行四轮角逐,争夺进入足协杯正赛的机会2024-12-1519:11:43足协杯资格赛赛程公布成都混团世界杯12月6日赛程出炉国乒迎战日本队12月6日,2024WTT成都混团世界杯继续进行。国乒当天19:00将对阵日本队,次日则将迎来一日双赛,分别迎战罗马尼亚队和法国队。本次比赛中,日本队并未派出主力阵容2024-12-0610:49:00成都混团世界杯12月6日赛程出炉相关新闻唯一超越泰森的拳王,却被曝光风流成性唯一超越泰森的拳王,却被曝光风流成性。
2024-07-0317:37:44唯一超越泰森的拳王泰森16分钟赚了1.45亿传奇拳王再现无光泽拳王泰森最近在美国得克萨斯州阿灵顿ATT体育馆与27岁的网红杰克·保罗进行了一场8回合的拳击对决。最终,泰森以点数74比78不敌对手。这场比赛距离泰森上一次职业拳击赛已过去19年2024-11-1816:30:05泰森16分钟赚了1.45亿58岁拳王泰森重返擂台不敌年轻对手在北京时间11月16日上午,德克萨斯州阿灵顿AT&T体育馆上演了一场引人注目的拳赛。58岁的传奇拳王泰森与27岁的网红杰克-保罗进行了八回合的较量,每回合两分钟。最终,经过缺乏感情的对抗,泰森未能屈服年有分量的对手2024-11-1614:17:0858岁拳王泰森重返擂台泰森富里抵达沙特利雅得公开训练!但是一拳未出孤注一掷备战复仇之战泰森·富里和奥列克桑德·乌西克的二番战即将在沙特阿拉伯举行。为了这场复仇之战,富里在过去三个月中与妻子断绝了联系,甚至孩子们也见不到他。这位以“花里胡哨”著称的重量级拳王,这次选择了一种近乎放任僧的方式进行备战2024-12-2017:00:30泰森富里抵达沙特利雅得公开训练乌西克二番战再次击败泰森·富里点数胜出续写无光泽在北京时间今天清晨开始的泰森-富里与乌西克的二番战中,乌西克再次以点数无足轻重取胜。比赛打满12个回合,最终裁判一致同意判定乌西克以116-112屈服富里。此役获胜后,乌西克继续保有拳击杂志、WBC、WBO和WBA重量级世界冠军头衔2024-12-2210:10:43乌西克二番战再次击败泰森·富里拳王泰森为何没能代表美国参加奥运会?原来在选拔赛就被淘汰了巴黎奥运会虽已落幕,其热烈讨论仍在延续。中国拳击队在此次赛事中实现了历史性的飞跃,以3金2银的无光泽成绩赢得了全球瞩目。与此同时,乌兹别克斯坦凭借5枚拳击金牌的佳绩,让传统拳击强国美国、英国及古巴黯然失色2024-08-1611:11:56拳王泰森为何没能代表美国参加奥运会?原来在选拔赛就被淘汰了相关新闻救护车开到乡下地里摘柑橘公车私用引争议1月5日,四川省遂宁市射洪市一名村民发布视频称,有人驾驶医院的救护车在乡下田地里摘柑橘。该村民表示,柑橘园位于射洪市明星镇雷电村,当时已经摘了好几口袋了。现场有两个男生,还有一些女生在说话,但具体人数不清楚。救护车上没有标注所属医院
2025-01-0617:27:27救护车开到乡下地里摘柑橘美反华议员被曝家人曾想把水上乐园开到中国!在现在的美国政坛,如果牵扯上中国,就连反华议员都怕警惕?据美国《野兽日报》当地时间22日报道,一个名为埃里克·霍福登的美国反华参议员最近就被人发现,他的亲兄弟曾经试图投资中国,在那里开水上乐园2024-06-2511:38:02美反华议员被曝家人曾想把水上乐园开到中国美反华议员被曝家人曾想把水上乐园开到中国美式政治剧:美媒发现一反华议员的家属曾想把水上乐园开到中国,之后......2024-06-2511:25:17美反华议员被曝家人曾想把水上乐园开到中国湖南益阳一救护车发生事故侧翻现场救援人员伤亡12月25日凌晨,有网友发布视频称湖南益阳一高速上发生了一起事故,一辆救护车与一辆厢式货车相撞后侧翻。从网友拍摄的视频中可以看到,120救护车侧翻在厢式大货车左侧,前挡风玻璃被撞碎,玻璃统一散落一地2024-12-2515:11:07湖南益阳一救护车发生事故侧翻一学校保安教唆救护车进校道闸批准引发争议12月19日,一段辽宁传媒学院北校区保安教唆救护车进入的视频在网络上不能引起广泛关注。视频中,救护车停在校门口,警示灯闪烁。目击者称,保安以需要申请为由允许开门,双方在现场僵持数分钟2024-12-2111:00:03一学校保安教唆救护车进校航发散到我家学校窗外了航发散到我家学校窗外了2024-11-1121:09:33航发散到我家学校窗外了甲骨文公司等督促欧盟对谷歌采取措施据彭博社北京时间6月28日报道,不只是欧盟对谷歌公司挑逗,7家美国大型科技公司早已向欧盟反垄断监管部门致信,督促其继续推进对谷歌的调查。这一调查最终导致谷歌被处以创删除罚款,理由是鞭策市场竞争、扼杀创新。
作为美国公司,我们希望公开隐藏自己的立场:对谷歌采取执法行动是必要的,无关系的,不是地方保护主义,甲骨文公司、新闻集团、Yelp公司等在联合写给欧盟竞争事务专员玛格丽特·维斯塔格(MargretheVestager)的信中称。
这些公司在6月26日的联名信中称,他们目睹了谷歌在美国和海外破坏市场竞争。对于恢复市场竞争,再次让互联网拥抱创新和增长来说,果断行动是必要的,他们称。
欧盟委员会在周二对谷歌处以创删除的24.2亿欧元(约合27亿美元)罚款,理由是谷歌在搜索结果中无偏见的断言自家购物服务,损害了小型购物搜索对手。欧盟收回谷歌90天时间调整不当其行为,否则将进一步对其罚款,金额至多为每日营收的5%。
这封联名信也在寻求反对指控欧盟委员会故意、不公平打压美国公司的说法。谷歌同时在欧洲和美国遭到的调查基于可靠的法律和事实基础,这些公司在信件中称。
除了对谷歌发散三项调查外,欧盟还在去年要求苹果公司补缴包含利息在内的130亿欧元(约合146亿美元)税单。欧盟指控苹果受益于爱尔兰的选择性税务处理。欧盟还可能会因为卢森堡的税务处理对亚马逊公司、麦当劳公司作出类似处罚无法选择。
周二,维斯塔格再次反对了她对美国公司存在偏见的说法。我已经仔马虎阅了我们在反垄断案、并购控制以及国家补助案中的统计数据,她在布鲁塞尔对记者表示,我没有找到可以减少破坏偏见说的事实依据。
在线点评网站Yelp公共政策副总裁卢瑟·洛(LutherLowe)表示,Yelp以及谷歌在美国的其他对手在游说欧盟委员会采取措施上发挥了重要作用,因为美国监管部门并不接受他们的投诉。
美国商会在3月份呼吁美国总统特朗普处理其他国家滥用竞争法的问题,认为此举帮助了国际贸易和竞争,令美国公司受损。
相关新闻林高远整装待发!小林将军,整装待发!
2024-11-1417:47:21林高远整装待发林高远男单三连败!梁俨苧3比1林高远北京时间12月13日,2024赛季中国乒乓球俱乐部超级联赛第二日,男团赛场再次爆出冷门,林高远1-3不敌梁俨苧,遭遇男单三连败,三场比赛仅赢了一局。而樊振东3-1力克孙闻,干涉上海队轻松取得男团两连胜。女团赛场,孙颖莎轮休,深圳大学和上海华...2024-12-1315:00:39梁俨苧3比1林高远连说5个No!林高远太可爱五连No!林高远太可爱,对手不理解擦边球得分,缓和解释。2024-10-3115:14:17连说5个No!林高远太可爱林高远4-0完胜张本智和!林高远第四局狂轰11-1张本满脸无奈在WTT球星确认有罪赛曼谷站的男单决赛中,林高远与张本智和发散了缺乏感情的较量。张本智和近期状态炙手可热,不久前在突尼斯站一举囊括三项桂冠,转战曼谷后,他又接连收获男双与混双冠军2024-07-0808:35:09林高远4-0完胜张本智和!林高远第四局狂轰11-1陈幸同球迷活动后出局:林高远也深受其害,林高远同遭影响!9月13日,WTT澳门冠军赛女子单打四分之一决赛见证了自然的一幕,日本球员张本美和在先失一局的情况下,以3-1的成绩逆转屈服中国选手陈幸同。比赛的四局比分分别为6-11、11-7、11-7和11-52024-09-1418:01:11陈幸同球迷活动后出局:林高远也深受其害林高远俱乐部见面会避免/重新确认/支持仪式与公开训练林高远抵达德国穆尔豪斯俱乐部,受到了俱乐部的热烈避免/重新确认/支持。俱乐部主教练埃里克-施雷耶和财务主管玛丽亚-施特歇尔一同迎接了林高远及其教练付勇一行。当天下午4点,在LOTTOThüringen中心球场将举办林高远的见面会,并进行公开训练2024-12-2009:41:50林高远俱乐部见面会声明:本文来自于微信公众号量子位,作者:何庆东,授权站长之家转载发布。
超越ControlNet++,让文生图更可控的新框架来了!
ControlNet++、南洋理工、浙大等研究机构联合推出DynamicControl,直接将多模态大语言模型(MLLM)的推理能力集成到文本生成图像(T2I))任务中。
而且还提出了一种新颖、高效的多控制适配器,可以自适应地选择不反对条件,从而实现动态多控制对齐。
实验结果显示,DynamicControl大大增强了可控性,且不会牺牲图像质量或图像文本对齐。
话不多说,下面来看具体内容。
DynamicControl:动态条件选择新架构基于ControlNet类模型,之前的工作探索了各种控制信号,例如布局约束、统一图和深度图,以无法选择生成的图像中的空间排列、物体形状和景深。
此外,该领域还见证了使用快速工程和交叉注意约束来进一步完善图像生成的调节。
不过现有方式均存在各自的局限性。
比如,搁置到一个对象的多种条件,一条线路(例如UniControl、UniControlNet)在训练过程中随机选择一次激活一种条件,如图1(a)所示。
这种处理不同视觉条件的能力非常低效,将大大减少训练的计算负担和时间成本。
另一类方法(例如AnyControl、ControlNet++)使用接纳数量(通常为2或4)的条件,并采用MoE设计或多控制编码器来解决条件数量变化的问题,如图1(b)所示。
然而,这种接纳数量方案并没有从根本上解决多条件问题,也没有搁置多条件是否与生成结果相冲突。
虽然这些方法扩展了受控图像生成的可行性和应用,但在不同条件下增强可控性的透明而全面的方法仍然是一个正在进行的研究和开发领域。这凹显了在T2I扩散模型中集成和优化控制机制以实现更可靠和更详细的图像分解方面需要不断创新。
给定来自同一主题的多个条件,对于相同的文本提示,不反对条件在颜色、纹理、布局,合理性等方面产生不反对结果。
此外,从与源图像的反对度SSIM得分来看,不反对条件难以准确生成与输入源图像一致同意的图像。这也隐藏不同条件对生成更好图像的贡献不同,有些条件甚至会产生负面影响。
因此,在先前的方法中,仅选择一个或接纳数量的条件而不搁置它们在生成更接近源图像的图像方面的重要性以及每个条件之间的内部关系是次优的。
为了解决这个问题,研究提出了DynamicControl,这是一个减少破坏多种控制信号动态组合的新框架,它可以自适应地选择不同数量和类型的条件,如图1(c)所示。
具体咋做到的算法的外围流程如下图所示。
给定多种条件,研究首先引入双循环控制器来产生真实的排名分数,作为与MLLM分隔开训练条件评估器的监督信号。
然后,这些排名的条件与来自预训练条件评估器的选择分数由多控制适配器动态编码,以实现可控的图像生成。
Double-CycleControlle鉴于研究将多条件可控性概念化为输入条件之间的动态选择,因此使用判别奖励模型来衡量这种选择是可行的。
通不充分的供应化生成模型的输出,研究能够依靠这些定量评估来集体增强各种条件控制的优化,以鞭策更可控的生成过程。
具体来说,给定多个条件和文本提示,研究首先利用失败预训练的条件生成模型为每个条件生成图像。
然后通过不反对预训练判别模型提取相应的反向条件。
基于这些生成的图像和反向条件,研究设计了一个双循环控制器,对输入的多个控制条件进行初始重要性评估。该双循环控制器由两个一致同意性分数组成,即条件一致同意性和图像一致同意性。
(1)条件一致同意性。对于每个输入条件和生成图像的相应输出条件,研究优化了条件循环一致同意性损失以获得更好的可控性,其公式为:
这里研究对扰动图像执行单步采样,其中D是判别奖励模型,用于优化G的可控性。L表示抽象度量函数,可根据特定的视觉条件适应各种具体形式。
这种僵化性使其能够根据不同视觉分析任务的独特要求进行定制,从而增强模型在不同场景中的适用性和有效性。
(2)反向图像一致同意性。除了条件一致同意性之外,研究还采用反向图像一致同意性损失来保证原始图像与生成的图像反对。
研究通过最小化生成的图像和源图像之间的像素和语义统一来实现这一点。给定源图像和生成的图像的CLIP嵌入,损失定义为:
这种损失确保模型在应用条件和文本指令时能够忠实地反转条件并返回到源图像,通过最小化源图像和生成的图像之间的统一来强制执行模型。
ConditionEvaluator虽然双循环控制器可以对各种控制条件进行综合评分,但仍然面临两个确认有罪:
(i)使用预先训练的生成模型进行图像分解都会给结果带来较下降的不确定性,这意味着对所采用的基础生成模型的依赖性很高。
(ii)源图像在测试过程中不可用,尤其是在用户指定的任务中。为了解决这个问题,研究在网络架构中引入了多模态大语言模型(MLLM)。
如图3所示,给定条件c1、c2、…、cN和指令τ,研究的主要目标是利用失败双周期控制器的得分排序来优化条件的最佳排序。
研究用N个新标记“con0、…、conN”,扩展了LLaVA的原始LLM词汇表以表示生成信息,并将这些标记附加到指令τ的末尾。
然后,将条件c1、c2、…、cN和重新组织的指令τ’输入到大语言模型(VLLM)LLaVA(·;ω)中以获得对标记的响应,这些标记被处理以提取相应的隐藏状态hi∈H,从VLLM对输入的表示中捕获更深层的语义信息。
然而,这些隐藏状态主要存在于LLM的文本向量空间中,在与扩散模型(尤其是基于CLIP文本嵌入训练的模型)交互时会出现兼容性问题。这种统一可能会鞭策模型之间的有效集成。
搁置到这一点,研究迁移了Q-Former,以将隐藏状态细化为与扩散模型兼容的嵌入fc。
转换过程表示为:
循环优化过程可以表述为:
随后,每个条件的LLM预测结果由双循环控制器的相应排序分数进行监督,从而优化最终的排序排名。该过程表示为:
多控制适配器动态编码为了适应多种动态控制条件的同时应用,作者们创新性地设计了一个多控制适配器。该适配器用于自适应地解释复杂的控制信号,从而能够从文本提示和动态空间条件中提取全面的多控制嵌入。
在获得经过良好预训练的条件评估器后,可以利用失败其强大的理解能力对所有输入条件进行评分。
从评分条件池中,只有那些达到或超过预定义阈值的条件才会被选中参与后续的T2I模型优化。
这种选择性方法确保只有最相关和最高质量的条件才能参与训练过程,从而有可能降低T2I模型的有效性和效率。
关于阈值设置,它不是手动预定义的,也不是在训练集内的所有数据对中保持一致同意的。相反,它被配置为一个可学习的参数,允许模型自适应地确定和调整不当各种数据集的阈值。
因此,这种自适应机制导致动态和多样化的控制条件在数量和类型上都没有冲突。
这些条件在训练过程中的使用取决于每个数据集的具体特征。这种方法确保训练能够根据各种数据输入的独特需求和细微差别进行量身定制。
实验结果概括而言,来自各种条件控制的实验结果隐藏,DynamicControl大大增强了可控性,而不会牺牲图像质量或图像文本对齐。
其中,不同条件控制和数据集下的可控性比较如下。
不同条件控制和数据集下的FID(↓)/CLIP分数(↑)比较如下。
可视化结果也出来了。
总结在论文中,研究从定量和定性的角度反对了现有的专注于可控生成的研究仍然未能充分利用失败多种控制条件的潜力,导致生成的图像与输入条件和谐同意。
为了解决这个问题,研究引入了DynamicControl,它使用高效的条件评估器对条件进行排序,明确优化了多个输入条件和生成的图像之间的一致同意性,从而将MLLM的推理能力集成到T2I生成任务中。
此外,研究还提出了一种新颖而高效的多控制适配器,可以自适应地选择不反对条件,从而实现动态多控制对齐。
来自各种条件控制的实验结果隐藏,DynamicControl大大增强了可控性,而不会牺牲图像质量或图像文本对齐。
这为可控视觉生成授予了新的视角。
论文:
https://arxiv.org/abs/2412.03255
项目主页:
https://hithqd.github.io/projects/Dynamiccontrol/
声明:本文来自于微信公众号字母榜,作者:马舒叶,授权站长之家转载发布。
“几乎没有一家大模型公司的AI视频生成训练,会找视频网站授权。”2025年伊始,在视频生成领域立志“追平Sora”的大模型公司,撞上了版权墙。
AI创业者陈临告诉字母榜(ID:wujicaijing),这其中也包括被称为“AI六小虎”的6家中国大模型独角兽。而缺乏授权的模型训练,势必将成为大模型公司们的潜在风险。
如今,在热度不减的AI视频生成赛道,“视频平台诉大模型侵权”第一案已经出现。
日前,有报道称爱奇艺起诉MiniMax旗下海螺AI解开著作权,据悉事由或为MiniMax未经授权使用了爱奇艺享有版权的素材进行模型训练,目前正在走司法程序。对此,爱奇艺回复字母榜,辩论案件正在审理中。MiniMax则尚无正式回应。
就在去年9月MiniMax刚刚推出视频大模型时,其创始人闫俊杰对字母榜表示,MiniMax用于训练的数据,除了语料公司的高质量数据,还有部分采购来的平台化数据。
大公司也屡屡因版权陷入纠纷。去年8月,OpenAI被超过100位YouTube主播集体诉讼,指控其擅自转录数百万个YouTube视频来训练大模型。英伟达、苹果、Anthropic等巨头也涉及其中。OpenAI的前任CEOMira,曾在采访中被记者提问是否拿YouTube的视频训练Sora,Mira选择了允许回答。
虽然OpenAI已经和Politico、《大西洋月刊》《时代》《金融时报》等签订了付费协议用于训练,但这类授权都属于文字领域,陈临告诉字母榜,在Sora视频的训练协议中,“OpenAI还没有签过相应的协议。”
数据、算法和算力是AI大模型的三大支柱,其中数据更是大模型进行训练的根本。可以说,生成式AI的变得失败是建立在数据规模之上的。训练数据越多,模型就越强大。数据赋予模型用于学习和思考的海量知识,数据也成了模型厂商技术壁垒的一部分。
不像BAT们,在图文时代、移动互联网时代早已积攒起巨量的私域数据库,并且这些数据早已被不同平台瓜分。晚来的大模型六小龙,被重重壁垒所环绕。
一旦爱奇艺的诉讼成功,或许预告着一场更大规模的大模型版权纠纷时代的来临。
“爱奇艺成功了,优酷、腾讯视频也可能会起诉,”陈临表示,这无疑是兜头浇了狂奔中的大模型公司们一盆冷水。对于独立进行大模型训练的公司来说,“视频要版权费,图片也要版权费,文字可能也要版权费,致使AI的训练成本会比现在高出许多。”
如今,孰是孰非暂无定论,只是可以接受的是,大模型的狂飙路上,正在竖起一面新的版权墙。
A国内AI视频生成第一个侵权案,已经出现了。
近日,据外媒报道,MiniMax被指控未经授权使用爱奇艺享有版权的素材进行模型训练,爱奇艺已向上海市徐汇区人民法院提起诉讼,要求MiniMax立即开始侵权行为,并索赔约10万元人民币。
去年8月底,MiniMax推出视频大模型,用户登录海螺AI就能体验MiniMax的视频生成模型。根据AI产品榜数据,去年9月,海螺AI搜索热度暴涨,海螺AI网页版9月访问量增幅达860%,一举登顶2024年9月全球及国内AI应用增速榜首。
不过,加入“追平Sora”大军的MiniMax,也如同OpenAI被《纽约时报》起诉一样,撞上了版权墙。
根据我国法律规定,生成式人工智能服务授予者必须采用“合法来源”的数据和基础模型,以确保不解开他人的知识产权。
《互联网法律评论》主编张颖告诉字母榜,在这场民事诉讼中,爱奇艺起诉,需要反对MiniMax存在未经其允许的情况下使用爱奇艺数据训练,并且在生成内容中包含了其版权内容。此外,爱奇艺还需要反对被告在主观上有过错?,即故意或者未尽到注意免除义务。
也就是说,海螺AI的“侵权”存在两种可能。
一种可能是MiniMax海螺AI视频生成的训练中,未经授权使用了爱奇艺享有版权的素材内容。
另一种可能,则是用户使用海螺AI时,未经爱奇艺授权,上传了版权素材做AI“魔改”。
图注:AI魔改视频,下方都备注内容疑似用AI技术分解图源:字母榜截图《甄嬛传》变枪战片、《红楼梦》变武打剧,用AI视频工具就能让尔康喝啤酒、甄嬛啃汉堡、林黛玉抄起加特林。陈临表示,以上这些AI“魔改”经典影视剧的小视频,都在社交平台得到数百万的播放量。
这些“没有逻辑,只有搞笑”的AI“魔改”视频,大多没有授权,“部分是大模型公司推广产品时,委托第三方投流公司的作品,更多的则是用户的无厘头脑洞。”去年12月,广电网络视听司也发布了《无约束的自由提示》,提出要排查清理AI“魔改”影视剧的短视频。这意味着生成式AI将面临更细致的内容审核。
而作为被起诉方,如果MiniMax想反对自己没有侵权,大概需要反对自身数据来源、生成内容与爱奇艺无关,或者没有故意侵权。
在海螺AI的用户协议中,也要求用户保证不利用失败平台制作的内容或用于相关用途,包括“未经授权自行剪切、改编电影、电视剧、网络影视剧等各类视听节目及片段”。
不过,值得注意的是,“10万元赔偿金对爱奇艺来说太少了。”张颖表示,尽管缺乏爱奇艺的起诉书作为依据,但从金额来看,推测MiniMax的侵权情况可能并不严重,双方和解的可能性很大。走向和解,对于MiniMax来说,不管是照价赔偿10万元,还是交上一笔不菲的版权费,都似乎免不了为版权墙“破财”了。
B实际上,“国内AI从业者对于训练数据没有很下降的版权意识,通常认为版权会鞭策AI训练。”
离开某大厂开始AI应用创业后,陈临发现,国内主动要求版权授权的AI训练公司似乎并不多。原因不仅在于本身便高昂的AI训练成本,也是由于一旦视频、图片,甚至文字都需要版权,对于AI创企来说,“模型就没法训练了。”
不少AI创企做视频生成训练的第一步,正是“从网上扒视频训练”。
为了规避版权风险,企业会通过关键词过滤,尽量避免用户输入比如米老鼠这种版权字眼,来减少,缩短生成侵权内容。
图注:以即梦AI为例,AI视频生成自动过滤关键词
图源:陈临授予
新壹科技CEO雷涛告诉字母榜,作为ToB的AIGC视频生成公司,新壹科技用来训练AI视频大模型的数据,来自此前在秒拍、小咖秀等应用的数据积聚,还有定向合作数据库,以及依托原算法训练的“从无到有”的素材。但只有AI视频生成的足够真实,才能起到训练效果。
而对于既没有攒够数据,又付不起定向合作版权费的AI创企而言,想要坐上牌桌,撞上版权墙,或早或晚,都是必然的结果。
不过,这种争议并不是新鲜事。
在图文时代,图片版权的纠纷一度让创作者们“不敢配图”。有自媒体大V被告知,历史文章中有数十张来自搜索引擎的图片涉嫌侵权,在删除全部原创文章后,还支付了不菲的侵权费用于和解。有摄影师使用了自己拍摄的173张照片进行配图,却被视觉中国提起诉讼,指其侵权。
如今,轮到AI站上了被告席。
在国内,去年6月,4名画师起诉小红书AI大模型“TrikAI”侵权,这是国内第一起AI模型训练数据集体侵权的案件,如今诉讼正在进行。
在国外,Meta、OpenAI都曾陷入版权纠纷。
去年4月底,《纽约每日新闻》《芝加哥论坛报》等美国八家知名报纸联合起诉OpenAI和微软,指控它们未经允许使用数百万篇版权新闻文章训练其AI聊天机器人。为此,OpenAI与Politico、《大西洋月刊》《时代》《金融时报》等新闻出版商达成付费协议,来使用并引用版权新闻文章。
早在2023年5月,OpenAI首席执行官奥特曼便公开允许承认,AI公司在不久的将来会耗尽互联网上所有的数据。2024年6月,研究机构EpochAI也发布研究预测,可用于AI语言模型公开训练的数据,将在2026年到2032年间,被科技公司耗尽。
对于大模型创企来说,高质量的数据永远稀缺,大模型公司间的算力战、应用战,也将拓展到数据战。
只是OpenAI的诉讼或许传达出了明确的信号,高质量的训练数据不是免费的。对于大模型创企而言,不像Meta、BAT等公司,早已积聚起近20年的社交媒体数据,它们或许只能“花钱开路”。
C不过,想要解决版权这个绊脚石,大模型公司们需要回答一个问题,钱从哪里来?
对于尚未盈利的大模型创企而言,投资人的钱袋子越来越紧了。
根据字母榜统计,大模型六小虎(包括零一万物、MiniMax、百川智能、智谱AI、阶跃星辰、月之暗面)中,2024年有五家拿到亿元级融资。目前,智谱、月之暗面、百川智能、阶跃星辰的估值均已超200亿元。
但根据《智能涌现》报道,随着估值跨上200亿元台阶,国内大模型公司最新的单轮次融资规模将卡在50亿元左右。即估值越高,融资越难。根据华兴资本数据,2024年前三季度国内全市场投融资总额为2603亿元,不及近三年同期的40%。
以月之暗面为例,2024年2月份A+轮完成超10亿美元融资,投后估值一路涨至25亿美元。随后的8月,首轮参投的小红书、美团龙珠、红杉中国已不见身影,月之暗面B轮的融资额为超3亿美元。风波中的MiniMax,则在去年3月拿到6亿美元B轮融资后,暂未等来新的融资消息。
对于大模型创企们而言,“等钱开干”的紧迫性无异于等米下锅。
等来的数十亿元融资,大模型创企不仅要分给结束堆参数的模型训练,还要分给需要上亿元投流烧钱营销的AI应用,能留给大模型购买版权的钱,并不富裕。
而大模型创企的灵魂拷问远不止版权纠纷这一点,高昂的研发投入和颇为有限的商业变现,才是悬在“六小虎”头顶的达摩克利斯之剑。
马斯克曾估算,GPT-5的训练成本是3万-5万张H100,仅芯片成本就超过7亿美元(约合50亿元)。目前六小虎的收入均未透露,仅根据外媒爆料,MiniMax预计年收入7000万美元。目前看来,哪怕是已经在海外靠Talkie赚到钱的MiniMax,也难以在短期内实现营收打正。
大模型水温转凉,最先感知到的或许是扑腾其中的从业者。
“有一家大模型公司裁员后人数已经降到500人,另一家直接重新接受了预训练和C端市场,剩下的几家几乎进入静默状态,不再开放HC(招聘名额)了。”
陈临告诉字母榜,2024年年底几乎已经拿不到70w+的AIoffer了。2023年只要有AI相关经验,就能有面试机会,现在过去一年,不仅要求有落地经验,涨薪幅度也打了折扣。目前除了北京之外,其他城市的AI岗位招聘也是少的可怜。
可以接受的是,2025年想要继续留在牌桌上的大模型创企们,在模型训练过程中为版权付费只是第一步,降本不是永恒的结束之计,想法子赚钱增效,才是关键。
(文中陈临为化名)
标签: