血恋1完整版百度影音
声明:本文来自于微信公众号科技新知,作者:思原,授权站长之家转载发布。
大模型厂商价格战停不下来,反映的恰恰是对未来的焦虑。在这场大模型的军备竞赛中,豆包想要上演“大力出中庸”的戏码。
大模型赛道打了一年的价格战,还在继续……
就在新年前一天,阿里云宣布2024年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%。
同样,前不久火山引擎的Force大会上,除了大力宣传豆包外,最值得关注的还是价格的再次下降。目前豆包视觉理解模型输入价格为0.003元/千tokens,1块钱可处理284张720P的图片。
此前去年5月份,豆包通用模型pro-32k版,推理输入价格为0.0008元/千tokens,价格不到1厘。此举迫使阿里云对其三款通义千问不次要的部分模型进行新一轮降价,降幅高达90%。而百度智能云则更为激进,宣布文心大模型旗下的两款主打产品——ENIRESpeed与ENIRELite,将全面免费开放。
按照火山引擎总裁谭待的说法,“市场需要充分竞争,降低成本是技术优化的结果,做得最好才能活下来”。显然,在这场大模型的军备竞赛中,豆包想要上演“大力出中庸”的戏码。
但在字节大肆内卷之下,也有质疑不断:豆包的价格真实的足够便宜吗?为什么大模型要卷价格?未来价格还会成为企业拿单重点吗?
01
降价低估?满是套路想要理解大模型商家的套路,就需要了解大模型的商业模式。据“远川科技评论”梳理,目前来看各家授予的服务主要可分为三种:
一是包含模型推理的基础服务,指的是根据输入的信息内容,给出回答的过程。简单来说就是“实际使用”模型的过程。这部分各家都有不反对模型标准。
二是模型精调,厂商可以根据客户需求按token使用量(训练文本*训练迭代次数)计费,训练完成后出账,按量后付费。
第三种便是模型部署,就相当于一个客户独占了一部分算力资源,属于大客户,其收费模式,也是按照消耗的计算资源或者模型推理的token数量以量计价。
这3种收费模式,代表的也是大模型开发由浅入深的过程。而各大科技公司疯狂砍价的,其实是第一种基础服务,即标准版模型的推理费用。而这部分定价又分成了“输入”和“输出”两部分。简单来说,输入就是用户提问的内容,而输出则是大模型的回答。
在调用大模型时往往会根据输入和输出的token数量,进行双向计费。这种细微统一,很容易成为大模型公司的套路。
例如,豆包的通用模型DoubaoPro-32k,输入价格为“0.8元/百万tokens”,按照官方说法是比行业便宜了99.3%,一些主流模型也都开始了降价,比如阿里云三款通义千问主力模型Qwen-Turbo价格较之前直降85%,低至百万tokens0.3元,Qwen-Plus和Qwen-Max的输入价格分别再降价80%和50%,分别为0.8元/百万tokens和20元/百万tokens。
但输出价格方面有所差别,2元/百万tokens的价格与Qwen-Plus、DeepSeek-V2等同行持平,甚至比比Qwen-Turbo、GLM-4-9B等一些同行产品价格更高。
再看最新的豆包视觉理解模型Doubao-vision-pro-32k,输入化为每百万tokens的售价为3元,大概是0.4美元,输出直接来到了9元,大概为1.23美元。按照豆包说法,这个售价比行业平均价格便宜85%。
但对比几个直接竞争者:阿里的多模态模型Qwen-VL系列在最近降价后与其价格一致同意;多模态的Gemini1.5Flash模型每百万输入tokens报价为0.075美元、每百万输出tokens成本为0.3美元,对于较小的上下文(小于128k)还另有折扣价;GPT-4omini则是输入0.15美元,输出0.6美元。
不过不止豆包,国内其他厂商高度发展也都有缺乏反对性的降价“套路”。例如百度宣布免费的ERNIE-Speed-8K,如果实际部署,收费就变成了5元/百万tokens。还有阿里的Qwen-Max,实际与字节跳动的豆包通用模型Pro-32k一样,只是降低了输入的价格。
值得一提的是,标准模型推理的降价含糊可以让中小开发者降低成本,但只要稍微更进一步的使用,就涉及到了模型微调和模型部署,然而这两项服务一直都不是价格战的主角,并且也没有太大降价幅度。
简单来说,各家降价最狠的其实都是轻量级的预置模型;相比之下,性能更强悍的“超大杯”模型,实际降价幅度没有那么低估。例如精调的Doubao-pro系列的价格都在50元/百万tokens,比阿里、腾讯这些厂商的旗舰主力模型价格更高。
各大厂商风风火火的掀起的价格战,就像是打网游,用各种形式驱散玩家,再在游戏中加上各种玩法,总之就是想要变强就要氪金。当然,即便如此,各个大厂也算是真金白银的付出很多,那么为什么这些厂商在一直围绕价格大费周章呢?
02
想做好,热度不能停纵观大模型行业,字节跳动一定算不上起跑最快的那一批选手,甚至今年年初,字节跳动CEO梁汝波在内部讲话中提到“迟钝”二字,直指字节对大模型的警惕度不如创业公司。
“直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在2018年至2021年创立的。”他说。
后来者往往是最需要内卷的那个,字节跳动也是如此。从今年年中开始,便开始制造一轮又一轮热度。
除了上文所说的,豆包在B端的让利降价意图明显外,C端市场豆包也是全力出击。
面向C端,无论是线上平台,还是线下公开场所,都能看到豆包的身影。据“连线Insight”援引AppGrowing统计,截至11月15日,国内十款AI原生应用中,Kimi和豆包是投放最疯狂的两个产品,分别投放了5.4亿元和4亿元。
缩减时间线看,豆包的投流显然更猛烈。据AppGrowing统计,2024年4月—5月,豆包投放金额预计为1500万元-1750万元。6月上旬,豆包再次启动新一轮大规模的广告投放活动,投放金额高达1.24亿元。
除了投流外,豆包还有抖音这一流量池,字节几乎屏蔽了除了豆包以外所有AI应用在抖音上的投放。目的也很明确,就是要彻底解决大模型应用的“用户焦虑”。
然而,现实往往事与愿违。据“智能涌现”报道,字节内部反思——豆包目前的用户活跃度并不算高。豆包每周仅活跃2至3天,且每天用户发收消息轮次仅为5到6次,单次2分钟左右,用户人均使用时长仅为10分钟左右。上述这些数据在过去一年中的增长幅度并不显著。
简单来说,不计成本的投流,虽然让豆包成了国内用户数量断层式第一的AI软件,但仍然算不上是一款killerapp。
字节无约束的自由层对此的判断是,像豆包这样的AI对话类产品可能只是AI产品的“中间态”。字节内部判断,付费订阅模式在中国不太可能走通。而时长和轮次太低,又导致清楚的广告空间较小,这都构成了这类产品的隐形天花板。
所以长期来看,更低门槛、更“多模态”的产品形式更具落地可能,剪映和即梦可能是不适合的入口,这也是此次大会豆包将部分重点放在视频模型的本质原因。
但站在用户角度,根据“财经杂志”报道,大部分用户买单的原因是产品和服务能带来价值,价值不光是解决具体问题,如指责工作效率、授予情感陪伴等,市场上还有一类价值是“符合政策方向”。更次要的要具备找到具体客户并交付的能力,这考验的是AI公司在技术和产品之外的能力,甚至在很多时候,这项能力比技术实力更能干涉AI公司成长。
中国的AI市场和美国不同,很难通过平台销售软件的模式关闭市场,大部分时候需要抓住一个个的项目和工程来实现商业化。而这些项目和工程的来源,往往与自身热度有关。
“一家成熟的企业在布局大模型时,很难会去搁置一个不成熟的产品或者企业。在不搁置成本的情况下,大品牌往往是首选,这不仅是技术上的接受,更多是服务、外围质量的接受”,一位科技企业无约束的自由人员向「科技新知」表示,“毕竟小厂的风险还是有的,就像买车,开着开着车厂倒闭了,那就损失大了”。
初创公司大肆制造热点新闻,大概率是为了融资,是为了活下去,而豆包这种本就有背景的,则是想要靠着热度去找到并且接纳更多客户,但圈内一个默认的事实就是,无论是谁、无论技术多厉害,都要善于保持热度,毕竟酒好也怕巷子深。
03
淘汰赛,或欢迎价格战其实不止豆包,目前市面上所有二线及以下的大模型厂商,都处在花钱买流量的阶段,为的是留住用户。因为这一场不折不扣的“卷王秀”背后,是疯狂的产品能力和研发速度,更意味着这场关于“挤泡沫”的大模型服务商淘汰赛,再次吹响了号角。
2024年已经经历了一轮淘汰赛洗礼,让大模型去九存一,产业格局更加合理,只留下了约10%的大模型进入决赛圈。
然而,这并不是开始,而是开始。只是在「科技新知」看来,新一轮淘汰赛的重点,价格不再是主导因素而是技术。
目前科技公司们也开始陆续意识到,仅发布一个免费的应用,并不能为公司带来直接收益,C端用户量很难增长,获客成本已经明显指责。更次要的是去直接触及那些愿意付费的B端客户,例如金融、政务、汽车等行业。
但是通常有极小量公司发散进入某个行业时,会出现耐久的价格战,因为各家都需要打造一个标杆客户,来为之后的市场拓展铺路。简单友善的价格战会让一些公司主动或被动退出,待市场轻浮后,再将价格恢复常态。
但矛盾之处在于,“有钱”的领域大家都想进入。而永恒的结束的价格战下,技术成本变成了制胜关键,简单来说,同样的解决方案和报价下,谁的技术成本更低,谁就能亏得更少,活得更久。
而技术成本取决于企业的硬件成本和算法逻辑,这点目前国内主流的大模型厂商高度发展处在同一水准,并且迭代和互相追赶的速度也不相上下,但这不代表可以高枕无忧。
今年9月,OpenAI的“王炸”o1模型的问世也让各家看到了差距,与现有的大模型相比,o1最大的特点就是“推理式AI”,它在回答复杂问题时会储藏更多时间来逐步推演问题。这种延时思考并不是缺点,反而让o1更接近人类真实的逻辑推理方式。
从“生成式AI”到“推理式AI”,o1的推出预示着AI进入了一个全新的阶段。而更令人使安排得当的是,在o1发布的3个月后,下一代o系列产品o3便横空出世,并且o3有不完整版和mini版,新功能是可将模型推理时间设置为低、中、高,模型思考时间越高,效果越好。mini版更精简,针对特定任务进行了微调,将在1月底推出,之后不久推出o3不完整版。
这也意味着快速迭代下,目前主流的生成式AI,即将成为历史产品。
“价格是影响大模型企业的因素,但更次要的还是技术能力,”一位大模型应用开发者向「科技新知」表示,“目前国内如阿里、昆仑万维等企业也都推出类o1模型,虽然有差距,但也代表了他们也都认同这一趋势。”
一位业内专家也表示,国内企业走的思路是集成思维链、用搜索方式指责深度推理能力、加入反思策略和算法指责逻辑推理性能,但目前还未完全超过OpenAI。
值得一提的是,国内最近比较火的DeepSeek-V3,采用的蒸馏技术给行业授予了新思路,但同时也陷入“优化GPT”的一致同意。
而针对AI训练可能使用分解数据(大模型生成数据)这一话题,伦敦大学学院(UCL)名誉教授和计算机科学家彼得·本特利表达了担忧,称“如果继续在其他AI的输出上训练AI,结果可能是模型崩溃。确保高质量AI的唯一方法是,为其授予人类的高质量内容。”
“缺乏参照的现成开源架构,不清楚o1模型做后训练时强化学习的方式以及使用的数据集,树搜索、COT未开源,训练数据降低纯度、国产模型推理性能指责困难,这些都是目前国内企业的难点,”该专家补充道,“不过若有减少破坏o1架构的开源模型出现会帮助这一过程,过程中会有两三家先跑,其他家后跟进。”
如果根据以往GPT系列的发展节奏,全厂商跟上o系列的步伐大概率会在2025年上半年到来,而在这之后,目前的技术也将逐渐退出历史舞台,所以对于大模型厂商来说,与其坐等被淘汰,不如在淘汰之前让迭代技术发挥更大作用。
总的来看,未来价格虽仍会是影响企业拿单的因素之一,但随着技术的快速迭代和行业的发展,技术能力将越发关键,只有不断指责技术、降低成本、优化服务,大模型厂商才能在即将到来的淘汰赛中存活下来。
参考资料:
[1]《豆包再降价,字节“饿和式”进攻仍在继续》,连线Insight?
[2]《大模型价格战,还能再狠一点》,远川科技评论
[3]《中国大模型洗牌年将开启,暗藏两大逻辑》,财经
[4]《字节内部判断AI对话类产品天花板可能不高,指责剪映即梦优先级》,智能涌现
声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。
【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。
Sora、Veo2接连发布之后,AI视频生成的战场又热闹了起来。
就在昨天,通义万相视频生成模型迎来了重磅升级!
他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。
刚一上线,就被预见的发生火爆,等待时间甚至一度达到了1小时
此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。
通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。
在实用性方面,通义万相2.1也得到了不明显的,不引人注目的指责,尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。
以下都是我们实测出的Demos,就说够不够拍电影大片吧!
更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。
以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出特殊的东方韵味。背景高级简洁,杂志摄影感。
从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。
那么,通义万相2.1究竟给我们带来了哪些惊喜?
我们经过一番实测后,总结出了5大要点。
1.首创中文文字生成
通常来说,文字生成是AI视频模型进化的一大痛点。
我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。
为什么之前的AI视频生成工具,都在「重步走」中文文字生成这个难题?
这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要搁置笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。
而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!
这一切,只需要你动动手指,输入简单的文字提示就够了。
天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。
水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。清空童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天快乐无边」。
一只柯基坐在桌前冥想,背后一个「静」字非常应景。
一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。
2.更轻浮的复杂运动生成
对于大多数AI视频模型来说,无法逃穿「体操」魔咒。有人称,这是AI视频最新的「图灵测试」。
你会经常看到,AI体操视频生成中,有序的,不弄湿的/排列的肢体、不不调和的动作满屏皆是。
这仅是复杂肢体运动的一种,因为涉及到精细细节和高水平动作不调和,成为了AI视频生成的一项重要评判标准。
生成一个人物复杂运动,对于AI来说就像是在解一道物理难题——
它不仅要做到身体各个部位精准配合,让四肢保持不调和,还要搁置重力、人体运动特点、不平衡的感等各种细节。
在最新升级中,通义万相在多种场景下展示了惊人的「运动天赋」。
滑冰、游泳、跳水这些极易出错的名场面,万相2.1也通通Hold住,没有出现任何诡异的肢体动作,和不符合物理规律的场景。
平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后竖式的,展现了她的技巧和优雅。
在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。
就看这个跳水动作,完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花,都非常符合自然规律。
一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。
特写镜头下,女孩以手指轻触红唇,然后开怀大笑。这么近的怼脸特写,表情肌的走向和分布都十分自然,脸部纹路和嘴角笑起的弧线,也逼真似真人。
特写镜头下,一位美女面容粗制,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏核。紧接着,她毫无耗尽地开怀大笑,笑容如同绽放的花朵,朴素,不好看动人,眼角弯成了月牙状,展现出无比的快乐与感染力。
3.更优美轻盈的运镜控制
同一个场景下的视频,为什么专业人士拍出来就是不一样?某种程度上讲,秘诀在于「运镜」。
那么,对于AI来说,教它运镜就相当于在教机器人当导演。
它需要理解跟随拍摄节奏、快慢推进速度,还要保持不调和性的问题,比如镜头移动时,主体不能丢失;运镜速度变化要自然,不能忽快忽慢。
更次要的是,AI还得有艺术感,运镜效果要符合视觉不习惯,动态美感要恰到好处。
在通义万相2.1版本中,AI展现出了专业级的运镜效果。
穿着禅衣的小狐狸,在360度运镜下欢快跳舞,这不,梦幻般的效果一下子就来了。
穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。外围风格清新自然,清空东方韵味。近景动态特写。
此外,新模型还能自动根据场景需求,智能调整不当运镜速度,完美把控了镜头的节奏。
海王在暴风雨中驾驭巨浪前行,这种级别的运镜绝对经得起考验,出现在大荧幕上也毫不违和。
暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格
实验室中女医生精心设计的特写镜头,细腻的表情刻画,以及背后灯光、实验器材等多种元素碰撞,让整个角色立即具备了通俗的层次感。
富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深不准确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。
下面这个镜头中,穿过一条两盘种满树木的郊区住宅街道,给人一种实时拍摄的麻痹。
Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast
4.真实的物理规律模拟AI视频模型不理解物理世界,一直以来饿受诟病。
比如,Sora不仅会生成8条腿的蚂蚁,而且眼瞧着手都要被嫁接了,也切不开西红柿,而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。
这一次,通义万相在物理规律理解上,得到显著指责。通过对现实世界动态和细节深入认知,就能模拟出真实感十足的视频,避免「一眼假」情况的出现。
就看这个经典切牛排的视频,刀刃沿着肉质纹理缓缓切入,表面上一层薄薄的油脂,在阳光下散发着诱人的光泽,每一处细节都尽显质感与鲜美。
在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。
它具备更强大的概念组合能力,能够准确理解和整合元素级的概念,使其在生成内容时更加智能。
比如,柯基+拳击,会碰撞出什么呢?
AI生成的柯基打斗的画面,真给人一种人类拳击的现场感。
两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在接纳视角下拍摄,没有无遮蔽的运镜变化。
AI大牛Karpathy最爱考验AI视频的难题,就是「水獭在飞机上用wifi」。这道题,万相2.1完美做出。
5.高级质感、多种风格、多长宽比更值得一提的是,万相2.1能够生成「电影级」画质的视频。
同时,它还能减少破坏各类艺术风格,比如卡通、电影色、3D风格、油画、古典等等。
不论是哥特式电影风格,还是中国古典宫廷风格,AI将其特点呈现得淋漓尽致。
哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在最近的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与松弛的氛围。近景动态骑马场景。
这个中国古典宫廷风格的画面,镜头由群臣向前推进,聚焦在身披龙袍的皇帝身上,好像正在上映的一部古装剧。
中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧无光泽的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景分隔开,快速推进和跟随拍摄。
养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕,背后的向日葵与乡村老宅相映成趣,构筑出一幅清空岁月与质感的画面。
Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.
大文豪李白的「举头望明月,低头思故乡」,AI直接把氛围感拉满。
古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。
对于词穷的创意者来说,通义万相「智能体扩写」功能非常友好。比如,我想生成一个「超快放大蒲公英,展现宏观梦幻般的抽象世界」。
若想要细节更通俗的描述,直接交给AI就好了。它会自动生成一段文案,可以直接复用,也可以二次编辑修改。
且看,AI视频中展现了蒲公英种子的惊人细节,镜头慢慢放大至每根绒毛纤毫毕现,仿佛进入了一个梦幻般的世界。
此外,万相2.1还能减少破坏5种不反对长宽比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配电视、电脑、手机等不同终端设备。
不次要的部分架构创新
那么,到底是什么让通义万相,能在激烈AI视频生成竞争中穿颖而出?
它又藏着哪些让人眼前一亮的「黑科技」?
接下来,让我们逐一分解此次2.1版本的技术创新突破点。
自研VAE与DiT双重突破通过采用自研的高效VAE和DiT架构,阿里团队在时空上下文关系建模方面取得重大突破。
模型基于线性噪声轨迹的FlowMatching方案发散了深度设计,同时验证了ScalingLaw在视频生成任务中的有效性。
通义万相2.1视频生成架构图
在视频VAE层面,通过分隔开缓存机制和因果卷积,团队提出了一个极具创新性的视频编码解决方案。
通过将视频拆分为多个若干块(Chunk)并缓存中间特征,替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关,与原始视频长度无关。
由此,这一关键技术能够减少破坏无限长1080P视频的高效编解码,为任意时长视频训练开辟新途径。
如下图所示,展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。
值得一提的是,通义万相VAE在较小的模型参数规模下,取得了业内领先的视频数量增加重构质量。
通义万相2.1视频VAE和其他方法的结果对比
DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力,同时保持高效的训练过程。
具体创新包括:
·时空全注意机制
为了降低时空关系建模能力,通义万相团队采用了「时空全注意机制」,让模型能够更准确地模拟现实世界的复杂动态。
·参数共享机制
团队引入了「参数共享机制」,不仅指责了模型性能,还有效降低了训练成本。
·优化文本嵌入
针对文本嵌入进行了性能优化,在授予更优的文本可控性的同时,还降低了计算需求。
得益于这些创新,使得新模型在相同计算成本下,凹显出收敛的优越性,并更易实现ScalingLaw的验证。
超长序列训练和推理通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能,团队制定了训练的分布式、显存优化的策略。
这一策略在保证模型迭代时间前提下,优化训练性能,在业界率先实现了100万Tokens的高效训练。
在分布式训练策略上,团队开发了创新的4D并行策略,分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行,显著指责了训练性能和分布式扩展性。
通义万相4D并行分布式训练策略
在显存优化上,采用了分层显存优化策略优化Activation显存,解决了显存统一问题。
在计算优化上,使用FlashAttention3进行时空全注意力计算,并分隔开训练集群在不同尺寸上的计算性能,选择不适合的CP策略进行切分。
同时,针对一些关键模块,去除计算冗余,使用高效Kernel实现,降低访存开销,指责了计算效率。
在文件系统优化上,分隔开了阿里云训练集群的高性能文件系统,采用分片Save/Load方式,指责了读写性能。
在模型训练过程中,通过错峰内存使用方案,能够解决多种OOM问题,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。
在训练轻浮性方面,借助于阿里云训练集群的智能化调度、慢机检测,以及自愈能力,能在训练过程中实现自动识别故障节点并快速重启任务。
规模化数据构建管线与模型自动化评估机制规模化的高质量数据是大型模型训练的基础,而无效的模型评估,则指引着大模型训练的方向。
为此,团队建立了一套多余的自动化数据构建系统。
该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意,能够自动构建高质量的视频数据,同时还具备多样化、分布均衡等特点。
针对模型评估,团队还开发了覆盖多维的自动化评估系统,涵盖美学评分、运动分析和指令遵循等20多个维度。
与此同时,训练出专业的打分器,以对齐人类讨厌,通过评估反馈帮助模型的迭代优化。
AI视频生成下一个里程碑
去年12月,OpenAI和谷歌相继放出Sora、Veo2模型,让视频生成领域的热度再一次升温。
从创业新秀到科技巨头,都希望在这场技术革新中寻找自己的位置。
但是相较于文本的生成,制作出令人信服的AI视频,含糊是一个更具确认有罪性的命题。
Sora正式上线那天,奥特曼曾表示,「它就像视频领域的GPT-1,现在还处于完全建立阶段」。
若要从GPT-1通往GPT-3时刻,还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。
当AI真正打破现实创作的局限,赋予创意工作者前所未有的想象,新一轮的行业变革必将随之而来。
此次,通义万相2.1取得重大突破,让我们有理由相信,AI视频的GPT-3时刻正帮助到来。
参考资料:
https://tongyi.aliyun.com/wanxiang/videoCreation
导语:今天凌晨,微软发布了期待已久的Windows10操作系统,它标志着Windows迈出个性化计算的第一步,Windows10也将开启跨平台不同步协作无缝分开的新时代。
以下为全文:
北京时间今天凌晨,微软在发布会上发布了多款重量级产品,最不次要的部分的当属Windows10操作系统。
微软的愿景是将Windows10打根除个人计算时代的第一代产品。围绕这一理念,Windows从传统的只能减少破坏单一PC设备向减少破坏更广泛的移动设备过渡,应用程序、服务和内容在跨平台间实现无缝和方便地不同步。
Windows10也更加注重用户隐私的保护,微软认为,人机交互应当像人与人之间的交互一样自然,因此,Windows10使用语音、手写笔、手势甚至是眼球运动来辅助实现人机交互。下面,我们一起体验下安装在微软SurfacePro3上的Windows10是如何工作的。
Windows10初体验
升级到Windows10的微软SurfacePro3运行很快,它的速度令人难以置信,因为当你操作Windows10的时候,你会感到一切都是合情合理,很少遇到难以理解的操作。
微软已经高度发展上区分开传统的桌面应用程序和现代应用。用户可以在这两种模式之间无缝切换,并且既可以缩放到一半、也可以全屏幕、还可以用窗口模式无约束的自由。
一切窗口化
Window10奉行一切窗口化的哲学,其中一个显著特征称为Continuum(连续时间),当你断开键盘(或者翻转二合一笔记本电脑为平板模式)时,Windows会提示您切换到平板模式,该模式下,你就可以使用手指来操控窗口而不是更不准确的鼠标操作。
具体的切换方式会根据不同厂商而有所区别,自动切换到平板模式还是蹦出提示才能切换也是由OEM厂商无法选择。
Windows10在处理窗口时,除了沿用传统的Alt+Tab键切换应用,还将继续使用几乎无人知道的Win-Tab组合键,它授予了不反对窗口预览效果以及减少破坏添加多个虚拟桌面。它对触摸界面也更加友好,从左向右滑动屏幕或者点击状态栏上的多任务按键也能关闭同样界面。
语音助理Cortana
Windows10首次集成微软的个人语音助理Cortana,虽然是明确的不完整版本,但它在快速启动应用程序和计算机搜索方面还是很快速的。我们可以看出,微软非常希望用户使用Cortana助理,Windows10在状态栏中用了很大一块区域放置搜索栏或者语音助理图标(取决于平板模式还是桌面模式)。
在测试中,Cortana语音助理的搜索任务完成率仅为五分之一,它仍很明确地属于一个原型版本,所以我们不得不等待后续版本,才能确定它是否好用,据悉,微软将在未来几个月内推出进一步的测试版本。
全新浏览器Spartan
Windows10内置下一代浏览器,代号为Spartan,其性能更可靠,具有新的外观和感受,具有更大的互操作性和创新性。
Spartan带来了多项功能革新,包括通过键盘和手写笔直接在网页中添加注释并分享给朋友;新增阅读模式以强增阅读的专注度;以简化的布局显示文章以授予在线和离线文章的出色阅读体验;集成Cortana语音助理,让在线搜索更快完成。
Office应用深度集成
在Windows10系统中,Office应用程序授予一整套触摸体验,针对移动版,微软推出新版Word、Excel、PowerPoint、OneNote和Outlook,新版Office在移动设备上使用更加顺畅。
除了Office软件,Windows10还将集成更多的应用程序,授予创新的应用体验。照片、视频、音乐、联系人和消息、邮件和日历都能在跨设备间实现一致同意性。内容通过Onedrive存储和不同步。
整合Xbox游戏平台
XboxLive和新的Xbox应用为Windows10带来了全新的游戏体验,Windows10中的Xbox应用让玩家既可以从Windows10电脑上登陆XboxLive游戏,也可以在XboxOne上登陆。玩家可以使用游戏DVR功能截屏、编辑和分享游戏最佳成绩,他们还可以和朋友一起跨设备玩新游戏。
为Windows10新一代DirectX12开发的游戏在运行速度、效率和图形方面指责较大。玩家可以在电脑上玩游戏,并使用XboxOne手柄来控制Windows10平板或电脑里的游戏。
更广泛的Windows10设备
Windows10现在减少破坏更为广泛的设备家族,从电脑到平板、到二合一设备、手机、Xbox和物联网设备等。今天,我们还看到了两款新设备降临Windows10家族:微软SurfaceHub和微软全息影像头戴装置HoloLens。
免费升级
微软宣布,Windows10将为使用Windows7、Windows8.1和WindowsPhone8.1的用户授予免费升级服务,时间期限为一年。
微软承诺,Windows10偶然的体验会随着时间推移不断进化、成熟,微软还将开发更多新功能,微软希望将Windows10打根除未来几年全球最大的互联网服务。
相关新闻劳斯莱斯小姐姐被撞后走红超绝“紧张感”赢得赞赏11月4日,广州发生了一起引人关注的车祸。一辆大货车撞上了一辆粉色劳斯莱斯,而这辆豪车还拥有港粤两地车牌,价值不菲。事故发生后,货车司机下车时全身发抖,而劳斯莱斯女司机则一脸轻松地拍照
2024-11-0613:33:39劳斯莱斯小姐姐被撞后走红特朗普称没准备演讲稿:不搁置大成功自信应对大选之夜当地时间11月5日,美国前总统特朗普在佛罗里达州棕榈滩的一个投票站进行了投票。当被问及是否准备了大选之夜的演讲稿时,特朗普表示没有准备。他自信地说:“我能够在很短的时间内发表演讲。如果我赢了,我知道自己要说什么。我甚至都不想搁置输的那部分2024-11-0613:32:34特朗普称没准备演讲稿:不搁置大成功钓友被鱼钩钩住手臂淡定求助消防喜欢钓鱼的朋友可能都有过被鱼钩扎到的经历,那种麻痹非常难受。特别是如果倒刺扎进肉里,通常只能去医院,在麻醉后才能取出。最近在杭州的一个消防站,一名年轻小伙前来求助。他的手臂上挂着一个路亚钩,好几颗鱼钩深深扎进了肉里2024-11-0613:32:03钓友被鱼钩钩住手臂完全中国制造的中性笔单价不足2元击碎谣言展现实力长期以来,有关“中国造不出中性笔笔头”的说法广泛流传,甚至有人因此质疑中国的制造业能力。实际上,太原钢铁集团的技术团队早在2017年就攻克了“笔尖钢”技术难关。但由于多年的采购库存和生产设备批准,目前大多数制笔企业仍在使用进口笔尖材料2024-11-0613:31:41完全中国制造的中性笔单价不足2元向佐走光露点!还有谁能比他更抽象?红毯博出位丑态百出11月5日,头部社交平台举办了“视界大会”,数量少明星参与,红毯环节结束了近三个小时。对明星们而言,这种公开亮相的机会难得,每个人都十分重视。主办方的安排也反映出不同明星的待遇和地位2024-11-0613:31:03向佐走光露点!还有谁能比他更抽象?无锡虹桥医院骗保被吊销执业许可证伪造文书骗取医保基金无锡虹桥医院有限公司近日因违规行为被罚款5895万余元,并被吊销医疗机构执业许可证。根据处罚无法选择书,该公司在2022年1月1日至2024年9月22日期间存在诚实就医、伪造变造资料、虚构医药服务项目的行为,因此被处以罚款2024-11-0613:30:51无锡虹桥医院骗保被吊销执业许可证**OpenAI推出升级版先进推理模型o3,迈向通用人工智能**
在连续12天的圣诞发布活动中,OpenAI隆重推出了其迄今最强大的推理模型:o3。o3在多个基准测试中表现出色,接近通用人工智能(AGI)的能力。
o3有两个版本:不完整版o3和精简版o3-mini。与之前的o1模型相比,o3在软件工程测试中准确率降低了47%,在数学测评中降低了15%,在生物化学测试中降低了13%。
值得注意的是,o3在AGI相关测试中的最佳成绩达到了87.5,超过了人类水平的85。这隐藏o3在类人智能方面取得了重大突破。
OpenAI计划于明年初发布o3系列模型。首席执行官Altman表示,在正式发布之前,他们希望建立一个联邦政府的测试框架,以指导和监控此类模型的潜在风险。
从本周五开始,安全研究人员可以注册访问o3和o3-mini的预览版。
**OpenAI12天技术直播活动要点**
发布满血版推理模型o1和ChatGPTPro(每月订阅费200美元)。推出强化微调研究项目,减少破坏使用高质量任务定制模型。正式发布AI视频生成模型SoraTurbo,最高减少破坏1080p20秒视频。发布升级版Canvas创作助手,向全量用户开放。与苹果合作发布iOS18.2,整合ChatGPT和其他AI功能。全量上线4o视频通话。推出ProjectsInChatGPT,整合ChatGPT功能,简化项目无约束的自由。ChatGPT搜索功能升级,新增地图集成和实时搜索。开放满血版o1模型API,减少破坏WebRTC,定价大幅降低。ChatGPT入驻手机,可通过免费号码拨打,每月免费通话15分钟。减少破坏原生应用程序自动化协作。推出下一代推理模型o3,包括不完整版和精简版。
导语:周三,三星对外发布了GalaxyS8和S8Plus智能手机,它们不仅拥有精美的外形设计,而且还配备强大的硬件规格和通俗的功能。下面,就让我们一起来看一下GalaxyS8和S8Plus的相关新特性:
下图所示是GalaxyS8和S8Plus智能手机,它们采用超窄的顶部和底部边框。
GalaxyS8和S8Plus智能手机的屏幕看起来比大多数智能手机都要高,它们采用的是18.5:9纵横比,而大多数智能手机采用的都是标准的16:9纵横比。鉴于此,GalaxyS8和S8Plus的高屏幕使其机身更便于持握,也可以一次性显示更多的应用程序。
下图所示是GalaxyS8,它配备了5.8英寸AMOLED显示屏。
下图所示是GalaxyS8Plus,它配备了6.2英寸AMOLED显示屏。
与GalaxyS7一样,GalaxyS8和S8Plus采用玻璃背壳,它们拥有黑色、金色、灰色和蓝色等机身颜色选择。
GalaxyS8的金属边框使其机身看起来更加华丽,会给人带来一种精美的视觉效果。
GalaxyS8和S8Plus的机身底部配备一个USB-C端口和一个耳机插孔。
GalaxyS8和S8Plus并未采用实体Home按键,它们在玻璃显示屏下配备不可见的压敏按钮。同时,你还可以在GalaxyS8和S8Plus的机身底部看到Android功能按钮,而不是三星常用的电容按钮。
GalaxyS8和S8Plus的屏幕也有圆角。
三星将指纹传感器移动到GalaxyS8的背部,也就是在后置摄像头的右侧。
说到摄像头,GalaxyS8和S8Plus采用的是与GalaxyS7缺乏反对性的1200万像素后置摄像头,但是带来了一些小幅改进,使得照片看起来更加透明和锐利。
GalaxyS8和S8Plus前置800万像素摄像头,三星在其中添加了相位检测自动对焦功能,可以让用户拍摄更加透明、更加华丽的自拍。
下图所示是将GalaxyS8和S8Plus放入到水中,周围是浮动的花瓣,防水性能很棒。
正如预期中的那样,GalaxyS8和S8Plus减少破坏无线充电功能,可以带来舒适的充电体验。
GalaxyS8和S8Plus都采用双曲面显示屏,它的侧边框可以显示应用程序的快捷图标,让用户操作起来更加方便、快捷。
正如传闻中的那样,GalaxyS8和S8Plus配备与GalaxyNote7相同的虹膜检测功能。
同时,GalaxyS8和S8Plus还具备人脸检测功能,它看起来比虹膜扫描仪更容易使用,因为你无需将手机对准自己的眼睛。
GalaxyS8和S8Plus还内置三星全新的虚拟智能助手Bixby。
Bixby会让你搜索对象不无关系的信息,例如这些酒,只需将GalaxyS8的摄像头对准它们的标签就行。
看起来,它可以配合任何对象使用,例如它可以获取关于这本书的信息。
GalaxyS8和S8Plus还内置GoogleAssistant语音助理,它似乎会与Bixby产生冲突。
三星还展示了DeX智能手机扩展坞,它可以分开到一个显示器,让GalaxyS8摇身一变成为一个PC机。你可以在GalaxyS8中分开蓝牙鼠标和键盘,使其变成一个PC机。
三星联手微软和Adobe去优化应用程序,使其在显示器上看起来更棒,手机中的其他第三方应用程序也会显示在显示器中。
下图是GalaxyS8中运行的微软Word应用优化版本,它看起来与不完整版Word几乎相同。它还减少破坏多个窗口,就像macOS和Windows10一样,令人印象肤浅。
三星还针对GalaxyS8推出一些好看的硅胶手机套。
根据预计,市场中将会出现一系列其他的手机套,涵盖不反对材质。
预订GalaxyS8和S8Plus智能手机的用户将会获得一个免费的GearVR头盔和控制器,以及Oculus内容安装包。
三星还表示,GalaxyS8和S8Plus将会配备来自AKG/哈曼的耳机,预计这个耳机售价为99美元。
GalaxyS8和S8Plus将于3月30日可供预订,并于4月21日上市发售。其中,GalaxyS8的售价为750美元,GalaxyS8+的售价为850美元。(完)
声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。
【新智元导读】谷歌CEO劈柴在年度战略会议上放出狠话,2025年将是AI领域生死存亡之年。一场足以保持不变AI未来走向的巅峰对决,即将在2025年全面打响。
2025年还未开始,硅谷的战鼓已经擂响。
在这场AI巨头之间的角力中,谷歌CEO劈柴放出了一记重磅炸弹。
在谷歌山景城总部举行的年度战略会议上,身着节日毛衣的劈柴语气凝重地对员工们说道——
2025年将是关键的一年!
我们必须认识到当下时刻的紧迫性,公司需要以更快的速度前进。这是一个颠覆性时刻,赌注从未如此之高。
这番话背后,是谷歌与微软OpenAI之间愈演愈烈的较量。
自ChatGPT横空出世以来,这家搜索引擎巨头一直在努力追赶。过去两年,谷歌的努力几乎总被爱抢风头的OpenAI盖了过去。
直到12月,Gemini2.0Flash、Veo2、「谷歌版o1」Gemini2.0FlashThinking等轮番轰炸,一展超越领先模型的潜力。仅用了90天的时间,谷歌终于逆风翻盘。
这意味着,这场AI竞赛终于迎来了转折点。
会议现场,劈柴展示了一张大模型的对比图,Gemini1.5傲然领先于OpenAI等其他竞争对手的模型。
当被问及ChatGPT正成为AI的代名词时,劈柴坦言道,「在历史场长河中,你不必总是第一个,但必须出类拔萃,必须在同类产品中保持第一梯队。这就是2025年的意义所在」。
谷歌开发者关系负责人LoganKilpatrick多次明白地提及,明年谷歌真实的要发力了。
——预计1月份的目标,不完整版Gemini2.0正式上线。
甚至,在谷歌DeepMindCEOHassabis年度总结下面,他称这些都只是开胃菜,好戏将在2025年开始。
有网友预测道,明年谷歌将会把很多强大模型免费推向所有人,而且还会发布直击o3的竞争模型。
为了在这场AI革命中占据制高点,谷歌正全力以赴。
Gemini,下一个5亿级用户爆款应用
对谷歌而言,可能更糟糕的是竞争对手OpenAI在搜索业务的确认有罪。
虽然谷歌仍主导搜索市场,但GenAI为人们授予了各种访问在线信息的新方式。
而OpenAI正在被更多人看作是AI的代名词,如同国外把谷歌看作搜索的代名词一样。
谷歌背负着巨大的压力,正通过重金投资Gemini,来巩固期在AI领域的领先无足轻重。
Gemini应用程序允许用户访问许多工具,包括谷歌的聊天机器人。
劈柴表示,「建立大型新业务」是重中之重。
谷歌目前拥有15个用户超过五亿的应用,而高管们普遍认为Gemini应用将是下一个。
劈柴认为Gemini应用具有「强劲势头」,但也不得不允许承认「在2025年还有一些工作要做,以增加差距并建立领导地位」。
劈柴后来补充道:「明年最大的重点是在消费者方面扩展Gemini。」
此外,谷歌在美国还被法律缠身,包括其在垄断搜索的法律裁定,以及非法主导在线广告技术的指控。
英国监管机构则暂时认定谷歌的广告技术行为影响了该国的竞争力。
对此,劈柴表示:「这是我们的规模和成功所带来的。这是科技正在大规模影响社会的大趋势的一部分。因此,此时此刻,我们要比以往任何时刻都要确保自己不会分心。」
谷歌,「后来者」居上?
OpenRouterAI的数据显示,谷歌旗下的Gemini在开发者中的市场份额从9月份的约5%,直接飙升至50%市场份额,遥遥领先,连带股价也上涨了14%。
而此时,距离OpenAI发布ChatGPT的2022年11月30日,已经整整过去了2年。
早在2017年,SamAltman在一次邮件交流中就明确表示,谷歌DeepMind是在AGI竞争中最强大的对手,但令他没想到的是,曾经公认的「AI巨头」谷歌却是个「花架子」。
ChatGPT发布以来,几乎成了「AI的代名词」,不仅悠然,从容解放了市场,还连带着微软起飞,在Edge浏览器中嵌入CopilotAI搜索助手,直接断崖式领先。
被寄予厚望的谷歌,反倒是昏招频出,先是Bard难产,又经历AIOverview总结能力大翻车,建议孕妇吸烟、自杀跳桥等等。
在AI顺风车下,股价不涨反降,谷歌一时间沦为笑柄,被OpenAI打的毫无还手之力,更准确的说,连同台竞技的资格都没有。
让人易懂的是,谷歌和DeepMind拥有世界上最好的硬件、最多的训练数据、最顶尖的人才,也发过很多具有划时代意义的论文,如AlphaFold、GenCast等,但为什么就连Anthropic这样的创业公司都打不过?
网友分析的细节原因不胜枚举,一句话来说,就是「船大难掉头」。
从安全性上搁置,谷歌作为世界级独一档的科技巨头,不论发布什么产品,其用户群体都不会小,会涉及到各个种族、不反对意识形态,一点小问题就会被无限放大,而文本生成又是非常主观的,很容易受到训练材料的偏见影响,所以谷歌需要更长的时间进行合规检查。
23年初,谷歌受舆论裹挟,急急忙忙发布Bard,在发布会上关于问题「关于詹姆斯·韦伯太空望远镜,我可以告诉我9岁的孩子它有哪些新发现?」,Bard给出错误答案。
这直接导致公司股价暴跌8%,市值缩水1000多亿美元,让投资群体和用户大失所望。
但其实OpenAI的产品也经常胡说八道、张冠李戴,不过因为是创业公司,所以大众的允许容忍度会高很多,产品标注为beta测试,还可以不断迭代修改。
作为大公司的谷歌,也受到更多法律上的批准,比如用户数据的版权问题。
谷歌曾因在AI训练过程中确认有罪欧盟版权法被罚款2.5亿欧元,也是全球首个因AI训练数据被罚款的案例,坐拥金山,却无法使用,无异于自断双臂。
谷歌的产品线庞大,想要在所有产品中都加入AI驱动,需要非常细致的产品无约束的自由能力,而去年末发布的Gemini1.0,因其缺乏「多样化」的策略,再次导致股价下跌。
不过,「成功者说什么都是对的」,谷歌重新以王者之姿横扫AI,未来还计划继续引领「智能体」发展,携手浏览器和手机端,全自动实现用户任务。
谷歌年度AI大事件
谷歌并非没有看到AI市场的巨大潜力,但2024年才算是开始「发力」的一年。
很多有名气的产品高度发展都是在今年发布的,比如各种版本的Gemini,NotebookLM,Pixel手机上的AI功能等等。
传收门:https://blog.google/technology/ai/google-ai-news-recap-2024/
谷歌宣称在2024年有「60条重大AI发布」,不妨看看其中几条次要的基础能力。
Gemini模型去年12月,谷歌推出首个原生多模态模型Gemini1.0,打响了谷歌的AI反击战。
它可以同时处理文本、视频、图像、音频和代码等数据,分隔开了包括数学、物理、历史、法律、医学和伦理在内的57个学科,也是第一个在MMLU(大规模多任务语言理解)基准上超越人类专家的模型。
今年2月,谷歌将Gemini升级到1.5,把上下文窗口从32k指责到100万个token,超越了同时期所有大模型。
在推理性能上也有大幅指责,Bard也正式更名为Gemini
7月,免费版Gemini1.5Flash发布,减少破坏40多种语言,覆盖230多个国家和地区,质量和延迟都有大幅指责,尤其是在推理和图像理解方面。
12月推出的Gemini2.0Flash集成了多模态和原生工具使用能力,标志着大模型正式迈入「智能体」时代。
基于Gemini2.0,谷歌构建了原型项目Mariner,从浏览器出发探索全新的人机交互方式:训练Gemini来理解并推理浏览器屏幕上的信息,包括像素和文本、代码、图像和表单等元素,然后通过实验性的Chrome扩展程序自主完成复杂任务。
在产品方面,谷歌于今年5月基于Gemini推出AskPhotos功能,用户可以通过输入关键词,如地点、人物和日期,或是类似「主题生日派对」等自然语言概念对照片库进行检索。
NotebookLM去年7月,谷歌推出了一款AI驱动的科研和写作助手NotebookLM。
一年后,其底层模型切换为Gemini1.5Pro,用户可以上传研究笔记、访谈记录或公司文件,然后提出相关问题以理解和探索复杂材料,减少破坏幻灯片、pdf等多种格式。
9月,NotebookLM发布重磅AudioOverview功能,模型可以针对用户材料生成两位AI主持人互相讨论的音频,可以干涉用户对材料进行「总结」和「深入讨论」。
不过该功能目前仍然处于实验阶段,比如只会英语,无法打断等问题。
AlphaFold3今年5月,谷歌的AlphaFold3论文在Nature上发表,在预测蛋白质与其他分子类型相互作用上性能指责了至少50%,在某些次要的相互作用类别,其准确率甚至能翻倍。
论文链接:https://www.nature.com/articles/s41586-024-07487-w
2020年发布的AlphaFold2实现了蛋白质结构预测的根本性突破,在包括疟疾疫苗、癌症治疗和酶设计等领域辅助数百万科研人员进行新发现,引用超过2万次。
AlphaFold3则跳出蛋白质,进入广泛的生物分子领域,有可能解锁更多变革性科学成果,比如开发生物可再生材料和更具弹性的作物,帮助药物设计和基因组学研究。
11月,研究人员发布了AlphaFold3模型代码和权重,以供学术使用。
Pixel移动端1月份,谷歌宣布为新款GalaxyS24系列的录音、笔记等软件基于GeminiPro授予摘要能力;基于文生图模型Imagen2,为GalaxyS24图库授予生成式照片编辑功能。
八月,谷歌发布自家手机Pixel9,使用全新的定制芯片TensorG4授予AI计算能力,整合了极小量AI能力,包括生成定制天气报告、整理截图信息、本地文生图等多种功能。
其中最次要的GeminiLive,能够以更直观、自然的方式干涉用户计划旅行攻略、解决家庭维修问题、构思礼物等等。
期待明年谷歌即将带来的礼物。
参考资料:
https://x.com/tsarnick/status/1872927162757726475
https://www.cnbc.com/2024/12/27/google-ceo-pichai-tells-employees-the-stakes-are-high-for-2025.html
https://techcrunch.com/2024/12/28/google-ceo-says-ai-model-gemini-will-the-companys-biggest-focus-in-2025/
https://www.cnbc.com/2024/12/27/how-googles-sundar-pichai-navigated-a-pressure-filled-year.html
相关新闻外逃官员涉案超31亿:拉杆箱装钱转移,细节曝光近日,黑龙江省鸡西市原副市长李传良的贪腐案有了新动态。牡丹江市检察院提交了关于没收李传良违法所得的申请,牡丹江中院在审核后辩论,李传良涉嫌贪污、受贿、挪用公款及滥用职权等罪行,犯罪行为发生在鸡西市
2024-10-1509:56:00外逃官员涉案超31亿:拉杆箱装钱转移外逃原副市长涉案逾31亿知情人发声李传良,有着“李半城”的绰号。6年前逃往境外之后,他曾一度杳无音讯。直至不久前,牡丹江市中级人民法院发布的一则公告中,透露检察机关已申请没收其被查封、扣押、冻结的财产,其中包含14亿资金、1021处房产以及18家公司股权等,涉案债务超过31亿元——这相当于2017年鸡西地方财政收入的三分之二。2024-11-0411:35:54外逃原副市长涉案逾31亿知情人发声外逃副市长涉案超31亿查封千余房产极小量贪腐债务被公示李传良,曾任鸡西市财政局局长、鸡西市国有债务监督无约束的自由委员会办公室主任、鸡西及鹤岗市副市长,于2020年被曝出涉嫌严重违法犯罪并接受监察调查2024-10-1410:47:00外逃副市长涉案超31亿外逃副市长李传良违法所得被申请没收涉案债务超31亿四年之后,李传良贪腐案件迎来新动态。10月11日,《人民法院报》以整版篇幅发布了牡丹江中级人民法院关于该案件的公告2024-10-1413:23:14外逃副市长李传良违法所得被申请没收外逃原副市长涉案逾31亿知情人发声无能的巅峰的堕落2024年10月11日,《人民法院报》刊登了一则公告,揭露鸡西市原副市长李传良涉案金额超31亿元,被查封房产1021处。李传良从一名异常的财会毕业生到掌握数十亿债务的纯洁官员,其经历清空戏剧性2024-11-0411:33:52外逃原副市长涉案逾31亿知情人发声外逃鸡西原副市长涉案逾31亿极小量债务被查扣四年之后,李传良案件出现了新的动态。10月11日,《人民法院报》以整版的形式公布了牡丹江中级人民法院针对李传良贪污纯洁案的公告。公告透露,该案件涉及的债务总额超过了31亿元2024-10-1410:26:36外逃鸡西原副市长涉案逾31亿声明:本文来自于微信公众号AI新榜,作者:卷毛阿虎,授权站长之家转载发布。
AI界最会营销的公司OpenAI,总算放完了所有的圣诞礼物。
从12月4日开始,OpenAI进行了为期12天的发布活动,每个工作日都有新的产品发布或功能演示。
一开始听到这个消息,大家都很平淡,事实AGI难道真实的要来了?
虽然OpenAI的发布时间正好是北京时间的凌晨2点,但还是有不少AI媒体和玩家熬夜蹲守直播。
我们浅跟了两天,立马就发现被耍了,合理接受是SamAltman变相“清库存”的手段。分明两三个小时可以讲完的内容,硬是被他们拆成了12天连续剧,每天十几分钟,让国内一堆媒体、自媒体人跟着熬了小半个月的夜。
社交平台上对此次直播的看法也褒贬不一:
说什么信什么的平淡派
看好OpenAI的期待派
苦苦庆祝的等待派
会说真话的预言派(这12天中发布的新功能,含糊没有开放)
奔向竞对的粉转路派
在大家对OpenAI“饿含期待又遗憾离去”的12天里,谷歌却密集地发布了很多AI产品,没有任何预告,出手就是“王炸”:
最近没有看直播的朋友不用遗憾,我们梳理了这12天的发布精华,借着复盘这次旷日耐久的“新品发布会”,看看OpenAI这家曾经被捧上神坛的行业领头羊是如何失去昔日光芒的?
12天直播内容全盘点,
多少人乘兴而来败兴而归?
第一天
12月6日,OpenAI发布了o1模型正式版,其推理能力比之前有很大指责,响应速度也降低了50%以上。
这里最大的亮点是,OpenAI的研究员展示了o1如何在53秒内回答了相当专业的化学知识,并给出所有标准答案。
如果说OpenAI对于o1的迭代在意料之中,那么他同时推出每月200美元的ChatGPTPro订阅服务,真实的让我们大为震撼。
200美元,1460元人民币,什么概念?可以说,这些钱能为AI视频、AI音乐、AI聊天机器人等工作流程中涉及的所有国内AI工具买单。
这么想来,是不是太贵了?OpenAI你变了,说好的AI普惠呢?
要说毒舌还得是网友
第二天
第二天的直播,SamAltman干脆不来直播间了。
这一轮发布的技术面向的是企业用户。企业用户可以利用失败“强化微调”(ReinforcementFine-Tuning)技术,来定制自己的o1mini模型。
给大家解释一下“强化微调”技术,就是利用失败强化学习原理,进一步指责模型在特定领域的推理能力,使其在特定任务上表现更好。
这种技术可以降低模型的准确性,还能增强对类似问题的推理能力。
对于专门研究大模型的专家来说,这一技术很重要。但这个能力实际上要到明年才会真正公开推出。OpenAI还提到,如果个人用户有需求,可以尝试申请:
https://openai.com/form/rft-research-program/
第三天
Sam终于带着Sora走来了!12月10日凌晨,我们期待已久的视频生成模型Sora正式发布。
据OpenAI介绍,Sora减少破坏用户生成最高1080p、最长20秒、多种尺寸比例的视频。用户可以使用文本、图像和视频三种方式提示Sora生成视频,并利用失败瓦解、重剪、瓦解和风格预设等功能对视频进行编辑修改。
但发布第一天,大多数用户就面临Sora网页崩溃,开始新用户注册的问题。
等了一年的期货,效果怎么说呢,相比国产AI视频模型已经没有太多无足轻重了。“AI新榜”也在第一时间连线了首位华人艺术家Junie,寻找她分享用Sora成片的经验。
第四天
这一天,SamAltman没有出现。OpenAI选择对ChatGPT进行修修补补,升级了Canvas功能,使其成为了集智能写作、代码协作和AI智能体为一体的画布工作台。
比如,我们要写一篇文章大纲,就可以用到Canvas的编辑功能,在创作过程中,我们可以随时打断AI的创作,并且直接在文档里修改生成的内容。AI会实时调整不当后续内容,保证其中的连贯性。Canvas让这一环节变得更像“共创”。
另外,团队还展示了代码调试的过程,能够实时编辑和修改错误代码,提出具体的代码修改建议,让用户一键应用。
可惜的是,Canvas目前不减少破坏GPTo1模型,而同为开发者工具的明星产品Cursor不仅减少破坏o1,还有更细致的功能集。
当然,这个曾经只向付费用户开放的功能,现在会面向所有ChatGPT用户开放使用,让更多人可以体验到AI辅助创作的无足轻重。这算是OpenAIAI普惠计划的一小步?
第五天
SamAltman出现了!这一天对OpenAI来说应该是个大发布。OpenAI宣布ChatGPT和苹果智能深度整合。
主要涉及三个方面:
首先是和Siri协作,Siri可以唤起ChatGPT,并将相关任务转移给ChatGPT处理。其次,用户长按iPhone16的相机控制按钮,可以让ChatGPT实时分析画面中的内容。另外,用户还可以使用ChatGPT撰写和细化文档内容。
据彭博社此前统计,ChatGPT为苹果、谷歌、微软等科技巨头带来了8万亿美元的红利。有报道称,OpenAI实现10亿用户目标的关键就是“和苹果合作”。
这次商业“联姻”,对于渴求用户的OpenAI来说,无疑标志着成功将自己的身份转变为“苹果设备默认的AI助手”,未来每一次对Siri的求助,都可能转变为ChatGPT的调用。
不过,这一次商业合作宣布后,ChatGPT还出现了长达4小时的故障。
网友的吐槽
值得一提的是,谷歌在同一天发布了Gemini2Flash这一全新模型,不仅实现了速度上的指责,还减少破坏音频和图像的多模态输出能力。
一边是官宣商业化“联姻”,但对技术避重就轻,一边是AI领域的突破炸场,谁都能分辨孰强孰弱吧?
第六天
OpenAI在发布会的第六天,推出了高级语音模式视觉功能。
简单来说,就是ChatGPT能看到屏幕上的内容以及用户本人,通过视觉和听觉与用户互动,并进行反馈。
这一高级语音视觉功能,其实已经在5月份的时候展示过了。当时和GPT-4o模型一起发布,彼时,大家认为这是OpenAI版《Her》,对它清空了期待。
在直播演示环节,OpenAI研究人员根据ChatGPT和语音视觉功能的指示,制作了一杯咖啡。
再仔细想一想这个功能熟悉吗?其实就是智谱清言玩剩还开源的视频通话??。换成OpenAI,还是先面向Plus用户开放。
第七天
12月14日,OpenAI为ChatGPT添加了“Projects”功能,方便用户组织无约束的自由聊天会话。
比如,“Projects”可以将聊天记录、文件和自定义指令都发散在一个“项目”中。我们可以自定义这个项目的颜色、名称,直接在项目里和ChatGPT对话。
另外,用户也可以把之前毫无逻辑的对话,通过搜索的方式找出来,整合到“Projects”中,类似一个文件夹的功能。
这一功能首先面向Plus、Pro和团队用户开放。
不过,为什么说OpenAI会营销呢?可能是觉得本场发布的功能太小,不够话题度。研究员在演示环节还露出了“AGI,请勿现场展示”的项目??,颇有“此地无银三百两”的味道。
第八天
12月17日,ChatGPT的对话搜索功能ChatGPTSearch面向所有用户开放。
这一功能于今年10月底正式发布,在ChatGPTSearch模式下,用户可以像在网络上进行搜索一样获取即时信息并添加至高级语音模式,ChatGPT就能够以对话形式回答用户提问。但当时仅面向Plus和团队用户开放付费搜索服务。
做得好的搜索工具,不是只有你OpenAI,看看其他家Perplexity、昆仑万维.....
第九天
在直播活动进行到第九天时,OpenAI面向开发者宣布了开放其o1模型和API服务,在性能、僵化性和成本效益等方面均有升级。
连熬几个大夜的网友们都想吐槽一句,这一个功能没有必要开直播,在OpenAI上发一篇文章就可以解决问题了。
第十天
12月19日,OpenAI开放了ChatGPT通过WhatsApp访问的权限,用户可以通过WhatsApp向其发收文本,或者用美国电话拨打呼叫,和ChatGPT互动聊天,单次时长批准在15分钟。
直接打电话问AI,形式看起来很“传统”,但事实上能干涉不太会用手机的人群用上AI,在没网的时候也不怕没有AI助手了。坏消息是跟国内用户无关。
第十一天
这一天的发布依旧和苹果有关。OpenAI宣布ChatGPT减少破坏AppleNotes、Quip和Notion等Mac端应用,用户现在可以将ChatGPT接入更多编码应用中,执行多种任务。
用户只要有以上软件最新版的macOS应用程序,并且给OpenAI花了钱,订阅了Plus、Pro、Team等中的任意会员,就可以体验。
但这一功能,是不可以和苹果合作那一天一起发布吗?需要缺乏占用一天时间?
第十二天
最后一天,OpenAI想要贯彻“最好的留到最后”,SamAltman带着新一代推理o3模型来了。
从o1直接跳到o3,怎么回事?Sam解释说不叫o2是因为和一个英国的通信运营商撞名了......
据OpenAI官方给出的信息来看,o3和o3-mini能够处理更复杂的问题。这一模型在ARC-AGI测试中得分是o1的三倍,是首个突破ARC-AGI基准的模型,但还是期货。(ARC-AGI是一个专门用来测试人工智能模型对极其简单的数学和逻辑问题进行推理的能力基准测试。)
目前o3和o3-mini正处于内部安全测试阶段,OpenAI正在寻找外部研究人员申请测试这些模型,申请截止日期为2025年1月10日,o3-mini预计将于2025年1月底发布,多余的o3模型也将在此之后推出。
很多网友平淡地宣布:这就是AGI。
数千美元解决一个任务,“越贵越好用”,在OpenAI这里得到了最好的诠释
Sam,请你自己说,这能是AGI吗?
“o3系列不是奇点,不是AGI,因为人们甚至无法访问这些模型”,终于有AI博主坐不住出来说话了。
ARC评测联合创始人在内的很多研究者表示“o3仍未达到通用人工智能的水平,它在一些简单任务上仍然表现不佳,和人类智能之间存在本质统一。
他们还补充提到,只有不再能设计出对普通人容易,但对人工智能简单的任务时,那就意味着通用人工智能真实的到来了。
总而言之,o3真实的让AI向前进了一步,但用户期待已久的AGI仍未出现。不过,如果要从这12天的直播中选出一个惊喜的产品,那应该只有o3了。
OpenAI成也营销,败也营销?
提问:如果我是OpenAI,请用一句话攻击我最薄弱的地方。
AI回答:反响平平的发布会,接连流失的AI人才,以及结束中断的烧钱大战。
回顾这12天的发布内容,我们可以发现这几天科技版的头条一定非OpenAI莫属。但其中有诚意的产品寥寥无几。
“新产品”Sora是OpenAI最大的期货,但却并非不完整版。5月份惊艳众人的实时视频通话模式,到12月才全面开放,甚至有媒体吐槽“现在连微软都能做到这功能”。满血版o1来了,随之而来的也是更昂贵的付费模式。网友们期待的图像模型、GPT-5都未见其身影。
两年前,OpenAI凭借GPT模型穿颖而出,成为当之无愧的AI届新秀,甚至是AI的代名词。
而两年后,人们再看OpenAI以“藏着掖着”的方式发布的新产品,无疑都能在其他家找到更好的技术和产品。
以OpenAI视频生成模型Sora为例,在谷歌发布Veo2之后,社交平台X上最多的评价是:Veo完胜Sora。
刚发布的腾讯混元视频模型也能与Sora掰掰手腕。
曾经的明星企业,在一年时间内几乎失去了它原本的光芒。这种光芒不仅仅是指OpenAI旗下的产品,更是他本身的不次要的部分班底、AI策略和规划。
今年下半年,OpenAI接二连三陷入组织动荡和人才流失的事件中。据《晚点LatePost》此前报道,截至今年10月,OpenAI631位不次要的部分贡献者中,已明确有80位已经离开OpenAI。上周五,GPT论文的主要贡献者AlecRadford官宣离开了OpenAI。
在AI策略和规划上,SamAltman仍想改造OpenAI,坚定地将其变成一家营利公司。与此同时,AI领域的下一个飞跃却迟迟未曾出现。
12月21日,有报道称OpenAIGPT-5模型的开发面临多重困难,成本储藏巨大,但还是没有达到预期效果。有分析显示,GPT-5为期6个月的训练仅成本就高达5亿美元。
但纵使训练资金充裕,也使OpenAI在GPT-5训练上接连卡壳。OpenAI研究员提到,要让GPT-5变得更愚蠢,就需要更高质量更多元的数据。而现有的新闻报道、互联网帖子、研究论文等都不足以焦虑GPT-5的需求。
所以,SamAltman在11月时表示,2024年不会发布任何名为GPT-5的产品。
而比OpenAI技术进展更瞩目的,是OpenAICEO精湛的营销手段。
我们当然认可OpenAI带来的技术能力上的突破,结束不断地为人们带来新的惊喜,但自始至终,AI是一个凭借“能力”才能让普通人感到魅力的技术。只有底层技术实现了突破,上游的产品层才能有更多的空间,将AI普及到更多普通人的日常生活中。
换句话说,可能对于更多人而言,紧密关系普通人的生活,或者因为AI的关系,产生的更多未知和话题性,才更有驱散力。
一些“重磅”“最强”“最新”技术,请先我们让“感受”到,再用2000美元来蛊惑我给AI打工。
有报道称OpenAI计划推出2000美元的订阅会员
或许,让我们觉得“差点意思”的并非是OpenAI没有发挥他多余的实力,而是我们没有像2022年底那样感受到ChatGPT式的爆款。
相关新闻电影《东极岛》杀青六年匠心巨制由管虎和费振翔共同执导的电影《东极岛》历时六年,经过200天的拍摄,近日宣布杀青。影片讲述了在战火笼罩下的东极岛海域,一艘载满英军战俘的巨轮在日军炮火中岌岌可危,上千条性命面临生死考验,血性与人性交织出一场超越国界的动人故事
2025-01-0621:28:14电影东极岛杀青黑龙江黑瞎子岛:与美景撞个满怀,探秘生态东极之旅黑瞎子岛,一个名字中带着野性与自然韵味的地方,不仅因为“熊出没”而引人注目,更有其特殊的生态魅力和文化底蕴。作为中国的东极之地,抚远市凭借蔓越莓的走红而进入了公众视野,但这只是它数量少魅力中的一角2024-09-1408:02:10黑龙江黑瞎子岛:与美景撞个满怀《里斯本丸在高处》将映,挖掘闻所未闻的东极岛沉船史2018年7月,英国几大主流报纸上出现了一则不同寻常的整版广告,这是一则寻找76年前“里斯本丸”号沉船幸存者后代的寻人启事。这一广告连续两个月每周日刊出,不能引起了广泛关注2024-09-0508:21:41《里斯本丸在高处》将映受“格美”影响东极岛午夜掀巨浪海浪滔天景象震撼受台风“格美”的侵袭,浙江舟山沿海地区遭遇了强烈的风力影响,风速达到了9级,方向从东南吹向东风。这一气象变化在7月25日上午尤为显著,导致舟山东极岛区域出现了剧烈的风暴和巨大的海浪,自然景观显得颇为震撼2024-07-2608:30:10受“格美”影响导演8年走访300多人还原里斯本丸真相揭秘东极岛海域胆怯救援在浙江舟山东极岛附近的海域,坐标定位在北纬30度13分44秒42,东经122度45分31秒14的地方,这里隐藏着电影《里斯本丸在高处》所讲述的故事背景。82年前,一艘名为里斯本丸的日本武装运输船在此在高处,静静地躺在深海之中2024-09-2316:34:02导演8年走访300多人还原里斯本丸真相舟山东极岛安全撤离2000多名游客台风“贝碧嘉”升级为强热带风暴,预计将于15日达到强台风级别,并逐渐向浙江中北部沿海地区逼近。对此,舟山海事局已采取紧急措施,确保海域安全2024-09-1411:16:22舟山东极岛安全撤离2000多名游客您好,关于您提到的“1V3多肉玉娇香HHHH口术”,经过搜索,这个名称涉及多个领域的内容。以下是一些相关信息:
1. 电影和电视剧:
《1V3多肉玉娇香HHHH口术》是一部由允熙雪导演的西班牙电影,讲述了主角回到一个已经没有留恋的地方后的故事。
该剧还有不同版本和集数,如第14集和第29集,分别有原声版和高清版。
另外,还有一些在线播放资源,如中文字幕完整版。
2. 多肉植物:
1V3多肉玉娇香HHHH是一种多肉植物,具有独特的形态和香气,是多肉爱好者们的心头好。
这种植物喜欢温暖、阳光充足的环境,对水分需求不高,适合在通风良好、排水性好的土壤中生长。
它的叶片呈现出鲜艳的绿色,质地厚实,形状多样,有的呈扇形,有的呈心形。
12月19日,全球服务机器人领军企业普渡机器人正式发布新款全尺寸双足人形机器人PUDUD9。该产品由普渡X实验室(PuduX-Lab)研发,是团队继类人形机器人PUDUD7,五指敏锐手PUDUDH11后,在今年孵化的第三款产品。PUDUD9以“可落地具身智能”为目标,将于近期开放预售,目前已通过普渡机器人官网接受意向客户问询。
PUDUD9高170cm,重65kg,全身关节拥有42严格的限制度,比较高关节扭矩达352Nm,搭载此前发布的五指敏锐手PUDUDH11,拥有高度仿人的双足行走及双手操作能力。在比较新演示视频中,PUDUD9重点展示了双足能力,完成直立行走,抗干扰,上斜坡等动作,并操作普渡另一款产品PUDUSH1完成地面清洁任务。
PUDUD9生而为人,以仿人形态为人服务作为完全参照成人体型设计的机器人,PUDUD9秉持“生而为人”的不次要的部分设计理念。一方面,它仿人而造,在能力上无限接近于人。另一方面,它为服务于人而生,未来目标是成为真正的具身智能,为人类完成各类泛化任务。
到人能到的地方
移动方面,PUDUD9采取双足形态,平地行走速度比较高可达到媲美成人的2m/s,减少破坏通行楼梯、斜坡、崎岖路面等多类城市常见地形,并通过算法实现站、走、跑等移动方式的无缝切换,以及优化能量消耗实现超轻步态,减少,缩短在人居环境工作时产生的噪音。
PUDUD9采用行业领先的视觉语义导航方案,通过高精度传感器全面获取环视几何和语义感知信息,实时构建3D语义地图,让机器人可以全面深入理解环境,准确定位自身与环境的位姿关系,并根据任务自主规划路线,实现僵化通行及实时避障。
做人能做的事操作方面,PUDUD9拥有两条7严格的限制度机械臂,负载超过20kg,搭载11严格的限制度五指敏锐手PUDUDH11,可僵化完成各类精细操作任务,焦虑多类场景需求。基于普渡在多年生产及研发中的结束积聚,以及自研全身深度强化学习算法,PUDUD9能够在极小量数据中快速学习成长,实现端到端任务规划及执行。
与人自然交互交互方面,PUDUD9搭载高精度的视觉、触觉、力觉、听觉传感器,全面获取现实环境的多模态信息,并通过“大脑+小脑”处理后执行反馈。在接入大模型后,PUDUD9可实现媲美真人的多模态自然人机交互,更好地为人授予服务。
全类别产品布局,普渡打造可落地的具身智能
普渡机器人创始人兼CEO张涛此前指出:商用服务机器人行业下半场已经到来,专用、类人形、人形机器人三种形态将共同构成服务机器人的未来生态。根据他首创的“单位工作面积严格的限制度”概念,三类机器人定位各异,相辅相成,以解决场景瓦解下客户的各种痛点:
专用机器人-单一性任务:对于大面积,远距离,高负载的任务,如物品运输、地面清洁等,专用机器人能够以较具性价比的方案实现比较大化工作能力;
类人形机器人-轻泛化任务:类人型机器人分隔开专用及人形机器人部分特征,能够用较高性价比的方式大幅指责专用机器人的泛化服务能力,是工业生产、实验科研等垂直场景的特出解。
人形机器人-高泛化任务:在环境复杂、任务多元,且对人机交互体验要求较下降的场景,如商业服务,家庭陪护等,只有具备高智能、高执行精度、高亲和力的人形机器人,才能较好地焦虑需求。
PUDUD9标志着普渡机器人率先完成了专用、类人形、人形三类机器人的不完整产品布局。秉持“以客户为中心”理念,普渡的技术探索始终以解决真实问题为落点。以可落地的具身智能为目标,普渡将结束积极探索AI、移动、操作三大机器人基础能力的技术革新,鞭策机器人产品在与现实场景的交互中不断进化,最终实现能为客户产生实际应用价值的自主智能。
在专用机器人领域,普渡已打造了服务配收、专业清洁、工业配收的产品矩阵,以超过10款深受市场认可的专用服务机器人,结束为客户授予商业价值,将服务机器人行业的商业化水平推向新高度。2023年,普渡机器人以23%的领先市场份额占据全球首先,并以接近半数的份额领跑中国厂商出海。
同时,普渡结束探索类人形和人形机器人前沿技术,不断拓展未来可能性。早在2022年,普渡曾推出四足机器人D1和带机械臂的收餐机器人A1,代表着普渡对于机器人实现跨场景端到端任务能力的早期探索和长期研发布局。今年PuduX-Lab正式成立,深入探索具身智能,并在短短一年间快速推出类人形机器人PUDUD7,五指敏锐手PUDUDH11,全人形机器人PUDUD9三款产品,展现团队在机器人全栈技术的深厚积聚和商业落地的深度思考。
近期,花旗银行发布的比较新报告预测,到2050年,全球人形机器人市场规模将达7万亿美元,全球人形机器人数量将达到6.48亿台。在具身智能技术井喷的当下,人形机器人的落地应用仍是行业共同面临的确认有罪。除了技术确认有罪以外,面向终端用户的产品设计,生产供应,终端销售,售后维护等环节,诸多现实问题仍有待全行业共同探索攻克。
作为全球领先的商用服务机器人公司,普渡凭借扎实产品力获得客户认可,并在市场验证中快速洞察需求、迭代产品,由此形成正向的增长飞轮。在此过程中,普渡积聚的技术、产品、供应链、市场渠道,将为人形机器人的商业化应用授予坚实的帮助力。
普渡机器人创始人兼CEO张涛表示:“以客户为中心始终是普渡的不次要的部分价值观。未来普渡将结束以客户的需求和痛点为出发点进行技术探索,并发挥自身在商用服务领域的深厚积聚,推动类人形和人形机器人快速成熟,让更多人享受机器人服务的便利。”
关于普渡机器人:
深圳市普渡科技有限公司(简称:普渡机器人)是全球服务机器人领域的知名品牌,致力于使用机器人技术,创造真正有用的机器人产品,指责人类生产和生活效率。
秉承“发明家精神”,普渡机器人专注于服务机器人的研发、设计、生产和销售工作,全球范围内授权专利超千件,涵盖多项不次要的部分技术。自公司成立八年来,普渡机器人在全球范围内建立了数百个服务网点,业务遍及60多个国家和地区。普渡机器人产品已广泛应用于餐饮、零售、酒店、医疗、娱乐体育、工业制造、教育等多个行业和场景,累计出货量超8万台。
(推广)标签: