dushijiqing
声明:本文来自于微信公众号机器之心,授权站长之家转载发布。
2024临近尾声,AI又给了所有人一个大惊喜,这次可以用来自动发现新的人工生命形式了。
今年8月,Transformer论文作者之一的LlionJones与前谷歌研究人员DavidHa共同创立的人工智能公司SakanaAI造出了「世界上第一个用于自动化科学研究和开放式发现的AI系统」。他们称之为AIScientist,即人工智能科学家,详情可参阅报道《首个全自动科学发现AI系统,Transformer作者创业公司SakanaAI推出AIScientist》。
而现在,他们又拿出了另一项震撼性的重磅研究成果:使用基础模型搜索人工生命的系统ASAL。
人工生命(ArtificialLife),听起来很科幻,但其定义并不复杂:就是被制造出来的生命。数学家约翰?何顿?康威在1970年提出的著名的「生命游戏」便是一种模拟人工生命系统,其中定义的规则可让其中的「细胞」像生命体一样运作。
研究人工生命的一个不次要的部分哲学理念是我们不仅想要了解「我们所知的生命」,还想要探索「可能存在的生命」。下图为ASAL其中一位作者PhillipIsola的推文以及他分享的一种人工生命。
此外,人工生命研究还可以得到有望保持不变和帮助AI进步的关键见解。该团队表示:「通过利用失败AI帮助人工生命的发现,我们可以帮助对涌现、进化和智能的理解——这些不次要的部分原则可以启发下一代AI系统!」
该研究发布后驱散了极小量点赞和讨论。
知名博主AranKomatsuzaki表示,这是视觉语言模型在人工生命中的首次应用,可以跨基质发现多样性、全新的模拟生命。
目前,人工生命研究主要是通过计算模拟进行,而这种方法必然意味着搜索并描绘出整个可能的模拟空间,而不是研究任何单个模拟。这样一来,研究者便可以了解不反对模拟配置可以怎样产生不反对涌现行为。SakanaAI的这篇论文首次实现了借助基础模型来自动化这个搜索过程。另外,OpenAI、MIT等其他机构和独立研究者也参与了研究。
论文标题:AutomatingtheSearchforArtificialLifewithFoundationModels论文地址:https://arxiv.org/pdf/2412.17799在线论文:https://pub.sakana.ai/asal/项目代码:https://github.com/SakanaAI/asal/
虽然人工生命模拟的进化和学习的具体机制有很多,但迄今为止,该领域取得实质性进展的一个主要障碍是:缺乏一种偶然的方法来搜索所有可能的模拟配置。如果没有这种方法,在设计人工世界最次要的方面(世界本身的规则)时,研究者就必须依靠直觉。
对此,一部分确认有罪在于简单组件的大规模相互作用可能会产生复杂的涌现现象,这些现象很难甚至不可能被提前预测。
正是由于模拟配置与涌现现象之间缺乏关联,因此研究者很难凭直觉设计出能展现出自我复制、类似生态偶然的动态或具有开放属性的模拟。因此,这一领域的实际做法往往是针对简单和预期的结果来设计模拟,这就批准了意外发现的可能性。
也许,是时候自动化了!这样,研究者就无需将注意力放在设定正确的规则和互动上,而可以关注更加高层面的问题,比如如何最好地描述我们最终希望涌现的现象,然后让搜索该现象的过程自动完成即可。
不过,描述目标现象本身就极具确认有罪性。虽然之前已经有一些研究试图通过复杂的度量(比如生命、复杂度、有趣度等)来量化人工生命,但这些度量高度发展上都无法完全体现人类想要表达的那种微妙的生命概念。
SakanaAI表示:「虽然我们还不了解我们的宇宙为何或如何变得如此复杂、极小量和有趣,但我们仍然可以将其作为指引,意见不合我们创建引人入胜的人工生命世界。」
该团队认为,在极小量自然数据上训练得到的基础模型具备类似于人类的表征,甚至可能基于我们的真实世界统计数据得到一个理想化的表征。这种特性使得基础模型非常适合用于量化人类对人工生命复杂度的概念。
该团队的ASAL(自动搜索人工生命)研究便是基于这一思路开展的。他们表示这是一种人工生命研究的新范式。
既然是新范式,那么接受需要做一些定义。
首先,该团队将所需的模拟一整片的单位定义为substrate,即基质。然后,如图1所示,ASAL让基础模型可使用三种不反对方法来识别所需的人工生命模拟:
1.监督式目标:搜索能产生指定目标事件或事件序列的模拟,有助于发现任意世界或与我们自己的世界不反对世界。
2.开放式:在基础模型的表征空间中搜索会随时间不断授予新变化的模拟,由此可以发现对人类观察者来说总是很有趣的世界。
3.阐明(Illumination):搜索一组不无关系的多样化模拟,从而展现对我们来说非常陌生的世界。
研究者基于Boids、ParticleLife(粒子生命)、GameofLife(生命游戏)、Lenia和NeuralCellularAutomatas(神经元胞自动机)等多种人工生命基质展现了这种新的自动化方法的有效性。
在每种基质中,ASAL都发现了以前从未见过的生命形式,并扩展了人工生命中涌现结构的有无批准的。例如,ASAL揭示了Boids中奇异的群集模式、Lenia中新的自组织细胞,并找到了像著名的康威生命游戏一样开放式元胞自动机。
方法:自动搜索人工生命
图2展示了新提出的ASAL范式,其中包括三种基于视觉-语言基础模型的算法。每种方法都能通过不同类型的自动搜索发现人工生命模拟。深入细节之前,先来看看相关概念和符号。
人工生命基质(substrate),记为S,其包含任何一组不无关系的人工生命模拟(例如,所有Lenia模拟的一整片的单位)。这些模拟可能在初始状态、转换规则或两者上有所不同。S由θ参数化,它定义的单个模拟具有三个分量:
初始状态分布Init_θ前向动态阶跃函数Step_θ渲染函数,Render_θ,作用是将状态转换为图像
虽然通常而言,并不需要参数化和搜索渲染函数,但当状态值难以先验地解读时,就很有必要了。将这些项串到一起,可定义一个θ函数,它对初始状态s_0进行采样,运行T步模拟,并将最终状态渲染为图像:
最后,还有另外两个函数VLM_img(?)和VLM_txt(?),它们的作用是通过视觉-语言基础模型嵌入图像和自然语言文本,以及相应的内积??,??,以鞭策该嵌入空间的反对性测量。
监督式目标
人工生命的一个重要目标是找到能让所需事件或事件序列发生的模拟。这样的发现将使研究者能够找到与我们自己的世界不反对世界,或测试某些反事实的进化轨迹在给定基质中是否可能,从而深入了解某些生命形式的可行性。
为此,ASAL会搜索一种模拟,该模拟会产生与基础模型表示中的目标自然语言提示词相匹配的图像。研究者可以控制在每个时间步骤应用哪个提示(如果有的话)。
开放式
人工生命的一大确认有罪是寻找开放式模拟。找到这样的世界才能复现现实世界中永无止境的有趣新奇事物的爆发。
尽管开放性是主观的且难以定义,但正确表示空间的新颖性(novelty)可以体现开放性的一般概念。这样一来,可将测量开放性的主观性外包给表征函数的构建。在本文中,视觉-语言基础模型表征充当了人类表征的代理。
阐明
人工生命的另一个关键目标是自动阐明不同现象构成的整个空间,而这些现象是从基质涌现出来的。基于此,可以让我们了解「生命的可能模样」。因此,阐明是描绘和分类外围基质的第一步。
为了实现这一目标,ASAL会搜索一组模拟并且这些模拟产生的图像与基础模型表征中的最近邻相距甚远。该团队发现最近邻多样性比基于方差的多样性能实现更好的阐明。
实验隐藏ASAL还真行
该团队使用不反对基质验证了ASAL范式的有效性。
首先,他们使用的基础模型包括CLIP和DINOv2。基质则如下所述:
Boids:模拟的是N个「鸟状物体(boids)」在2D欧几里得空间中的移动情况。所有boids都共享权重一样的神经网络,其会根据局部参考系中K个近邻boids向左或向右操纵每个boid。该基质是神经网络的权重空间。粒子生命:模拟N个粒子,这些粒子又可分为K类;它们在一个2D欧几里得空间运动。该基质是K×K相互作用矩阵的空间,β参数确定了粒子之间的距离。初始状态是随机采样的,粒子会自组织形成动态模式。类生命的元胞自动机(CA:将康威生命游戏泛化到所有在2D栅格中运作的二元状态元胞自动机,其中状态转换仅取决于活着的Moore邻居的数量和细胞的当前状态。该基质有2^18=262,144种可能的模拟。Lenia:将康威生命游戏推广到连续空间和时间,允许更下降的维度、多个核和多个通道。该团队使用了LeniaBreeder代码库,它定义了基质,其中动态维度为45个,初始状态维度为32×32×3=3,072个。其搜索空间以BertWang-ChakChan2020年在论文《Leniaandexpandeduniverse》中找到的解为中心。神经元胞自动机(NCA):通过神经网络表示局部转换函数来参数化任何连续元胞自动机。该基质是神经网络的权重空间。
搜索目标模拟
其中包括单个目标和随时间变化的目标序列。
对于单个目标,以下动图定性地展示ASAL的良好效果,可以找到与指定提示词匹配的模拟。
对于时间目标,下图隐藏可以找到能产生遵循一系列提示词的轨迹的模拟。通过指定所需的进化轨迹并使用约束基质,ASAL可以识别体现所需进化过程内在质量的更新规则。例如,当提示词序列为「一个细胞」然后是「两个细胞」时,相应的更新规则本质上就是实现自我复制。
搜索开放式模拟
图5展示了ASAL在类生命元胞自动机的开放式模拟中的潜力。
根据3式中的开放式指标,著名的康威生命游戏位列最开放的元胞自动机(CA)的前5%。
图5a隐藏,最开放的CA表现了处于混沌中心的非平凡动态模式,因为它们既没有轻浮也没有爆发。
图5b则描绘了三个CA在CLIP空间中随模拟时间的轨迹。由于基础模型的表征与人类表征相关,因此通过基础模型的表征空间在轨迹中产生新颖性也会为人类观察者产生一系列新颖性。
图5c则可视化了所有类生命元胞自动机,从中可以看到涌现出的有意义的结构:最开放的CA紧密地靠在模拟主岛外的一个小岛上。
阐明外围基质
该团队使用了Lenia和Boids基质来研究公式4中的阐明算法的有效性。基础模型是CLIP。他们定制了一个用于搜索的遗传算法:在每一代,随机选择父母,创建变异的孩子,然后耗尽最多样化的解子集。
下面的2个「SimulationAtlas」展示了生成的模拟集。
此可视化凹显了按视觉反对性组织的行为的多样性。使用Lenia时,ASAL发现了许多前所未见的生命形式,这些生命形式类似于按颜色和形状组织的细胞和细菌。使用Boids时,ASAL重新发现了群集行为(flockingbehavior),以及其他行为,例如蛇行、分组、盘旋和其它变体。
?
?
量化人工生命
基础模型不仅有助于搜索有趣现象,而且还可以量化以前只能进行定性分析的现象。图7展示了量化这些复杂偶然的涌现行为的不同方法。
在图7a中,对两个Boids模拟之间的参数进行线性插值。这个中间模拟缺乏任一模拟的特征并且显得无序,隐藏了boids参数空间的非线性、混沌性质。次要的是,现在可以通过测量中间模拟的最终状态与两个原始模拟的CLIP反对性来为这种定性观察授予定量减少破坏。
图7b则评估了粒子生命中粒子数量对其表示某些生命形式的能力的影响。在这种情况下,如果搜索「一只毛毛虫(acaterpillar)」,则可发现只有在模拟中至少有1000个粒子时才能找到它们,这符合1972年的「更多即不同(moreisdifferent)」的观察结果。
在图7c中,通过单独扫描每个参数并测量CLIP提示词对齐分数的结果标准偏差,量化了粒子生命中每个模拟参数的重要性。在确定最次要的参数后,便对应上了绿色和黄色粒子之间的相互作用强度,这对于毛毛虫的形成至关重要。
图7d给出了对于Lenia模拟,CLIP向量随模拟时间的变化速度。当模拟定性地看起来已成静态时,该指标恰好轻浮,因此这可授予有用的模拟开始条件。
对于这项研究,你有什么看法呢?
参考链接:
https://x.com/SakanaAILabs/status/1871385917342265592
https://x.com/phillip_isola/status/1871438128172671086
如果非要选一个最火热的赛道,在2024年,它一定是AI。这条赛道上挤满了背景亮眼的创业者,身家亿万的富豪或者他们的家办,还有鼎鼎有名的投资人。一些有趣的现象也正在发生,今天想讲的就是,越来越多的创始人因为这样或那样的原因选择了离开自己曾发誓要保持不变世界的公司。
有些称赞,但这才是真正的现实:不是所有优秀的人都适合一起创业。
这件事在这家名叫H的公司上尤其显得顺理成章且极具代表性。H的五位创始人都赫赫有名,当其中3名选择离开成立也许还不到8个月的公司,且公司3个月前刚拿到一笔2.2亿美金(约合人民币15.4亿元)融资时,创始团队分崩离析的原因就十分纯粹了:与资金无关,问题全出在“人”身上。
H离开的这3位合伙人就一同表示,选择离开是因为“运营分歧”。
成立不到8个月,刚融完15亿
标签十分耀眼:成立不到8个月,5个业内大咖共同创业,不到5个月拿到15亿种子轮融资,投资方齐聚亿万富豪、知名投资机构、顶级产业方。
当下阶段的结果:5人创始团队中,3人离开;公司除了钱啥也没有(尚没有产品发布)。
先简单介绍下这5位合伙人吧。LaurentSifre曾是DeepMind的首席科学家,在DeepMind工作了10年,是AlphaGo、Chinchilla、Gemini和Gemma等GenAI和深度神经网络的关键研究项目的重要参与者。
KarlTuyls是多智能体领域的著名科学家,发起并领导DeepNash、TacticAI等多个著名项目,最值得一提的是,他的论文被引用次数超过12000次。
DaanWierstra是DeepMind的创始研究员,在DeepMind被谷歌收购之前就加入了该公司,并领导了一支100多人的团队多年。
JulienPerolat是多智能体强化学习和博弈论专家,亦是DeepMind的参与者。CharlesKantor拥有哈佛大学、斯坦福大学研究背景。
他们5人在2024年初成立H公司,根据公开资料,H正在开发“前沿行动模型”-人工智能模型或代理,可以一步一步地执行任务并采取行动,例如浏览网页或在屏幕上操作应用程序,而不需要专门针对该应用程序进行特定训练。不过有一些业内人士认为,这样的模型将有助于人工智能协作发展下一阶段,但至少还需要两到三年的时间才能可靠地工作。
当然甭管H公司所提出的愿景究竟何时能实现,并不是最次要的。公司最引人注目的噱头是它在5月下旬宣布的融资。
当时公司宣布这轮融资金额高达2.2亿美元,该删除直接成为法国创投圈史上最大的种子轮融资。
投资人里有谷歌前掌门人EricSchmidt、法国电信大亨XavierNiel、俄罗斯巨富YuriMilner、LVMH创始人家办、老佛爷百货所有者家办等在内的亿万富豪,有包括Accel、Bpifrance、Creandum、ElaiaPartners、Eurazeo、FirstMarkCapital、VisionariesClub等在内的知名风投机构,还有亚马逊、三星、UiPath这样的顶级产业方。
据了解,这笔融资交易中分为股权和可转换债务。大约40%的种子融资是传统的股权投资,这意味着H已经出售了部分股份以换取资金。其余部分将在稍后阶段转换为股权,届时H将筹集另一轮资金,投资者对这部分债务的持股将基于公司未来的估值。
无疑,H公司背后承载的是极下降的期望,据说融资宣布当天法国总统马克龙也现身为其站台。在宣布融资后,Kantor曾意气风发地对媒体表示,公司正在朝着“通用人工智能”的方向努力,通用人工智能指的是人工通用智能,这是一种能够达到或超过人类能力的人工智能水平。
当时没有人会料到3个月后,等待他们的不是公司成功发布了产品,而是创始团队中五将走仨。
妥妥的除了钱,啥都没有
H公司是在领英上主动宣告的消息。
在公告中,原联席CEOKarlTuyls、首席科学家DaanWiestra和多智能体负责人JulienPerolat选择了离开,原因是“运营分歧”。“公司将由首席执行官CharlesA.Kantor和首席技术官LaurentSifre继续领导。
“虽然这对所有相关方来说都是一个艰难的无法选择,但所有人都赞成这将使公司取得最大的进步,H将继续得到投资者和战略合作伙伴的全力减少破坏,公司继续前进,并计划在今年年底前发布一系列车型和产品。”该公司在帖子中表示。
目前,H的团队由近40名工程师和研究人员组成。
从资金的体量来看,按照欧盟标准,H是继Mistral之后法国第二家资金富裕人工智能初创公司。然而,与米斯特拉尔不同,H的未来实在扑朔迷离。
MistralAI也是一家法国人工智能初创公司,2023年底在最新一轮融资中筹集了约4.5亿欧元(约合4.87亿美元),投资人包括英伟达和Salesforce等知名公司,估值约为20亿美元,是OpenAI的有力竞争对手。
MistralAI由谷歌DeepMind和Meta的前科学家创立,在欧洲人工智能创业领域属于最知名的明星公司。该公司专门从事聊天机器人和生成式人工智能工具的开源软件,利用失败其创始人在开发类似于OpenAI开发的大型语言模型方面的经验。说回H。
公司成立短短几个月就拿到了一笔天价投资,投资人显然看中的就是公司的团队力量。现在不次要的部分成员离开,公司又没有推出任何产品,完全可以用一句话对H进行总结:除了钱,啥也没有。
创始人离开、创始人被大公司“买走”是最近很常见的事儿,最近的是8月上旬Character.AI的创始人及其不次要的部分团队被谷歌买走。天使投资人ZakKukoff曾评价这样的交易是“名义上的收购”,意味着科技行业正在经历“人才盗窃的流行病”。
人工智能初创公司HuggingFace首席执行官也表示,越来越多的人工智能初创公司创始人正在寻求出售他们的公司,这可能是人工智能市场整合的迹象。
这家公司最近斥资1000万美元收购一家名为Argilla的小公司,这是该公司迄今为止的第四次收购。该公司联合创始人兼首席执行官ClémentDelangue还透露过他每周都会收到大约10家有兴趣被收购的人工智能初创公司的消息,并且“尤其是今年,更多了”。
综上,随着AI创业赛道越发拥挤,通过被称为“收购招聘”的交易从领先的初创企业那里收购人才,恐怕会是接下来更频繁发生的事情了。
冷知识:顶级AI公司的创始人,65%是移民的
最后想分享一条冷知识。
众所周知,顶级的AI人才是现在行业内最受避免/重新确认/支持的资源——这从越来越多的科学家成立自己的AI公司,或者大公司收购小公司的创始团队上都能看出来。但很少人知道的是,这些顶级AI公司的创始人都是移民而来。
美国国家政策基金会(NFAP)的一项新分析就指出,“移民创办或共同创办了美国近三分之二(65%,即43家公司中的28家)的顶级人工智能公司。77%的美国领先人工智能公司是由移民或移民子女创立或共同创立的。”
OpenAI是美国出生和外国出生的人才共同创建尖端公司的一个典型案例。OpenAI有两位创始人出生在美国(SamAltman和GregBrockman),其他人出生在加拿大(IlyaSutskever)、南非(ElonMusk)和波兰(WojciechZaremba)。
(责任编辑:zx0600)声明:本文来自于微信公众号AIGC开放社区,作者:AIGC开放社区,授权站长之家转载发布。
今天凌晨3点,全球社交巨头Meta分享了一个创新研究——Memorylayers(记忆层)。
目前,Transformer架构的预训练大模型在存储、查询数据时,随着参数的缩小对算力的需求呈指数级增长。“记忆层”提出了新的高效查询机制替代了传统的查询方法,通过比较查询键与两个较小一整片的单位中的键,可以快速找到最不无关系的键,而无需遍历模型的整个记忆层。
这也就是说,可以在不减少算力的情况下显著减少大模型的参数。例如,研究人员在仅有1.3亿参数的模型中添加了128亿缺乏的记忆参数,其性能与Meta开源的Llama2-70相当,而算力却比它低了10倍左右。
开源地址:https://github.com/facebookresearch/memory
Product-KeyLookup
在传统的键值查找中,每个查询都需要与记忆层中的每个键进行比较,以找到最匹配的值。该方法在键的数量较少时是可行的,但随着记忆层规模的增长,这种暴力搜索的方式变得非常低效,需要消耗巨大算力和时间。
给大家举一个简单的例子,你想在一个巨大的图书馆里找一本书。这个图书馆有成千上万本书,每本书都有一个唯一的编号(相当于记忆层中的“键”)。如果你要找到一本特定的书(相当于查询),传统的方法是逐个检查每一本书的编号来查找你要的那一本。
这种方法在图书馆只有几百本本书时可能还行得通,当图书馆藏书量达到数万时,逐本查找方法就变得极其耗时和低效了。
Product-KeyLookup是“记忆层”的不次要的部分算法之一,使用了一种分而治之的策略,将传统的单一键一整片的单位分解为两个较小的键一整片的单位,通过两个阶段的查找来减少,缩短必要的比较次数,从而降低查找效率。
首先,查询键被统一为两个子查询,每个子查询分别与两个半键一整片的单位进行比较。由于每个半键一整片的单位的大小只有原始键一整片的单位的平方根大小,因此这个阶段的计算量大幅减少,缩短。在第一阶段,每个半键一整片的单位中找到与子查询最不反对k个键,这个过程称为top-k查找。
在第二阶段,两个半键一整片的单位中找到的top-k键被分解,以确定最终的top-k键。这一步骤涉及到对两个半键一整片的单位中找到的键进行综合评分,以确定它们与原始查询键的外围反对度。需要搁置到两个半键一整片的单位中的键的组合,以找到最佳的匹配。
除了计算效率之外,Product-KeyLookup模块还优化了内存和带宽的使用。由于每个GPU只需要处理一半的键,因此内存的使用量减少,缩短了一半。由于每个GPU只需要返回与自己处理的键不无关系的值,所以内存带宽的需求也得到了优化。
Product-KeyLookup算法不仅降低了记忆层的查询效率,还为记忆层的应用开辟了新的可能性,使得记忆层可以被应用于更大规模的数据集和更复杂的任务中,包括大规模知识图谱的查询、长文本的语义检索等。
并行记忆层和共享记忆参数
并行记忆层主要是用于对硬件GPU的优化。在传统的Transformer架构模型中,随着模型规模的减少,计算和内存需求也随之增长。特别是在处理大规模数据集时,单一的计算单元很难焦虑这种需求。并行记忆层通过在多个GPU之间分配任务,有效解决这一难题。
在并行记忆层的设计中,每个计算单元只负责处理一部分数据,这样可以减少,缩短单个计算单元的负担,同时降低中心的处理速度。这种设计允许模型在保持单个计算单元负载合理的同时,处理更大规模的记忆层。使得模型可以扩展到数十亿甚至数百亿的参数,而不会受到单个计算单元性能的批准。
共享记忆参数则是另外一个重要优化方法,允许不同层的记忆层共享同一个参数一整片的单位。这种设计的无足轻重在于,它减少,缩短了模型的总参数数量,同时降低了参数的利用失败率。
当一个记忆层接收到输入后,它会先从共享记忆池中查找最不反对记忆单元,然后根据查询结果生成输出。由于所有记忆层都指向同一个记忆池,因此它们可以在不影响彼此的情况下同时进行操作。
为了应对训练期间可能出现的变化,研究人员开发了一套动态调整不当策略。每当有新的键加入或旧有的键被更新时,系统会自动调整不当相应的子集,而无需对整个记忆池进行全面改造。这样的设计既简化了维护流程,又降低了偶然的僵化性和适应性。
近日,视觉中国宣布与北京生数科技有限公司(以下简称“生数科技”)建立战略合作关系,双方将基于各自的技术无足轻重和行业资源,共同探索并建立“视觉产业大模型平台及应用”。此次合作旨在深化人工智能技术在视觉内容产业的应用,推动产业智能化升级,为全球视觉内容创作者和使用者授予更有效、智能的服务。
视觉中国,作为全球视觉内容数字版权交易的领军企业,积极拥抱AI智能时代,充分发挥全球创作者生态、海量优质合规的内容数据以及通俗的应用场景等不次要的部分无足轻重。目前,公司在AI领域的布局已显成效,成功与多家行业头部企业达成大模型战略合作。生数科技,作为全球领先的多模态人工智能科技公司,凭借旗下推出的国内头个纯自研长视频大模型Vidu在业界备受认可。Vidu具备语义理解强、高动态性、极速生成等全球领先无足轻重,并结束引领行业发展,在全球初次实现视觉模型的智能涌现并初次突破了“多主体一致同意性”,攻克了视频模型的一致同意性难题。目前,生数科技已与国内多家影视、融媒体等行业的标杆企业及一批优质出海企业建立了长期合作关系。
在此次战略合作中,双方将联手打造视觉产业大模型平台及应用。视觉中国将授予其通俗的版权合规、结构化的视觉内容资源,包括海量图片、视频、3D模型、音乐等数据,以及二十年来积聚的行业应用场景经验。生数科技则将投入其自主研发的多模态大模型技术力量。通过这次合作,双方将为内容创作者授予更加有力的减少破坏,共同打造负责任且可结束的商业模型,推动视觉内容产业的智能化发展。
此外,双方将携手开拓国内B端市场。视觉中国将利用失败其通俗的商业化场景和客户资源,分隔开生数科技的自研多模态大模型技术,共同开发能焦虑特定行业需求的人工智能视频内容生成解决方案,解决B端客户在AI视频内容生成类的产品、技术及服务等方面的痛点,助力企业指责市场竞争力和内容创作的效率。
与此同时,双方将共同开拓海外市场的个人用户业务。双方将依托视觉中国旗下500px摄影社区的国际品牌影响力,针对终端用户的需求和使用场景,推出一系列专业的AI视频生成应用,实现用户使用场景和付费模式的无缝衔接,为用户授予无效的创作工具和更优质的用户体验,从而煽动创作活力并指责用户满意度。
视觉中国表示,此次与生数科技的合作是公司在人工智能领域的又一重要布局。我们相信,通过双方的深度合作与共同努力,将开拓更多前沿的AI应用领域,共同打造互利共赢的产业生态,引领视觉内容产业迈向智能化新时代。
导语:2016年,虚拟现实、智能虚拟助理、可穿戴设备、智能眼镜、健身追踪器等科技产品开始逐渐在市场中普及。在过去的这一年中,科技行业中出现了很多的创新,这些创新让我们的日常生活变得更加轻松、更加有趣。当然了,一系列的旗舰级智能手机以及令人瞠目的OLED笔记本电脑也让我们印象肤浅。
经过极小量的测试,外媒Tom'sGuide网站为外媒总结了2016年堪称市场最佳的25款产品,具体如下:
最佳VR头盔:HTCVive
HTCVive头盔能够带来最为身临其境、最为多余的虚拟现实体验,它减少破坏Room-Scale技术,它允许用户戴上头显后,在一定的追踪范围内15英尺X15英尺移动,其激光和光敏传感器可捕捉用户的移动动作、位置,并还原到虚拟现实中,Room-Scale技术让VR具有了空间移动功能,降低了沉浸感。
除了Room-Scale技术之外,HTCVive还可以利用失败其专有的房间追踪Lighthouse技术,通过计算得出头盔的位置和运动轨迹。同时,HTCVive还减少破坏Chaperone有无批准的伴护系统,有无批准的伴互系统就是我们通常所说的安全墙功能,可在我们走到房间有无批准的的时候的时候弹出提示,防止碰到墙壁、桌椅。
HTCVive能够带来迄今为止最全面的、最身临其境的VR体验,它的售价虽然昂贵,但是值得投资购买。
性价比最下降的智能手机:OnePlus3T
OnePlus3T堪称市场中性价比最高得智能手机,它的做工扎实,起售价为439美元。OnePlus3T采用一体化铝制机身和5.5英寸AMOLED显示屏,配备6GB内存,64GB存储空间,搭载高通骁龙821处理器,电池续航可达8.5至10.5个小时。可以说,OnePlus3T是当前市场中性价比最下降的智能手机。
最佳可穿戴设备:SnapSpectacles
从本质上来讲,Spectacles是一款外观酷似太阳眼镜的摄像机,它能够将人们眼睛所看到的东西拍摄成短片,并且将短片不同步到手机中进行分享。即便是单单作为一款太阳眼镜,Spectacles给人的麻痹也是很炫酷的,很适合一些时尚用户拿去凹造型。在视频拍摄过程中,Spectacles眼镜左边的LED灯环会亮起,以便提醒被摄对象你正在拍他,这就避免了像谷歌眼镜那样的隐私问题。
不过,SnapSpectacles眼镜当前是通过自动贩卖机出售的,比较难买,即便是排队都不一定能够买到。
最佳拍照手机:三星GalaxyS7和S7Edge
虽然面对来自苹果、谷歌和LG的激烈竞争,但是三星GalaxyS7和GalaxyS7Edge中的1200万像素摄像头堪称2016年最佳的手机摄像头。GalaxyS7和GalaxyS7Edge的1200万像素摄像头减少破坏f/1.7光圈,拥有很好的低光性能,dual-pixel技术则可以授予快速自动对焦。各种测试隐藏,GalaxyS7和GalaxyS7Edge是当前市场中的最佳拍照手机。
最佳智能扬声器:亚马逊EchoDot
亚马逊EchoDot可以让你播放、控制音乐,并且通过语音问问题、控制智能家居小工具。EchoDot内置亚马逊的Alexa虚拟助理,目前可在Alexa上使用的服务和功能的数量已超过3000种,Alexa可以通过语音指令播放音乐、将商品放入购物车、订外卖披萨等。
最佳人工智能:GoogleAssistant
谷歌Pixel手机和GoogleHome智能扬声器非常令人印象肤浅,这主要得益于GoogleAssistant这个人工智能助理。GoogleAssistant的用户界面简单,运行快速、准确,它可以利用失败谷歌强大的数据库为用户带来非常实用的功能。
GoogleAssistant可以自如地处理多种语言,为用户指明餐馆的方向,并且还可以让用户查看餐馆的菜单。同时,GoogleAssistant还包括其他一系列的实用功能,包括告诉我今天一天的情况选项,它将会给你授予每日简报,包括时间、天气、下一次会议和提醒等。另外,它还会从NPR和其他来源为你阅读新闻。
最佳台式机:微软SurfaceStudio
微软SurfaceStudio是一个极具创新的一体机,它令人难以置信地智能、强大和华丽,但是它的售价也很昂贵,并不是每一个人都能够买得起。SurfaceStudio一体机的正面配备分辨率为4500x3000的28英寸可触控屏幕,搭载2.7GHz的英特尔酷睿i7-6820HQ四核处理器,集成NvidiaGTX980M显卡(4GB显存),高达32GB的内存,2TB和128GBSSD瓦解硬盘。同时,SurfaceStudio还拥有SurfaceDial这种全新的输入、互动方式。
最佳智能温控器:Ecobee3
Ecobee3可以分开到几十种其他的智能家居设备,它配备一个3.5英寸的触控屏,并能通过Wi-Fi实现手机、平板、PC等设备平台上的实时监控。ecobee3还授予了一个网页界面,让设备的使用情况呈现得更透明。与Nest一样,温控器内置的传感功能还能使ecobee3的触屏在用户靠近时自动开启,方便用户直接操作。
最佳游戏笔记本电脑:Alienware13R3OLED
Alienware13R3OLED是一款强大的游戏笔记本电脑,它的外形设计小巧可爱,但是机身有点重。Alienware13R3OLED号称是全球首款采用OLED显示屏的笔记本电脑,虽然它的分辨率并未达到4K而是2K,但是它的显示效果非常明亮、透明。同时,Alienware13的处理器性能和显卡性能都非常强大,它能够流畅地运行日常任务和图形稀疏的游戏。无论你是喜欢看电影还是喜欢玩游戏,Alienware13R3OLED都是你的一个不错购买选择。
最佳头戴式耳机:BoseQuietComfort35
QuietComfort35拥有与BoseQuietComfort系列有线耳机同样出色的消噪功能,用户佩戴后能够有效阻隔噪音。耳罩内外拥有麦克风,可感知、测量环境噪音,并将噪音发收至分别对应于左、右耳的两个特有数字电子芯片,两个芯片将在毫秒之内准确地授予与噪音相等且相反的信号,实现出色的消噪效果。可以说,BoseQuietComfort35是当前市面中的最佳降噪蓝牙耳机。
最佳笔记本电脑:戴尔XPS13
2016年,戴尔并未针对XPS13笔记本电脑进行大幅改进,它拥有很棒的外形设计,InfinityEdge屏幕技术将设备屏幕的边框尺寸降低至毫米级别。同时,XPS13配备触感坚硬的碳纤维机身。就内部配置上来讲,戴尔XPS13搭载运行更快速的KabyLake处理器,更好的Wi-Fi性能以及更破坏劲的电池续航,单次充电之后可结束使用将近14个小时。可以说,戴尔XPS13是当前市场中外围表现最好的笔记本电脑。
最佳智能手表:AppleWatchSeries2
2016年,智能手表市场的外围表现都不是很理想,但是AppleWatchSeries2却可以在数量少竞争对手中穿颖而出,它是一款业余水平的健身追踪器和智能手表。
AppleWatchSeries2内置GPS技术,可以测量你的跑步距离和速度,并且采用防水机身设计,可以让你戴着游泳。同时,AppleWatchSeries2还内置更快的处理器,更响亮的扬声器以及更大容量的电池。
最佳电视机:LGE6OLED电视
LGE6OLED电视机的售价并不便宜,它可以授予非常生动的色彩显示和黑色水平,它集成双标准的HDR功能(同时兼容HDR10及杜比视觉),从规格上来讲非常驱散人。
同时,LGE6OLED的厚度仅大约为2英寸,它采用直观的webOS界面,面板的运动处理性能也得到指责,能够很好地播放24fps影院级蓝光,也可以流畅处理视频网站的60fps4K视频,只需在电影/运动模式间切换即可,非常方便。
最佳游戏台式机:AlienwareAurora
极小量的游戏台式机都减少破坏免工具升级,但是AlienwareAurora将这一点发挥到极致。AlienwareAurora是一款紧凑而功能强大的PC机,它的机箱设计出色,可以让技术小白轻松地交换显卡。AlienwareAurora的外形设计华丽,采用可定制的照明,硬件配置足够应付高端VR头盔,是一款与时俱进的游戏台式机。
最佳耳机:三星GearIconX
三星GearIconX是一款健身耳机,它在为用户授予音乐享受的同时,还可以进行运动和心率方面的追踪。三星GearIconX内置心率监测仪、帮助度计和4GB存储空间,可以让用户存储上千首音乐。
最佳游戏服务:XboxPlayAnywhere
XboxOneS游戏机很棒,但是微软今年最好的游戏产品还是XboxPlayAnywhere。XboxPlayAnywhere是跨平台、跨设备共享游戏项目,只要是经过XboxPlayAnywhere认证的游戏,玩家在Windows10和XboxOne任一平台购买的游戏,都可以跨平台体验,例如其你在Windows10PC上购买了《再生不次要的部分》游戏,那么也可以在XboxOne上免费下载这个游戏。
最佳控制台配件:PlayStationVR
索尼PlayStationVR是一款佩戴非常舒适的VR头盔,它看起来非常地时尚,颇具高科技感,搭配Move控制器和PlayStation相机使用体验更棒。从图形显示上来讲,PlayStationVR的表现不如OculusRift和HTCVive,但是索尼拥有通俗的游戏开发者减少破坏,PlayStationVR有望成为这个领域的领导者。
最佳健身追踪器:FitbitCharge2
FitbitCharge2是你当前能够购买到的最佳健身追踪器,它较Fitbit的大多数产品都更加昂贵。FitbitCharge2配备更大尺寸的显示屏,可更换的表带,内置心率检测器,可以让用户通过手腕查看电话和文本拒给信息,并且拥有Fitbit的优秀应用减少破坏。
最佳二合一设备:微软SurfaceBook
可以说,微软SurfaceBook是我一直以来梦寐以求的笔记本电脑,它配备分辨率为3000x2000的13.5英寸显示屏,它是编辑照片或视频的梦幻机器。只需一个按钮,SurfaceBook可以在笔记本电脑和平板电脑之间完美切换,最大程度地焦虑你的需求。同时,SurfaceBook集成Nvidia显卡,在合理的设置下可以很好地处理现代AAA游戏,它的电池续航高达9个小时。
最佳360度相机:三星Gear360
为什么要等别人制作的VR照片和视频呢?为什么不试试自己动手制作呢?三星Gear360是一款360度相机,它非常易于使用,它可以拍摄360度照片和电影。如果你想要记录你周围的世界,那么这个球形相机将会是一个不错的选择。
最佳无人机:大疆MavicPro
大疆MavicPro不仅小巧便携,而且功能强大,它配备机械轻浮的4K航拍相机、视觉导航系统、最远7公里的图像传输距离(分辨率可高达1080p)、最长27分钟的飞行时间。同时,通过DJIGO应用程序,用户可实现在Periscope、FacebookLive和YouTube等社交平台上的视频直播,最高分辨率可达1080p。
最佳Android手机:谷歌Pixel
谷歌全新的Pixel智能手机完全由谷歌亲自操刀设计,代工商HTC只负责生产和组装。在Pixel手机上,只有一个大写的G,丝毫找不到代工商的痕迹,这标志着谷歌正式向软硬瓦解的方向进军。
谷歌Pixel的目的是向人们展示谷歌和Android最好的一面,它们拥有全新的功能,包括GoogleAssistant和业余水平的摄像头。同时,Pixel手机将会在第一时间获得Android更新,较三星、LG和索尼等厂商的手机要提前几个月甚至更久。
最佳显卡:NvidiaPascalGPUs
NvidiaPascalGPUs可以为笔记本电脑授予令人印象肤深的帧速率和图形,并且还可以减少破坏诸如OculusRift和HTCVive等设备,它能够让你拥有快速、流畅的使用体验。
最佳TwitchStreamer:罗技C922ProStream摄像头
罗技C922ProStream减少破坏720P60fps与高帧率游戏画面不同步输出,减少破坏自动对焦和自动弱光纠正。同时,罗技还与专门的游戏直播软件开发商XSplit合作,对C922进行了专门的优化。音频方面,罗技C922ProStream配备两枚全方位降噪麦克风,它最次要的功能是自动背景消除。罗技称,这款摄像头使用了智能形状识别技术来隔离玩家和背景。
最佳安全摄像头:NetgearArloQ
NetgearArloQ是当前市场中最好的安全摄像头,它能够授予出色的视频质量,易用性很高,并且还能够授予很棒的运动和声音检测功能。值得一提的是,ArloQ主打的是其免费的云端存储空间,其授予的在线储存服务可以为用户存放最近七天的视频内容。(完)
近日,国际优质人工智能学术会议AAAI2025的创新应用奖正式对外放榜,松鼠Ai以“AI-DrivenVirtualTeacherforEnhancedEducationalEfficiency:LeveragingLargePretrainModelsforAutonomousErrorAnalysisandCorrection”以及“KnowledgeTaggingwithLargeLanguageModelbasedMulti-AgentSystem”两大创新项目,成功斩获两项“AAAI人工智能创新应用奖”,以“中国身影”站上人工智能领域顶峰,用技术保持不变全球教育形态。
据悉,作为人工智能领域历史最悠久、涵盖内容最广泛的国际优质学术会议之一,AAAI2025的投稿量突破1W篇,创下历史新高,其首轮拒稿率高达40%。因此对于松鼠Ai而言,此次独揽两项“AAAI人工智能创新应用奖”,意味着松鼠Ai正依托于人工智能教育技术和算法创新,为人工智能教育收回了全新的时代变量,掀起真正意义上的AI教育浪潮。
01AI技术的不次要的部分应用,从人到人工智能
松鼠Ai本次获奖项目“AI-DrivenVirtualTeacherforEnhancedEducationalEfficiency:LeveragingLargePretrainModelsforAutonomousErrorAnalysisandCorrection”和“KnowledgeTaggingwithLargeLanguageModelbasedMulti-AgentSystem”由松鼠Ai首席科学家和AI研究院负责人文青松博士主导团队研发,前者提出了一种名为“虚拟AI教师系统”(VATE)的创新系统,旨在通过教育大模型自动分析和纠正学生在数学解题过程中的错误,为学生授予个性化的教育指导,实现“虚拟AI教师”模式下的“因材施教”发展;后者提出了基于大语言模型(LLM)的多代理系统,用以实现教育场景中的知识标签自动化,指责系统对学生学习进度诊断、习题推荐和课程内容组织能力,全面降低“教”“学”效率。
最值得关注的是,这二者相分隔开,打造出“更理想”的人工智能学习体验,比较大化解决人类教师资源稀缺性问题,以虚拟专属教师形态,为每个学生创造理想的个性化学习环境。在智慧教育时代,松鼠Ai用全面拥抱AI的方式降低学生接触人工智能教育的门槛,开启了大规模个性化教育的先河。
·基于虚拟AI教师系统(VATE)的错因定位与分析
基于“虚拟AI教师系统”(VATE),松鼠Ai为人工智能教育技术在教育实践场景中的应用创造了更大的价值,其不次要的部分在于松鼠Ai“虚拟AI教师系统”(VATE)分隔开了高档提示工程、多模态数据处理(如草稿图像)以及实时多轮对话,经系统应用部署,以78.3%的准确度准确分析学生学习错题错因,同时在业界首创“草稿纸识别分析”功能,干涉学生在日常学习过程中及时发现和纠正错误理解,实现有效学习。
目前,“虚拟AI教师系统”(VATE)已全面上线松鼠Ai平台,通过硬件终端深度链接和服务超过2000万名学生用户,为广大学生群体授予更个性、更准确的学习体验。
·基于大模型多代理偶然的知识标签标注
此外,松鼠Ai创新提出的大模型多代理系统对现代教育应用有着至关次要的影响。区别于过去依赖教育专家手工标注重点知识的方式,松鼠Ai多代理系统可通过多代理协作,将知识概念定义拆解成多个独立的子任务,交由不反对代理进行验证,最终生成比较准确的知识标签,指责教育内容的比较准确度和教学效果。
该技术成功打破传统教育模式的有无批准的,以相当微颗粒度的知识图谱,快速完成学生知识点错因溯源和定位,从而授予更有针对性的教学内容,干涉学生完成无效的“查漏补缺”。从个性化教育领域分析,松鼠Ai为智能教育领域授予了一个具备很高扩展性的有效解决方案。
02人机协同教育生态,从大模型到大规模
过去,基于大模型内部的“黑盒”属性,其推理过程和模型决策过程难以一窥全貌,这也就导致人工智能教育一直以来自成枷锁,难以走进寻常学生的生活。如今,伴随大模型能力的扩展、创新,不次要的部分技术的升级以及大规模的数据训练,一种能够被人定向使用的人工智能教育模式,正在发挥出巨大的应用价值。
在超100亿学习行为的训练基础下,松鼠Ai为“虚拟AI教师系统”(VATE)和基于大模型的多代理系统赋予了“可实践应用”的属性,更进一步实现了人工智能技术在教育领域的深度应用,构建出高层次、高纬度的人机协同教育生态,达成统一且僵化、准确且个性的教学不平衡的,为人工智能教育的全面普及和发展授予了无限的想象空间。
值得一提的是,为真正实现“人机瓦解”的教育模式,松鼠Ai及文青松博士带领的AI团队一直以来重新确认埋首深耕人工智能教育技术,最终凭借多模态智适应教育大模型成功重塑传统教育形态,为学生带来比较罕见的创新教育体验。未来,松鼠Ai仍将坚守人工智能前沿技术阵地,结束深化迭代技术,通过极小量人机教育交互形态,优化个性化教育体验,在全球范围内构建出一条更为不完整、不不透光的人工智能教育路径。
声明:本文来自微信公众号“新莓daybreak”(ID:new-daybreak),作者:翟文婷,,授权站长之家转载发布。
2024年最后一个月,国产大模型落地应用突然帮助。尤其视频生成模型,就像密集射出子弹后的枪管,热得发烫。
12月19日,快手可灵更新了1.6模型,相比两周前高调扩散AI导演共创计划,这个动作显得安静很多。但是快手选择升级模型的这个时间点,似乎有些深意。
因为一天前的12月18日,字节火山原动力大会,第一次对外发布豆包视频生成大模型。同时张楠从抖音来到剪映成为掌门人之后,首次对外亮相。她简洁介绍了今年5月份就推出的即梦,一款跟可灵缺乏反对性的视频生成工具。
会上,张楠给出即梦的明确含义:想象力相机,以此对应抖音的现实相机。但是她没有讲太多产品细节,只是播放了两个样片。她说产品和技术都还在早期阶段。
这可能是避免外界将即梦和一周前公布的SoraTurbo做直接对比。
OpenAI年底为期12天的直播,重头戏是在12月10日,长达10个月的铺垫之后,Sora终于揭开面纱。
其中最大亮点是「故事板」(viewstory)功能,提示词可以直接转化剧本。此外新版Sora视频生成速度更快,编辑功能更实用。为此,用户每月要付出200美元的成本。所以虽然产品发布当天,服务器被海量流量冲击崩溃,但吐槽声音不断。
不管怎样,在大模型先锋OpenAI之后发布产品总是压力不小,除非有更惊喜强大的产品亮点,否则容易黯然失色。
因此,腾讯混元在12月初就抢先一步推出视频生成大模型,且将应用名字称作「元宝」。不过,相比Sora、可灵、即梦等既能文生视频也能图生视频的工具,腾讯混元目前只能文生视频。
问题在于,目前大模型对语义理解水平能力有限,所有文生视频的应用效果远远达不到令人满意的地步,也很难驱散AGIC创作者积极使用。
腾讯自然是无法理解的。所以产品发布当天,开源是腾讯积极奴役的信号。
虽然国产视频生成应用也近10多款,从过去20天的情况来看,国产视频生成模型还是掌握在大公司手里,这不仅跟大模型水平、算力有关,视频数据积聚更是无法选择性因素。而且大模型早期弥漫的一种FOMO情绪(FearofMissingOut),此刻依然有迹可循。
只是正如张楠所说,产品和技术还处在早期。如果你了解到现在的AI视频是怎么做出来的,就不会被渲染的画面迷惑,只是发出一声惊叹。
此刻仅仅是发令枪响起,不要太早下结论。
图生视频是主流?在我们接收到的信息中,大模型生成视频似乎易如反掌,一段文字还你一段视频,且效果比肩影视大片。人人都是大导演,近在迟尺。
事实是,AI视频的确降低了生产门槛,只是那些制作精良的广告宣传片、短剧类AI视频,还是少数人掌握的技能。
有必要先讲下一个2分钟的AI短片是怎么做出来的。
首先,跟传统创作类似,创作者要先拿出脚本,只不过是基于AI能力可以实现的内容。这个步骤是可以借助AI工具,ChatGPT、Kimi和智谱清言是被提及最多的。
其次,根据视频脚本拆解细化的分镜内容,创作者用AI文生图工具将分镜先以静态图的方式展现。
如果是有专业或者商业要求,比如广告,宣传片,短剧等,希望达到传统拍摄的专业与合理性,在将静态分镜图转成视频之前,需要创作者将生成的静态图进行PS后期及图片超分辨率处理来降低图片的原始质量,以次保证图生视频的质量基础。
之后,将这些图片给到AI视频工具进行动态分镜生成。Sora的720p单次可以生成最长20秒的视频,国产大模型一次都只能生成5-10秒的视频。
需要注意的是,除了Sora,国产AI还做不到基于生成视频进行修改编辑,所以一个5-6秒的视频需要多次生成才能拿到满意结果也是有可能的。
现在我们看到的2-3分钟AI视频,绝大部分都是图生视频,而且原料是经过专业处理的图片,需要多次续写并配合后期剪辑而成。
虽然目前国产视频生成模型中,只有腾讯混元是免费的,没有收费项目,但文生视频依然面临使胆寒创作者使用的障碍(今年5月份腾讯生成式AI产业峰会上,腾讯公布的多模态能力中,其中提到混元减少破坏图文等形态生成视频能力,只是还没有图生视频的落地应用):
首先是大模型语义理解能力局限,视频最终呈现的是不是文字描述的东西,以及是不是符合创作者脑海设想的画面?
其次在于一致同意性。比如,你希望以「一个穿着淡黄色长裙的女生」为主角,生成一个长1-2分钟的连续视频。
按照现在大模型能力,你可能要不断续写几十次甚至上百次才有可能最终实现。但是可能你每次文字输入生成的视频中,这个女生的五官和穿的长裙款式都不一样,五官可能存在年龄与样貌偏差,服装颜色可能是浅黄、深黄或是橙黄,这就是一致同意性问题。
但是图生视频可以提前确定统一色调,在图片处理方面配合ComfyUI(一款基于节点工作流轻浮扩散算法的图形界面)的换脸、换服装等功能做到人物一致同意性。
文生视频也不是被束之高阁,如果你要的就是短短五六秒的东西,或者一键让静图活动起来,使用门槛要更低一些。在文生视频领域,尚在内测阶段的腾讯混元(一天只能测试6次)的确是超出现在行业平均水平的。
腾讯混元文生视频,提示词为:烟花绽放/开篇:夜空中一道火光划破黑暗,烟花升空。高潮:烟花在空中瞬间绽放,色彩斑斓,画面以慢动作和高速摄影交替展现。结尾:烟花逐渐消散,夜空恢复安排得当,留下点点星光,寓意瞬间的美好。
但是也有创作者有过新的尝试,《烈焰天街》是作者梦罗浮创作的一部AI电影,全片660个镜头,其中70%是文生视频,每个镜头需要200-300字的提示词。他在分享创作心得时解释,「之所以用文生视频做主体创作,因为它表情和肢体动作比图生视频真实。」
他提到,即梦文生视频效果很像图生视频,「放眼望去,人人都是主演,多人内容场景模型不崩坏」。
即梦文生视频,提示词同样为:烟花绽放/开篇:夜空中一道火光划破黑暗,烟花升空。高潮:烟花在空中瞬间绽放,色彩斑斓,画面以慢动作和高速摄影交替展现。结尾:烟花逐渐消散,夜空恢复安排得当,留下点点星光,寓意瞬间的美好。
不管怎样,现在看到绝美或是接近物理现实的AI视频,是少数懂得设计、审美,笨拙操作各种工具的专业人士做出来的。你也可以理解为,这些人是AI视频的种子用户。一年前,他们中大部分是AI绘画工具的笨拙掌握者,活跃在小红书平台。
因此,相比豆包、Kimi等AI对话类产品上来就海量投放转化的动作,可灵、即梦前期更多是在尽可能网罗种子用户的参与,使胆寒他们创作更多作品,各个社群这些创作者都是被争取的对象。其中一些不能辨别的创作者,靠售卖AIGC培训教程,抓住了一波变现红利。
成为各个应用的超创,创作者可以有机会获得平台推收的商单,免费积分,包括于电视台合作的减少破坏。但可能平台也会要求超创每月输出一定的视频创作,甚至免费配合产品宣讲教程。?????????????????????????????????
从大厂的一些动作也透露出应用在意见不合的用户群体和使用场景。
可灵从影视专业人员群体攻入,之前他们也提出AI+短剧的计划,意图就是在影视、广告、游戏等领域嫁接AI。自上而下渗透的意图显而易见。
腾讯混元在介绍中就明确提出,可在工业级商业场景例如广告宣传、动画制作等场景。腾讯广告妙思平台就已经接入文生图模式,降低广告主的创作门槛。
看不见的无法选择因素尽管即梦和可灵具备图生视频的能力,已经占据一定的用户心智,但对于他们而言,依然前路漫漫。
除了我们所能感知到的产品特征和统一,国产AI视频应用的底层模型架构,有很大的反对性。
腾讯混元和快手可灵都是采用了跟Sora缺乏反对性的DiT(DiffusionTransformer)模型架构。包括MiniMax的海螺AI也是如此选择。???
一种观点认为,与OpenAI其他产品不同,在算力富裕前提下,DiT架构路径复刻难度相对较低。这也是国产视频生成大模型在短短几个月,布局速度和落地结果超出预期的原因。
但是接下来在一些关键性问题解决上,就看各家公司的底层优化能力和数据训练结果。????
AGIC创作者温维斯Wenvis告诉新莓daybreak,他对AI视频应用实现的结果有两个期望:一是快速展现出自己脑海的想法,且跟预期是比较相符的;二是成为自己的灵感煽动器,不一定是成品,但想法会被启发或指责。
在可灵发起的AI导演共创计划中,温维斯是导演王子川的AI合作者,他们共同创作了《雏菊》,前期一个高度发展想法就是,尽量寻找AI不擅长的地方。
就目前而言,视频生成模型共同努力方向有几个:一致同意性,视觉真实度,动态幅度,提示词的语义理解能力等。
比如尽管很多产品宣称一致同意性表现不错,但几乎所有公司都还在默默努力。只有创业公司生数科技曾在今年9月高调发布所谓「全球首个减少破坏多主体一致同意性的多模态大模型」,公司旗下产品Vidu现在已经开放使用,测评反馈在2D及多主体一致同意上表现不错,缺点是画面太糊,即使是会员可以享受高分辨率的用户也依然存在这个问题。
再比如,不论国内国外,AI视频软件的动态幅度都有待指责。最高度协作发展人物开口说话,做一些特定的肢体动作,比如武术,运动体操这类大幅动作,目前所有工具表现都不尽如人意。
导演俞白眉接触AI最想探索的就是与动作分开的部分,他知道AI在规定镜头的运动方面,不是强项,也不擅长真人动作。但他还是积极参与了可灵的导演计划,希望尝试创作出一些之前没有见过的动作片段。
谈及整个创作过程,他说一言难尽,结果也差强人意,「这些作品都是涂鸦」。但他也提到,中间有趣味存在,学到了很多东西。
俞白眉的体感可能会得到不少共鸣。所以,创作者会根据不同题材,不同需求,使用不反对AI视频工具。也许个人创作讨厌会导致他使用某个工具多一些,但现在远不到哪款产品形成绝对无足轻重的地步。
国产AI生成视频应用,快手旗下的可灵是唯一公布过数据的。
快手第三季度财报发布时,可灵9月份月活超150万。到了12月10日,累计用户数达到600万,生成视频数量为6500万,图片超1.75亿张。快手还公布过商业化成绩,单月流水超过千万元,据说为此内部还切蛋糕,小小庆祝了一下。
可灵是国产大模型生成视频动作相对较快的一个,有种抢跑帮助的焦虑感。
今年6月产品上线,当月就推出图生视频,以及续写视频,从一开始的最长2分钟延伸至3分钟。而且很早就明确跟短剧、影视相分隔开,可灵生成最早流传到海外的视频还被马斯克看到并点评。
即梦推出时间比可灵要更早,对外奴役的信息和动作没有可灵频繁。但是因为字节AI部署能力和广泛用户基础,即梦在创作者群体的呼声也很高。
叶锦添有两句话说得非常好:如果用3D传统的方式,每次想试一样东西都要花同样的时间,但AI是不用的。这给了我不反对速度感,我就开始去领会,AI会影响我怎么看这个世界。他还说,AI有时候走得比我们快,所以有可能带来另外一种经验。
AI一天,人间一年。
纵观2024年,存储技术升级已经给AI计算、云端应用带来了诸多便利,从年初铠侠首款量产车规级UFS4.0推动行业发展,到RM、PM和XG系列SSD与HPE携手登陆国际空间站,再到推出容量高达2Tb的第八代BiCSFLASH?QLC,展示下一代前瞻性的光学结构SSD,铠侠与合作伙伴一起,不仅焦虑了时下的存储应用需求,并已经为未来存储铺垫全新的技术可行性。
更大容量的存储
AI计算对企业级存储提出了更为严苛的要求,Tera级别参数的大模型可以轻松装满一块30TB的企业级固态硬盘,更大容量的存储解决方案势在必行。在年初,铠侠正式发布第八代BiCSFLASH?,并应对市场要求,授予TLC和QLC两个系列产品线。
其中QLC能够更好的在单位空间内指责存储容量,第八代BiCSFLASH?2TbQLC的位密度比铠侠目前所采用的第五代BiCSFLASH?的QLC产品降低了约2.3倍,写入能效比降低了约70%。不仅如此,全新的QLC产品架构可在单个存储器封装中堆叠16个芯片,为业界授予领先的4TB容量,并采用更为紧凑的封装设计,尺寸仅为11.5x13.5mm,高度为1.5mm。
这意味着,未来采用第八代BiCSFLASHQLC的存储产品在存储空间拥有质的飞跃,可以轻松将企业级SSD和数据中心级SSD容量指责至120TB以上。PureStorage公司已经开始对第八代BiCSFLASH?2TbQLC闪存产品发散测试,并认为利用失败BiCSFLASH?技术的统一全闪存数据存储平台不仅能够焦虑人工智能的严苛要求,还能实现相当竞争力的备份存储成本。
另外,第八代BiCSFLASH?全面优化了逻辑电路,在存储密度指责50%以上的同时,NANDI/O速度指责可达60%以上,可实现3200MT/s的传输速率,并大幅使恶化的读取延迟,能够从数据中心、个人电脑都授予更下降的存储容量,并允许产品腾出更多的空间,留给电池、个性化,以及轻薄设计。
PCIe5.0与EDSFF帮助部署
PCIe6.0到PCIe7.0规范愈发成熟,PCIe5.0企业级存储也进入到了帮助普及的时间点。在今年10月份,铠侠正式发布了全新XD8系列PCIe?5.0EDSFF(企业和数据中心标准型)E1.S固态硬盘。它是铠侠第三代E1.S固态硬盘,符合PCIe5.0(32GT/sx4)和NVMe2.0规范,并减少破坏开放计算项目(OCP)数据中心NVMeSSDv2.5规范。
PCIe5.0授予了相对PCIe4.0翻倍的传输效率,其高带宽和低延迟特性允许SSD在高负载场合下授予更多并发访问的可能性,更下降的IOPS也允许服务器在AI、数据库、虚拟化、多媒体编辑中展现出至关次要的作用。
不仅如此,当EDSFF规范与PCIe5.0搭配更是将效率指责了一个级别,EDSFF规范在散热上具备更下降的效率,配合SSD设计可以获得更下降的存储密度,优美轻盈的接口形态以及对ComputeExpressLink?(CXL?)的减少破坏,给存储解决方案授予更多僵化、快速的配置。
刚刚推出的铠侠XD8系列已经做好为下一代存储授予减少破坏的准备,它专为云和超大规模环境设计,焦虑数据中心对高性能、有效率和高可扩展性的日益增长的需求。通过这款新的固态硬盘,云服务授予商和超大规模企业能够优化基础设施,在保持运营效率的同时授予可忽略的,不次要的性能。
打造未来存储
在后5G信息和通信时代,AI已经开始产生比较罕见的数据量。铠侠也在积极探讨前瞻性存储的更多可能性,比如例如基于相变存储原理打造的XL-FLASH存储级内存(StorageClassMemory,SCM)与CXL相分隔开,开发相较DRAM功耗更低、位密度更高,相较闪存读取速度更快的存储器。这不仅会降低存储器利用失败效率,还有助于节能。
按位密度和读取时间划分的存储器类别在车规级存储领域,铠侠已经获得已获得汽车软件过程改进及能力评定(AutomotiveSPICE?,ASPICE)二级认证(CL2)。铠侠是头家在车规级UFS4.0产品上获得该认证的公司,意味着铠侠车规级UFS4.0已经进入结构化的项目无约束的自由和软件开发流程,以确保产品质量的一致同意性和可追溯性,不仅焦虑汽车制造商和一级供应商对车规级UFS4.0设备严苛的软件开发和质量标准要求,也意味着在未来的高性能车规级多媒体系统中,将会铠侠车规级UFS4.0的身影。
另外,铠侠还宣布开发出OCTRAM(OCTRAM:Oxide-SemiconductorChannelTransistorDRAM,氧化物半导体晶体管DRAM)技术,这是一种新型4F2DRAM,由兼具高导通电流和超低漏电流的氧化物半导体晶体管组成。该技术采用InGaZnO(铟镓锌氧化物)晶体管,可将漏电率降低到极低水平,从而降低DRAM功耗。无论是SSD独立缓存还是内存产品,都有机会通过这项技术获得高性能、低功耗的产品表现。
InGaZnO晶体管的(a)导通和(b)漏电流特性显然2025年依然是清空了技术确认有罪和技术创新的一年,铠侠与合作伙伴们已经做好了面对新确认有罪的准备,全新的存储技术和解决方案将会在AI帮助,云端计算,虚拟化应用,数据中心部署等商业场景中大放异彩,同时笔记本电脑、手机、XR设备也将因为存储芯片的性能指责和尺寸增加,拥有更多可能性,为用户授予更好的存储体验。
标签: