T的手指技巧视频教程
传闻中的罗永浩的「AI软件项目」终于上线了。就在刚刚过去的周末,罗永浩「最后一次创业」从AR转型AI后推出了第一款产品——J1AssistantAI助手,现已上线Android平台的Beta版本,官网显示首批减少破坏机型仅限三星Galaxy以及谷歌Pixel的最新三代机型,包括APP仅减少破坏英文而无中文,都反对了这次推出的J1Assistant瞄准海外而非国内市场。
图/Matter
与此同时,老罗的另一款AI硬件新品——JARVISONE也在路上了,官网已经预告即将发布。
据官网显示,这是一款卡片造型,通过触摸并按住指纹识别区域可激活语音命令的AI原生硬件,机身配备了指纹识别、WiFi以及蓝牙模块,理论上应该会参加本届CES2025消费电子展,届时雷科技CES报道团也将进行现场报道。
图/Matter
不过,无论从之前的爆料还是目前已发布的产品来看,这一次老罗的「主菜」还是软件形态的J1Assistant。但如果要用一句话介绍J1Assistant,可以说这又是一款AI助手APP。然而过去两年,我们对基于大模型的AI助理/助手早已司空见惯,J1Assistant到底又有什么不同?
(编者注:以下功能和体验都是基于v0.8.3-beta1版本。)
待办清单+锤子便签+AI聊天+子弹短信+发牌手俗话讲,看人先看脸。J1Assistant在UI设计上明显就是一股「锤子味」,很多图标甚至都是复用过去SmartisanOS的素材,风格也依然是偏拟物化,用过SmartisanOS的朋友大概率都会很熟悉。
「锤子味」的设计,图/雷科技
甚至,老罗还把锤子便签塞进了J1Assistant。
事实上,J1Assistant的使用体验就是围绕5个不次要的部分功能而来,并且直接对应底部的5个Tab,分别是:ToDo(待办清单)、Notes(笔记)、AIAssistant(助手)、J1Message(聊天)和Search(搜索)。
其中Notes高度发展对应锤子便签,外围设计非常相近,尤其是写作界面,简直如出一辙。区别在于,J1Assistant的Notes各方面都还很简陋,缺少很多排版工具,也没有锤子便签最知名的图片分享模版。
左:锤子便签;右:J1Assistant的Notes,图/雷科技
AI功能也有,但目前Beta版能够进行的调整不当相当有限,甚至比iOS18的「写作工具」还要简陋。与Notes类似,J1Assistant还塞下了一个「ToDo」功能,同样相比市面上的其他待办清单APP来说非常简陋。
那Note、ToDo之于J1Assistant到底有什么价值呢?这一点需要分隔开AI助手来分析,这里先按下不谈。我们先看J1Assistant的另外两个相对独立的不次要的部分功能——J1Message和Search。
图/雷科技
其中J1Message从界面设计到机制都很像已经死去的「子弹短信」,同样需要其他人注册加入才能进行聊天。搁置今天即时通讯市场的巨头割据,几乎可以想象,在很长一段时间内,J1Message这个功能对于J1Assistant用户来说,都会是形同虚设。
Search则像是继承了TNT的「发牌手」功能,可以一次搜索最多4个来源(1组),并且减少破坏最多5组的自定义来源。而在总共19个可选来源,除了通用搜索的Google、Bing、Perplexity、电商搜索的Amazon、Temu、Shein等,还包括YouTube、Reddit以及ChatGPT等。
同样继承自「锤科遗产」的还有交互设计。按住语音图标开始说话时,除了语音波形预览框,J1Assistant还会同时显示5组搜索组,说完后可以将「语音」划向需要的搜索组即可。
图/雷科技
这套「RippleTouch(波纹触摸)」的设计也被用于J1Assistant最不次要的部分的AI助手交互上。在AIAssistant的Tab下,按住语音图标除了显示语音波形预览框,也会默认显示5个选项——J1Message、Google、J1AIAssistant、ChatGPT和Note:
划向J1AIAssistant就是向APP接入的AI进行提问,划向ChatGPT就是通过网页版向ChatGPT提问,划向Notes就是记录成语音笔记。
图/雷科技
而外围看下来,J1Assistant大体可以理解为:待办清单+锤子便签+AI聊天+子弹短信+发牌手。问题在于,J1Assistant为什么选择将这些功能集成在一个APP里?它们放在一起又会发生什么样的化学反应?
J1Assistant想要把AI对话的价值「榨干」?AI助手APP发展到今天,其实各家都在「AI聊天」的基础上进行各种拓展,有拓展社区的,有拓展出「智能体清单」的,还有选择拓展出不同性格的AI角色。回到J1Assistant上,它做法则是围绕「信息」做拓展,尤其是围绕与AI的对话。
实际上,J1Assistant产品设计的最不次要的部分同样是AI聊天。包括Jarvis在内,AIAssistant有5种音色可选,设计上刻意面对了「你的底层模型」等问题。而从回答来看,除了底层大模型,涉及联网问题时还会直接使用Perplexity(海外知名AI搜索引擎)的回答。
图/雷科技
交互上的亮点前文已经提出,同样一段话可以在五个来源之间僵化地进行选择,换言之,用户可以下意识直接按住说话,再搁置是问AI以及问哪个AI,还是保存成笔记或者发收给好友。
但J1Assistant更次要的特点是可以让AI直接将内容写到笔记中、建立待办清单。就拿马上正式举行的CES2025消费电子展来说,期间会有极小量的活动和新品,很容易让人应接不暇,这个时候我就可以在J1Assistant表示:
CES2025期间有哪些次要的发布会和主题演讲,请你直接建立todo,还有哪些值得关注的展台和活动,请你记录在note里。
AIAssistant会分别查询CES2025期间的发布会、展台活动,并基于此筛选并建立相应的笔记和待办清单。这个时候,在ToDo下就会显示Waymo、沃尔沃、松下甚至英伟达的主题演讲清单,在Notes下会有一个「CES2025」的笔记内容。
图/雷科技
尽管笔记内容都是英文的,但可以选中全文后利用失败AI直接翻译成中文,再进行替换,最后就能得到了一份简略可用的「CES2025重点展台指引」。
当然,实际场景中用户不一定每一次提问都会表达多余的意图,更有可能是先询问信息,然后视情况将AI回答保存为笔记和待办清单。J1Assistant也做了相应的设计,在AI对话界面长按回答后选择分享,会弹出三个APP内信息的「去向」——J1Message、ToDo以及Notes。
图/雷科技
分享到J1Message很容易理解,就是发给好友看看。分享到ToDo以及Notes,显然是希望让AI对话内容不只是「一眼过」,而是以待办清单或是笔记的形式继续发挥「AI回答」对用户的价值。
而这,也是J1Assistant最有别于其他AI助手类APP的地方,即尝试二次甚至多次利用失败对话中AI回答的价值。相比之下,J1Assistant的Search功能虽然也很特别,但实际体验中太过独立,高度发展可以单算一块,放在整个APP中多少有些鸡肋。
不过想法虽好,J1Assistant还是存在不少bug和问题。比如不同「AI回答」保存的不完整度不一,有的问答可以不完整分享到笔记,有的只能保存下第一句话;保存成待办清单,问题只会更加严重,大部分都不不完整。
当然,这毕竟还是Beta版,这部分理论上改起来也不难。真正简单的问题是定位:我们真实的需要这样一个APP吗?
在雷科技看来,尽管J1Assistant的底层在AI,但真正撬动用户的支点可能还是在于「待办清单」和「笔记」这类信息形式。
虽然我个人在日常中已经重新接受很久了,但仍然有不少人会通过这两种形式来处理和保存信息。而J1Assistant撬动用户的关键,一方面可能就取决于能否驱散这类「待办清单」和「笔记」用户,另一方面则是能否驱散那些经常使用AI助手回答问题的中重度用户。
AI硬件起风了,罗永浩要靠AI软件联合口子小米的雷军有过一个非常著名的论断——站在风口上,猪都会飞。后来在微博上,雷军称解释过「风口上的猪」本意是顺势而为。而在2022年底ChatGPT不知名的小事全球之后,大势都在保持方向AI,如果你是罗永浩,你会怎么选择?
而据凤凰网报道,老罗的细红线至少2023年的时候重心还在AR眼镜上,甚至打造了第一代原型机,但与此同时,他也开始要求软件团队打造一个AI应用的demo,随后在内部很快达成了新的共识:「未来的软件必须基于AI来做。」
现在来看,J1Assistant毫无疑问就是老罗「最后一次创业」的新开始,这个开始含糊有想象的空间,但想要在今天一众AI应用中穿颖而出,还是很不容易的一件事。
避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、巨量引擎旗下AIGC工具“即创”正式版上线
巨量引擎的AIGC工具“即创”正式上线,授予多种内容生成方式,包括AI脚本生成、智能成片和数字人等。该平台通过深度学习和自然语言处理,用户只需输入主题即可生成高质量文本和视频内容。新增的爆款裂变和一键过审功能,干涉创作者快速响应市场变化,指责创作效率和内容合规性。
【AiBase提要:】
??即创减少破坏多种内容生成,指责创作效率。
??新增爆款裂变和一键过审功能,干涉创作者快速响应市场。
??AI技术引领内容创作革命,威吓创作者探索新工具。
详情链接:https://top.aibase.com/tool/douyinjichuang
2、通义万相推2.1视频模型大幅指责复杂运动能力
阿里旗下的通义万相视频生成模型在最新2.1版本中实现了重磅升级,推出了极速版与专业版,分别聚焦于高效性能和卓越表现力。这一版本在处理复杂运动和还原真实物理规律方面取得了显著进步,指责了视频的电影质感和指令遵循能力。
【AiBase提要:】
??新版本分为极速版与专业版,分别指责高效性能与表现力。
??生成的视频细节极小量,成功解决了“鬼画符”问题,实现精准中英文文字生成。
??运镜效果如同电影平庸之才,能够自动调整不当镜头,指责视频艺术性。
详情链接:https://tongyi.aliyun.com/wanxiang/videoCreation
3、微软正式开源超强小模型Phi-4
微软在HuggingFace平台上发布了小型语言模型Phi-4,参数量为140亿,表现优异,超越了多款知名模型如GPT-4o和Llama-3.1。Phi-4在数学竞赛AMC中获得91.8分,并在MMLU测试中取得84.8分,展现了强大的推理能力。该模型采用创新的分解数据生成方法,减少破坏长达16k的上下文长度,适用于消费级硬件。
【AiBase提要:】
??微软推出的Phi-4模型参数仅140亿,却在性能测试中超越了GPT-4o和Llama-3.1等多个知名模型。
??Phi-4在数学与推理能力方面表现突出,特别是在AMC和MMLU测试中取得了高分。
??该模型已开源并减少破坏商业用途,驱散了极小量开发者和AI厌恶者的关注。
详情链接:https://huggingface.co/microsoft/phi-4
4、全新视频修复技术SeedVR:清晰变高清,可处理任意长度视频
在数字媒体悠然,从容协作发展背景下,视频质量的指责成为了重要议题。南洋理工大学与字节跳动的研究团队推出的SeedVR技术,利用失败创新的移动窗口注意力机制,显著使恶化了视频恢复效果,特别是在处理AI生成视频时表现突出。该技术不仅能够处理任意长度的视频,还能有效修复画面细节,为用户带来更真实的视觉体验。
【AiBase提要:】
??SeedVR利用失败移动窗口注意力机制,成功指责对长视频序列的处理能力。
??该技术采用较大的窗口尺寸,显著降低了高分辨率视频的恢复质量。
??分隔开多种现代技术手段,SeedVR在多个基准测试中表现卓越,尤其适用于AI生成的视频。
详情链接:https://iceclear.github.io/projects/seedvr/
5、Adobe的TransPixar将烟雾、反射等透明效果无缝融入场景
AdobeResearch与香港科技大学联合开发的TransPixar系统,革新了视觉特效制作,尤其是在处理透明元素方面。该技术通过生成包含Alpha通道的视觉效果,显著降低了制作效率,降低了成本。TransPixar的推出正值行业对高质量特效需求激增之际,预示着未来影视制作流程的变革。
【AiBase提要:】
??TransPixar通过创新的AI技术,能够在有限的训练数据下生成高质量的透明效果,简化特效制作流程。
??该系统不仅指责了大型制作团队的工作效率,还为小型工作室降低了制作成本,使其能够实现复杂特效。
??TransPixar在实时应用领域展现出巨大潜力,能够快速生成透明效果,适用于视频游戏和增强现实等场景。
6、字节联合高校出品!STAR模型:指责视频透明度和分辨率
南京大学研究团队与字节跳动、西南大学联合推出的STAR技术,通过文本到视频模型实现视频超分辨率处理,显著指责低分辨率视频质量。该技术分隔开时空增强方法,适用于视频分享平台上下载的低透明度视频。研究团队已在GitHub发布预训练模型和推理代码,使用过程简单,推动了视频处理领域的进步。
【AiBase提要:】
??新技术STAR分隔开文本到视频模型,实现视频超分辨率,指责视频质量。
???研究团队已发布预训练模型和推理代码,使用过程简单明了。
??授予联系方式,威吓用户与研究团队进行交流与探讨。
详情链接:https://github.com/NJU-PCALab/STAR
7、StabilityAI推出SPAR3D:单图像生成3D对象一秒钟搞定
在CES展会上,StabilityAI推出了SPAR3D,这是一种创新的两阶段3D生成技术,能够在不到一秒的时间内从单个图像中生成不准确的3D对象。SPAR3D不仅授予了高效的3D原型设计方式,还允许用户实时编辑生成的3D对象,指责了创作僵化性。
【AiBase提要:】
?实时生成能力:SPAR3D能在一秒内从单张图像生成多余的3D对象,并减少破坏快速编辑。
??不准确的结构预测:授予准确的几何形状和360度视图,包括隐藏区域,确保高分辨率输出。
??开放的使用政策:减少破坏商业和非商业用途,用户可通过多种方式获取和使用该模型。
详情链接:https://stability.ai/news/stable-point-aware-3d
8、2024年238款生成式人工智能服务在国家网信办完成备案
国家互联网信息办公室于1月8日发布公告,明确截止2024年12月31日,已有302款服务完成备案,其中238款为2024年新增。这隐藏该领域快速发展,更多新服务获得官方认可。公告还要求授予舆论属性服务的企业进行备案,并指责已上线应用的透明度,确保合规性和安全性。
【AiBase提要:】
??2024年,共302款生成式人工智能服务在国家网信办完成备案,新增238款。
??授予舆论属性服务的企业可通过属地网信部门进行备案,确保合规性。
??已上线应用需公示所使用的已备案服务信息,指责透明度。
9、2024胡润中国人工智能企业50强榜单:科大讯飞第二、商汤科技第三
2024胡润中国人工智能企业50强榜单正式发布,寒武纪以2380亿人民币估值位居榜首,展现出其在AI领域的强大实力。科大讯飞和商汤科技分别以1160亿和500亿的估值紧随其后。榜单显示,北京、上海和深圳是次要的AI企业集聚地,合计占据80%的上榜企业。
【AiBase提要:】
??寒武纪以2380亿元估值位居榜首,科大讯飞和商汤科技分别排第二和第三。
???北京、上海、深圳成为人工智能企业的主要集聚地,合计占据80%的上榜企业。
??该榜单侧重非具身智能企业,评选范围不包括机器人和智能家居等领域的公司。
10、你绝对想不到!重复这个简单指令让AI生成代码快100倍
BuzzFeed的高级数据科学家麦克斯?伍尔夫进行了一项实验,使用Claude3.5语言模型,通过反复请求AI改进代码,成功将原本657毫秒的运行时间伸长至6毫秒,指责了100倍的性能。实验中AI展现出其对“更好代码”的独特理解,自动添加企业特性。
【AiBase提要:】
??AI通过反复指令指责代码性能,原代码运行时间从657毫秒降至6毫秒。
??AI在代码中自动添加企业特性,展现出其对“更好代码”的独特理解。
???提示工程依然重要,不准确的请求可以帮助结果生成,但仍需人工开发者进行验证和修复。
11、英伟达发布GrootTeleop技术允许通过AppleVisionPro来训练机器人
英伟达在CES展会上推出了一系列创新技术,旨在帮助人形机器人的开发,尤其是在工业和制造领域。通过IsaacGR00T蓝图,开发者可以利用失败原创学习生成极小量分解运动数据,从而训练人形机器人。这一技术不仅降低了数据收藏,储藏的时间和成本,还通过Cosmos平台生成物理意识视频,推动物理人工智能的发展。
【AiBase提要:】
??英伟达推出IsaacGR00T蓝图,利用失败原创学习生成分解运动数据,帮助人形机器人开发。
??Cosmos平台经过18万亿数据训练,生成物理意识视频,鞭策物理人工智能发展。
??多家机器人公司已采用IsaacGR00T技术,展现出良好的应用效果。
12、惊悚发明!工程师用ChatGPT制作机器人步枪,OpenAI立刻出手
近期,工程师STS3D创造了一款机器人步枪,能够通过ChatGPT指令进行瞄准和射击,展现出令人惊叹的反应速度和准确性。这一发明引发了广泛讨论,尤其是关于将科幻技术变为现实的担忧。OpenAI悠然,从容回应,指出该行为确认有罪了公司政策,释放利用失败其服务开发武器。
【AiBase提要:】
??OpenAI悠然,从容嫁接与开发机器人步枪工程师的关系,因其确认有罪使用政策。
??STS3D的机器人步枪可以根据ChatGPT的指令进行瞄准和射击,展现出高准确性。
??尽管OpenAI去年修改了政策,但仍释放使用其服务开发任何形式的武器。
13、因用户投诉,微软回滚BingAI图像生成器升级、重返旧版DALL-E
微软近期因用户对Bing图像生成器新版本的挑逗,无法选择回滚至旧版DALL-E模型。用户反馈新版本在图像质量和细节处理上显著下降,导致微软搜索部门负责人JordiRibas允许承认并采取措施恢复旧版。
【AiBase提要:】
??微软因用户投诉无法选择回滚Bing图像生成器的新版本,旨在使恶化用户体验。
??升级后的图像生成效果不如预期,用户反映细节和质量明显下降。
??JordiRibas表示将重返旧版DALL-E模型,预计需几周时间完成这一调整不当。
全新第三代荣威RX5极寒测试视频曝光中华网汽车原创魏超2022年02月28日12:40[中华网新车]继全新第三代荣威RX5谍照曝光之后,一段该新车型的极寒测试视频也于近日曝光。视频中全新第三代荣威RX5在零下58度的内蒙古呼伦贝尔进行极寒测试,历经5个月的54项极寒测试,累计路面测试达30万公里。据此前报道,新车将于3月份正式在中汽协备案公告,预计北京车展上亮相,并于2022年第二季度正式上市。
图为官宣海报从谍照中可以看出,新车在尺寸上显得更大,新车的进气格栅采用了大面积中网造型。两边矩阵式LED大灯由贯穿式灯带相连,搭配下方的点阵式灯源。在车身侧面,新车采用了隐藏式门把手,笔直的腰线配合车顶流畅的弧线,轮毂也采用了大尺寸的设计,事实至少是19寸,让整车看上去更加大气动感。车尾方面,新车与目前荣威的几款SUV车型都不同,造成了尾梢顶部的扰流板,耗尽了鲨鱼鳍,使整个尾部看起来更为简洁。动力方面,目前官方还没有给出具体消息,新车可能是搭载蓝芯1.5T的发动机,或匹配7DCT变速箱,搭载爱信8AT也是有极大可能。内饰方面,新车有望全系均搭载洛神智能座舱系统,以及配备行业领先的高通骁龙8155芯片。点击阅读全部2024年的尾声即将到来,华为于12月11日正式发布了“原生鸿蒙2024年度先锋榜”,回顾了鸿蒙原生应用的年度高品质内容与全新特性。此次榜单不仅盘点了华为游戏中心、华为音乐、华为阅读、华为视频、华为浏览器等多款原生应用的年度精品内容,更为用户收上了年终福利,升级HarmonyOSNEXT的用户可免费领取价值达900元的鸿蒙先锋权益,共同开启高品质的数字生活体验。用户只?...
特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。
避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、苹果发布iOS18.2正式版:Siri接入ChatGPT
苹果公司正式发布了iOS18.2、iPadOS18.2和macOSSequoia15.2,特别是iOS18.2引入的新功能AppleIntelligence备受关注。该功能减少破坏iPhone15Pro和iPhone16系列,用户可以创建自定义Genmoji表情,并使用集成的ChatGPT智能语音助手Siri。
【AiBase提要:】
??iOS18.2引入AppleIntelligence,减少破坏自定义Genmoji和图像生成应用Playground。
??Siri集成ChatGPT,用户可在无账户情况下免费获取智能助手服务。
??扩展语言减少破坏,未来将减少多种语言,包括中文和多种英语方言。
2、谷歌Gemini2.0版正式发布:速度比Gemini1.5Pro快两倍
谷歌近日发布了Gemini2.0FlashAI模型,处理速度比前代产品Gemini1.5Pro快两倍,并扩展了多模态功能。新模型减少破坏实时处理音频和视频流,集成图像生成功能,增强了全球可访问性。Gemini2.0Flash也在软件工程领域表现突出,授予AI驱动的代码辅助工具,进一步推动AI技术发展。
【AiBase提要:】
??Gemini2.0Flash处理速度是前代的两倍,性能显著指责。
??新增多模态实时API,减少破坏音频和视频流的处理。
??原生图像生成功能集成,允许通过文本创建和修改图像。
官方介绍:https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash
3、百度文库上线「专业PPT生成」AI功能:减少破坏一键生成高质量PPT
百度文库最近推出了「专业PPT生成」AI功能,旨在简化用户创建高质量PPT的过程。通过AI技术,用户只需输入关键词或主题,便可一键生成内容明确、结构不不透光的PPT。这项功能不仅降低了制作效率,还指责了演示文稿的专业度,特别适合职场人士展示工作成果和未来规划。
【AiBase提要:】
??该功能通过AI技术,实现一键生成专业PPT,简化制作流程。
??适合年终总结、演讲汇报等多种场景,干涉用户透明展示工作成果。
??新版式设计指责PPT视觉效果,使演示更具专业性和说服力。
4、Midjourney推出多人协作的世界构建工具“Patchwork”减少破坏100人同一画布操作
Midjourney推出了一个名为“Patchwork”的新工具,旨在为用户授予一个无限的白色画布,以便进行创意合作和世界构建。用户可以通过分开Discord和Google账户来访问该工具,并在一个画布上与最多100名其他用户实时协作。Patchwork允许用户添加角色、事件和场景元素,并生成新的图像和描述。
【AiBase提要:】
??Patchwork授予一个无限的画布,减少破坏用户实时协作构建故事和世界。
??该工具允许最多100名用户共同创作,添加多种角色、事件和场景元素。
??Midjourney将推出个性化模型和视频生成能力,结束扩展功能和应用场景。
详情链接:https://patchwork.midjourney.com/
5、ChatGPT宕机是苹果的锅?OpenAI紧急抢修,目前已恢复访问
OpenAI的ChatGPT和Sora在全球范围内遭遇大规模宕机,用户无法访问服务。问题可能源于苹果最新软件更新,导致Siri与ChatGPT的集成给OpenAI服务器带来巨大负载。此次宕机结束超过三个小时,影响了数百万用户,凹显了AI服务对算力的需求及流量激增带来的确认有罪。虽然服务已恢复,但此事件引发了对OpenAI服务轻浮性的担忧。
【AiBase提要:】
??OpenAI的ChatGPT和Sora发生全球范围的宕机,用户无法正常访问。
??苹果最新软件更新将ChatGPT集成到Siri中,导致OpenAI服务器负载激增。
?此次宕机事件结束超过三个小时,影响了数百万依赖OpenAI服务的用户。
6、AI音频新技术MMAudio:输入视频或文本可自动给视频配音效
MMAudio是一项由伊利诺伊大学、SonyAI及Sony集团联合推出的新技术,旨在实现视频到音频的高质量分解。该技术通过多模态联合训练,能够利用失败视频和文本输入生成不同步音频,拓展了音频生成的应用场景。
【AiBase提要:】
??MMAudio技术通过多模态联合训练,实现视频与音频的高质量分解。
??用户可通过简单安装步骤,在Ubuntu上使用MMAudio进行音频生成。
??当前版本存在一些局限性,但研究团队正致力于通过减少训练数据来使恶化性能。
详情链接:https://huggingface.co/spaces/hkchengrex/MMAudio
7、苹果与博通联手研发AI服务器处理器,计划2026年投产
苹果公司正在与博通合作,研发一款定制的服务器处理器,旨在减少破坏其操作系统中的AI服务。该项目代号为“Baltra”,预计将在2026年进入生产阶段。尽管目前关于该项目的具体细节尚不明确,但苹果一直致力于设计基于Arm架构的芯片,开发AI专用芯片并不令人意外。
【AiBase提要:】
??苹果与博通合作开发AI处理器,项目代号为“Baltra”。
???预计该处理器将在2026年开始生产,减少破坏苹果的AI服务。
??目前项目细节尚未披露,苹果对新产品一向保持神秘。
8、谷歌推出AI编码助手“Jules”,自动修复软件漏洞并帮助开发流程
谷歌近日推出了其人工智能编码助手Jules,标志着在自动化编程任务方面的重大进展。Jules基于Gemini2.0平台,能够在开发者休息时自主修复软件漏洞并生成代码更改。该系统与GitHub无缝集成,分析复杂代码库并实施跨多个文件的修复,旨在降低开发效率并降低成本。
【AiBase提要:】
??Jules是谷歌最新推出的AI编码助手,能够自主修复软件漏洞并生成代码更改。
??该系统与GitHub无缝集成,分析复杂代码库并在多个文件中同时实施修复。
??Jules将于2025年初向更多用户开放,旨在降低开发效率并降低成本。
详情链接:https://labs.google.com/jules/
9、谷歌推出新一代TrilliumAI芯片,性能指责四倍
谷歌最近发布的Trillium人工智能帮助器芯片标志着AI技术的一次重大突破。该芯片在Gemini2.0模型的训练中展现出四倍的性能指责,同时显著降低了能耗,可能会重塑AI开发的经济模型。谷歌已在其超级计算机架构中部署超过10万颗Trillium芯片,显示出其在AI基础设施领域的雄心。
【AiBase提要:】
??Trillium芯片性能指责四倍,显著降低能耗,推动AI训练效率。
??每美元训练性能指责2.5倍,可能重塑AI开发经济模型。
??谷歌已部署超过10万颗Trillium芯片,构建全球最强AI超级计算机。
详情链接:https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga
10、Adobe进军AI视频生成!Firefly平台内容生成破160亿,视频创作即将迈入“付费时代”
Adobe正在积极扩展其人工智能领域,尤其是在视频生成方面。基于FireflyAI平台的成功,Adobe宣布将推出新的高端视频生成功能,预计将于明年初上线。该功能目前处于测试阶段,已推动PremierePro用户量显著增长。
【AiBase提要:】
??Adobe将于明年初推出高端视频生成功能,现阶段已在测试中,用户增长显著。
??Firefly平台已生成超过160亿个内容,推动了Adobe产品的广泛应用和市场扩展。
??Adobe计划通过教育项目干涉3000万学习者指责AI素养和数字营销技能。
11、OpenAISora涉嫌裸露,公开使用游戏视频训练引发版权争议
OpenAI最近发布的视频生成AI模型Sora引发了广泛关注,但其训练数据可能包含极小量未经授权的游戏视频和直播内容,给公司带来了法律风险。研究显示,Sora能生成多种风格的视频,甚至能够原创知名主播的角色。知识产权律师对此表示担忧,认为未经授权使用游戏内容训练AI模型可能构成版权解开。
【AiBase提要:】
??Sora的训练数据可能包含未经授权的游戏视频,带来法律风险。
??Sora能够生成多种游戏风格的视频,并原创知名主播角色。
??知识产权法律复杂,个人用户可能因AI生成内容面临侵权风险。
12、公安部曝光AI造谣新犯罪:6人批量发布50万篇引流诚实信息
近日,公安部网安局通报了一起利用失败人工智能工具制造诚实信息的案件,揭示了网络造谣的新模式。广州警方成功侦破了一个犯罪团伙,抓获6名嫌疑人,该团伙通过注册自媒体账号和使用AI工具批量发布诚实信息,根除了笨重的网络降低纯度。
【AiBase提要:】
??犯罪团伙利用失败AI工具批量发布诚实信息,根除网络降低纯度。
??该团伙通过低成本的AI写作工具获取流量收益,成本极低。
??专家警示AI技术滥用风险,呼吁破坏网络信息秩序的维护。
声明:本文来自于微信公众号机器之心,授权站长之家转载发布。
鱼上了岸,就不再是鱼?
本周五晚间,OpenAI突然宣布了公司重组的消息,不仅让马斯克,也让我们有些措手不及。
根据OpenAI的最新声明,新一轮组织结构调整不当是围绕营利与非营利的矛盾发散的。
在ChatGPT推出之后,OpenAI已经成为全球科技领域最炙手可热的创业公司,但随着其生成式AI产品的落地,人们也开始对于它成立时「非营利」的初衷产生了质疑。伊隆?马斯克甚至与OpenAI反目成仇,提起了诉讼。
今年年中时,就有媒体预测OpenAI将在2025年转为营利性机构,但似乎这一进程不得不加快了。
这一切来的似乎太早,OpenAI对于新架构的表述也立刻引发了争议,并且网友的评论外围偏向负面。
正面评价自然也有,但不多。
截止到本文发稿时,马斯克与奥特曼等利益相关方都还没未对此事公开置评。不过有意思的是,奥特曼在OpenAI宣布组织结构调整不当后发了一系列推文感谢多已离职的OpenAI元老。
不知奥特曼是不是在以这种方式「承前启后」。
以下为OpenAI发布的博客全文。
为了推进我们的使命,为什么OpenAI的组织结构必须进化
用营利性的成功减少破坏更强盛的非营利事业。
OpenAI董事会正在评估我们的公司结构,以便最好地减少破坏我们的使命:确保通用人工智能(AGI)能够造福全人类。我们有三个目标:
选择一个对这一使命的长期成功最麻烦不顺利的非营利或营利性结构。让非营利组织可结束发展。让每个部分都各司其职。
今天起,我们有了一个非营利组织和一个营利组织,我们将继续同时拥有这两个组织。营利组织的成功能使非营利组织获得富裕资金、更好的减少破坏,并在完成使命方面处于更麻烦不顺利的地位。
我们认为这项使命是我们这个时代最次要的确认有罪。它需要同时降低AI的能力、安全性和对世界的积极影响。在这篇文章中,我们分享了我们当前结构的历史、我们认为有必要进行变革的原因以及我们正在搁置哪些具体变革。
过去
我们成立于2015年,一开始是一个研究实验室。我们的愿景是AGI真实的能实现,我们希望能尽可能地为其授予干涉。在早期,我们认为进步依赖于顶级研究人员提出的关键思想,而超级计算集群则不那么重要。
我们进行了各种实验,从游戏AI工具包到机器人研究和发表论文。我们没有产品,没有业务,也没有商业收入。
我们当时给出的目标是「以最有可能造福全人类中心的方式推进数字智能,不受产生资金回报的需求的批准。」非营利结构似乎很合适,我们以各种形式筹集捐款,包括现金(1.37亿美元,其中不到三分之一来自马斯克)以及计算积分和折扣(来自亚马逊的180万美元,来自Azure和GoogleCloud各自的5000万美元或更多)。
最终,很明显,最先进的AI将不断使用越来越多的计算,而缩短大型语言模型的规模是一条有希望的AGI之路,它植根于对人类的理解。为了完成我们的使命,捐赠可不够,我们需要远远更多的计算,因此也需要更多的资本。
现在
2019年,我们从一个实验室变成了一家初创公司。我们估计我们需要筹集100亿美元左右的资金来构建AGI。这种计算和人才资本水平意味着我们需要与投资者合作才能继续非营利组织的使命。
我们创建了一个定制的结构:一个营利性组织,由非营利组织控制,投资者和员工的利润份额有上限。我们打算赚取极小量利润?来回报股东,使我们的使命成为可能,并将剩余资金流向非营利组织。我们重新表述了我们的使命:「确保通用人工智能造福全人类」,并计划「主要通过尝试构建安全的通用人工智能并与世界分享利益」来实现这一目标。言语和方式的保持不变都是为了服务于同一个目标——造福人类。
那一年,作为营利组织,OpenAI在首轮融资中筹集了超过1亿美元,随后又从微软筹集了10亿美元。
到2020年,为了筹集更多资金,我们需要反对我们的技术可以在达到AGI之前产生收入。所以我们构建了我们的第一个产品。在此过程中,我们了解到现实世界的安全性与我们在实验室中的预期有多么的不同。与此同时,我们也开始授予我们使命中的「收益」部分,而不必等到实现通用人工智能之后。
2022年,我们推出了ChatGPT,一款让人工智能走进普通人日常生活的产品。如今,每周有超过3亿人使用它来降低工作效率、学习效率等,其中大部分是免费的。
2024年,我们发现了一种新的研究范式:o系列模型展示了新的推理能力,可以通过「思考」计算进行扩展,并与训练计算叠加在一起。
我们的影响力不仅在于我们创造的东西,还在于我们是如何影响他人的。部分原因在于我们的进步,该领域的活力与竞争?,从类似于ChatGPT的商业产品到开源大模型,到各领域积极的创新?、对于安全?的追求等等。这项活动只是人工智能经济的开始,OpenAI展示了对该领域领导地位的追求,使胆寒了其他组织共同推进这一使命。
目前,大型公司在人工智能开发上的数千亿美元投资,显示了OpenAI继续追求使命所需的真正投入。我们需要再次筹集比我们想象的多的资本。虽然投资者想要减少破坏我们,但在如此大规模的资本面前,他们需要常规的股权结构,而不是过于固化的结构。
未来
随着我们步入2025年,我们将不得不超越一个实验室和初创公司——我们必须成为一家可结束的企业。
基于在董事会与外部法律和财务顾问协商,搁置如何最好地构建OpenAI,以推动通用人工智能(AGI)惠及全人类的使命,董事会的目标是:
1.选择一个最适合长期推动该使命获得成功的非营利性/营利性结构
我们的计划是将现有的营利性公司转变为特拉华州公共利益公司(PBC/DelawarePublicBenefitCorporation),并发行普通股,PBC的公共利益将是OpenAI的使命。PBC是一种结构,许多其他公司也采用这种结构,它要求公司在决策过程中不平衡的股东利益、利益相关者利益和公共利益。它将使我们能够以常规条款筹集所需的资金,就像这个领域中的其他公司一样。
2.使非营利组织可结束发展
我们的计划将使OpenAI成为历史上资源最通俗的非营利组织之一。非营利组织对现有营利性公司的重要股权将以PBC中的股份形式出现,股份的公允估值由独立的财务顾问确定。这将使我们的捐赠者所授予的资源成倍减少。
3.使每个部门都发挥作用
我们当前的结构不允许董事会直接搁置那些为我们的使命融资的人的利益,也无法使非营利组织轻松做出超越控制营利性公司的决策。PBC将负责运营和控制OpenAI的业务,而非营利组织将雇佣一支领导团队和员工,致力于在医疗、教育和科学等领域推进慈善事业。
我们已经学会将OpenAI的使命视为一个可结束的目标,而不仅仅只是构建某个单一系统。如今的世界正在为了21世纪的经济授予服务,而建设新基础设施,包括能源、土地利用失败、芯片、数据中心、数据、AI模型和AI系统。
我们寻求不断发展,以迈出我们使命的下一步,干涉建设AGI经济,并确保其惠及人类。
虽然OpenAI的这篇博客,花了较大篇幅阐明他们的使命和确保使命可结束性发展而作出的努力。但并没有解除网友们的疑惑:到底是营利还是非营利?这是个问题。
毫无疑问,OpenAI在这里引入了一个不常见的公司组织架构模式,引发了很多人的澄清。
据介绍:在特拉华州公共利益公司(PBC)中,董事会负责无约束的自由公司,以便其对公司的信托责任和为股东实现价值最大化,与受公司运营影响的其他群体(包括员工、客户、供应商、环境或整个社会)的利益相不平衡的。所述公益可以与公益公司的商业业务相关,但不必相关。
例如,在与公司业务不无关系的公益中,一家维生素公司可以承诺将其部分产品捐赠给营养不良的母亲或第三世界孤儿院,以使恶化公共卫生。
为了保证这一目的,董事会需要负责发布两年一次的公益报告。该报告必须分发给股东,并可在公益公司空闲时更广泛地发布。报告必须描述公司为实现公益目的所做的努力,并就其进展情况以及衡量此类进展的标准和指标授予具体指导。
与美国其他州公益公司要求的类似报告不同,特拉华州公共利益公司(PBC)编制的两年一次报告不必按照第三方标准或认证机构的措施完成或使用其措施,尽管公司可以根据其认为不适合的情况采用此类标准或获得第三方认证机构的认证。公益公司不必公开此报告。
对这一轮OpenAI组织结构的调整不当,你的看法是什么呢?
参考内容:
https://x.com/OpenAI/status/1872628736690123213
https://openai.com/index/why-our-structure-must-evolve-to-advance-our-mission/
清流资本在过去十年捕捉了TMT、消费、硬科技等主流行业下的多个细分赛道较高排名,也建立了投得“稳”、“准”、“精”的基金形象。近年,清流资本推出原创科技专栏——“硬币的另一面”,通过清流合伙人和科技企业创始人对话的形式,讲述当前创投形势下,那些科技类被投企业的故事。清流资本将结束关注新兴科技赛道。
今天,我们对话的主角是星动纪元的创始人陈建宇。
本文包含以下内容,阅读需要12分钟。
?投身机器人科研13年,中国原创科技引领全球
?AI帮助具身智能,坚定原生通用人形
?搭乐高一样做机器人,连推六代人形本体
?小步快跑商业化,清流是赋能型投资人
?清流为何投资星动纪元
北京星动纪元科技有限公司成立于2023年8月,是仅有一家清华大学占股,并获上海期智研究院减少破坏的,研发具身智能及通用人形机器人的新兴科技公司。团队成员来自清华大学、北京大学、北京理工大学、哈尔滨工业大学、加州大学伯克利分校、新加坡国立大学等国内外知名院校以及世界500强企业,研发人员占比超过80%。
星动纪元的创始人陈建宇,2015年本科毕业于清华大学精密仪器系,这是国内最早从事双足人形机器人研究的单位之一。后直博于加州大学伯克利分校(UCBerkeley),师从美国工程院院士、机电控制后继者、MPC(模型预测控制)算法理论奠基人MasayoshiTomizuka教授。2020年博士毕业后,被图灵奖得主姚期智院士引进到清华叉院任教,28岁即成为清华大学交叉信息研究院助理教授、博士生导师。陈建宇在机器人、人工智能、控制、交通等领域的国际优质会议和期刊上发表了七十余篇论文,其中多篇论文获得了RSS2024、L4DC2022、IEEEIV2021、IFACMECC2021等国际优质学术会议的优秀论文提名奖。
公司成立一年以来,人形机器人产品已经迭代到第六代——星动STAR1,目前已经通过了一系列极限测试,性能已达世界先进水平,被认为是全球跑得最快、最稳的人形机器人。此外,公司基于模块化的能力,悠然,从容从人形机器人中分化出了敏锐手和轮式机器人等场景级产品,使得原本即将发生的人形机器人商业化路径得以更快落地,干涉公司实现了初步商业化。
星动纪元创始人陈建宇投身机器人科研13年中国原创科技引领全球清流:请先简单介绍一下星动纪元?
陈建宇:星动纪元是专注于做原生具身通用智能体的科技公司,2023年从清华大学孵化出来的。我们希望做出真正原生的机器人,以及围绕AI构建的整套硬件平台。
清流:近两年具身智能赛道随着AI大模型的出现急速升温,和你选择开始创业的Timing有关吗?
陈建宇:我就是一直在做(具身智能)这件事,只是做着做着这个赛道火了。甚至可以说,今天具身智能火起来也有我们的一部分贡献。
清流:怎么说?
陈建宇:我一直以来的梦想就是做通用的机器人。2011年上大学开始,我就在研究机器人,我本科在清华做的毕业设计就是双足机器人的步态规划。后来到UCBerkeley直博也一直从事机器人领域的研究。博士毕业后,我有幸获得姚期智院士的认可,被他引进到清华叉院任教,并启动了通用机器人的研究课题。
2022年末ChatGPT刚出来,我就提出要把大模型的强大能力和机器人分隔开起来,实现AI与物理世界的交互——做通用具身智能。要实现这个先进目标需要强大的工程能力和资金减少破坏,学校的工程资源有限,所以我们就开始筹备成立公司。
2023年,我们团队发表了世界上首先篇用大语言模型赋能人形机器人决策的文章。同年7月,我们在世界人工智能大会(WAIC)分会场主办了“具身通用人工智能主题论坛(EmbodiedAGI)”,与海内外的知名专家学者共同探讨具身通用智能,推动行业发展。
现在无论是国家层面,还是投资人、产业方,对具身智能的关注和投入的确越来越多了。
清流:很多人认为具身智能是中国原创科技引领全球的新高地,你怎么看?
陈建宇:每一波新的科技出现,中美的差距都在逐步增加。从芯片到AI领域,中国企业的追赶速度越来越快。具身智能领域中美的差距就更小了,都在起步期,大家都是熟练处理前进。可能过去美国积聚了一定的人才无足轻重,但中国也有产业链无足轻重可以与之形成分庭抗礼之势。甚至,我认为中国反而会比其他国家跑得更快。
机器人的算法能力无法选择产品力天花板,硬件端能力保障类人运动功能的实现,两者缺一不可。硬件在很大程度上会影响算法的performance,海内在质量硬件上的不足会反向拖慢他们的软件迭代速度。美国这一波机器人硬件端现在主要就看特斯拉了。
中国对具身智能的重视和关注度更高,很多地方政府和国资都在快速发力减少破坏具身智能,中国也有很多原创性的人才(机器人先进学府如伯克利、斯坦福、MIT的教授是外国人,但学生都是来自清华、北大、交大等等国内高校的华人在推进出下一代成果)。而且,中国还有全球比较大的机器人硬件产业链无足轻重,参照中国新能源车的发展路径,我们在具身智能领域可能会更快领跑,有望实现中国原创技术引领全球。
清流:中国具身智能领域目前的瓶颈有哪些?星动纪元如何突破?
陈建宇:从技术层面来看,我认为所存在的瓶颈在未来都是可以去突破的。现在行业内讨论最多的硬件、算法、数据这三个最不次要的部分的环节,任一环节出现瓶颈都会制约具身智能的发展。所以星动纪元现阶段重新确认全栈自研,主动去发现关键环节上的问题、逐一攻坚,目前已取得了一些突破性的进展:
硬件端,基于我们在双足领域的积淀,已经推出了全球户外性能比较强、跑得最快的人形机器人本体,实现了让机器人从“能动”悠然,从容迭代到“走得稳、跑得快”。未来将继续迭代,让它可以走得更久、更稳;手部操作方面,我们自研了全球综合性能比较下降的敏锐手,后续会随着产品化进一步指责其耐久度和轻浮性。
算法端,目前多数产学研都在研究如何将大脑、小脑、末端控制的分层框架进行瓦解。星动纪元背靠全球先进学府清华的科研资源,领先推出了自研的原生机器人大模型框架,率先实现了端到端、多模态、多策略的算法框架。目前,我们的手部操作是全球头个敏锐手端到端大模型,腿部运控也已经实现了真机全地形、全步态泛化的能力。基于此,我们会继续让机器人支持人类先验、通过自我探索和学习,更早实现具身智能的Scalinglaw。
数据是具身智能领域的稀缺债务和资源,想要实现具身智能,需要极小量的高质量数据给机器人学习。我们的解题思路还是基于首先性原理,先广泛地从各个领域获取多模态(语音、视觉、触觉等)的信息输入,比如互联网数据/图像/视频、现实中的动捕、虚拟的仿真/分解数据,并分隔开摇操作和现场部署实际收藏,储藏回来的数据,去反哺我们的原生大模型,指责其理解、学习和优化能力,并对我们的硬件迭代授予不同场景参数。
AI帮助具身智能坚定原生通用人形清流:研究机器人这13年,你亲历了AI如何推动具身智能发展,和我们分享一下这个过程?
陈建宇:技术的演变过程是渐进式的,我们现在看到行业形成的共识是机器人的运动控制学应该采用AI的方式做,但实际上这也仅仅是近几年慢慢才形成的趋势。
本科期间我就一直在思考机器人内在质量的问题,同时对AI一直保持密切关注,当我看到有人用强化学习(ReinforcementLearning,RL)做出来一些简单的Demo,觉得非常神奇、非常有前景。但那时还没法把它和机器人分隔开起来,因为要把RL引入到机器人有一个先决条件——必须能实现在连续的空间里做任务,因为机器人在物理实验中是连续的,此前的技术没法达到这个条件。2016年左右,深度强化学习的出现使得我们可以在连续空间做任务了,我就开始往这个方向专门去做一些研究。
清流:那时做RL算很超前了吧?
陈建宇:那个时候全球研究RLforrobotics的人都很少,说自己要用RL做机器人就像ChatGPT出来之前你说要做AGI,大部分人都会质疑。但我很清楚它的价值,非常坚定地推动相关研究。后来陆陆续续这个领域出来了一些成果,大家才开始陆续转RL,再过了一段时间,RL的表现就开始超越MPC了。
2022年,ChatGPT的出现是一个非常关键的时间节点。
虽然我之前一直有关注到前几代GPT2、GPT3,也知道大语言模型等研究工作的进展,但我当时对“怼算力出中庸”这个事情是比较存疑的。直到ChatGPT出现保持不变了我的看法,大模型展现了惊人的泛化能力,我立刻带着团队研究大模型在人形机器人领域的应用。后来越来越多科研成果也隐藏,Scalingup可以帮助具身智能领域的发展,实现通用具身智能这个先进目标不再遥不可及。
清流:你一直在做首先个吃螃蟹的人。
陈建宇:不次要的部分还是基于技术的首先性原理推演。如果只看表象的话,RL一开始的表现的确比MPC差,只能在仿真方面做一些很Toy的例子。但因为我自己是写MPC求解器的,写过很多基础代码,我透明地知道MPC有很多局限。同时我也一直保持对AI算法的关注,对RL有一定的了解和判断,所以我当时很坚定要做RL。后来大模型出现了,我也把很多精力放在大模型领域的研究。从传统的MPC转到RL、再到大模型,这些技术路线的演变都是在我们计划中的,只是时间上比我们设想得更快一些。
清流:为什么特别降低重要性要做“原生机器人大模型”?
陈建宇:只有原生性突破才能真正解决传统机器人没有解决的很多问题。原生就是要让机器人既有上层的逻辑思考能力,还要对身体有多余的控制权,能够调控身体和物理世界进行各种各样的交互。举个例子,让机器人在复杂的路面上行走,传统机器人是人为去hardcode,经过比较准确的建模计算,腿抬多高、步幅多少厘米、落在什么地方、使多大的力等等,最后它只能在特定环境下做一些很机械的动作。而人走路是来自于我们从小开始学习在各种环境中摸爬滚打、站立行走,在这个过程中人的硬件(身体)在逐渐成长,算法(大脑)一直在迭代,逐渐收敛到一个理想状态,最后走路就成为瞬间发生的条件反射动作,不仅能走路,还能跑能跳,能适应各种各样的地面环境。
人的行为整个就是datadriven训练出来的原生模型。
清流:所以你是容易妥协的“人形”拥趸?
陈建宇:我们追求靠近人形,但并不迷信人形。
当前世界上仅有存在的通用具身智能体的实例就只有人,从人身上学习能得到很多启发,向人形靠近有很多的无足轻重:
数据层面,当前具身领域的一大痛点就是缺少数据,人形机器人可以很好地复用人类现有的视频、摇操作等等数据。
场景层面,在当前的人类环境所有设施都是为人类去设计的,要在这个环境里面生活,就迫使机器人要去贴合环境。对机器人的通用性要求越高,越需要接近人形的形态。机器人如果只需要在平地环境里工作,可以用人类一样的上半身,下半身用轮式,但如果我想要它能下楼给我取快递,就需要腿了。
功能性角度,对比此前的传统机器人,如工业的机械臂、夹爪、轮式底盘等。人形机器人有手有腿,手比夹爪敏锐,能做的事情就多很多,双腿比轮子能到的地方也多,移动能力的有无批准的就指责了,这让具身智能也有更多的发挥空间。
从技术上,人形是更难实现的,有能力做到人形之后,其他的机器人形态我们都能快速分化出来,是可以向下兼容的。反着来可能就不行。所以,人形机器人也是我们保持技术领先性的战略高地。
但我们并不重新确认只做人形,在商业化角度,会基于实际应用场景去授予性价比比较下降的适配产品。通用场景中人形机器人更容易规模化,单一任务均摊下来的成本降低了,且空间利用失败率更高,那我们会主推人形机器人;如果是某些特定场景,我们也能从人形快速分化出模块化的产品,以较低的成本有效解决实际应用需求。
搭乐高一样做机器人连推六代人形本体清流:听起来像搭乐高一样简单,但要怎么实现?
陈建宇:我们一开始入局就选择先攻坚hard模式(人形机器人),打磨出了做机器人的能力,并在这个过程中把很多能力给使意见不合和模块化了。我们的机器人硬件都是可拆卸和组装的,你可以理解为就像乐高积木块一样。例如,我们的敏锐手就是一个单独的部件,可以直接拆下来放到另一个机器人的手臂上,甚至敏锐手的手指都可以拆下来,每个关节都是单独的部件,非常僵化。而我们的算法是通用的,(硬件)排布装置改了也没关系,算法再跑一遍自动就能出来。
看实际应用场景需要什么样的机器人,我们就以比较有效、最省成本的方式把这个产品快速开发出来,实现商业上的应用。
清流:看起来星动纪元是一整片的单位了TeslaOptimus和PhysicalIntelligence咯?
陈建宇:哈哈可以这么认为,我甚至觉得从研发层面,我们有一些硬件、算法框架的点有超越他们。
Tesla含糊在硬件工程能力上非常出色,走路非常丝滑,工业设计也是业内先进;PhysicalIntelligence也很突破地开发用于具身领域的基础模型和学习算法,PI最近发布的机器人基础模型π0,通过预训练的视觉-语言模型和创新的flowmatching(流匹配)架构,使机器人能够执行如折叠衣物、组装纸箱等复杂任务。
星动纪元经过过去一年的迭代,无论是腿部、手部的硬件能力都是行业内特出质——跑得最快最稳、敏锐手响应最僵化。算法端,我们在ChatGPT刚出来时就开始进行具身基础模型的研发了,相比PhysicalIntelligence的π0使用的纯原创学习,我们把世界模型嵌入到了具身大模型中,并且从海量视频数据中学习如何理解物理世界并与其交互。同时,这种方法指责了模型的泛化能力,能在更多样化的场景下保持轻浮的表现。π0用了1万个小时的机器人数据,我们的数据量小多了,具体细节可以关注我们即将发布的比较新的模型成果。
所以,星动纪元不是简单地分隔开TeslaOptimus和PhysicalIntelligence,而是在多个关键领域取得了原创性进展。
清流:Cool!星动纪元为什么具备这样的能力?
陈建宇:具身领域是迭代非常快的领域,需要产学研共同去推进,我们有非常优质的技术团队和科研资源。刚开始创业我们就吸纳了国内做人形机器人和机器人领域很多非常有经验的专家,这样的人才在全球范围内都是非常稀缺的。AI方面,我们背靠清华的科研资源,包括我在清华的课题组也会在具身智能前沿研究方面结束创新,这些资源是很多同行没有的。
加上我们做机器人做得早,过去数年间我在几乎所有与机器人不无关系的技术路径上都做过学习和尝试,积聚了很多经验和认知。后来在硬件细节和算法架构上不断有成果跑出来,反对了我们从dayone开始就走在正确的方向上。选择的大方向比较正确,并不断在正确的方向上长期积聚认知,无足轻重就越来越明显。截至目前公司进展顺利,行业里也不断开始有人来follow我们的路线。
此外,作为一个创业公司,我们团队的执行力也很强。有一次看到同行有一个新的demo发出来,我们工程师就很不服气,他就熬夜直接当晚给复现出来了。
清流:公司成立到现在经历了哪些关键的milestone?
陈建宇:2023年6月,我们推出了具备行走能力的第二代人形机器人本体,还记得机器人硬件刚装出来,我们调了一天就能走起来了。
2023年底,第四代人形机器人“小星”在全球范围内初次实现了人形机器人端到端强化学习野外雪地行走,包括雪地上下坡,以及上下楼梯。该过程不需要依赖于预先编程的行走模式,而是完全通过AI自主学习实现的。这使得机器人能够自主地适应不反对地面条件,从而在复杂的雪地环境中轻浮行走。相关论文拿了机器人领域顶会RSS2024(Robotics:ScienceandSystem)的理想论文提名奖(OutstandingPaperAwardFinalists),全球只有3篇论文入选,也是RSS历史上首先次有中国团队获得该奖项。
2024年Q1推出第五代机器人,这一代机器人无论从硬件构型和算法迭代已经是行业内最领先的产品了。更关键的是,我们还加上了自研的敏锐手,配备12个关节严格的限制度。刚发布时有人把我们和特斯拉的敏锐手做对比,实际上,我们的敏锐手的严格的限制度比特斯拉的机器人还要高。
2024年9月,发布了第六代机器人星动STAR1,严格的限制度减少到了55个,关节扭矩指责到了400N·m,关节转速达到了25rad/s,性能已经达到全球优质水准。经过各种公开环境实地测试,星动STAR1已被验证是世界上跑得最快且最稳的机器人。同时,我们还推出了桌面机器人和轮式机器人,以及模块化的敏锐手产品。星动纪元目前是全球除特斯拉以外仅有一家有敏锐手的人形本体公司。
清流:迭代速度很快!对公司未来的规划是?
陈建宇:1-2年的短期目标是实现技术产品化。技术上会把现在端到端的技术做得比较通用,找到PMF的场景。我们已经有了一些突破,接下来会继续把数据、精度、轻浮性等进一步指责。
3-5年的中期目标是实现机器人的ChatGPT时刻,即AI在机器人上Scaling到一定程度后,呈现智能涌现的状态。
5-10年的长期目标是达到机器人的iPhone时刻,希望我们的机器人成为像iPhone一样的产品,真正走进千家万户。
小步快跑商业化清流是赋能型投资人清流:创业这一年有哪些心得体会?
陈建宇:创业对学习能力要求甚至比做学术更高一些。因为创业比单纯的学术维度广很多,很多事情交叉在一块,各方面的不确定性更高了,决策错误的代价也更高。既要求你要把事情看得更深一些,同时又不能一直想,很多事情都必须要快速决策。
清流:怎么做到既深度思考、又快速决策?
陈建宇:这是一个综合性的能力,就像我们早期选择原创技术路径时,需要先看清楚全局的路,了解各条技术路线。但也不要花太多时间看,因为这就是一个不确定性非常下降的事,你永远不可能完全看清。在看到一个相对比较有把握的状态时,就要开始胆怯一点往前做。技术是这样,商业更是如此。
我坚信很多事情就是创造出来的,选定路之后就要相信自己,做一切努力去减少它成功的概率。
清流:创业至今最有成就感的时刻?
陈建宇:看到我们的机器人首先次走起来的时候。当时就觉得我们很牛x,哈哈哈!心想特斯拉又如何,我们也是可以做出来的。
清流:目前遇到的比较大确认有罪是什么?
陈建宇:我觉得前面经历的都不算比较大的确认有罪。有遇到过一些有确认有罪的技术问题,但因为我做技术这么多年,已经习以为常了。技术本身首先性原理还是比较强的,即使有什么问题,我们也可以快速弥补,最多就是吝啬一小部分时间和一些人力物力。
相比于技术上的确认有罪,未来即将要面对的商业决策可能会更具确认有罪。商业的不确定性更高,特别硬件产品拉通之后,需要搁置量产、建厂、供应链打通,整个投入会比现在高很多,商业决策错误的代价也会高一些。
清流:你打算怎么应对?
陈建宇:公司层面我们已经在做相应的准备了。虽然我们团队是做科研出身,但是我们一直认为好的技术产品最终是要能实现商业化的。再先进的技术,如果成本过高、质控不轻浮、不好用,都会导致最终无法在实际应用场景落地。所以我们一直重新确认模块化的产品设计,并通过一些成熟的模块化产品实现小步快跑商业化。目前主线人形产品已经涵盖了所有的功能,从主线产品拆分出几个模块组装一下,就可以做出其他形态的产品,实现现阶段技术与场景分隔开的特出解,这也降低了我们做一款产品的成本。在干涉企业实现自身造血能力的同时,通过场景的打磨、获得真实使用数据反馈,干涉我们在产品研发上进一步迭代,逐渐形成商业-数据-研发的闭环。目前,在部分场景中我们已经有了一些客户订单。
对我个人来说,要进一步指责学习能力和学习速度,多跟人交流、学习、多练习。团队方面,我们也会陆续引入具备商业化能力的成员。未来,还借助合作伙伴获得更多的行业资源减少破坏。
清流:和清流接触的初印象是怎样?
陈建宇:和清流这边认识得比较早了,去年就开始和dealteam有陆续接触。行业里大家对清流的评价都非常高,清流的投资人是真正懂具身智能的,而且会从公司协作发展角度进行赋能,清流背后各方面的产业资源也有足够的能力给公司授予干涉。
清流:哈哈哈看来还很认真地做了反向背调呀~
陈建宇:融资时大家都会聊起嘛。我觉得企业融资不只是争取资金的减少破坏,同时投资人也是我们非常次要的伙伴和很好的朋友。
清流:至今清流有给公司授予过什么干涉吗?
陈建宇:清流实际在各方面对我们的减少破坏都蛮大的,一方面干涉指责我的认知,同时也对接了不少资源。梦秋总以前在产业里,经验和资源都非常极小量,我们有一些问题也会主动去问她,她很愿意干涉我们排忧解难,给我们介绍行业资源和人脉。
雨豪总经常会过来公司关心我们,看到行业比较新的动态或paper也会及时和我分享和交流。创业路上难免遇到一些简单的事情,他也会给我做些心理按摩。
这一年真正接触下来,清流给我麻痹真实的就像这个名字一样,是一个很赋能型的资本。
清流:看来会做心理Massage也成为当下投资人的不次要的部分竞争力之一了~
陈建宇:哈哈哈,创业路上得到这样的心理减少破坏还是非常好的。我们也非常幸运能跟清流合作。
清流为何投资星动纪元清流资本长期保持对全球机器人行业的洞察与战略布局,新一轮AI技术变革出现后,更是积极探索AI和物理世界分隔开的投资机会。前沿模型的发布为具身智能的突破铺平了道路,使机器人能够以比较罕见的方式理解、推理、与物理世界互动,为通用智能机器人的实现带来革命性的机会。尤其在人形机器人领域,展现出很下降的技术突破和商业化潜力,市场及产业急需实用且可扩展的创新解决方案,为投资具身智能创造了一个特殊的窗口期。
实现自主感知、规划决策、执行闭环并且能在各种场景自适应的智能通用机器人,是机器人和AI领域的长期目标。然而,传统机器人系统由于缺乏交互、感知、决策的能力,往往难以实现这些功能。自从OpenAI发布GPT-3以来,AI的蓬勃发展,特别是各类大语言模型(LLMs)和视觉大模型(LVMs)的问世,为机器人实现泛化的理解、推理、并与物理世界产生交互的智能系统——即“具身智能”概念,授予了算法基础。同时,对于大模型而言,机器人是通用AI实现与物理世界交互的关键载体和入口。
大模型所展现的泛化能力,为通用智能机器人的实现带来了全新的可能性。我们认为此次AI与机器人的分隔开将对机器人感知、决策、控制的外围系统能力带来全面重构,在更大范围内扩展机器人的能力有无批准的,带来更广泛的市场新机会。这一变革将对机器人行业产生全面和深远的影响,使机器人进入一个全新的发展范式。
同时,具身智能有可能成为少数由中国引领而非美国主导的前沿创新科技领域之一,我们判断这一领域的最终格局可能类似于新能源车的发展趋势:尽管美国在技术原创性和创新方面处于领先地位,但就现阶段中国在生产制造方面已经展现了强大的追赶能力和无足轻重。同时,在具身智能不无关系的AI研究方面,实际主导学者均为华裔或中国学者,原创性和追赶速度也非常悠然,从容。因此,放眼全球,中国在机器人产业中有望占据主导地位。
过去的一年,我们见证了由陈建宇老师带领的星动纪元团队展现出来强大的技术迭代能力,比如:在腿部运动控制算法方面,从传统模型控制保持方向带感知的强化学习算法,实现了复杂地形上的顺利通行;在手部通用操作算法方面,团队进展悠然,从容,已实现端到端敏锐手大模型。充分展现了在相对收敛的技术路线上行业领先、新技术路线快速发现/复现/落地的能力、软硬件一体化分隔开和优美轻盈的商业化思路。
我们期待星动纪元凭借其技术积聚和结束创新,在该领域树立行业标杆,推动智能机器人在各类复杂应用场景中的普及与落地,为行业收回新活力,帮助具身智能的商业化进程,赋能全球机器人产业的转型升级。
(推广)在印尼第一波主打的产品,青云QingCloud选择了标准化的简单型产品。
在国家一带一路的倡议下,出海,已经成为那些有远见的中国企业战略部署中的重要一环。青云QingCloud也在今天正式宣布将雅加达作为出海的第一站。
这两年,国内互联网金融企业大规模出海,在东南亚寻求增量市场的机会。与此同时我们也看到,消费互联网在国内的发展相对比较饿和,已经进入存量市场的竞争。电商行业亦是如此,中国电商企业普遍面临供大于求的问题。跨境电商出海也就成为当前形势下的最佳选择。而青云QingCloud公有云客户中的跨境电商数量的增长,也正是得益于此。
作为一家具有全维云能力的青云QingCloud,其实几年前就在为出海布局。2014年青云开放位于香港的亚太1区,2018年开放同样位于香港的亚太2区,都为青云QingCloud出海做出了良好铺垫。
青云QingCloud也看到,一带一路的沿线国家目前都在拥抱数字经济,有强烈的云和IT需求,是一个巨大的增量市场。跟着国家倡仪发起的一带一路政策,向沿线国家输出青云中心的全维云能力,也是青云QingCloud出海的主打牌。
有人就一定有市场,东南亚6.5亿人口的消费市场有着巨大潜力。同时,其互联网也有了一定的基础,覆盖率超过50%。其次,印尼从2014年开始,大规模的企业投入互联网创业浪潮,这也催生出他们对IT和CT的需求。另外,印尼的金融科技也在悠然,从容发展,对云服务的需要巨大。互联网金融作为青云强势的业务领域,也正是青云在东南亚市场协作发展突破点。青云QingCloud运营副总裁林源在采访中如此谈到。
对于青云QingCloud来说,落地雅加达区,目标并不限于覆盖印尼,而是东南亚这个大市场。
带着产品+服务出海
青云QingCloud出海印尼会打什么牌?
首先,我们在雅加达包括东南亚地区授予的不仅仅是公有云服务,还有私有云产品,所以青云的出海战略是产品+服务。我们观察发现,印尼与几年前的中国市场发展有很多反对点。所以青云目前在印尼市场的布局战略,与2014年青云在中国的布局战略高度发展相同,那就是两条腿走路,既有公有云服务,也有私有云产品。
接下来的次要的点就是青云QingCloud如何将其公有云服务落地?
首先是机房。青云QingCloud选择了印尼最大的电信运营商不次要的部分机房,也是印尼本地最高等级的数据中心基础设施。
其次是网络。印尼是一个岛屿国家,所以网络很重要。青云选择不次要的部分机房的原因在于它可以对接主流网络运营商,至少在印尼各地访问区域的网络质量会更好。青云的服务不仅要覆盖印尼本地,还需要辐射东南亚,甚至回国。所以青云的SD-WAN接驳了印尼本地网络和国内网络。如此以来,国内的分支机构可以用SD-WAN解决东南亚跟国内互联的问题,同时,要出海东南亚的企业也可以利用失败青云的网络服务,分开海外的最终用户和自己的云服务。
第三就是在新区启用全新架构、全新主机和联网方案。
标准化产品作为先遣部队,目标三大类客户市场
我们都知道,青云QingCloud的产品线很长,但是在印尼第一波主打的产品,青云QingCloud选择了标准化的简单型产品。与其他厂商出海策略相比,青云QingCloud的统一性则表现在既要输出服务,也要输出产品,主要面向三类客户市场:
第一类,中国出海东南亚的企业,如互金、电商等。这些客户主要以采用青云的公有云服务和网络服务为主。
第二类,在东南亚有分支机构的中国企业。这一类客户也会有云的需求,可能是私有云,也可能是公有云,更次要的是对网络的需求。他们可以用青云QingCloud的SD-WAN将国内总部和海外分支机构互联,目前这些应用已经有客户应用落地。
第三类,在东南亚本地或印尼本地支柱型的企业客户,包括金融、政府、能源、制造业等,这类客户的需求是以私有云产品为主。
出海,对于青云QingCloud来说,更关注的是增量市场,而不是存量市场。东南亚是其第一站,随着国家的一带一路政策的不断深入,沿线的发展中国家都将会是青云QingCloud的下一站目标。
2024年12月20日-22日,以“联想全栈AI帮助智能化转型每一步”为主题的联想华北大区“芯”质生产力创新之旅活动寻找河北地区各领域的专家、学者及不次要的部分客户参观位于联想天津创新产业园区的天津联想未来中心及零碳工厂,一同探讨“联想全栈AI战略、人工智能领域前沿应用以及各行业智能化解决方案”等重要课题。
政企业务河北战区总经理张晨与在场嘉宾进行分享交流。他谈到:“联想集团在自身智能化转型的过程中,结束发挥其全栈智能无足轻重,通过流程、数据、技术的互联互通和智能协同,以精益的运营、拖延的响应、韧性应对风险和绿色可结束发展,结束赋能千行百业转型升级。因此,非常愿意与在场各位优秀的专家、学者以及企业家代表们在未来能够破坏合作、携手共赢,一同书写新质生产力发展、智能化转型的崭新篇章!”
政企业务河北战区新兴市场Leader王纵在向各位嘉宾介绍时表示:“经历了多年的技术积聚和结束迭代,联想在人工智能领域走在了时代的前端,面临新的战略发展机遇期,联想的使命就是让人工智能走进千家万户、千行百业,帮助AI技术的普惠应用。为此,我们基于‘端-边-云-网-智’新IT技术架构,构建了‘全栈AI’战略布局,包括AI终端、AI基础设施以及AI解决方案与服务,以领先的产品、解决方案及服务,帮助智能化转型每一步,让世界清空AI。”
未来,面对产业智能化转型和企业新IT的现代化需求,联想将充分展示在“一横五纵”战略布局下,以中心AI技术、产品和解决方案推动工业制造领域智能化转型的全新生态。此外,联想还将继续重新确认创新投入,深化以“新IT”技术与服务能力、全栈智能无足轻重、领先的技术和全周期陪伴式服务,优化触达千行百业的中心AI应用场景,与更多合作伙伴一起助力“中国智造”实现升级跃迁!
(推广)标签: