10,000个单词的记录:VLA范式,黎明,基本团队疾

由Lai Wenxin Chen Kai-chai-ian VLA(Visual-Langua Assets Model)编辑的编辑是化身智能领域的新重要范式。重要的是要有效地整合视觉信息,口头命令和动作决策,从而大大提高机器人对复杂环境的理解和适应性,并提升机器人从执行单个任务转向独立决策。在这一点上,它已成为研究和工业界的研究重点。 2025年5月9日,Leifeng.com和AI Technology Gair Live Brand庆祝了一个圆桌室,其主题是“实践和化身智能VLA的进步”。圆桌会议的主持人是北京大学和Zhiyuan学者信息学和技术系的助理教授江上海。他还是Tsinghua大学ICross Nformation I研究系的助理教授Qianxun Intelligence的Der,Tsinghua大学的交叉信息副教授,Xinghaitu的联合创始人,Lovertorory北京北京北京大学的人工智能助理教授。在会议上,主持人张上海指导了VLA的讨论。首先,他讨论了相关模型的定义,起源和差异。接下来,我们分析技术路线和新结果,并讨论各种路线的优点和缺点。然后,他分析了中央技术的瓶颈以及围绕常见机器人任务的常规输出范式。他还研究了增强学习,提高概括能力,使用异质数据和协作培训的结合。最后,他专注于实施方案,并讨论了执行长距离任务的挑战和可能性。其中,三位客人提出了自己关于技术瓶颈的想法带有具体智力的VLA面对VLA。高阳是一种推理,我们法令说,它们是VLA今天面临的两个核心挑战。许多研究已经调查了VLA和推理之间的合并途径,但最佳解决方案尚未得到揭示。在数据级别上,它不仅比VLM训练的数据要少得多,而且还不足以多样化。当前,数据主要是在简单的环境中收集的,被困在“模型的特征和模型的数据收集中”的恶性循环中。数据困境的裂缝是VLA调查的关键。赵明说,在实施现实世界应用中,系统运行频率的奇异化存在经济成本和优化问题。基于从低频闭合电路的起点,哺乳动物的高频控制和高级思维,设计高频自适应闭路系统SIM杂志的人类是一个未解决的问题。最终的目标是实现末端 - 端训练,并将大型系统与多级频率整合在一起。杨Yaodong提出,在VLA目前的培训中存在分裂的问题。大脑(VLM)和小脑(地下策略模型)分别训练,而无需结束训练,而没有类似于大型人类大脑的双向相互作用。一些研究试图探索结束 - 端架构,但很难进行调整。同时,VLA没有“测试闭合电路”。这只能生成大型模型的中间信号,以增强PE模型输出ActionsqueTunios,并且不能在测试学习过程中不断计算和优化推理功能,例如语言模型。为了克服这些挑战,必须从语言模型的经验中学习,并使用端到 - 末端体系结构以及增加学习。赋予VLA的能力在空间空间中进行了闭路推断,但是鉴于工程实施和数据等挑战,VLA将很难真正释放智能融合的机会。下面是这张圆桌会议的很大一部分。 AI技术评论已经进行了编辑和编辑,而没有改变其原始意图。 VLA的前世,Zhang Shanghang:伙计们,我是Zhang Shanghang,是这位圆桌会议的主人。我们很荣幸邀请Tsinghua大学和佩基大学的一些专业老师,并邀请VLA领域的非常高级的老师。我们今天的主题是关于VLA的实践和进步。首先,介绍您所有的老师。高杨:大家好。我是Tsinghua大学交叉信息学院的助理教授,也是Qianxun Intelligent的CO -Founder。我很高兴与您分享有关VLA的相关知识。 Yang Yaodong:谢谢您的上海和Leife的邀请ng.com。今天,我们将与所有同事讨论您对VLA的想法。我来自北京大学人工智能研究所。目前,该实验室还使用Lingchu的智能调查了右手操作中的VLA申请。 Zhao Xing:大家好。我是tweo xing。我正在研究机器人和自动驾驶,并且在两个方向上探索VLA。至于机器人,从机器人本体的数据收集到训练VLA模型,恒星图中也有完整的链接体验。今天,我将借此机会与您交流和分享。张上香:我们今天讨论的主题是VLA,这是最受欢迎的体现智能主题之一。作为变暖,您能解释一下您在VLA探索中经历的经历,例如什么是VLA,如何定义它等?您是如何开始转移到VLA轨道的? VLA目前非常受欢迎,您怎么看?你怎么看VLA的技术路线?高杨:我认为VLA来自模型中的重要技术变化。当我为博士学位学习时,这是一个自主驾驶,然后是机器人。最初,技术电池主要是计算机视觉,模仿学习和增强学习。单个或Irricle可以很好地完成某些任务,但是实现执行所有任务的模型很困难。 VLM和LLM带来的更改引入了UcatedUcido的新型视觉语言动作模型,以整合了几个任务的操纵功能。自上一年以来,我们的小组已完全投资于VLA的调查。 VLA是一个新兴领域,但是下面的技术,例如模仿学习和强化学习,类似于传统的类似技术。张上香:我们还以Gao老师出版的Spirit VLA的作品激发了自己的灵感。当建立的情报新闻发布会在北京举行Ing,我们还听了在GAO大师论坛上介绍VLA。这在这个领域当然是非常基本的,我希望在VLA的未来方向上做更多的工作。然后请Yaodong老师介绍VLA的定义,以及为什么他应该开始研究它。 Yang Yaodong:Gao老师的解释非常不可或缺。从模型的巨大角度来看,TechnologíaChatgpt逐渐从语言模式扩展到视觉和行为作用的空间模式,这有助于促进“圆柱体内大脑”的大型模型的转化,以结合能够与物理世界相互作用的剂量。从对行为行为决策的控制的角度来看,必须将传统控制措施从简单的MPC(对模型的预测控制)扩展到闭路控件到一般控制。它具有常识和物理地面连接能力的推断,只能调整为大规模的特性型号。这两条开发路线是并行驱动的,在机器人和大型模型领域的学者都以VLA为中心。与以前的技术进步相比,VLA有望提高机器人在行动决策和行为空间的部署中的能力,而OCUPE在未来发展中的关键地位。张上香(Zhang Shanghang):是的,正如Yaodong大师所说,VLA也是我们出色的建模技术和我们化身智能的良好结合。过去,我们还做了许多有关大型模型对齐的相关工作。此外,智能也适用于认证领域。他还要求老师Zhao Xing谈论VLA,启动机会以及他自己的观察和感受的定义。 Zhao Xing:谢谢您,Shang Hang。我感到非常惊讶,对VLA的外观给我留下了深刻的印象。在3月23日GPT-4推出之前,Chatgpt和其他作品是纯语言模型。 AI Ind整体上,Ustry感到非常惊讶,但与愿景,机器人和美国自治研究人员无关。换句话说,GPT在Vispy中的外观不同。我印象深刻。林的林是GPT-4出版的夜晚,我们正在阅读其技术报告。这表明了许多有趣的视觉理解技能,包括一些理解数学问题模式的例子。图像上的道路上有一辆汽车,有人在他们身后熨烫衣服。 GPT-4允许您了解场景中的情况。自然,您可以考虑长期排队的问题,当您看到有人沿途熨烫衣服时,几乎看不到。该模型将帮助您做出随后的一系列决策和计划。那天晚上,我开始编写研究建议,以开始设计双VLM系统,并使用视觉语言模型来进行计划决策的后续应用程序。原因wE首先关注自动驾驶领域是因为自动驾驶存在很长的尾巴问题,而长尾巴的问题意味着没有数据可以训练。如果没有要训练的数据,就无法终点谈论。为了解决这个长时间的尾巴问题,只有通过VLM和VLA模型具有理解和推理功能。回顾过去,我认为这适用于未来的机器人和化身的情报领域。在使用化身的智能机器人解决越来越多的问题时,您无疑会发现我从未见过的场景。数据收集不能简单地解决。毫无疑问,模型范式将演变范例,例如VLM和VLA,从那时起,它使其更加决心探索此地址。 Zhang Shanghang:Stolas的观察非常热情,可以在APLM首次出现时考虑,这是在自主驾驶领域应用的,并且很有意义。我们提到了VLM和LLM的特征在VLA模型中非常重要。 VLMIT也可以在LLM中使用。那么,您认为LLM或语言方式在VLA中的作用是什么?并且在执行VLM时可能会观察到的限制是,识别某些罚款,局部和几何信息可能不如传统的纯可视模型,例如分割,深度估计和对定界线盒坐标的感知。但是,在化身智能领域,机器人确实需要精确捕获对象。那么,我们如何弥补VLM中缺乏本地空间信息的挑战呢?高杨:然后我释放了砖块,然后首先吸引了玉。首先,在第一个问题中,人类要求机器人做一些告诉机器人的事情。他们交流的方式确实是语言。 l扮演此处指定的任务的角色。 V和L的对齐也很重要。这是因为指定任务是必要的,因此机器人必须能够理解以及当前的情况。该语言是“拿一杯水”。在哪里可以找到这杯水的相应照片?而且,由于人类语言描述通常具有有关图像的上下文信息,因此这两种方式的结合使模型可以更好地理解人类的意图。这些技能实际上取决于VLM预测。张上香:是的,语言本身的模态也可以为机器人提供许多其他信息,例如接收交互式说明。它还可以通过语言一致性和愿景来改善视觉方式的概括。在第二个问题中,缺乏本地信息如何补偿?我想知道赵教授是否有一个主意。 Zhao的老师会自动进行,因此有许多任务需要精确认可。 Zhao Xing:我将轻松分享我的经验。到了晚上,GPT-4V启动了,我应该做什么和我的同学?我开始计划。作为应用程序研究人员,b由于我们解决了问题,因此VLA和VLM的核心价值是完成智能领域中通常缺少的常识能力,例如视觉语言模型,具体规则和人类的社会规则,在这种情况下,视觉语言模型中包含的这些共同感觉无法涵盖数据。从实施路线的角度来看,VLM具有这种可能性,因此,即使有限的3D识别能力,它也可以首先将现有的成熟视觉识别模型与80-90绩效点相结合,以通过建筑设计从其优势和缺点中学习。将来,将没有VLM和其他模型。这也是一个相对较高的概率结果。从长远来看,当前VLM的PR数据浏览不包含物理世界的合并智能数据。如果可以将常识的最多物理数据(例如几何图形和3D时间)集成到未来的培训中,那么这可以朝着方向发展传统技术的探索。张上香:感谢赵教授的分享。首先,我们可以将其放在3D识别中,该模型具有良好的表面效应与VLM和VLA相结合。其次,可以将更多的物理定律引入数据中。对于实施和应用程序,这也非常令人兴奋。 Yaodong教授有什么要添加的吗?杨Yaodong:上面的两位老师对当前情况有一个明确的解释。如今,出色的模型正在通过语言模型取得进步。过去,我们已经将计算机视觉领域的更高模型移至语言模型上,但是现在我们将Procnatural语言的卓越体系结构应用于计算机视觉体系结构。另一方面,跨性别的成功促进了这种转变。同时,人工智能在语言模式下实现了三位一体的模型,大数据和出色的计算机力量,从而扩大了法律。从哲学的角度维特根斯坦(Wittgenstein)认为,语言感知是世界的极限,其语言可以表达一切,并且其语言在一个易于建模的单独空间中。但是,我们从语言方式进入视觉和动作方式。该方法仍然是一个挑战。当前,可以通过关节解决一些问题,包括高质量的视觉模型,潜在的动作模型和语言模型的组合。但是,从一般代理和AGI的角度来看,将来需要进行技术变化,而Varias模式的集成将具有集成表示形式,并将其中包括其中的所有变量,但是该维度太高。如果相信所有方式都在低的高度空间(柏拉图假设)中投射,它有助于统一VLA和统一化身的智能,实现更强,更聪明的进步。目前,VLA才刚刚开始,洛杉矶有一定的进步NGUAGES和VLM。连接点的想法已经出现。未来的创新可以解决诸如识别3D不准确信息之类的问题。我不知道这将需要很长时间,但不应该太久。 VLA的当前生活,上海:我们讨论了VLA的前世。让我们谈谈我们目前的生活。也就是说,目前在VLA中有几条技术路线,我们将看到教师是否共享最新的发展,包括π0.5模型,图AI Helix,最近推出的Spirit V1以及Xinghaitu和Pi之间的密切合作。作为专家,让我们谈谈您对VLA技术路线和最新进步的看法。高杨:VLA的长期技术进步​​集中在体系结构和数据上。从RT-1培训从Google培训到RT-2,以及OpenVla de Sergey Levine到π0.5,开发是基于VLM的进步。开放培训方法的优化和创新源VLM架构已扩大了与VLA相关的结果。同时,通过流量和扩散巧合等技术,机器人的动作生成函数得到了改善。在数据级别上,它是Google获得的私人数据集,例如使用每日机器人打开X-Bodied等等。包括Zhanghang在内的开源数据也共同进行了出色的工作,国家和外国机构已经积极调查,通过新的收藏和过去的数据处理来丰富FDATA UENTES。此外,π0.5不是雇用大量数据,而是专注于互联网数据。我们还尝试对视频使用以前的培训。数据的质量决定了模型的上限,这是VLA开发的最基本和持久的驱动力。 Yang Yaodong:让我从模型架构模型中谈论它。根据动作的表达,可以将VLA分为两种类型:当操作被处理为CO时自我回归模型的紧张作用主要是处理离散令牌,因此是类似于扩散(例如π系列的工作)的产生模型。如果在语言模型的标记中抽象了一个动作,则Helix表示。这两个模型均基于VLM,以将语言空间中的常识映射到物理空间中的动作。 VLA最近的摘要还撰写了探索更好的方法来表征作为个人或连续空间的动作。另外,无论是谨慎还是连续地表示行为行为空间,它都可以与人类进行比较,VLM负责推论和决策制定计划(尽管这种类比值得怀疑)。这两个技术范式一直在发展并得出了许多变化,但不断围绕这两个常规框架旋转。从培训方法的角度来看,VLA现在使用监督的学习,类似于大型模型领域两年以前,信任一百万个数据集输入说明,以实现遵循人类说明的效果。但是,如何在测试过程中提高VLA推理能力并在成语模型中发挥完整的推理优势是一个重要的问题,必须紧急解决。 Zhao Xing:我更多注意的进入点是双重系统。我们说,我们更关心我们将解决的问题。当涉及到当今的化身智力时,我们没有常识。如果VLM解决了常识,则必须与VLM和现有端 - 端模型一起使用以实现双重系统。部署后,VLM达到的推理率约为2-3 Hz,可以实现慢速模型,并且端到端模型可以达到10-20 Hz的推理速度。他们以某种方式共同实施双重系统。首先,我们实施并实施自主驾驶。这是我感到非常自豪的一项成就。接下来,我们主要关注DVLA在机器人领域中的Esign并在以下类别中解压缩:首先,最具代表性的π0,即,我称之为单段紧凑的图像和语言指令被直接用作类似于End -to -to -end模型的输入和输出操作。您好,机器人是双重系统设计。 VLM分解了有关原子动作的高级指令,并将其交付给VLA进行执行。此模式类似于自主双重系统的模式。 VLM是一个低频操作系统,VLA是高速操作系统。类似的双系统作品包括图AI和N1 Groot N1的螺旋桨,但是与PI略有不同的是训练VLM。该VLM使用由Internet上的所有人训练的开源模型来提取VLM的中间特征,使用中间特性作为DP模型(动态编程)的附加条目,从末端允许DP模型E放弃最后的动作。这是Don DesignVLM火车并提取其功能,并且不会将其传递给DP。 π0.5和DEX VLA使用视觉作为条目,在中心创建摇篮(思想链),解释了完成动作的推论和必要计划,并最终产生动作。这被认为是具有中间输出的VLA。最近有一个更有趣的地址。我并不担心Google的化身推理,也就是说,训练VLA模型。最好训练首先合并的推理模型,因为感官和计划不是特别强大。当您说明模型时,该模型可以查看照片并指出照片中应该工作的对象。如果将其从位置A到位置B放置,则3D空间为1.5米或2米。训练后,我们在VLA中提炼内部知识,重点关注VLM模型本身的功能,并将其连接到动作装饰der。 Bloodyangshangang:它肯定充满了实用信息。我们还开始在很早就在自动驾驶领域建立双重系统。就现在提到的技术路线而言,它是否能够实现或能够实现开放世界和实验室任务之外? Zhao Xing:实际上,我不知道这个答案。目前,Marco VLA设计仍在开花,具有多种组合,例如紧凑,中间,两个阶段,平行或串联出口连接。但是,最大的趋势是,最初制造VLM(以大语言模型开始)或机器人(专注于计划和行动模型)的团队正在完整开发电池。为了提高VLM的功能,现在输入了动作数据进行培训,并在动作水平下以波纹器推理或完整模型的训练目标进行培训。无论是Gran语言模型公司还是合并情报的研究人员/公司,所有这些都在开发In这个方向。大语言模型训练营扩展到VLA,结合了视觉和运动能力。机器人露营始于解决精细操纵的原子任务。过去,有10种动作来证明该模型的能力,但是现在您需要涵盖100、200或500个任务。在大量任务的积累过程中,我们发现简单的缝制任务是无效的,并且需要有效地执行跨模块合并的VLM编码器和解码器。两种力量在VLA末端共同努力。 Yang Shan Hang:现在,VLA处于真实开花状态,例如人工智能第一天的象征和连通性,但慢慢地伴随着研究过程。目前,Gemini Robotics,Nvidia Groot N1,Hi Robot,Helix等人正在研究双系统,并启动了相应的演示。也许这种双重系统是任何人都可以感觉到在附近实现或概括的设计未来,但是很难在将来说。 VLA包括各种动作。关于三个主要操作任务,过去研究最多的操作(VLN)以及与类人形机器人相关的运动,我们认为我们认为最需要进入该领域的原子核的技术瓶颈能否?高杨:我认为目前的推理非常困难。执行复杂的任务时通常需要推理。 Zhao和Yang等学术界也对VLA和推理的结合进行了很多研究,但我认为这仍然是不确定的,最好的道路是最好的。另一个核心挑战是数据。数据的当前大小远低于由VLM训练的数据的大小,更重要的是,您的多样化不够多。我们收集的大多数数据都来自简单的环境。从理论上讲,当有无限的数据时,可以很容易地解决VLA问题,但实际上存在C的问题。希肯蛋,“不适当模型的功能是有限且有限的模型功能,这会导致数据收集的难度。”解决数据困境的方法是VLA研究的最高优先级。张上香:推理能力和数据无疑是一个巨大的挑战。您想让Yaodong的老师分享什么,中央技术面临什么? Yang Yaodong:VLA目前的训练仍处于分裂状态,大脑和小脑分别接受训练,几乎没有结束 - 端训练。这与Brainhuman和小脑之间的双向相互作用不同(小脑执行的反馈实时在大脑上行动),现有的双系统体系结构是培训产品而不是生理结构。它连接到末端训练的方式很重要。如果基本策略(作为传播模型)与更高级别的体系结构断开了连接,则很难连接。 Tsinghua RDT,PI等。他们试图探索极端体系结构(PI被冷冻但具有结束功能),但是打开大脑和大脑是一个相对重要的问题。另一个问题是,语言模型在测试时间(输出行为供应输入和SEMA)(形成闭路电路)中不断计算优化的推理能力(要形成闭路),这是大型模型只允许中间信号(嵌入式/代币/条件)(IM.MIM.PRESS小型输出动作和缺少“试用时间计算”的小型输出动作。为了克服这一点,请从语言模型的经验中学习,将极端到最终的体系结构与增强的学习结合,使VLA赋予附近推断对行动空间的能力。尽管这个技术方向正在关注,但工程实施(结合GAO教师提到的数据问题)是VLAS MU的核心问题紧急解决。否则,它可能只是模块拼接的产物,并且很难解锁融合智能的真正潜力。第二个问题是如何通过在语言模型中观察到的方法,通过在训练开始后使用强化学习的方法来显着提高推理能力。在VLA中,所有推论的特征都来自VLM,但是语言模型强大的推理特征的大多数原因都可以计算测试时间,因此它始终可以在试用时间进行思考,并且可以在语义空间中创建闭路电路。但是在VLA的情况下,现在较大的模型会产生某种镶嵌,文件,状态等,然后,当小型模型的大脑生成动作时,它就会消失。无法证明时间的计算。实际试用时间计算是视觉或指示和输出动作。该动作必须返回VLA以形成闭路电路。此外,试验时间的计算机功能得到了改善,从而完全改善了整个行为动作空间的概括,精度和鲁棒性。在此背后必须克服的技术困难是如何使用端 - 端架构来改善您的知识和增强学习和培训的知识,以复制语言模型取得的成功。尽管该技术地址正在关注,但是工程学的实施以及GAO教师提到的数据问题是需要紧急解决VLA的核心问题。否则,它可能只是一个模块剪接产品,并且可以智能地融入智能,难以完全释放这种情况。张上香:实际上,我的下一个问题是如何结合加强学习以提高关闭反馈能力。 Yaodong博士首先回答了我。对于Zhao教授来说,您认为VLA的中央瓶颈是什么? Zhao Xing:各种VLA,平行,系列,段,中间输出等。我刚才提到的几乎是简单的非环境图。理想的VLA必须允许三种视觉模式,DE语言和动作形成闭路。 Yaodong大师非常清楚地解释了这一点。另一个可能的挑战是,在实施实际应用程序时,您不希望整个系统以单个频率运行。这不仅在经济成本方面存在问题,而且在系统的最佳水平上都存在问题。从哺乳动物的角度来看,动作控制需要高频移动才能获得快速的感知反馈,但是高级别的闭路频率应较低。从第一个原则开始,我们需要设计与人类类似的高频自适应电路系统,但这仍然是一个完整的主题。张上香:您提到的是高频和低频。这是螺旋桨碎片的组合吗? Zhao Xing:是的,Helix的设计,其独特的循环体系结构(例如VLM)被冷冻。机智霍特(Hout)培训,这只是一个随着行动而扩展的政策模型。这是一个系列,但我认为这可能不是最好的。我需要再次喂食动作,但是当我返回时,两个不同频率系统如何实现闭路电路?我认为这是一个相对较大的挑战,因此,当然,我希望最终有一种结束训练的方法。 RL A VLA:系统级别的闭路设计实际上非常重要。 Yaodong刚刚提到了增强学习的结合。 VLA之前已经有很多,这也反映了某些概括和推理技能。但是,提到的理论可能需要进一步改善,例如将其与增强学习结合在一起。这可能是个好主意。首先,将其添加到将更好的VLA与增强学习结合在一起的方式中。 Yang Yaodong:对于此类问题,没有“运动”解决方案。无论是系列还是DeepSeek系列,都有一个comp莱特工程管道在开发语言模型推理模型的角度背后。这不是通过运行RLHF或GRPO​​来解决的,其中包括多个链接,例如冷启动,迭代蒸馏,数据制造,合成等。我们与Lingchu实验室合作的尝试显示了最初的结果,但无法实现最终结果。从数据的角度来看,与单个空间的问题相比,连续动作空间的研究更加困难。以Alphago为例,只有3000万个人类行动样本(大约160,000场比赛)可以解决个体控制问题,例如国际象棋。 Helix使用500小时的数据,转化后达到1亿至5亿。可以通过数十个数据来解决离散问题,但是质量和多样性对VLA培训和增强效应有严重影响,尤其是在具有智能手动操作的连续行动空间,MOST VLA仍然乞求。回顾语言模型的开发,早期的教学监控需要数百万个数据,现在成千上万的零件可以取得良好的结果。数据需求经历了“更多”到“更少但更多”的阶段。肯定几乎没有下降的发展,但是在这个阶段,在此阶段,不可能理解结构。当前的数据收集主要使用受监控的学习想法。例如,可以通过远程操作获得捕获路径。它可以用于寒冷的开始,并且具有良好的小脑政策,但与大脑和小脑相关的增强加强加固的范式不同。 Afortunaly,现为ISSAC健身房,ISSAC SIM等,它们提供免费的合成数据,并允许您在大量虚拟环境中进行训练。结合使用SIM,它适应了真实的技术。数据问题有望减轻。但是,仍然很少回报在方法场景中,RCH和重要的挑战是使用强化学习来实现自我合成和数据自委托,尤其是在智能手术中。张上香:谢谢您分享Yaodong。上述点非常令人兴奋:当VLA与强化学习结合在一起时,数据准备不应遵循自动监视的训练框架,而应以自我结构为导向的模型以及以alpha零道路以及通过自我-in的alpha零道路来改善棋子 - 必须在Alphago之后进行自我-in-付费。作为增强学习领域的专家,您能否要求Gao的老师更好地结合两者的ORNA?高杨:我认为加强学习是开发VLA的唯一方法。 VLA的开发可能会经历这三个阶段,因为大语言模型在训练之前开始并通过GPT-1进行了调整后的渐进式SFT和精细的RLHF调整。 RLHF的工作原理与独特的语言模型相似,以减少HAllucination和动作错误。但是,尚未解决许多问题。例如,在VLA的RLHF中,您如何鼓励作为摇篮行动?对于机器人,哪种连续动作序列符合COT标准?这些概念没有很好地定义,并且正在我们的实验室进行调查。将强化学习应用于物理机器人和模拟器之间存在固有的区别。在真实的物理世界中增加学习会面临挑战,例如安全性和数据量,并且需要急切的研究和求解。一旦克服了这些挑战,机器人就可以在现实世界中实现独立培训。张上香:正如高高(Gao)大师所说,有一种方法可以使用VLA Pre-Leisure调整下游任务,该任务结合了RL和VLA,并使用对真实机器上的在线强化学习。目前,这仍处于早期探索阶段,并且有各种各样的想法。 Zhao老师如何看E增强和VLA学习的组合?构建它是匹配它的更好方法? Zhao Xing:讨论一个没人能提及的任务。我们已经对完整机器人体的运动进行了大量研究,从四个腿机器人到控制人类动作运动。这个强化学习领域表明,强化学习是可行的,可以训练低级控制,例如启用机器人跑酷,舞蹈,拳击等。查看上部,通常使用VLA模型,但这具有更大的推论步骤。从未来的发展角度来看,强化学习和VLA模型往往不可避免地整合,并且通过强化学习训练的模型的梯度有机会从控制模型重返上层VLA模型。但是,必须更彻底地探索集成的具体细节。真实数据,模拟数据或Internet数据? Jang Shang Kang:是的,这无疑是一个非常有趣的研究地址。 RL可以不仅有助于VLA,而且VLA还可以进食RLS以优化运动控制。现在每个人都提到数据,我已经准备了一个相关的问题。类似于π0.5和Xu Huazhe报告中显示的数据金字塔,下层是Internet数据,中间层是来自拟象的数据,上层是反映多个来源数据中训练有效性的真实机器数据。我想问所有老师,如果您使用真实的机器数据进行VLA培训,这些数据是否混合在一起?如果您选择混合,您如何匹配?如何在不同的训练阶段选择数据(训练前,调整,训练后)?让我们先谈谈,高。高杨:我认为数据的多样性是最重要的。一旦我们在文档中提出了“模仿学习中的数据量表方法”,“绝对数据的体积不是核,而多样性是优先事项”。据此,我对仿真数据非常悲观。仿真数据是EAS大量生成的illy也可以通过域随机化来增加随机性,但是目前,对象是它是CT类型还是Interac Interac formtiva,无法复制物理世界的丰富多样性。因此,模拟数据可用于近似训练,模拟器和数据集(例如某些跟踪器)也可以在实际应用中获得某些结果。但是,除了简单的捕获和本地运动控制外,仿真器功能远非现实世界的复杂性,当它们参与复杂而通用的操纵任务时。因此,我认为在真实场景中收集的丰富的Internet图形数据,人类视频数据和远程数据应该是VLA培训数据的主要来源。张上香:我在征服情报会议上听到了他的报告。我该如何呈现? Gao Yang:Qianxun Intelligent正在探索如何使用Internet数据优化VLA模型。典型的tasK是为了提出轨道性ITA(ATM)的任意建模。从互联网上的人类活动视频的关键点上删除运动信息,并让模型预测这些关键点轨迹并学习人类行为模式。通过调整先前训练的模型,其概括能力得到了显着改善,尤其是在适应场景和对象类型的识别时。互联网数据丰富而多样,我们认为该地址有很大的潜力,我们认为尚未对大量数据进行全面研究。张上香:我同意数据和模型相互补充。如果您想更好地使用较低成本的Internet数据,则模型设计要求很高。另外,当使用高成本的真实机器数据时,模型设计可能更简单,更直接。关于数据,GAO的老师表示Simu的数据不够现实,培训辅助是有限的d。我想问另外两名老师,您是否同意这一观点,还是对VLA数据,尤其是模拟数据有不同的看法?你在做吗? Yang Yaodong:您可以添加一些东西。首先,我也认识到Internet数据的重要性,但是像财务数据一样,信号 /噪声比率较低。互联网数据包括人的行为轨迹和操作视频,但它们对几种任务方案的适用性却大不相同。例如,该方法是在夹具的处理研究中,因此视频的人类运动很难直接移动到机械末端的效应子,即使它们移至上肢,它们也对实际操纵也有用。在Lingchu Intelligence的实践中,如果您想将智能手的末端复杂的末端loograre升级,那么互联网数据不是很有效,而是Exoesqueleto团队收集的精确数据,这可以有效地改善经过真实培训后,SIM到VLA的表现。这种看法与传统的学术研究角度不同。通常,人们认为数据越多样化,越好。文档通常在交叉和交叉任务阶段显示模型的性能,但这是一个错误的想法。太多的无关数据将稀释重要信息并降低模型策略的性能。尽管通用人工智能(AGI)需要集成多个数据以提高性能,但通用情报仍然非常独立,并且融合的智能甚至更低。在某些任务方案中,这些更高的维度和更广泛的数据确实是纪童。这是我们真正赢得的经历。张上香(Zhang Shanghang):嗯,Yaodong提出了有关互联网数据的几种不同想法。杨教授想添加或讨论吗?高杨:我同意。实际上,我在Internet上计数数据,但只有1%的数据有用,大量数据无效,因此需要大量数据清洁。只有捕获人操纵对象和对象之间相互作用的视频数据才是有价值的。这与大型语言模型不同。大型语言模型还必须清洁数据;即使没有清洁,他们也可以训练公平的模型。互联网视频数据应在培训前进行彻底和广泛的清洁。张上香:是的,互联网数据很容易获得和宝藏,但是您必须找到一种探索珍贵作品的方法。关于Internet和VLA培训中的仿真数据,Machinena的真实数据的价值是不可能的。赵教授,您如何看待这个?这是与老师现在相同的观点,还是有区别? Zhao Xing:首先,Gao Yang的愿景类似,并且对仿真数据感到悲观。建立完全现实的模拟环境太困难了,不仅是V还需要相同的现实,但也需要几何,物理和行为现实。真正的差距从SIM卡增加。但是,后来发现,计算机视觉领域(例如Gaussnaulf 3D)中可区分的表示技术降低了这一差距,并可以解决对象质地和几何可靠性的问题。我认为,模拟数据的作用是放大真实数据。以Xinghai表中的作品为例,通过封闭电路链接“ Real Tosim到Real”,首先拍摄机器人场景的视频,然后执行几何重建和新的透视重建,然后对场景进行分解并重组以完成数据的成长。这是根据现有数据而不是从空中创建数据的扩展。如今,视频生成模型正在逐渐增加。全球收集的辅助和实际数据很重要。张方康:是的,我深深地sed。在去年八月的世界机器人会议上,我和我参加了论坛。我很兴奋,并告诉我,Xinghai列表将发布来自Real2sim2real(从现实到模拟和现实)的相关成就。正如他所说,如果模拟数据足够现实,它们的价值将大大提高。诸如3D高斯之类的技术有助于重建并将模拟带入现实。但是,我一直在考虑模拟物理特性的问题。虽然3D高斯技术在外部水平上可能非常抗性,但物体的物理定律,例如重力,摩擦,质地的触摸,材料的重量和表面纹理的细节,似乎有很长的路要实现非常现实的模拟。如果模拟数据更有价值,那么在包括这些物理属性在内的各个方面的现实是足够的,是否足以接近外观? Zhao Xing:是的,Real Technology2SIM2Real和协作培训是一个在广泛的概括概念中解决特定问题。例如,SIM2REAL间隙在视觉纹理,几何,物理动力学和行为方面具有差距。现在,这些技术只会尽可能缩小可视化差距。概括问题(例如物理和行为相互作用)也需要技术来克服最后的SIM2REAL差距。如何改善概括?张上香:好吧,让我们继续讨论sim2real(从模拟到现实)和概括问题。我们讨论了以前的VLA的推论能力,但是概括功能也非常重要,老师经常在报告中提到它们。那么Wefurther如何改善现有VLA的概括?这包括概括特征,例如本体,完整的场景,完整的任务和完整的对象。我想请老师提出建议。 Sensei Gao可以先谈谈吗?高杨:大。e使用视觉语言数据的最简单,最直接的方法的连接训练量。例如,添加与培训相关的几个数据还可以输入视频并使用辅助损失功能。在提高概括功能方面,无论是大型还是视觉语言模型,该算法都没有奇迹。这主要用于以几种方式生成大量数据。其中一些来自现实世界,部分是通过模拟方法获得的。当模型接触到各种各样的数据时,您自然可以学会避免神经元网络中的某些Atasjos并推广到新场景。使用VLA,这方面没有太大差异。 Yang Yaodong:我认为有一个值得思考的角度。这意味着使用VLA作为更大的模型来扩展概括能力。从数据角度,模型架构和培训中,数据是多样的,模型C的体系结构变化以及培训需要从极端到尽头等等加强学习。例如,当涉及大型语言模型时,很难训练模型和大型人。班级的力量在于它能够不断学习新的在线技能。这将迅速适应大语言模型测试期间的计算,培训或对齐方式,即新的结构,任务和对象,并会迅速适应而不会移动重量。这在小脑中特别重要,因为人的小脑非常塑料,并且具有操纵儿童的能力。例如,一个13或14个月大的孩子可以在看到一些表现之后学会扭曲时钟。目前,纯语言的最大模型中有一些很好的迹象。例如,约翰·舒尔曼(John Schulman)说,在模型接受了一定级别的培训之后,他在俄罗斯发现了一个错误。他用20个相应的英语DAT调整了错误一个。因此,我们需要遵循下一个代范式。也就是说,如何在没有出色战斗的情况下快速学习新技能,也就是说,一些TTT范式,例如算法历史。值得注意的是,研究生命中性网络可塑性的方法。此外,必须克服“大脑和小脑”模型的现有认知局限性。这种看法可能是由于商业化和公共化或投资者而更单方面和任意的,这使每个人都可以理解“大脑和小脑”的概念。但是,人类的生理机制很复杂。根据对“小脑”的分析,呼吸和跳动为例,它必须属于小脑,但实际上它是由脑干控制的。今天的VLA,无论是螺旋桨还是π都缺乏类似于“脑干”的结构。因此,建筑创新非常重要。这可能是实现强大的概括能力和促进VLA的关键在下一阶段进行大规模发展。当然,我们需要做得很好,以优化数据,密集培训和当前认知的实现,但是要实现真正的概括需要更多的努力。 Zhao Xing:我认为机器人将来会有多种方式,例如地球的生物。它可能不是必需的脑模型或VLA。训练后或在Yadon的老师提到的测试时间后的培训范式更适合于合并情报。与追求普遍性的自动驾驶汽车不同,机器人拥有自己的身体和工作空间。例如,亚马逊最近展出的仓库机器人使用双触觉双面监视来减少对视觉视觉的依赖并提高某些任务的效率。但是,您需要一组完美的工具,包括培训前的控制点,培训后的培训工具和试用时间。该工具可以从特定方案收集少量数据,并且最终,以99.9%的成功解决此问题。在培训后,必须在培训和开发范围之前对数据收集进行注意。机器人本体论的合法化也可以集成,以在战略训练的同步和本体论参数的调整方面取得进步。最终目标是让所有类型的机器人在各种情况(例如生物多样性)中有效运行。 Zhang Shanghang:Zhao的老师回顾了这样的概括,即做好不应限于单个模型,而是需要使用通用系统或工具来协调算法,数据和本体论的设计。我们观察Xinghai图形和物理智能之间的合作,它们的文档还包括本体论和硬件使用。调整,这让我想到:VLA是否需要适应特定的配置?如果所有机器人设置都不适合VLA型号,并且您想改进genallizati在功能上,可能需要设计设计。例如,Yadon教师提到的智能自由自由增加了VLA实施的复杂性。使用三个手指是否进一步鼓励完成概括任务?简而言之,我想与我的老师争论:VLA与本体论组成设计之间的关系是什么?我是否需要设计一系列特定的配置或配置系列来使VLA更加精确和广泛?我们在几个国家机器人中进行实验,发现这种现象。我们还希望倾听具有在行业中丰富经验的老师,并参与本体的设计。高杨:这个问题非常有趣。从理论上讲,VLA模型和机器人本身并不一定是链接的,并且具有不同手臂和手的机器人可以执行任务。但是首先,我们必须承认硬件具有固有的局限性,并且VLA无法通过SE物理限制。例如,双手无法操作专为五个人体手指设计的剪刀。其次,如果VLA的特性足够强大,则每个本体的硬件限制都可以完全使用。最后,当涉及本体论数时,我认为将来可能只有少数一般的本体论。在商业和建筑成本中,单独制作每个本体的VLA都太贵了。即使是强大的VLA,也需要大量的练习来改变不同的本体论,而与其他机器人进行改变也很昂贵。因此,它很可能由少数具有一般配置的机器人主导,从而降低了硬件,软件和算法的开发的一般成本,并耗尽了多个任务的功能。有能力这样做的趋势。在设计Ontologiía时,Chihiro的目标是允许机器人完成90%-95%的任务,涵盖COST并将其广泛使用。我们的机器人使用具有柔性接头的完整体力控制设计。强度控制功能对于机器人与现实世界的相互作用很重要,例如弗兰克力量的控制机器人臂通常在学术界使用。为了平衡第一代产品的能力,我们选择带轮的底盘而不是牛脚的类型,因为带有轮子的底盘具有较高的继承,它具有较小的足迹,并且不容易受到空间的限制。这是我们的基本逻辑。张上港:力控制确实非常重要。您想讨论本体论组成的设计与VLA模型的设计之间的关系?实际上,我们非常担心Lingchu。我也感谢Yaodong老师最近的支持。 Chen Yuanpei将与我们合作开发Lingchu的手和武器来完成收银员的工作,并且预计它们将在Zhiy一起展出UAN会议。 Yang Yaodong:我不是一个典型的化身智能研究员。我知道一些敏捷策略。从2022年聪明的手来判断,这是一个非常具有挑战性的问题。一方面,它意味着高度的自由管理。另一方面,传统的模仿学习很难解决,无法直接应用Internet数据,因此我们从一开始就选择了强化学习路线。这种做法表明,强化学习在两个手动调整和操纵任务方面具有重大影响。在2022年,我们还获得了高速释放和两只手的连接。这种经验使得拥有基因模型很难。设计通用VLA来解决手的智能操作问题并完全解决了两只手的操作问题,这是非常困难的。人的大脑不能直接将左手的经验应用于左手的人,使在模型参数级别上实现技能和轨迹过渡变得更加困难。在悬挂后的旅行成本很高。建议使用垂直域数据和特定硬件体系结构的培训方法自定义模型。因此,Lingchu的研究没有使用统一的末端-DIND模型,而是设计了基于硬件的外骨骼收集设备来收集大量数据培训,以针对特定情况,例如等待时间套餐,Scancode更换等。将VLM的常识与物理接地连接能力相结合,它获得了更多的D-技能和概括,即传统机器人在这些情况下以及特定的营销潜力,但是在人类中实现95%的日常任务之间存在很大的差距。从宏观的角度来看,每个人现在都在辩论伟大的模特代理商。山姆·奥特曼(Sam Altman)表示,在代理商可以完成3%的人类任务时,AGI将完成。这是因为繁殖GDP是​​大数字。但是,化身智力仍然远非该目标,而且已经令人惊讶的是,它可以完成0.3%的人类任务。这需要深入整合行业,学术界和研究,并探讨各种应用程序方案。包括GAO和Zhao老师在内的许多科学研究人员都非常重要,包括Zhiyuan进行的Robomind项目。如果他们能成功,他们将为国家甚至人类做出巨大贡献。 Zhang Shanghang:Sí,“对模型,硬件和系统本体”的数据实际上需要链接和努力来结合多个感兴趣的各方,并最终形成一个生态系统。与赵先生有什么要分享的吗? Zhao Xing:起初我深入思考这个话题。 Xinghaitu首次提出了“本体论的智能定义”,但这并不完美。这里的“智能”涵盖了智能模型的算法,获取数据的困难和数字可以解决的问题。正如高(Gao)的老师所说,这些因素共同解决了适当的本体论,可以解决95%至95%的塔德德玛尔(Tareadeademar)。然后,在第一阶段,我们选择了带有双臂轮和下巴的机器人形式。这还可以促进智能模型中数据的控制和收集,并处理许多任务。将来,我们将逐渐添加复杂的组件,例如技能之手。它符合我们的身份,认为机器人生态系统将来将是丰富而多样的。但是,在强迫症一方,对于家庭消费者而言,类人动物是人类世界中的“最大共同除数”,可以解决更多问题,这使其更有可能成为常见的类人动物机器人。在TOB方面,商业和工业场景中有一些常规机器人。对于特定的应用方案,培训后,它们会通过Traini进行详细的转换,以作为特定应用方案的武器扩展和轮毂的扩展在测试时间和本体论和任务的测试时间和法律上。这是我们的总体想法。长期任务和Jianshanghang的商业实施:在过去的20分钟内有一个非常担心的问题。这是长期任务。通常,VLM用于分解任务长TOI取消原子任务并在VLA中执行它们。但是,VLA可以做原子任务吗?我可以直接完成长距离任务吗?目前,相关研究很少,而且大多数VLA仍然执行短暂的任务。我想问所有人,VLA是否有可能独立完成长距离任务?如果是这样,我们应该朝这个方向看吗?如果实施,我该如何避免通过VLM的初始分解模式,让VLA执行简短的任务?高杨:我认为这不是必须解决的最关键和最紧迫的问题。如果VLA可以完成许多简短的任务,则可以将其与更高的任务程序员结合使用以求解最真实的P棘手。当时的主要挑战是协调计划者和VLA。 GPT和其他程序员的使用直接意味着它不了解限制功能的VLA,但是您可以使用少量警告来降低级别可能会很差,因为它允许您掌握级别的功能限制。这种任务分解的方法不是最佳的,但是足以处理90%至95%的任务。因此,尽管这个问题是研究值,但建议您首先创建一个基本框架,然后进行详细的研究。张方康:我明白。高的老师认为,这不是迫切需要解决的优先事项。因此,Yoodong认为VLA需要尝试解决长期距离任务吗?我认为与大脑模型进行分解是足够的。 Yang Yaodong:我认为这是一项非常紧迫的工作。当我建立Lingchu实验室时,我邀请了专门从事VLA推理的老师Liang Yitao北京大学的模特。从NVIDIA的语音系统来看,第一代不合并的端粒是Minecraft Agents。虽然没有太多操作鼠标和键盘的自由,但是在开放环境中,任务很复杂。一年多以前,通过语言代理,Minecraft的VLA使用了自我反射,校正,繁殖和其他技术,使他可以在不犯错的情况下玩3-4个小时。与机器人操作相比,许多机器人操作视频约10-15秒。对于诸如超市补充之类的复杂任务,篮子里可能有20或30个物体和成千上万个SKU(库存保留单元),并且运营过程超过10-15秒。对于现有VLA来说,这是一个巨大的挑战。如果您无法纠正错误和替换,则任务的成功率将大大降低。当Lingchu发展大脑和小脑时,VLA的推理能力是非常首选的。最近,我做了一个恶魔Majong用手的手3。机器人臂不仅需要计算字母,而且还需要考虑各种原子动作,例如如何理解字母。没有极端到极端的情况,仅取决于VLM或强大的推理模型的VLA并结合了COT的功能(Incorping of Thought)无法解决问题。这就是您玩Majong的方式。在诸如填充,扫描代码以包装和对材料进行分类之类的方案中,该机器也是必需的。张上香(Zhang Shanghang):就VL而言,当然值得回到我们上面提到的闭路电路,它可以同时具有记忆和未来预测性评论的闭环,然后完成一项超长任务。 Zhao大师,您认为VLA最近的研究应该集中在这类长期任务上吗?如果需要,我该如何继续? GAO和Yaodong的老师提出了一些想法。什么观点? Zhao Xing:在我们的研究中,我们支付了更多的关注n具有运动能力本身。毕竟,尽管语言和视觉相对清晰,但很难定义长期推理。我们已经看到了许多视觉语言的合理参考点,但是视觉语言的运动没有参考点。这迫切要求学术界定义,正式化和学习以及所有努力。机器人任务的井井有样。例如,在进行调查时,如果您想让机器人煮咖啡,为什么要使用VLA型号?为什么不编写自己的状态机,训练一些动作,然后将它们连接起来解决问题?作为审稿人,我还问那些在文章中写的人为什么应该使用VLA解决问题。毕竟,现有的状态机可以通过编写100个法规来处理所有情况。因此,迫切需要VLA字段,因此我们可以知道VLA的长距离任务是什么。长期任务不仅显示出不适当的功能,例如执行t他采取行动,自适应控制和恢复,但也知道由于推理失败而失败的步骤。当前,在机器人VLA推断的真实模型中尚无明确的结论,但这非常重要。张上香:是的,Zhao大师也分享了他以前从未讨论过的水平。这是定义和评估推理技能的一种方式。 Zhao Xing:是的,现在每个人都认为这很长,但是就任务的复杂性和验证所需的逻辑推理能力的复杂性而言,这是一个问题。我认为更好。张上香:定义,评估,评估确实很重要。到目前为止,我们已经讨论了包括RL在内的VLA模型的建筑设计,数据和培训策略,但尚未讨论的问题是其生产。对于直播观众来说,这也是一个更有趣的问题。以及基于回归的最简单导演(Robomamba,RoboflamINGO)。同时,载体和传播用于鲁棒动作输出(Hybridvla)。您如何看待这些输出范例的发展?高杨:从推论的角度实时,我相信流动的扩散和巧合是必不可少的。关于是否通过培训之前的以下令牌预测,取决于技术的发展。对于战斗和传播训练速度,需要更多的研究和探索,是否可以改善。 Yang Yaodong:我认为令牌化很重要,因为我想探索实现特定思想链(Caconcrete MA)和测试计算机的方法。要将其用作基础,无法将动作输出转换为模型的入口,并且无法执行测试时间计算。因此,我们详细研究了几种令牌化形式。这是将大型模型的成熟技术范式移至SHO的最快方法RT -Term VLA培训,允许将大型模型的体验迅速应用于VLA。但是,有许多工程问题。特别是,令牌化的格式和表征具有很大的影响,最大的不便是速度的问题。这将测试其工程设计。您可以使用碎片方法避免使用并探索混合方法。当前,自我代表性的形式仍然很重要,因为诸如扩散之类的方法尚未显示出创建推理模型Pottentes的明确趋势,可以从设计角度提供模型推理能力。 Jang Shang Kang:您认为混合结构是在不久的将来比较有希望的事情的一种方式吗? Yang Yaodong:也许是从Lingchu推出的VLA的角度来看,我们仍在执行自动网络表单。主要目的是证明试验时间的计算,这是我们的方法。张方康:每个人的注意我S也不同。赵如何看待VLA的退出范式? Zhao Xing:当前的扩散模型非常流行,还研究了它们的原理和方法。扩散模型显示了Wensheng图片和Wensheng视频领域的强大功能,但是在训练之前尚未证明其价值,尤其是在多模式的前学前。 Wensheng现有的大部分图形或Wensheng视频模型都使用编码编码的文本来提取功能,并将其用作从图像和视频中的噪声中生成的条件。本质上,它是关于训练较大的解码器,并且尚未被证明用于训练多模式或交叉杂种。相比之下,在代币的下一个预测方法中,在VLM研究中,许多任务分割了图像贴片,并在线性投影后将它们放入大变压器中。此方法可以取得良好的结果。至少目前,我们可以看到,在培训之前,令牌的预测非常可靠。那里Re,我更喜欢考虑自动恢复方法,例如此时更有希望的研究路线。张上香:好的,我认为最后一个问题也是实现情报的结果,每个人都非常感兴趣。许多投资者和教师可以在哪些情况下实施构成远程秘诀的第一步?亲爱的老师在行业,学术界和研究的整合方面做得很好,并仔细研究了该行业。那么,您是否要实施将首先合并的情报?是工业,家庭,医生还是其他?高杨:我认为在实施和应用方面,工业场景最容易实现。尽管VLA具有广泛的观点,但其能力仍处于早期阶段,并且适合在需求更加紧迫的情况下实施。从传统机器人的四种主要家庭情况来看,工业生产是最多的机器人的生产是一项业务。例如,大多数装配线可实现高机器人自动化,工业客户认识机器人提供的价值。相比之下,B-E商业客户过去很少使用机器人,并且不了解机器人应用的重要性和预期有效性,这使得它们难以接受。此外,工业场景相对简单。因此,工业场景是VLA实施的第一个选择,无论是客户的场景还是经验的复杂性。张上香(Zhang Shanghang):是的,我的老师和我高阳和赵Xing之间的相似性非常关注汽车行业,因为我以前曾自主驾驶并与汽车制造商合作。您认为哪些着陆场景更有前途? Yang Yaodong:这个问题确实非常困难。这是因为它着重于合格的双手的研究和发展,以及较低的PAR的问题人形机器人的t是无关紧要的。就像莫拉维克(Molawik)的悖论一样,在合格的操纵领域,它看起来像是一项简单的任务(例如用螺钉枪螺钉螺钉),但是很难用合格的手实现。从概括,精度和其他维度来看,很难完全模拟人类的操纵。因此,工业装配线中有许多手动操作,但是替换机器人并不容易,必须尝试很多。从今年整个行业的角度来看,中国目前拥有约50-100家智能家具公司,去年约有100亿个投资。在此阶段,每个公司都必须尝试不同的场景来探索可以提高生产力,产生出色成果,获得利润并具有套房积分的方案。一方面,生产力确实可以提高。另一方面,您也可以赚钱。我认为这三个圈子里没有很多统一的技能。这不是一个原位我们可以突然生产,促进和隐藏大规模的Ation。从工业的角度来看,TOB和TOC适用于机器人应用的工业场景,但工业机器人每年仅生产600,000个单位,生产量有限。预期存在很大的差距。在TOC领域,人形机器人具有很高的希望,但是实际应用的功能尚不清楚,并且在此阶段很难实施。还有一个TOBC模型。这意味着机器人被出售给B端的C-Den服务(欢迎客人,咖啡溢出等),以及娱乐(Yanko Dancers,Parade Robots)等新场景可以具有开发空间,例如用于人造火灾的无人机。目前最大的挑战是低机器人力量。在选择应用程序方案时,必须考虑规模和影响。即使您创建了一个小小的场景,也没有商业价值。这些是一些我的。思考。张方康:是的,您仍然需要耐心。由于不同的公司正在探索不同的方案,因此无需满足相同的风格,并且创建一个完整的生态系统非常好。那么赵教授如何看待着陆现场? Zhao Xing:每个体现情报的公司都会深入思考这个话题。我们的结论是,这一代通用机器人不应与传统的机器人或设备竞争,而应该打开新的线索。传统机器人具有较高的节奏和高精度。新一代通用 - 可使用机器人应避免高精度和高级任务。它主要集中在精度要求较低的任务上,但需要概括功能。这种类型的任务在工厂中非常普遍,例如处理不规则形状,不确定位置甚至灵活对象的低任务节奏。现有技术可以解决它们。然后我们相信有更大的操作商业世界中的港口。商业场景任务对精度和节奏的要求也很少。在这些情况下,机器人不仅可以提供实用的运动价值,而且还可以提供情感价值,大约80%的实际价值和情感价值从20%到30%。这种情况是一个很好的入口。张上香:谢谢您在这里分享。所有老师都对实施实践和场景都有深远的看法。今天,我交换了所有预先建立的问题。我要感谢教我的三位老师。通过这个回合的台面论坛,我们相信公众将受到科学研究,行业和应用的启发。报告通常在最后30分钟和两个小时的详细沟通特别有价值。我希望能看到未来老师的更多令人惊讶的结果。我们还希望加强我们的互动并加深与您的合作。今天的交流在这里结束,谢谢大家!为了进行更多掺入和智能的故事,添加leifeng.com作者anna042023进行交流。 leifeng.com(公共帐户:leifeng.com)