
解决痛点问题
具身智能处于快速发展阶段,但缺乏统一、开放且可复现的基准测试方法,面临智能水平和应用成效的评价难题。具体包括:
测试任务碎片化。目前基准测试方法大多是针对特定任务的狭义测试,如基于VLM的推理能力、基于强化学习策略学习能力等,缺乏对具身智能关键能力的系统性评估。
泛化衡量标准混乱。测试任务难度分类和泛化评估协议不统一,难以公平比较不同系统能力和泛化性。
测试任务面临规模化和现实性难题。依赖于仿真平台构建的测试任务难以跨平台兼容,依赖真实场景构建的测试任务难以跨本体适用,且现有任务以学术界研究为主,与实际产业需求脱节。
重要标准列表
MIIT/TC1 WG6具身智能工作组聚焦产业发展需要,围绕具身智能标准体系推进系统研发支撑、系统智能技术、系统集成、系统应用和安全保障方向标准化工作。
展开剩余71%重点标准解读:《2024-1328T-YD 人工智能 关键基础技术 具身智能基准测试方法》
当前,具身智能处于从实验室走向真实场景演练的关键阶段,WG6工作组组织行业头部企业、科研机构和高等院校研制《2024-1328T-YD 人工智能 关键基础技术 具身智能基准测试方法》,旨在构建一套符合实际应用需求、全面分析并客观评价具身智能能力的标准化测试体系,包括环境设置、测试任务库、测试过程和指标计算四个关键部分。
环境设置:主要包括执行测试前的3D交互式仿真测试环境和真实环境部署要求。其中3D交互式仿真测试环境要求涉及3D物体资产、本体仿真模型和环境属性;真实场景部署涵盖工业制造、商业零售、应急安全、家庭服务、医疗健康等不同行业。
测试任务库:主要包括构建方法和泛化评估基准设置。其中构建方法要求任务库应包含原子技能、基础任务和长线程任务,设置泛化评估基准,评估感知、决策和行动全链路的泛化能力,并针对评估能力项,选择测试任务子集、设置干扰因素,评估被测对象不同能力维度的性能表现和任务泛化性。
测试过程:主要包括测试对象和测试方式,其中测试对象包括模型和已部署模型的整机系统,测试方式包括静态仿真测试,动态仿真测试,真实环境测试和组合式测试。
指标计算:主要包括任务成功率、任务执行效率、人工干预率、任务扰动衰减率和平均任务能耗。
具身智能基准测试框架
标准国际化及应用情况
标准国际化:中国信通院积极做好国内国际标准接轨工作,由该行业标准转化的国际标准《ITU-T F.BA-EAI Framework for benchmarking and assessment of embodied artificial intelligence systems 》已在ITU-T SG21获得新立项批准。
企业应用情况:目前已联合21家单位完成首批2000多条测试任务库共建,涉及300多种任务类型,覆盖工业、家庭、零售、物流等场景,开展模型和部署模型的整机系统测试,并同步推动真机测试和现实任务评价,开展真实环境“应试教育”,加速具身智能从实训走向实用。后续,将持续联合产业共建测试任务库,共同探讨面向行业需求的评价准则,开展虚实结合测试。
来源:工信部人工智能标准化技术委员会
发布于:江苏省美港通证券提示:文章来自网络,不代表本站观点。