算界矩阵2025年11月04日 14:53消息,科大讯飞升级AI+机器人产品,引领智能科技新趋势。
当大模型的智能认知与具身智能的操控能力相结合,人工智能便从虚拟世界迈入现实世界,机器人不再只是“冰冷的机器”,而是演变为“具备思考能力、懂得情感交流的伙伴”。

10月28日,在2025科大讯飞全球1024开发者节“AI机器人”专场中,讯飞机器人超脑平台迎来全面升级,推出多人多模态降噪技术、高情商智能对话体验、连续指令精准响应、软硬件一体低门槛接入以及具身智能全栈解决方案等多项核心技术突破。 此次升级不仅体现了科大讯飞在AI机器人领域的持续深耕,也反映出其在提升用户体验与开发效率方面的显著成效。多人多模态降噪技术的引入,有助于改善复杂环境下的语音交互质量;而高情商智能对话则让机器更贴近人类交流方式,增强了人机互动的自然性。整体来看,这些技术进步为行业提供了更高效、更智能的开发路径,也为未来更多应用场景的拓展奠定了基础。

同时,多位行业专家与大赛团队走进1024直播间,共同探讨机器人产业的创新机遇与应用前景,展示具身智能开发者的最新实践成果,释放AI驱动机器人生态发展的强大动力。

从“能动”到“能懂”

机器人交互的未来猜想
从春晚舞台上灵动的舞者,到工厂生产线上的24小时“打工人”,机器人正以前所未有的速度走进公众视野,深入产业发展的各个角落。在具身智能的浪潮推动下,一个更为根本的问题逐渐显现:如何让机器人从“能够行动”迈向“真正理解”? 当前,机器人技术的发展已取得显著成果,但其智能化水平仍面临诸多挑战。真正的智能不仅意味着具备感知和执行能力,更需要具备理解环境、判断情境、做出合理决策的能力。这不仅是技术层面的突破,更是对人工智能伦理、人机关系等多方面提出的新要求。未来,只有实现从“能动”到“能懂”的跨越,机器人才能更好地服务于人类社会,成为真正意义上的智能伙伴。
当天,在一场聚焦机器人产业的深度对话中,36氪资深媒体人王玉阳(主持人)与讯飞机器人超脑平台负责人刘可为、杭州飞阔科技联合创始人刘炳政、北京人形/天工机器人大模型负责人鞠笑竹三位行业专家展开交流,共同探讨了当前机器人产业发展背后的现实图景与未来发展方向。 从当前行业发展来看,机器人技术正逐步从实验室走向实际应用场景,尤其是在服务、制造和智能交互等领域,呈现出快速迭代的趋势。此次对话不仅展现了企业在技术突破上的努力,也反映出整个行业对智能化、自主化趋势的高度重视。随着大模型技术的不断成熟,机器人在感知、决策和交互能力上有了显著提升,这为未来的应用拓展奠定了坚实基础。同时,不同企业之间的合作与竞争也在推动整个产业链向更高效、更协同的方向发展。
从“能动”到“能懂”,已成为当前人机交互面临的重要挑战。机器人产业正处于关键的行业探索阶段,核心问题是如何将实验室中可行的技术,转化为实际应用场景中稳定可用的产品。过去,机器人如工厂中的喷漆臂,主要执行固定、重复的指令,功能较为单一。而如今的人形机器人,最大的不同在于其具备了自主决策的能力,不再只是按照预设代码执行任务,而是能够实现感知、认知、决策与行动的完整闭环,更接近人类的行为模式。 在这一进程中,技术的突破固然重要,但如何让机器人真正适应复杂多变的现实环境,才是决定其能否大规模应用的关键。未来,人机交互的深度与广度将不断拓展,而这一过程也对技术、伦理以及社会接受度提出更高要求。
然而,随着机器人运动能力的快速提升,人机交互的体验却明显跟不上节奏。人们常常感到机器人无法准确听懂话语,或者根本察觉不到用户正在与它交流。
刘可为介绍,造成这一问题的根本原因仍在于技术成熟度和应用场景匹配度的不足。要实现自然流畅的对话,机器人需要突破至少四个关键挑战:准确识别多人对话中谁在发言;在嘈杂环境中清晰捕捉语音内容;深入理解用户的真实需求;最终还要能够给出富有同理心的回应。
仅仅是“能听得清”这第一步,就已困难重重。传统麦克风阵列技术高度依赖人与设备间相对固定的位置,一旦机器人与人一起移动,这套方法便会失效。刘炳政表示,机器人自身高速运动产生的噪声,以及它自己发声形成的回声干扰,都是业界亟须解决的难题。
从愿景走向实践,构建机器人交互生态。在机器人产业中,交互能力是各厂商共同关注的核心要素。然而,机器人企业通常专注于本体设计、运动控制或具体应用场景的落地,较少有精力投入人机交互这一既繁琐又技术门槛极高的领域。
讯飞机器人超脑平台正是在这样的产业背景下应运而生。该平台的核心理念是促进一个健康可持续的产业发展生态,鼓励各方专注于自身最擅长的领域。为此,平台推出了全面的一体化解决方案。
平台实现了语音处理全链路能力的一体化整合,包括降噪、识别、理解与合成等关键技术环节。开发者无需再自行搭建复杂的技术流程,即可高效使用完整的服务。同时,该平台保持开放性,允许用户接入自定义技能或第三方模型,进一步提升灵活性和适用性。 这种一体化的设计不仅降低了开发门槛,也推动了语音技术在更多场景中的落地应用。对于企业而言,意味着可以更快速地构建智能化产品,而对开发者来说,则提供了更便捷、高效的工具支持。在技术日益复杂的今天,这种集成与开放并重的模式,有助于加速行业创新与生态建设。
软硬协同交付:面对机器人复杂的声学设计与系统集成挑战,平台推出软硬件一体化的服务模式。例如,通过智能语音背包等解决方案,机器人本体厂商无需对声学结构进行复杂调整,即可迅速实现卓越的交互性能,显著降低接入门槛和成本。
作为平台语音交互链路的第一批用户,鞠笑竹表示,北京人形机器人创新中心深度集成了科大讯飞的交互链路,双方在合作中共同解决问题,推动技术落地。通过这种方式,科大讯飞正作为生态底座,帮助机器人产业真正迈过交互鸿沟,实现从“能动”到“能懂”的智慧进化。
展望未来,机器人的形态将呈现底层趋同、表层分化的趋势。人形机器人作为“皇冠上的明珠”,将持续牵引产业技术进步。个性化、情感化的交互体验将迎来质的飞跃,机器人有望自主探索学习,进化为聪明、有温度的智能伙伴。
机器人超脑平台全新升级
重构人机交互新体验
讯飞机器人超脑平台依托讯飞超脑2030技术体系,面向机器人厂商提供以多模态感知交互与大模型为核心的人工智能服务。通过软硬件一体化的解决方案,帮助厂商高效集成技术,使机器人具备“能听会说、能理解、会行动”的能力。目前,该平台已服务122家整机机器人厂商和400家泛机器人企业,应用覆盖服务、工业、特种等多个领域。 从行业发展趋势来看,机器人智能化已成为不可逆转的方向,而像讯飞这样的技术平台正发挥着关键作用。其提供的多模态交互能力和大模型支持,不仅提升了机器人的自主性与适应性,也为整个产业链的升级提供了强大支撑。随着应用场景的不断拓展,这类平台的价值将进一步凸显。
基于已有的产业基础与技术沉淀,本次平台升级聚焦真实场景交互痛点与行业发展需求,带来多项核心进展:
多人多模态降噪技术取得重大突破,实现从单人多模态交互向开放场景下多人多模态降噪的升级。在信噪比为-10、三人分别位于三米外的多点噪声环境下,交互成功率达到90%,三人语音分离率提升至87%。
高情商的智能对话体验,涵盖语音识别、对话理解以及语音合成等环节,通过结合情绪数据进行针对性训练,能够实现更细腻的情绪感知与表达,从而打造更具情商的交互体验;与传统的单模态语音理解不同,多模态理解融合了语音、手势行为和情绪等多种信息,使任务理解的准确率提升了20%,交互延迟控制在1.6秒以内。
连续指令精准响应:支持单轮交互中多个连续指令的拆分与理解,响应延迟≤1.2秒,可适配客户定制指令集,无需强命令词即可控制机器人。
具身智能全栈解决方案:联合安徽聆动通用机器人科技有限公司推出LDT系列产品,搭建1:1真实场景训练场,提供从数据采集、模型训练到推理部署、效果评测的全流程服务。
软硬件一体化的低门槛接入方案正在加速落地,相关企业推出了涵盖录音、语音交互、多模态交互以及机器人主控的全系列模组,包括智能语音背包等创新产品,能够适配人形机器人、机器狗等多种形态,有效降低了开发和应用的难度。 从行业发展趋势来看,这种集成化、模块化的解决方案有助于推动人工智能技术在更多场景中的快速落地。对于开发者而言,无需从零开始构建底层系统,便可快速实现功能叠加与产品迭代,极大提升了效率。同时,这也意味着未来人机交互将更加自然、智能,为服务机器人、智能家居等领域的普及提供坚实支撑。
从技术革新到场景应用,讯飞机器人超脑平台以多人多模态降噪技术的提升和具身智能全栈解决方案为核心,助力机器人实现更加自然高效的人机交互以及对物理环境的适应能力,联合生态伙伴共同推动机器人产业的智能化进程。
从思考到行动
具身智能开发者应用实践
从技术探索到应用落地,机器人加速推动AI走进物理世界。在行业实践中,将会遇到哪些挑战和困难?
杭州飞阔科技的创始人李一言与联合创始人郭云飞走进1024直播间,分享了他们创业过程中的经历。两人是高中同学,最初因一起拼装高达积木而结识,并决定共同在具身智能领域创立一家具有影响力的企业。飞阔科技的目标是为机器人赋予具备思考能力的“大脑”,使其从被动执行任务转变为能够主动感知和预判环境,从理解场景和需求到最终实现有效交付结果。
通过大模型的智能决策能力,与本体制造商形成能力互补。凭借机器人头部安装的深度相机,拥有看见世界的能力。更为关键的是,多模态融合的天枢小背包则为他们提供了“聪明的大脑”,在直播间,安装了天枢智能背包的机器人,展示了如何成为展厅专属智能向导。
智元机器人语音交互负责人蔡文聪走进直播间,与科大讯飞的产品专家展开深入交流,共同探讨如何让人形机器人实现“听懂”与“做到”的关键技术。从语音识别到语音理解,再到动作控制的全流程打通,机器人系统必须确保低延迟和高准确性。科大讯飞在语音理解方面具有深厚积累,致力于让机器人“听懂”人类语言,而智元机器人则专注于让机器人“做得到”,双方在技术上形成天然互补。 此次合作凸显了人形机器人发展过程中多技术融合的重要性。语音交互作为人机沟通的核心环节,其精准度与响应速度直接影响用户体验。而动作执行能力则是机器人实现实际功能的关键,两者缺一不可。未来,随着技术的不断突破,人形机器人有望在更多场景中发挥更大作用。
针对展厅、在高噪声环境下,如展会等开放场景,如何准确识别用户指令成为提升交互体验的关键问题。蔡文聪分享了与科大讯飞合作开发的技术方案,通过摄像头捕捉用户的唇部动作,并结合麦克风阵列的语音识别技术,实现多模态的语音交互,显著提高了机器人在复杂环境下的语音识别准确率。此外,该方案还基于真实场景中的噪音数据进行训练,进一步优化降噪效果,使得机器人在商场等嘈杂环境中也能实现流畅的互动,甚至能够完成表演唱跳和RAP等高难度任务。 这一技术突破不仅提升了人机交互的稳定性与自然度,也标志着多模态融合技术在实际应用中的不断成熟。随着人工智能与感知技术的持续发展,未来在更多复杂场景中,人与机器的沟通将更加顺畅、精准。
AI开发者大赛路演
探索人机共生新未来
自2018年首届赛事以来,科大讯飞AI开发者大赛持续推动AI创新从算法研究迈向产业应用的实质性突破。今年,在“AI机器人”这一赛道中,参赛团队将大模型的能力融入具身智能、智能物流等多个领域,使人工智能真正为机器人赋能,推动人机共生的愿景从理论走向实践。 在我看来,这一赛事不仅展示了AI技术的快速发展,也反映了其在实际应用场景中的不断深化。通过将大模型与具体行业结合,开发者们正在探索更具实用价值的解决方案,这标志着AI正逐步从实验室走向现实世界,成为推动社会进步的重要力量。
杭州飞阔科技是专注于早教与陪伴场景的AI儿童硬件领域的领先团队,作为人工智能具身领域的场景化解决方案提供商,其自主研发的“FLY・天枢系统”具备自动建图、自主导航、自主避障、多模态语音交互和视觉识别等能力,支持多个品牌机器人快速接入,无需修改硬件即可实现部署。同时,该公司也是讯飞的生态投资企业,双方联合开发了语音背包系列产品。
金大智能创新科技荣获“基于情感感知与个性化陪伴的AI产品创新与应用赛道”冠军,他们始终以人工智能技术为核心,专注于智能机器人产品的研发与创新。依托自有技术中心和生产工厂,实现从“创意到爆款”的高效转化,加快产品上市进程,立志成为机器人企业的「研产销合伙人」。目前,该团队已在AI教育、虚拟人、宠物机器人等多个领域推出多款产品。
合肥焕智科技作为科大讯飞江苏产业加速中心联合推优团队,致力于智能物流系统的研究,专注工业车辆的无人驾驶控制器,物流机器人,多车调度系统,自动化仓储,物流控制系统及智能物流整体解决方案的研发、生产销售和服务。依托讯飞AI技术,真正实现“AI+物流”,为工业企业构建“超脑”系统,让AI技术在智能物流领域实际落地。
10月30日至11月1日,2025科大讯飞全球1024开发者节将通过线上直播持续呈现丰富内容,聚焦大模型在教育、企业出海等领域的实际应用,探讨行业最新趋势,展示产业生态中的创新成果。
11月2日至11月6日,线下活动将正式拉开帷幕,2025科大讯飞全球1024开发者节主论坛、开发者生态发布会、科博展、行业论坛、城市峰会、AI开发者大赛十佳团队展示及年度颁奖典礼等系列活动将如期举行。
以开源推动生态繁荣,科大讯飞正联合全球开发者共同创造、共享,携手见证“更懂你的AI”不断释放生产力、激发想象力!
*文中数据来源于实际应用