数码视讯AI感知多模态让机器人拥有“看懂”世界的眼睛

科技每日财经网 2025-12-3 15:14

长期以来，机器人视觉主要依赖单一摄像头或简单图像识别算法，在光线变化剧烈、遮挡复杂、目标多样的真实场景中，往往“力不从心”。面临识别不稳定、误报率高、难以理解语义意图等问题。在机器人、智能制造和智慧城市加速发展的今天，视觉能力已经成为机器人“智慧程度”的关键衡量指标之一。

构建“感知+理解+决策”的综合处理能力

数码视讯（股票代码：300079）依托多年视频与AI技术沉淀，积极推进“AI感知多模态”机器人视觉解决方案，为各类机器人提供从“看得见”到“看得懂”的新一代感知底座。公司研发中的AI感知多模态方案，通过融合视觉、语音、深度信息以及各类环境传感器数据，让机器人不再只依赖“单一画面”，而是拥有一套更接近人类的“感知+理解+决策”的综合处理能力。

从感知层上，方案支持多类型摄像头、相机、麦克风阵列、雷达等多种传感器接入，实现图像、语音、距离、运动状态等多源数据采集；在理解层，基于多模态融合模型，将视觉、语音指令和场景语义进行统一特征对齐与融合，完成目标识别、场景解析、行为理解等任务，为上层业务提供结构化感知结果；在决策层，结合机器人运动控制与业务逻辑，对路径规划、抓取动作、人机交互策略进行智能决策，使机器人在复杂环境中保持稳定、可靠的执行能力。

推动多场景落地，助力机器人成为真正的“伙伴”

依托数码视讯在边缘计算和视频AI算法上的深厚积累，该方案可灵活部署于多类型终端或平台，在保障实时性的同时，兼顾功耗与成本，在众多应用场景中都具备发展潜力。

服务与陪护机器人：融合视觉与语音识别，实现对用户身份、表情和语言指令的综合理解。机器人可以根据场景（如家庭、养老机构、商场）自动调整交互策略，提供更自然、更人性化的服务体验。

安防与巡检机器人：在弱光、雨雾、逆光等场景下，通过多模态融合进行目标识别与行为分析，并结合传感器数据实现温度异常检测、设备状态监测等，为园区、厂区、交通枢纽提供全天候智能巡检能力。

工业与仓储机器人：在复杂工位和混合货物环境中，通过多模态感知实现精准定位、智能抓取与动态避障，显著降低人工干预频次，提升作业效率与安全性。

特种与户外机器人：在户外复杂地形、无GPS或弱信号环境中，利用视觉、深度和环境传感数据的融合，提高对地形、障碍物的辨别能力，为应急救援、危险环境作业提供更高的安全保障。

此外，数码视讯的AI感知多模态机器人视觉解决方案，可为机器人厂商、系统集成商等提供标准化接口与定制化算法服务，实现降低自研多模态算法与系统集成的门槛和成本、帮助合作伙伴快速构建差异化产品，缩短从方案设计到量产落地的周期等积极效果。未来，公司还将持续推进多模态感知与具身智能、端云协同大模型的深度结合，携手生态伙伴共同打造新一代机器人智能感知平台，让机器人真正成为人类在生产生活中的“智慧伙伴”，为智能制造、智慧城市等行业注入新的发展动力。