一种场景和目标感知与理解技术-清华大学技术转移院

面向产业界

当前位置：首页 > 面向产业界 > 成果发布 > 信息领域 > 正文

一种场景和目标感知与理解技术

2022/02/21

一、所属领域

计算机视觉、智能感知、医疗健康等

二、项目介绍

1. 痛点问题

场景、目标对象的感知与语义理解在医疗健康、运动培训等领域具有广阔的应用前景，其核心是如何在像素级、对象级、场景级多层次、多尺度表示下实现语义、几何及空间关系的透彻感知。

现有计算机视觉方法或激光雷达等手段无法同时获取多个维度的高质量场景与目标信息，同时现有的深度估计、语义分割、位姿估计等相关技术，存在识别精度低、提取不到关键信息、应用场景单一等问题，无法满足大尺度场景应用的需求。

2. 解决方案

团队提出多模态采集、时空复用编码摄像方法，获取大景深、高时空分辨、丰富的精确场景视觉信息；提出一种基于物理空间推理和语义关联建模的动态场景深度估计方法，综合语义信息、几何结构信息以及时空间信息进行滤波，实现复杂动态场景的无先验深度估计，将观测目标与背景进行区分；提出一套从图像和视频中预测目标的位置和姿态的方法，包括迭代匹配的深度网络、基于物体三维坐标的旋转/平移解耦、自监督6D模型等，克服了遮挡、光照变化、视觉歧义与数据标注依赖等因素的影响，可以准确估计目标相对相机的 6D 位姿（3D平移量和3D旋转量）；构建了基于全卷积网络和兴趣区域的多目标实例检测与分割框架，有效的解决了复杂类别、场景遮挡情况下的多目标实例分割问题，能够实现同时对场景中多个目标检测与分析。

3. 竞争优势分析

与现有的同类技术相比，本项目在景深、时空分辨率、成像畸变等指标上具有明显优势，并能实现快速校准；通过综合语义信息、几何结构信息及时空间信息，提高了场景目标深度估计的稠密度与准确性；位姿估计中的旋转、平移的解耦表示方法与自监督框架，提高了位姿估计的准确性与实时性，并解决了对大量带位姿标注的真实数据的依赖；多目标实例检测与分割框架，能够同时对场景中多个目标实现检测与分析，从而构建了高效的场景与目标感知和理解技术框架。

4. 市场应用前景

本技术成果有着广泛的应用前景，包括医疗健康、运动培训等，具体包括医院健康评估、职业体育训练、运动康复训练、大众健身等，通过拓展可进一步支撑数字孪生、地理测绘、VR/AR等领域的应用需求。

5. 发展规划

《“健康中国2030”规划纲要》中指出到2020年，健康服务业总规模超过8万亿，到2030年将达到16万亿，着重提出要发展健康服务新业态和建设健康信息化服务体系。本项目将进行产业转化和国产化装备研制，具有广阔的市场应用前景。

6. 知识产权情况

已申请相关发明专利3项，获得授权1项。

三、合作需求

寻求医疗健康服务、医疗器械等领域有相关技术开发、市场推广经验，能推广本技术落地的高科技企业，可以进行深度合作。

四、团队介绍

季向阳，清华大学自动化系教授，博导。主要从事视觉信息获取与处理、计算机视觉、机器学习等方面的研究，先后承担科技部“新一代人工智能”重大专项、国家自然科学基金仪器项目等，近年来发表高水平学术论文100余篇，获授权发明专利60余项，曾获2019年国家科技进步二等奖（第一完成人），2018年中国电子学会技术发明一等奖（第一完成人）。

五、联系方式

E-mail：ott@tsinghua.edu.cn

成果编号：2021195

注：所有成果发布内容未经授权，请勿转载！

授权请联系yaoxiahan@tsinghua.edu.cn

上一篇：“图智”-PDF工程图AI识别与审查重建系统 下一篇：一种高精度稠密室内场景重建技术

相关链接：