一、所属领域
工业大数据,交互式大数据处理与分析
二、项目介绍
1. 痛点问题
多年来,工业大数据领域大数据分析算法和模型都是基于大量代码实现,效率低,难以实现快速开发。同时,工业大数据处理分析模型处理过程多由多个算法通过一定的计算流程构成,计算流程复杂多变,迫切需要一款支持灵活定制和快速开发的处理分析技术来支持工业大数据处理分析。
2. 解决方案
清华数为交互式大数据处理与分析技术针对工业大数据处理与分析任务的交互式探索、建模、调试和应用而设计。根据CRISP-DM设计原则,一般大数据处理与分析分为业务理解、数据理解、数据准备、建模、评估和部署等阶段,各阶段相辅相成,形成一个大数据处理分析生命周期。
图1. 交互式大数据处理与分析技术设计思想
本成果技术基于上述CRISP-DM的设计思想而设计,完全支持大数据处理与分析生命周期。该技术的特点包括:
(1)内置数百种通用和专用的大数据分析算法和模型,并提供了按需扩展机制,用户可以按照自己的需要随时添加和扩充,以支持客户特定的大数据应用需求;
(2)支持拖拽方式构建处理与分析流程,完全图形化设计大数据处理分析计算流程,并能在设计过程中进行单步/多步运行调试,查看中间结果,实时调整运行结果,以获得用户期望的处理分析结果;
(3)支持机器学习模型训练及使用,内置了机器学习模型训练框架,一般机器学习模型在该技术的支持下,可以实现快速训练,训练结果可支持进一步的大数据处理与分析;
(4)支持数据处理与分析流程参数化,在其提供的内部数据处理与分析算法模板中,用户通过算法模板可以开发面向Java、Python的算法,并集成和扩展到该技术的算法集合,实现按需定制处理分析;
(5)支持数据画像和学习模型可视化,以图形化的方式定制数据画像的方法模型,并以二维和三维图表的形式展示给用户;
(6)支持批处理、流处理和流转批处理三种处理方式;
(7)按需定制运行计划与资源有效利用,用户可设置任务执行计划,任务执行计划定期运行,以实现周期性处理分析,方便获得持续的运行结果。
清华数为交互式大数据处理与分析技术面向多种用户角色,包括数据工程师、数据分析师、数据科学家、算法工程师、运维工程师、代码工程师等。采用分层设计,分为客户层、服务层、计算层。
客户层包括流程建模调试工具,用户可用工具图形化拖拽式设计处理与分析计算模型,并可进行调试和查看中间结果;管理工具,针对服务层所调用和访问的计算框架或者外部系统进行管理,包括对于数据源、计算环境、存储环境等的管理工具。
服务层主要包括流程调度服务,即负责按照用户所设定的工作计划来定时调度执行计算模型;执行服务,是负责执行处理分析计算的模型和算法的服务;计算资源管理服务负责管理执行服务中所能集成的所有的服务,如计算框架和存储设施等。
计算层是执行服务在执行处理分析算法和模型中所访问的外部服务,包括计算组件或框架,以及持久化存储组件或者系统等。
图2. 交互式大数据处理与分析技术架构
本成果的交互式处理与分析技术较好地解决了工业大数据处理分析工作中所遇到的问题和痛点,并且能够广泛应用于多个行业和领域中,如能源、矿山、医疗器械、装备制造业、消费品制造业、工程机械行业等。
3. 竞争优势分析
与同类技术相比,应用本成果技术到数据分析领域,使得工业大数据分析预测应用服务具有操作简单,易用,用户学习门槛低,准确度高,能够良好地支持多个领域分析需求等特点。
4. 市场应用前景
该项技术应用到装备制造业、工程机械、医疗器械等领域后,支持构建通用的大数据处理和分析平台,对于推动形成数据分析平台的核心技术,实现企业数字化转型和智能化升级都有极大促进作用,基于该技术设计开发的软件产品在多个行业具有巨大的推广价值,该项技术具有很好的市场应用前景。
5. 发展规划
该项技术将在上述行业进行推广落地,通过作为大数据处理分析平台的核心技术积累行业实践经验,逐步走向成熟,实现技术产品化,期待为中国大数据产业做出更大的贡献。
6. 知识产权情况
已申请2项专利、1项软件著作权。
三、合作需求
期待与工业、医疗等领域企业紧密合作,获得各领域的实际需求,促使该技术不断完善和升级迭代,走向成熟。
未来将在工程机械行业、医疗机械行业、矿山行业、装备制造行业、互联网电商行业等寻求更多的成果转化、深度合作机会,在合作基础上,推动上述行业领域实现数字化转型和智能化升级,为国家实现“双碳”目标做出清华贡献。
四、团队介绍
团队负责人:闻立杰,清华大学软件学院副教授,博士生导师。主要研究领域:自然语言处理、大数据处理与分析、业务过程智能。
团队由从事自然语言处理、大数据处理与分析、业务过程智能的1位副教授、7位博士、8位硕士、3位本科、2位工程师组成。在ACL、AAAI、SIGIR、ASE、EMNLP、COLING、BPM、CAiSE、CIKM、IEEE TSC、DMKD、DKE等发表论文160余篇,谷歌学术引用4000余次。
团队负责人主持国家重点研发计划课题2项、主持国家自然科学基金2项、参与国家NSFC/973/863计划子课题十余项、国家核高基重大专项课题1项。获国家发明专利、软件著作权十余项,获BPM 2015最佳学生论文奖(亚洲首次)、CBPM 2017/2018/2020/2021最佳(学生)论文奖。流程挖掘相关论文已被收入国际教材和学术专著,译著3部。获2014国家科技进步奖二等奖(排名6)。现任国际会议ACL、AAAI、SIGKDD、EMNLP、CAiSE、ICSOC、BPM程序委员会委员,CBPM指导委员会成员、IEEE过程挖掘工作组XES标准化小组委员(中国唯一),曾任BPM程序委员会资深委员。主导研发交互式大数据处理与分析平台FloK、流程挖掘工具THMiner,研究成果已在中国移动、中国气象局、天远科技、中车四方所获得初步应用。
五、联系方式
E-mail:ott@tsinghua.edu.cn
成果编号:2022033
注:所有成果发布内容未经授权,请勿转载!
授权请联系yaoxiahan@tsinghua.edu.cn