基本信息
刘杰  男  硕导  中国科学院软件研究所
电子邮件: ljie@otcaix.iscas.ac.cn
通信地址: 北京海淀区中关村南4街4号
邮政编码: 100190

研究领域

研究方向:

  • 大数据与机器学习系统(System for Big Data & AI):大数据分布式计算、分布式机器学习系统;

  • 智能化软件工程(Intelligent SE):基于大模型的智能算法代码生成、面向RISC-V的代码迁移

  • 领域决策智能(Domain decision intelligence):领域知识图谱、领域大模型,地球大数据、SDG大数据, 面向科学计算、咨询、医疗、民航、法律、遥感、教育等领域的机器学习与数据挖掘算法及其分布式优化


主要工作:

  • 参与研制“可持续发展大数据平台系统”,带领团队研发的EarthDataMiner突破了超大规模遥感影像分布式计算与交互式分析云服务技术,服务科学家在线开展遥感影像及其他科学数据的智能分析处理,支持SDGs指标全流程在线计算。EarthDataMiner支持科学家在线开发SDGs指标计算算法,并将算法成果发布为web app工具,支持全球用户访问使用。依托该成果获中国测绘学会2023测绘科技进步特等奖

  • 知识图谱与问答系统相关成果在医疗、民航(航旅纵横)、法律等领域应用。

  • 作为负责人主持国家自然科学基金项目2项、国家重点研发计划课题1项、中科院科技创新项目1项、民航总局科技重大专项1项。

  • 作为负责人开展多项企业合作项目,合作方包括华为、京东、中航信、航天科工、航天科技等企业。

  • 在大数据和人工智能相关的会议期刊发表论文50多篇,获得发明专利10项。指导研究生参加大数据比赛多次获奖。

  • 计算机学会系统软件专业委员会执行委员,中科院青年创新促进会会员、江苏省研究生导师类产业教授(兼职)。

  • 广西大学、南京中医药大学联合培养硕士生导师。

  • 国家自然科学家基金、计算机学报、软件学报、中国科学院大学学报、AAAI等审稿人。


中国科学报报道2021/9/22:“地球大数据”有了自主研发的在线分析工具

软件所官网报道 2021/9/7:    可持续发展大数据国际研究中心成立 软件所参与研制的“可持续发展大数据平台系统”正式发布



欢迎对大模型、大数据、机器学习系统方向感兴趣学生 参加推免或报考,或实习!



招生信息

   
招生专业
083500-软件工程
081202-计算机软件与理论
招生方向
大数据智能分析
机器学习系统
软件工程

教育背景

2004-09--2011-01   中国科学技术大学   博士
2000-09--2004-06   中国科学技术大学   本科

工作经历

   
工作简历
2014-07~现在, 中国科学院软件研究所, 副研究员
2011-04~2014-06,中国科学院软件研究所, 助理研究员

教授课程

机器学习系统
云计算与大数据技术及系统
大数据技术概论

专利与奖励

   
奖励信息
(1) 2023年测绘科学技术奖, 特等奖, 部委级, 2023
(2) DASFAA best paper runner-up, 二等奖, 其他, 2013
专利成果
( 1 ) 一种基于深度度量学习的一人多案关联识别方法及系统, 2023, 第 3 作者, 专利号: CN112925877B

( 2 ) 基于知识注入的双注意力网络的多模态讽刺意图识别方法, 发明专利, 2022, 第 2 作者, 专利号: CN115408517A

( 3 ) 面向关系型数据库中SQL语句执行的自动化测试方法及装置, 发明专利, 2022, 第 7 作者, 专利号: CN115344500A

( 4 ) 一种面向深度学习模型推理批处理优化方法与系统, 发明专利, 2022, 第 1 作者, 专利号: CN113902116A

( 5 ) 一种基于中医医案挖掘的中医辨证论治模式挖掘方法及系统, 发明专利, 2021, 第 5 作者, 专利号: CN113744886A

( 6 ) 一种基于深度度量学习的一人多案关联识别方法及系统, 发明专利, 2021, 第 3 作者, 专利号: CN112925877A

( 7 ) 一种面向遥感语义分割的自动化机器学习方法及系统, 发明专利, 2020, 第 1 作者, 专利号: CN111797833A

( 8 ) 一种结合业务规则的在线学习停滞预测系统, 专利授权, 2019, 第 1 作者, 专利号: CN109784578A

( 9 ) 一种基于异步贝叶斯优化的机器学习超参优化系统及方法, 发明专利, 2019, 第 2 作者, 专利号: CN109376869A

( 10 ) 一种基于Spark SQL的分布式全文检索系统及方法, 专利授权, 2017, 第 3 作者, 专利号: CN107122443A

( 11 ) 一种基于迁移学习的疾病领域间病人相似性度量迁移系统, 专利授权, 2017, 第 1 作者, 专利号: CN106934235A

( 12 ) 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法, 发明专利, 2015, 第 2 作者, 专利号: CN105069560A

( 13 ) 一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统, 发明专利, 2014, 第 1 作者, 专利号: CN103761111A

( 14 ) 一种数据处理流程代码的生成方法, 发明专利, 2011, 第 3 作者, 专利号: CN102033748A

( 15 ) 一种分布式系统运行时的监视数据传输方法, 发明专利, 2011, 第 4 作者, 专利号: CN102014162A

( 16 ) 一种ETL流程中异常数据检测方法, 发明专利, 2009, 第 1 作者, 专利号: CN101533407A

出版信息

   
发表论文
(1) CSTCN: A Novel Causal-Based Framework for Air Quality Medium- and Long-term Prediction, 2023 IEEE 35th International Conference on Tools with Artificial Intelligence (ICTAI), 2023, 通讯作者
(2) Fixing robust out-of-distribution detection for deep neural networks, IEEE International Symposium on Software Reliability Engineering, 2023, 通讯作者
(3) EasyPip: Detect and Fix Dependency Problems in Python Dependency Declaration Files., The 35th International Conference on Software Engineering and Knowledge Engineering, SEKE, 2023, 通讯作者
(4) 第三方库依赖冲突问题研究综述, 软件学报, 2022, 通讯作者
(5) Cloud-based storage and computing for remote sensing big data: a technical review, International Journal of Digital Earth, 2022, 第 7 作者
(6) 面向问题意图识别的深度主动学习方法, Deep Active Learning Method for Question Intention Recognition, 中文信息学报, 2021, 第 3 作者
(7) Meta-graph Embedding in Heterogeneous Information Network for Top-N Recommendation, IJCNN 2021, 2021, 第 3 作者
(8) FaasRS: Remote Sensing Image Processing System on Serverless Platform, IEEE Computer Society Signature Conference on Computers, Software and Applications(COMPSAC), 2021, 通讯作者
(9) DeepCon: Contribution Coverage Testing for Deep Learning Systems, 28th International Conference on Software Analysis, Evolution, and Reengineering (SANER), 2021, 通讯作者
(10) Semi-supercised emotion recognition in textual conversation via a context-augmented auxiliary training task, Information Processing and Management, 2021, 通讯作者
(11) Identity-linked Group Channel Pruning for Deep Neural Networks, International Joint Conference on Neural Network(IJCNN), 2021, 通讯作者
(12) Semi-supervised emotion recognition in textual conversation via a context-augmented auxiliary training task, INFORMATION PROCESSING & MANAGEMENT, 2021, 通讯作者
(13) Label Definitions Augmented Interaction Model for Legal Charge Prediction, 43rd EUROPEAN CONFERENCE ON INFORMATION RETRIEVAL(ECIR), 2021, 通讯作者
(14) EarthDataMiner: A Cloud-Based Big Earth Data Intelligence Analysis Platform, IOP Conference Series: Earth and Environmental Science 509 (1), 2020, 第 1 作者
(15) 科学大数据智能分析软件的现状与趋势, Current Situation and Trend of Intelligent Analysis Software for Scientific Big Data, 中国科学院院刊, 2018, 第 2 作者
(16) 分布式随机方差消减梯度下降算法topkSVRG, Distributed Stochastic Variance Reduction Gradient Descent Algorithm topkSVRG, 计算机科学与探索, 2018, 第 3 作者
(17) Characterizing and diagnosing out of memory errors in MapReduce applications, THE JOURNAL OF SYSTEMS AND SOFTWARE (JSS), 2018, 第 5 作者
(18) 可扩展机器学习的并行与分布式优化算法综述, Survey on Parallel and Distributed Optimization Algorithms for Scalable Machine Learning, 软件学报, 2018, 第 3 作者
(19) 基于Spark SQL的分布式全文检索框架的设计与实现, Design and Implementation of Distributed Full-text Search Framework Based on Spark SQL, 计算机科学, 2018, 第 3 作者
(20) Fine-grained Patient Similarity Measuring using Deep Metric Learning, CIKM'17: PROCEEDINGS OF THE 2017 ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, 2017, 通讯作者
(21) 一种大数据分析组件的自动化开发集成方法, 计算机应用与软件, 2016, 第 4 作者
(22) 基于多段间隔监督度量学习的病人相似度算法, Patient Similarity Based on Supervised Metric Learning of Multi-Margin, 计算机系统应用, 2016, 第 3 作者
(23) Hug the Elephant: Migrating a Legacy Data Analytics Application to Hadoop Ecosystem, The 32nd IEEE International Conference on Software Maintenance and Evolution (ICSME, CCF B), 2016, 第 2 作者
(24) 分布式文件系统元数据服务的负载均衡框架, Load Balancing Framework for Metadata Service of Distributed File Systems, 软件学报, 2016, 第 3 作者
(25) Plogs: Materializing Datalog Programs with MapReduce for Scalable Reasoning, 2016 INT IEEE CONFERENCES ON UBIQUITOUS INTELLIGENCE & COMPUTING, ADVANCED & TRUSTED COMPUTING, SCALABLE COMPUTING AND COMMUNICATIONS, CLOUD AND BIG DATA COMPUTING, INTERNET OF PEOPLE, AND SMART WORLD CONGRESS (UIC/ATC/SCALCOM/CBDCOM/IOP/SMARTWORLD), 2016, 第 2 作者
(26) Dependency-Aware Parallel Materialization of Datalog Programs with Spark for Scalable Reasoning, 17th International Conference on Web Information System Engineering (WISE’16), 2016, 第 1 作者
(27) 基于Spark的流程化机器学习分析方法, Method of Implement Machine Learning Analysis with Workflow Based on Spark Platform, 计算机系统应用, 2016, 第 2 作者
(28) A Lightweight Evaluation Framework for Table Layouts in MapReduce Based Query Systems, The 17th Asia-Pacific Web Conference (APWeb, CCF C), 2015, 第 1 作者
(29) 一种简历语义搜索系统的实现方法, SmartHR:A Resume Query and Management System Based on Semantic Web, 计算机科学, 2015, 第 4 作者
(30) 基于组件的大数据分析服务平台, Module Based Big Data Analysis Platform, 计算机科学, 2014, 第 2 作者
(31) Scalable Horn-Like Rule Inference of Semantic Data Using MapReduce, KNOWLEDGE SCIENCE, ENGINEERING AND MANAGEMENT, KSEM 2014, 2014, 第 2 作者
(32) 一种云存储服务客户端增量同步算法, Increment Based Data Transmission Technique for Cloud Storage Service, 计算机系统应用, 2014, 第 2 作者
(33) Mining user daily behavior patterns from access logs of massive software and websites, 5th Asia-Pacific Symposium on Internetware, Internetware 2013, 2013, 第 2 作者
(34) FMEM: A Fine-grained Memory Estimator for MapReduce Jobs, The 10th International Conference on Autonomic Computing (ICAC, Core B), 2013, 第 2 作者
(35) A distributed rule execution mechanism based on MapReduce in sematic web reasoning, Proceedings of the 5th Asia-Pacific Symposium on Internetware, 2013, 
(36) A Distributed Cache Framework for Metadata Service of Distributed File System, The 19th IEEE International Conference on Parallel and Distributed Systems (ICPADS), 2013, 第 1 作者
(37) Consistent query answering based on repairing inconsistent attributes with nulls, 18th International Conference on Database Systems for Advanced Applications, DASFAA 2013, 2013, 第 1 作者
(38) 基于操作日志的云存储服务多终端同步算法, Operation log based synchronization algorithm for cloud storage service with multiple clients, 计算机工程与设计, 2013, 第 2 作者
(39) A distributed cache framework for metadata service of distributed file systems, 2013 19th IEEE International Conference on Parallel and Distributed Systems, ICPADS 2013, 2013, 第 2 作者
(40) A fast and high throughput sql query system for big data, LECTURE NOTES IN COMPUTER SCIENCE (INCLUDING SUBSERIES LECTURE NOTES IN ARTIFICIAL INTELLIGENCE AND LECTURE NOTES IN BIOINFORMATICS), 2012, 第 2 作者
(41) FlowS:一种MapReduce数据流公平调度方法, FlowS:A Fair Scheduling Method for Mapreduce Dataflow, 计算机科学, 2012, 第 2 作者
(42) 基于数据流程变换的Mashup性能优化方法, Performance Optimization of Mashup Through Data Flow Transformation, 小型微型计算机系统, 2011, 第 1 作者
(43) 一种基于内容模型图的XML Schema Definition的提取方法, Novel Approach for Extracting XML Schema Definition Based on Content Model Graph, 计算机科学, 2010, 第 2 作者
(44) 基于空值修复的数据库一致性查询方法, Consistent query answering based on virtual repairs with nulls, 计算机应用研究, 2009, 第 2 作者
(45) Etl workflow analysis and verification using backwards constraint propagation, LECTURE NOTES IN COMPUTER SCIENCE (INCLUDING SUBSERIES LECTURE NOTES IN ARTIFICIAL INTELLIGENCE AND LECTURE NOTES IN BIOINFORMATICS), 2009, 第 1 作者
(46) ETL Workflow Analysis and Verification Using Backwards Constraint Propagation, ADVANCED INFORMATION SYSTEMS ENGINEERING, PROCEEDINGS, 2009, 通讯作者
(47) Efficient Consistent Query Answering Based on Attribute Deletions, CSA 2008: INTERNATIONAL SYMPOSIUM ON COMPUTER SCIENCE AND ITS APPLICATIONS, PROCEEDINGS, 2008, 通讯作者
(48) Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN, 第 2 作者
发表著作
(1) 大数据技术丛书:Hadoop集群与安全, Hadoop Cluster Deployment,Securing Hadoop, 机械工业出版社, 2014-11, 第 1 作者
论文列表

科研活动

   
科研项目
( 1 ) 云平台并行数据流程序的中间数据管理优化技术, 负责人, 国家任务, 2013-01--2015-12
( 2 ) 面向复杂情报的大数据 分析方法与决策支持, 参与, 国家任务, 2015-01--2018-12
( 3 ) 公共安全事件预警与态势决策技术:人流量预测与态势可视化, 负责人, 中国科学院计划, 2016-01--2017-12
( 4 ) 互联网+民航公共主动服务平台-民航领域问答系统, 负责人, 其他国际合作项目, 2016-09--2019-08
( 5 ) 跨地域跨层级的“一人多案”的关联预警与协同处置关键技术研究, 负责人, 国家任务, 2018-07--2021-07
( 6 ) 面向智能设备的可执行电子指令, 负责人, 境内委托项目, 2019-03--2020-03
( 7 ) 无服务器架构机器学习的计算模型与系统框架研究, 负责人, 国家任务, 2020-01--2023-12
( 8 ) 基于医疗知识图谱的交互式智能分诊系统, 负责人, 境内委托项目, 2019-05--2020-12
( 9 ) 自动化公文抓取与信息抽取系统, 负责人, 境内委托项目, 2020-07--2020-12
( 10 ) 地球大数据挖掘分析系统, 参与, 中国科学院计划, 2018-01--2022-12
( 11 ) 典型丘陵地区环境-社会系统大数据平台构建与发展 途径决策支持, 参与, 国家任务, 2024-01--2026-12

合作情况

与华为、京东、航旅纵横、中航信、航天科技创新研究院、中国中医科学院等开展项目合作

与中科院空天信息技术研究院、中国科学院计算机网络信息中心、中科院计算所、中科院地理所等院内机构开展合作

与北大、南大、北航等院校老师保持长期科研合作

指导学生

已指导学生

蔡承烨  硕士研究生  081202-计算机软件与理论  

张晨昕  硕士研究生  081202-计算机软件与理论  

全威  硕士研究生  081202-计算机软件与理论  

徐可钦  硕士研究生  081202-计算机软件与理论  

夏文浩  硕士研究生  083500-软件工程  

现指导学生

石钊霖  硕士研究生  083500-软件工程  

陈俊哲  硕士研究生  085405-软件工程  

汪毕强  硕士研究生  085405-软件工程  

郭怡然  硕士研究生  083500-软件工程