基本信息

郭海云  女  硕导  中国科学院自动化研究所  

紫东太初大模型中心 模式识别国家重点实验室 

入选北京科协青年人才托举工程


电子邮件: haiyun.guo@nlpr.ia.ac.cn

通信地址: 北京海淀区中关村东路95号自动化大厦

邮政编码: 100190


郭海云,中国科学院自动化研究所-紫东太初大模型研究中心副研究员、硕导,新加坡国立大学访问学者(合作导师 新加坡科学院院士 Chua Tat Seng),CSIG多媒体专委会委员、交通视频专委会委员、青托俱乐部成员、BSIG青工委委员。2018年博士毕业于中科院自动化所,师从CSIG会士卢汉清研究员与王金桥研究员。研究方向:计算机视觉、多模态内容分析与检索、多模态大模型和智能体。主要围绕开放世界多模态可信智能,研究多模态细粒度对齐与表征、可信推理与幻觉抑制、持续学习与自主进化,并面向城市治理、科学研究等领域应用验证。目前在 TIP、TNNLS等期刊和CVPR、AAAI、ACL、ACM MM等会议发表论文 40 余篇,Google Scholar 引用 2100 余次。授权国家发明专利20多项,牵头制定行业标准2项。获得北京市自然科学二等奖、欧洲图形学会议三维目标检索竞赛第一名、国际车辆重识别竞赛冠军、吴文俊人工智能科学技术进步二等奖、中科院“科苑名匠”团队成员等10余项荣誉。主持科技部重大项目课题2项、省重点研发课题2项、国家自然科学基金项目1项、北自然重点项目子课题1项,作为技术骨干参与国家及省部级项目10余项。参与研发的“紫东太初”大模型荣获世界人工智能大会最高奖-SAIL奖、参与研发的“秦岭秦川”交通大模型获得昇腾AI创新大赛金奖。


招生信息:课题组长期招收自驱力强、数学与编程基础扎实、对多模态大模型、智能体有浓厚研究兴趣的研究生及本科实习生,课题组情况介绍 https://nlpr.ia.ac.cn/iva/homepage/jqwang/index.htm。课题组长期与海内外高水平大学、AI研究机构保持密切合作,包括新加坡国立大学、悉尼科技大学、清华大学、中国科学技术大学、东南大学、武汉大学、鹏城实验室、武汉人工智能研究院、武汉理工大学等。

研究领域

多模态大模型

多媒体内容分析与检索

持续学习与自主进化

AI4Science

招生信息

   
招生专业
081104-模式识别与智能系统
081203-计算机应用技术

教育背景

2013-09--2018-06   中国科学院大学   博士
2009-09--2013-06   武汉大学   学士

工作经历

   
工作简历
2024-10~2025-10,新加坡国立大学, 访问学者(合作教授Chua Tat Seng)
2020-10~现在, 中国科学院自动化研究所, 副研究员
2018-07~2020-10,中国科学院自动化研究所, 助理研究员
社会兼职
2024-08-31-今,中国图象图形学学会, 交通视频专委会委员
2023-12-01-2023-12-31,2023年全国大学生机器人大赛评委, 评委
2023-04-10-今,BSIG女科技工作者委员会, 委员
2021-12-19-今,中国图象图形学学会, 机器视觉专委会委员
2020-08-01-今,中国图象图形学学会, 多媒体专委会委员

教授课程

图像与视频检索

出版信息

发表论文40余篇,其中一作或通讯作者论文30余篇,包括TIP、TNNLS等顶级期刊论文,CVPR、ICML、ACL、ACM MM、AAAI、ECCV、EMNLP等国际顶级会议论文,谷歌学术引用2100余次,单篇论文最高引用近500,7篇论文引用过百。完整论文列表请查阅DBLPGoogle Scholar 。授权国家发明专利20多项。牵头制定行业标准2项。

发表论文(部分已发表论文:)
(1) ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving, arxiv, 2026, 第 2 作者
(2) ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval, CVPR, 2026, 第 6 作者  通讯作者
(3) Rethinking Representativeness and Diversity in Dynamic Data Selection, arxiv, 2026, 第 3 作者
(4) R-Diverse: Mitigating Diversity Illusion in Self-Play LLM Training, ICML, 2026, 第 9 作者  通讯作者
(5) Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration, arxiv, 2026, 第 6 作者
(6) PixCLIP: Achieving Fine-grained Visual Language Understanding via Any-granularity Pixel-Text Alignment Learning, ICML, 2026, 第 2 作者  通讯作者
(7) PLUME: Latent Reasoning Based Universal Multimodal Embedding, arxiv, 2026, 第 8 作者
(8) WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval, CVPR, 2026, 第 6 作者  通讯作者
(9) MLLM-CTBench: A Benchmark for Continual Instruction Tuning with Reasoning Process Diagnosis, arxiv, 2026, 第 1 作者
(10) PASs-MoE: Mitigating Misaligned Co-drift among Router and Experts via Pathway Activation Subspaces for Continual Learning, ACL, 2026, 第 2 作者  通讯作者
(11) TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval, arxiv, 2026, 第 5 作者
(12) CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models, arxiv, 2026, 第 7 作者
(13) Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing, arxiv, 2026, 第 6 作者
(14) UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval, arxiv, 2025, 第 4 作者
(15) Referring Expression Instance Retrieval and A Strong End-to-End Baseline, ACM MM, 2025, 第 4 作者  通讯作者
(16) Steering LVLMs via Sparse Autoencoder for Hallucination Mitigation, arxiv, 2025, 第 5 作者
(17) FOCUS:Fine-grained Optimization with Semantic Guided Understanding for Pedestrian Attributes Recognition, ICME, 2025, 第 3 作者  通讯作者
(18) PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability, CVPR, 2025, 第 4 作者
(19) Semantic-aware Fine-grained Point Augmentation for 3D Multi-modal Object Detection, ICME, 2025, 第 3 作者  通讯作者
(20) Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence, ACL, 2025, 第 3 作者  通讯作者
(21) Continual Instruction Tuning for Large Multimodal Models., Ieee Transactions on Image Processing, 2025, 第 2 作者  通讯作者
(22) SEEKR: Selective Attention-Guided Knowledge Retention for Continual Learning of Large Language Models, EMNLP, 2024, 第 2 作者  通讯作者
(23) Monocular Lane Detection Based on Deep Learning: A Survey, arxiv, 2024, 第 2 作者
(24) AAformer: Auto-aligned transformer for person re-identification, TNNLS, 2023, 第 2 作者  通讯作者
(25) Bi-Level Implicit Semantic Data Augmentation for Vehicle Re-Identification, IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2023, 第 2 作者  通讯作者
(26) Learning Semantics-Consistent Stripes With Self-Refinement for Person Re-Identification, IEEE Trans. Neural Networks Learn. Syst., 2023, 第 2 作者
(27) Pseudo Label Rectification With Joint Camera Shift Adaptation and Outlier Progressive Recycling for Unsupervised Person Re-Identification, IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2023, 第 2 作者  通讯作者
(28) Learning semantics- consistent stripes with self-refinement for person re-identification, IEEE Transactions on neural networks and learning system, 2022, 第 2 作者  通讯作者
(29) Pseudo Label Rectification With Joint Camera Shift Adaptation and Outlier Progressive Recycling for Unsupervised Person Re-Identification, IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2022, 第 2 作者  通讯作者
(30) Learning Semantics-Consistent Stripes With Self-Refinement for Person Re-Identification, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2022, 第 2 作者  通讯作者
(31) Hybrid Modality Metric Learning for Visible-Infrared Person Re-Identification, ACM TRANSACTIONS ON MULTIMEDIA COMPUTING COMMUNICATIONS AND APPLICATIONS, 2022, 第 2 作者  通讯作者
(32) PASS: Part-Aware Self-Supervised Pre-Training for Person Re-Identification, ECCV, 2022, 第 2 作者
(33) Multi-granularity Mutual Learning Network for Object Re-identification, IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2022, 第 3 作者  通讯作者
(34) Unsupervised cycle-consistent person pose transfer, NEUROCOMPUTING, 2021, 第 2 作者  通讯作者
(35) Adaptive Variance Based Label Distribution Learning For Facial Age Estimation, ECCV, 2020, 第 3 作者
(36) A novel data augmentation scheme for pedestrian detection with attribute preserving GAN, NEUROCOMPUTING, 2020, 第 2 作者  通讯作者
(37) Identity-Guided Human Semantic Parsing for Person Re-Identification, ECCV, 2020, 第 2 作者
(38) Two-Level Attention Network With Multi-Grain Ranking Loss for Vehicle Re-Identification, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2019, 第 1 作者
(39) Attention couplenet: fully convolutional attention coupling network for object detection, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2019, 
(40) Cascade Attention Network for Person Re-Identification, 26th IEEE International Conference on Image Processing (ICIP), 2019, 第 1 作者  通讯作者
(41) Elite Loss for scene text detection, NEUROCOMPUTING, 2019, 第 3 作者
(42) Learning Coarse-to-fine Structured Feature Embedding for Vehicle Re-identification, AAAI, 2018, 第 1 作者
(43) Deep Embedding Network For Robust Age Estimation, 2017, 第 2 作者
(44) Scale-Adaptive Deconvolutional Regression Network for Pedestrian Detection, Asian Conference on Computer Vision (ACCV), 2016, 第 4 作者
(45) Scale-adaptive Deconvolutional Regression Network for Pedestrian Detection, 2016, 第 3 作者
(46) Multiple deep features learning for object retrieval in surveillance videos, IETCOMPUTERVISION, 2016, 第 1 作者  通讯作者
(47) Multi-View 3D Object Retrieval With Deep Embedding Network, IEEE TRANSACTIONS ON IMAGE PROCESSING, 2016, 第 1 作者
(48) Learning Multi-view Deep Features for Small Object Retrieval in Surveillance Scenarios, ACM Multimedia, 2015, 第 1 作者
(49) Learning Deep Compact Descriptor with Bagging Auto-encoders for Object Retrieval, ICIP, 2015, 第 1 作者
(50) Learning Multi-view Deep Features for Small Object Retrieval in Surveillance Scenarios, ACM International Conference on Multimedia, 2015, 第 1 作者  通讯作者

指导学生

   
指导研究生

1. 2018-2023. 朱宽,博士研究生,模式识别与智能系统(联合培养,发表论文TIP2019、ECCV2020、ECCV2022、TNNLS2022、TNNLS2023,获得2019年IEEE VCIP国际车辆重识别竞赛冠军和2020年度国家奖学金,毕业去向:字节跳动seed)

2. 2018-2021. 温馨,硕士研究生(非全日制),人工智能(发表论文ECCV2020,毕业去向:国防科技大学读博) 

3. 2019-2022. 凃鸣非,硕士研究生,计算机应用技术(联合培养,发表论文TITS2022,毕业去向:香港科技大学广州分校读博) 

4. 2019-2022. 伍虹燕,硕士研究生,计算机应用技术(联合培养,发表论文MMM2022、PRCV2023,获得2021年度国家奖学金)

5. 2019-2022. 吴畏,硕士研究生(非全日制),人工智能

6. 2020-2022. 闫天翊,硕士研究生(非全日制),人工智能(发表论文ICPR,毕业去向:澳门大学读博)

7. 2020至今. 李巍,博士研究生(北京交通大学联合培养,发表论文4篇,获得2021年度一等学业奖学金)

8. 2021至今. 安泓岩,硕士研究生(非全日制),人工智能(发表论文ICME,trans期刊在投论文1篇,毕业去向:国科大联培读博)

9. 2021至今. 何鑫,硕士研究生(非全日制),人工智能(发表PRCV论文1篇,车道线检测综述论文1篇,毕业去向:国科大联培读博)

10. 2021至今. 贺靖涵,博士研究生,模式识别与智能系统(发表论文IEIR2023、EMNLP 2024、ACL2025、EMNLP 2025、TIP2026)

11. 2023至今. 郝祥兆,硕士研究生,计算机应用技术(发表ACM MM论文1篇,CCF A类在投论文3篇)

12. 2023至今. 侯智严,硕士研究生,计算机应用技术(发表ACL论文1片,CCF A类论文在投1篇)

13. 2023至今. 郭鸿宇,硕士研究生(北京交通大学联合培养)(CCF A类论文在投1篇)

14. 2024至今. 杨天宇,硕士研究生,模式识别与智能系统(发表CVPR2026论文1篇)

15. 2024至今. 李会瑞,硕士研究生(非全日制),人工智能

16.2024至今. 龙晋升,硕士研究生(非全日制),人工智能

17.  2025至今. 肖以成,硕士研究生,计算机应用技术(发表ICML2026论文1篇)

18.2025至今. 李庚晟,硕士研究生,模式识别与智能系统(发表ICML2026论文1篇)



指导实习生

1. 2018. 吴卉尧(本科实习),发表ICIP论文1篇,荷兰埃因霍芬理工大学读研

2. 2018. 孙逸晨(本科实习),美国波士顿大学读研

3. 2022. 徐东宇(带本科毕设),中国科学院自动化研究所读研

4. 2022. 徐铭远(硕士实习),发表TITS论文1篇,字节跳动工作

5.2024. 肖以成(本科实习),保研中科院自动化所

6.2024. 陈宇(本科实习),保研中科院自动化所

7.2025.周钰喆(本科实习),保研东南大学

8.2025. 王世杰(本科实习),保研中科院自动化所