周宇-中国科学院大学-UCAS

基本信息

周宇

研究员、博士生导师

中国科学院信息工程研究所

第六研究室

InTime组负责人

InTime：INterpret Text In MEdia

InTime：文附图，一图胜千言；景嵌字，数字藏万象。

研究方向为计算机视觉、多模态人工智能、深度学习与人工智能安全，专注于：

1）可视文字处理、提取与理解

（Visual Text，含场景/文档图像文字等）

2）多模态大模型与内容生成等

3）自监督、增量与对抗学习等

电子邮箱：zhouyu@iie.ac.cn

DBLP & Google Scholar

教育经历

2009.12，哈尔滨工业大学，学士、硕士、博士

工作经历

2012.03，上海交通大学，博士后

2012.04至今，中国科学院信息工程研究所，助理研究员、副研究员、硕士生导师、博士生导师、研究员

学术论文

可视文字自监督学习增量检测其他工作

2024

Y Zhang, C Liu, Y Zhou*, W Wang, Q Ye, X Ji. "Beyond Instance Discrimination: Relation-aware Contrastive Self-supervised Learning." TMM, 2024. (SCI一区, CCF-B, PDF)
X Yang, D Yang, Z Qiao, Y Zhou. "Accurate and Robust Scene Text Recognition via Adversarial Training." ICASSP, 2024. (CCF-B, PDF)
X Yang, Z Qiao, J Wei, D Yang, Y Zhou*. "Masked and Permuted Implicit Context Learning for Scene Text Recognition." IEEE SPL, 2024. (CCF-C, SCI, PDF)
Y Shu, W Zeng, Z Li, F Zhao, Y Zhou*. "Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing." arXiv, 2024. (PDF)
J Lyu, J Wei, G Zeng, Z Li, E Xie, W Wang, Y Zhou*. "TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model." arXiv, 2024. (PDF)

2023

张言，李强，申化文，曾港艳，周宇*，马灿，张远，王伟平. "以文字为中心的图像理解技术综述." 中国图象图形学报, 2023. (PDF)
B Fang, W Wu, C Liu, Y Zhou*, M Yang, Y Song, F Li, W Wang, X Ji, W Ouyang. "UATVR: Uncertainty-adaptive Text-Video Retrieval." ICCV, 2023. (CCF-A, PDF)
H Shen, X Gao, J Wei, L Qiao, Y Zhou*, Q Li, Z Cheng. "Divide Rows and Conquer Cells: Towards Structure Recognition for Large Tables." IJCAI, 2023. (CCF-A, Oral Presentation, Acceptance Rate 15.0%, PDF)
D Yang, Y Zhou*, X Hong, A Zhang, W Wang. "One-shot Replay: Boosting Incremental Object Detection via Retrospecting One Object." AAAI, 2023. (CCF-A, Oral Presentation, Acceptance Rate 约11.0%, PDF)
X Qin, P Lyu, C Zhang, Y Zhou*, K Yao, P Zhang, H Lin, W Wang. "Towards Robust Real-time Scene Text Detection: From Semantic to Instance Representation Learning." ACM MM, 2023. (CCF-A, Oral Presentation, PDF)
Y Shu, W Wang, Y Zhou*, S Liu, A Zhang, D Yang, W Wang. "Perceiving Ambiguity and Semantics without Recognition: An Efficient and Effective Ambiguous Scene Text Detector." ACM MM, 2023. (CCF-A, Oral Presentation, PDF)
G Zeng, Y Zhang, Y Zhou*, B Fang, G Zhao, X Wei, W Wang. "Filling in the Blank: Rationale-augmented Prompt Tuning for TextVQA." ACM MM, 2023. (CCF-A, Oral Presentation, PDF)
D Yang, Y Zhou*, X Hong, A Zhang, X Wei, L Zeng, Z Qiao, W Wang. "Pseudo Object Replay and Mining for Incremental Object Detection." ACM MM, 2023. (CCF-A, Oral Presentation, PDF)
G Zeng, Y Zhang, Y Zhou*, X Yang, N Jiang, G Zhao, W Wang, XC Yin. "Beyond OCR + VQA: Towards End-to-end Reading and Reasoning for Robust and Accurate TextVQA." PR, 2023. (SCI一区, CCF-B, PDF)
C Liu, Y Yao, D Luo, Y Zhou, Q Ye. "Self-supervised Motion Perception for Spatio-temporal Representation Learning." TNNLS, 2023. (SCI一区, CCF-B, PDF)
X Yang, D Yang, Y Zhou, Y Guo, W Wang. "Mask-guided Stamp Erasure for Real Document Image." ICME, 2023. (CCF-B, PDF)
Y Shu, S Liu, Y Zhou, H Xu, F Jiang. "EI²SR: Learning an Enhanced Intra-instance Semantic Relationship for Arbitrary-shaped Scene Text Detection." ICASSP, 2023. (CCF-B, PDF)
X Sun, J Lyu, Y Zhang, G Zeng, B Fang, Y Zhou*, E Xie, C Ma. "Feature Enhancement with Text-specific Region Contrast for Scene Text Detection." PRCV, 2023. (CCF-C, Oral Presentation, Acceptance Rate 2.3%, PDF)
X Yang, Z Qiao, Y Zhou*, W Wang. "IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition." arXiv, 2023. (PDF)

2022

周宇*，吕嘉昊，申化文，王威，魏谨，曾港艳，曾维超，王伟平. "从检测、识别到理解：场景文字相关领域研究进展." 中国自动化学会模式识别与机器智能专委会通讯特约专栏, 2022. (链接)
B Fang, W Wu, C Liu, Y Zhou*, D He, W Wang. "MaMiCo: Macro-to-micro Semantic Correspondence for Self-supervised Video Representation Learning." ACM MM, 2022. (CCF-A, Oral Presentation, Acceptance Rate 5.0%, PDF)
W Wang, Y Zhou*, J Lv, D Wu, G Zhao, N Jiang, W Wang. "TPSNet: Reverse Thinking of Thin Plate Splines for Arbitrary Shape Scene Text Representation." ACM MM, 2022. (CCF-A, PDF)
J Wei, Y Zhang, Y Zhou*, G Zeng, Z Qiao, Y Guo, H Wu, H Wang, W Wang. "TextBlock: Towards Scene Text Spotting without Fine-grained Detection." ACM MM, 2022. (CCF-A, PDF)
X Chen, Y Zhou, D Wu, W Zhang, Y Zhou, B Li, W Wang. "Imagine by Reasoning: A Reasoning-based Implicit Semantic Data Augmentation for Long-tailed Classification." AAAI, 2022. (CCF-A, PDF)
D Yang, Y Zhou*, A Zhang, X Sun, D Wu, W Wang, Q Ye. "Multi-view Correlation Distillation for Incremental Object Detection." PR, 2022. (SCI一区, CCF-B, PDF)
Y Zhou, X Li, Y Zhou, Y Wang, Q Hu, W Wang. "Deep Collaborative Multi-task Network: A Human Decision Process Inspired Model for Hierarchical Image Classification." PR, 2022. (SCI一区, CCF-B, PDF)
D Yang, Y Zhou*, W Shi, D Wu, W Wang. "RD-IOD: Two-level Residual-distillation-based Triple Network for Incremental Object Detection." TOMM, 2022. (SCI一区, CCF-B, PDF)
D Luo, Y Zhou*, B Fang, Y Zhou, D Wu, W Wang. "Exploring Relations in Untrimmed Videos for Self-supervised Learning." TOMM, 2022. (SCI一区, CCF-B, PDF)
Y Guo, Y Zhou*, X Qin, E Xie, W Wang. "UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection." ICME, 2022. (CCF-B, Oral Presentation, PDF)
C Fang, G Zeng, Y Zhou*, D Wu, C Ma, D Hu, W Wang."Towards Escaping from Language Bias and OCR Error: Semantics-centered Text Visual Question Answering." ICME, 2022. (CCF-B, PDF)
W Li, D Luo, B Fang, X Li, Y Zhou*, W Wang. "Video Motion Perception for Self-supervised Representation Learning." ICANN, 2022. (CCF-C, PDF)

2021

Z Qiao, Y Zhou*, J Wei, W Wang, Y Zhang, N Jiang, H Wang, W Wang. "PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text Recognition." ACM MM, 2021. (CCF-A, Best Paper Candidate [5/1942=2.5‰], PDF)
G Zeng, Y Zhang, Y Zhou*, X Yang. "Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA." ACM MM, 2021. (CCF-A, Oral Presentation, Acceptance Rate 9.2%, PDF)
X Li, Y Zhou*, Y Zhang, A Zhang, W Wang, N Jiang, H Wu, W Wang. "Dense Semantic Contrast for Self-supervised Visual Representation Learning." ACM MM, 2021. (CCF-A, Oral Presentation, Acceptance Rate 9.2%, PDF)
X Qin, Y Zhou*, Y Guo, D Wu, Z Tian, N Jiang, H Wang, W Wang. "Mask is All You Need: Rethinking Mask R-CNN for Dense and Arbitrary-shaped Scene Text Detection." ACM MM, 2021. (CCF-A, PDF)
W Zhang, D Wu, Y Zhou, B Li, W Wang, D Meng. "Binary Neural Network Hashing for Image Retrieval." SIGIR, 2021. (CCF-A, PDF)
X Qin, Y Zhou*, Y Guo, D Wu, W Wang. "FC²RN: A Fully Convolutional Corner Refinement Network for Accurate Multi-oriented Scene Text Detection." ICASSP, 2021. (CCF-B, PDF)
G Zeng, Y Zhang, Y Zhou*, X Yang. "A Cost-efficient Framework for Scene Text Detection in the Wild." PRICAI, 2021. (CCF-C, PDF)
Y Guo, Y Zhou*, X Qin, W Wang. "Which and Where to Focus: A Simple yet Accurate Framework for Arbitrary-shaped Nearby Text Detection in Scene Images." ICANN, 2021. (CCF-C, PDF)
X Li, Y Zhou, Y Zhou, W Wang. "MMF: Multi-task Multi-structure Fusion for Hierarchical Image Classification." ICANN, 2021. (CCF-C, PDF)
H Li, Y Guo, Y Zhou*, W Wang. "Density-Net: A Density-aware Network for 3D Object Detection." ICTAI, 2021. (CCF-C, PDF)

2020

Z Qiao, Y Zhou*, D Yang, Y Zhou, W Wang. "SEED: Semantics Enhanced Encoder-decoder Framework for Scene Text Recognition." CVPR, 2020. (CCF-A, Acceptance Rate 22%, 229 Citations, PDF)
Y Yao, C Liu, D Luo, Y Zhou, Q Ye. "Video Playback Rate Perception for Self-supervised Spatio-temporal Representation Learning." CVPR, 2020. (CCF-A, Acceptance Rate 22%, 180 Citations, PDF)
D Luo, C Liu, Y Zhou*, D Yang, C Ma, Q Ye, W Wang. "Video Cloze Procedure for Self-supervised Spatio-temporal Learning." AAAI, 2020. (CCF-A, Oral Presentation, Acceptance Rate 5.8%, 161 Citations, PDF)
W Zhang, D Wu, Y Zhou, B Li, W Wang, D Meng. "Deep Unsupervised Hybrid-similarity Hadamard Hashing." ACM MM, 2020. (CCF-A, PDF)
S Zhao, D Wu, W Zhang, Y Zhou, B Li, W Wang. "Asymmetric Deep Hashing for Efficient Hash Code Compression." ACM MM, 2020. (CCF-A, PDF)
Y Chen, W Wang, Y Zhou*, F Yang, D Yang, W Wang. "Self-training for Domain Adaptive Scene Text Detection." ICPR, 2020. (CCF-C, Oral Presentation, Acceptance Rate 4.4%, PDF)
Z Qiao, X Qin, Y Zhou*, F Yang, W Wang. "Gaussian Constrained Attention Network for Scene Text Recognition." ICPR, 2020. (CCF-C, PDF)
Y Zhang, C Liu, Y Zhou*, W Wang, W Wang, Q Ye. "Progressive Cluster Purification for Unsupervised Feature Learning." ICPR, 2020. (CCF-C, PDF)
Y Zhou, Y Wang, J Cai, Y Zhou, Q Hu, W Wang. "Expert Training: Task Hardness Aware Meta-learning for Few-shot Classification." arXiv preprint, 2020. (PDF)

2019&Pre，参见DBLP & Google Scholar

竞赛奖项

ACM MM 2021, Best Paper Candidate, 5篇/1942篇, 2021
ICDAR ReST 2023，印章主体文字检测，第三名，2023
中国图象图形学学会CSIG 2022票据识别与分析挑战赛，冠军，2022
首届粤港澳大湾区（黄埔）国际算法算例大赛-街景图像店面招牌文字识别，三等奖，2022
CVPR DocVQA 2020，任务一第三名，2020
中国人工智能·多媒体信息识别技术竞赛，手写/印刷文本OCR两项高校组冠军，2019
ICDAR ReCTS 2019，“字符识别”、“端到端识别”高校组第三名，2019
CVPR SkelNetOn 2019，1项第二名，2019
ACCV IWRR 2014 最佳论文奖，2014

专利软著

发明专利

基于对抗训练的场景文字识别方法及装置，2024，受理号：202410434598.9
基于提示学习的生成式文本视觉问答方法机系统，2023，受理号：202311267037.6
基于对比学习特征增强的场景文字检测方法及装置，2023，受理号：202311298617.1
基于伪目标重放与挖掘的增量目标检测方法及装置，2023，受理号：202311216027.X
基于Transformer 的逐行扫描的表格结构识别方法及系统，2023，受理号：202311025547.2
基于掩模引导的去除印章噪声的图像生成方法及系统，2023，受理号：202310733846.5
基于单目标重放的增量目标检测方法及装置，2023，受理号：202310102438.X
无需细粒度检测的场景文本提取方法、系统，2022，受理号：202211233226.7
基于宏观到微观语义关联对比的视频自监督表征学习方法, 2022, 受理号：202211237958.3
面向场景文本检测的文本检测器训练方法及文本检测方法, 2022, 受理号：202210492865.9
一种成本高效的场景文字检测方法及系统, 2021, 受理号: 202111295077.2
单阶段3D点云目标检测方法及装置、计算机设备、介质, 2021, 受理号：202111271651.0
基于并行迭代模仿解码的场景文字识别系统及方法, 2021, 受理号：202111026162.9
文本视觉问答方法和装置, 2021, 专利号：2021 1 1186856.9
基于多层感知机掩膜解码器的文字检测系统及方法, 2021, 受理号：202111034219.X
一种面向场景图像中任意形状邻近文本的检测系统及方法, 2021, 受理号：202111004566.8
一种基于密集语义对比的自监督视觉模型预训练方法, 2021, 受理号：202110988818.9
基于全卷积角点修正网络的多向场景文字检测方法及装置, 2021, 专利号：ZL 2021 1 0235490.3
基于语义强化编码器解码器框架的场景文字识别方法，2020，专利号：ZL 2020 1 0416704.2
一种基于自训练的文本检测器训练方法及系统，2020，专利号：ZL 2020 1 0428815.5
基于高斯约束注意力机制网络的场景文字识别方法及系统，2020，专利号：ZL 2020 1 0767079.6
基于完形填空任务的视频自监督学习方法，2019，专利号：ZL 2019 1 1348018.X
基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器，2019，专利号：ZL 2019 1 0614874.9
基于特征压缩与特征选择的歪斜场景文字识别方法, 2015, 专利号：ZL 2015 1 0014950.4
一种基于三分类器协同训练学习的网络协议识别方法及系统, 2014, 专利号: ZL 2014 1 0575510.1
基于直方图和超像素的场景图像文字检测方法及系统, 2014, 专利号: ZL 2014 1 0168244.0
一种基于语义敏感的网络协议识别方法及系统, 2014, 专利号：ZL 2014 1 0652834.0
一种未知网络协议识别方法及系统, 2013, 专利号: ZL 2013 1 0189079.2
一种用户隐私信息保护方法及系统, 2013, 专利号: ZL 2013 1 0722437.1

软件著作权

基于数据手套的中国手语识别软件系统，2009，软著登记号：2009SR02392

科研项目

视听内容理解与关联技术，主持，国家重点研发计划课题，2022.12-2025.11
视觉与语义融合的场景文字检测与识别技术研究，主持，国家自然科学基金面上项目，2024.01-2027.12
印章识别及通用文字识别，主持，企业横向项目，2022.07-2024.06
场景文字检测识别引擎，主持，国家广电总局项目，2022.01-2023.12
关于印章处理和小字体识别的OCR研究，主持，企业横向项目，2021.04-2022.10
面向媒体融合与传播的富媒体信息智能提取技术，主持，国家重点实验室开放课题，2020.08-2021.07
多媒体数据分析系统，主持，某部委工程建设项目，2018.09-2019.08
实时数据检测分析系统, 主持, 国家重点研发计划子课题, 2017.10-2020.09
基于云化平台的仿冒网站检测微引擎技术研究, 联合主持, 某部委预研项目, 2014.06-2017.06
基于多示例学习和半监督学习的手势语识别研究, 主持, 国家自然科学基金青年基金项目, 2014.01-2016.12
多媒体内容取证方法研究, 参与, 国家自然科学基金重点项目, 2013.01-2016.12
海量信息分析系统, 参与, 某部委第一个自主建设重大工程, 2014.06-2016.06
文字图像中特定光学字符的快速检测方法研究, 主持, 中科院信工所自主部署课题, 2013.06-2014.06
面向复杂动态背景和可变环境的多模态手势语识别研究, 主持, 中国博士后科学基金, 2011.06-2012.06

学术服务

学术报告

2023年10月13日，“视觉与语义融合的场景文字检测、识别与理解技术”，CSIG文档图像分析与识别专委会2023年学术年会
2023年03月09日，“场景文字检测、识别与理解技术研究”，信息科学与技术前沿课，中国传媒大学
2022年09月30日，“场景文字表示与提取技术研究”，图像智能分析与应用国际学术研讨会，西北民族大学
2022年06月16日，“场景文字检测、识别与理解技术研究”，企业交流报告
2022年04月24日，“低质量场景文字识别技术研究”，中国图象图形学学会“OCR学术前沿及产业应用”高峰论坛（报告视频），在线观众峰值8000余人

专委会

中国图象图形学学会文档图像分析与识别专委会，委员

评审咨询

国家自然科学基金委，项目评审专家
国家广播电视总局，项目评审专家

会议

Area Chair: ICME-24, ICME-23, ICME-22, ICME-21, PRCV-24
SPC Member: IJCAI-21, ICDAR-24
PC Member: CVPR-24/23/22/21, ICCV-23/21, ECCV-24/22, NeurIPS-23, ICLR-24, ICML-24, AAAI-24/23/22/21, IJCAI-24/23/22, ACM MM-24/23/22/21, ICDAR-23/21, ICPR-24/20, ChinaMM-21, ...
Session Chair: ICME-21, TrustCom-14

期刊

Reviewer: IEEE TIP/TMM/TCSVT/TITS/MM, ACM TOMM, PR, CVIU, IJPRAI ...
审稿人：JCST、计算机学报、中国图象图形学报

课程

2021年夏季学期，人工智能安全
2024年春季学期，文献阅读

学生指导

*含与王伟平研究员、马灿研究员、中国传媒大学张远教授、哈尔滨工业大学刘绍辉教授联合指导学生

*CCF-A 、SCI一区、CCF-B

*在读-斜体

杨东宝，2020级博士生（在职），发表期刊会议论文近20篇（含一作AAAI Oral、ACM MM Oral、PR、TOMM等），中科院信工所助理研究员
秦绪功，2017级博士生，一作ACM MM-23 Oral、ACM MM-21、ICASSP-21、ICDAR-19，优秀毕业生，入职南理工（教职）
陈语地，2017级硕士生，一作ICPR-20、PRICAI-19，3项国内外竞赛前三名，入职抖音
张宜飞，2018级硕博生，一作TMM-24、ICPR-20，在读
乔一峙，2018级硕士生，一作ACM MM-21 Best Paper Candidate、CVPR-20、ICPR-20，院长奖提名、国奖、优秀毕业生，入职好未来（SSP Offer）
罗德昭，2018级硕士生，一作AAAI-20 Oral、TOMM-22，国奖、所长特别奖、优秀毕业生，QMUL龚少刚教授博士生
李晓倪，2019级硕士生，一作ACM MM-21 Oral、PR-22、ICANN-21，三好学生标兵，入职北京银行
过友辉，2019级硕士生，一作ICME-22、ICANN-21，入职科大讯飞（飞星计划）
曾港艳，2020级博士生，一作ACM MM-21 Oral、ACM MM-23 Oral、PR-23、PRICAI-21，入职南理工（教职）
王一威，2020级硕士生，一作ACM MM-22，CSIG 2022票据识别与分析挑战赛冠军，国奖，第二届中国图象图形学报研究生学术论坛优秀报告，入职上海人工智能实验室
方一波，2020级硕士生，一作ICCV-23、ACM MM-22 Oral，国奖，香港城市大学博士生
魏一谨，2020级硕士生，一作ACM MM-22，入职联想研究院
杨欣烨，2020级硕士生，一作ICME-23，入职中科院软件所
李一强，2020级硕士生，一作ICANN-22，入职重庆赛力斯技术有限公司
申化文，2021级硕博生，一作IJCAI-23 Oral，CSIG 2022票据识别与分析挑战赛冠军，在读
舒一言，2021级硕士生，一作ACM MM-23 Oral、ICASSP-23，多伦多大学博士生

最新主页