基本信息

张鹏远  男  博导  中国科学院声学研究所
电子邮件: zhangpengyuan@hccl.ioa.ac.cn
通信地址: 北京市海淀区北四环西路21号
邮政编码: 100190

研究领域

语音合成与变声

伪造语音检测

语音识别与理解

情感识别

丰富音频检测

语音信号处理

招生信息

   
招生专业
081002-信号与信息处理
085400-电子信息
招生方向
语音识别与理解,语音合成,音频鉴伪
丰富音频检测
水声信号处理

工作经历

   
工作简历
2016-03~现在, 中国科学院声学研究所, 研究员
2015-10~现在, 中国科学院大学, 岗位教授
2013-04~2014-03,英国谢菲尔德大学, 公派访问学者
2010-01~2016-02,中国科学院声学研究所, 副研究员
2007-07~2009-12,中国科学院声学研究所, 助理研究员

教授课程

语音识别技术
语音信号处理
语音识别与理解

专利与奖励

   
奖励信息
(1) 智能语音能力平台关键技术及其在智能客服行业应用, 二等奖, 省级, 2019
(2) 中国科学院杰出科技成就奖, 一等奖, 院级, 2014
专利成果
[1] 张鹏远, 王猛, 颜永红. 一种音频场景识别方法、系统及装置. CN: CN113793622B, 2023-08-29.
[2] 周军, 白兴, 张鹏远, 颜永红. 一种实时图像语义分割装置及分割方法. CN: CN111626298B, 2023-08-18.
[3] 黎塔, 缪浩然, 张鹏远, 高圣翔, 黄远, 沈亮, 林格平. 一种基于自适应热词权重的语音识别方法及系统. CN: CN111354347B, 2023-08-15.
[4] 王文超, 张宇翔, 周军, 张鹏远, 陈树丽. 一种语音检测模型训练和语音检测方法. CN: CN116597818A, 2023-08-15.
[5] 张学君, 万辛, 付瑞柳, 黄远, 张鹏远, 刘睿霖, 颜永红. 一种用于多跳推理问题的智能问答方法及装置. CN: CN113420111B, 2023-08-11.
[6] 张鹏远, 陈航艇, 颜永红. 一种基于前后端联合训练的音频场景分类方法及系统. CN: CN111354372B, 2023-07-18.
[7] 王丽, 尚增强, 张鹏远. 一种端到端语音合成方法和装置. 202211582420.6, 2023-04-21.
[8] 黎塔, 邬龙, 张鹏远, 颜永红. 一种端到端远场语音识别方法及系统. CN: CN111179920B, 2023-01-24.
[9] 赵庆卫, 方策, 王文超, 张鹏远, 颜永红. 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法. CN: CN112820301B, 2023-01-20.
[10] 张鹏远, 党风, 颜永红. 一种基于神经网络的端到端信道质量评估方法及系统. CN: CN115565523A, 2023-01-03.
[11] 张鹏远, 史佩杨, 王丽. 一种韵律边界预测方法及系统. CN: CN115457932A, 2022-12-09.
[12] 张鹏远, 杨弋, 颜永红. 一种语音波达方向估计方法及系统. CN: CN115421099A, 2022-12-02.
[13] 张学君, 张鹏远, 颜永红. 一种基于增强技术的对话状态追踪方法及系统. CN: CN114996479A, 2022-09-02.
[14] 程高峰, 张鹏远, 朱涵, 颜永红. 一种基于私有参数的语音识别联邦学习方法和系统. CN: CN114783425A, 2022-07-22.
[15] 张鹏远, 程高峰, 朱涵, 颜永红. 一种语音识别模型的个性化联邦学习方法和系统. CN: CN114783443A, 2022-07-22.
[16] 颜永红, 张学帅, 张鹏远. 利用音频判别模型对音频进行判别的判别设备及存储介质. CN: CN114400024A, 2022-04-26.
[17] 颜永红, 王寻, 张鹏远, 黎塔, 周军. 一种基础心音识别方法及设备. CN: CN111938691B, 2022-03-18.
[18] 张鹏远, 李文洁, 潘接林, 颜永红. 一种多通道远场语音识别方法. CN: CN110867178B, 2022-01-21.
[19] 周军, 付瑞柳, 张鹏远, 颜永红. 面向开放域问答的段落选择方法、装置、设备及存储介质. CN: CN113868379A, 2021-12-31.
[20] 张鹏远, 杨弋, 陈航艇, 颜永红. 一种多通道双说话人分离方法及系统. CN: CN113870893A, 2021-12-31.
[21] 张鹏远, 王猛, 颜永红. 一种音频场景识别方法、系统及装置. CN: CN113793622A, 2021-12-14.
[22] 张鹏远, 陈子毅, 颜永红. 一种语音转换模型的训练方法及装置. CN: CN113763987A, 2021-12-07.
[23] 张鹏远, 刘钰卓, 颜永红. 音频事件检测模型训练方法及装置. CN: CN113724740A, 2021-11-30.
[24] 颜永红, 张学帅, 张鹏远. 利用音频判别模型进行音频判别的方法和装置. CN: CN113724731A, 2021-11-30.
[25] 张鹏远, 尚增强, 颜永红. 一种多语言语音合成模型的训练方法及装置. CN: CN113707125A, 2021-11-26.
[26] 张鹏远, 张浩哲, 颜永红. 一种基于线性自注意力的语音合成方法及系统. CN: CN113707127A, 2021-11-26.
[27] 张鹏远, 苗晓晓, 王文超, 颜永红. 一种基于空洞卷积神经网络的端到端语种识别分类方法. CN: CN113539238A, 2021-10-22.
[28] 程高峰, 刘发强, 朱涵, 孙旭东, 缪浩然, 倪善金, 张鹏远, 颜永红. 一种多领域自适应的端到端语音识别方法、系统及电子装置. CN: CN113436616A, 2021-09-24.
[29] 程高峰, 李鹏, 缪浩然, 石瑾, 张鹏远, 孙晓晨, 颜永红. 一种语音识别解码的方法及装置. CN: CN113436619A, 2021-09-24.
[30] 周军, 张震, 杨家豪, 沈亮, 张鹏远, 王立强, 颜永红. 一种基于无监督学习的新闻实体分析方法及装置. CN: CN113420112A, 2021-09-21.
[31] 张学君, 万辛, 付瑞柳, 黄远, 张鹏远, 刘睿霖, 颜永红. 一种用于多跳推理问题的智能问答方法及装置. CN: CN113420111A, 2021-09-21.
[32] 张鹏远, 李文洁, 颜永红. 一种基于角度谱特征的多通道远场的目标语音识别方法. CN: CN113345421A, 2021-09-03.
[33] 张鹏远, 陈树丽, 张学帅, 颜永红. 一种音频检索方法及装置. CN: CN113157967A, 2021-07-23.
[34] 张鹏远, 石倩, 颜永红. 一种多通道语音增强方法及装置. CN: CN113030862A, 2021-06-25.
[35] 张鹏远, 刘畅, 颜永红. 一种基于元音和谐的土耳其语的语音识别方法及系统. CN: CN113035170A, 2021-06-25.
[36] 黎塔, 刘作桢, 张鹏远. 一种语音唤醒方法及装置. CN: CN112951211A, 2021-06-11.
[37] 张鹏远, 张学帅, 颜永红. 一种多个说话人的语音转折点检测方法及装置. CN: CN112951212A, 2021-06-11.
[38] 张鹏远, 陈航艇, 颜永红. 一种基于混合式概率模型的多通道声源分离方法. CN: CN112951264A, 2021-06-11.
[39] 张鹏远, 刘钰卓, 颜永红. 一种基于自监督对比学习的半监督音频事件标注方法. CN: CN112820322A, 2021-05-18.
[40] 赵庆卫, 方策, 王文超, 张鹏远, 颜永红. 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法. CN: CN112820301A, 2021-05-18.
[41] 张鹏远, 林格平, 李文洁, 万辛, 戚梦苑, 沈亮, 颜永红. 一种基于多说话人条件下目标说话人语音提取方法. CN: CN112331181A, 2021-02-05.
[42] 张鹏远, 战鸽, 颜永红. 一种融合信噪比与可懂度双重目标的语音增强方法及系统. CN: CN112309421A, 2021-02-02.
[43] 张鹏远, 蒿晓阳, 颜永红. 一种基于变分自编码器的多说话人语音合成方法. CN: CN112289304A, 2021-01-29.
[44] 张鹏远, 尚增强, 颜永红. 一种韵律控制语音合成方法、系统及电子装置. CN: CN111754976A, 2020-10-09.
[45] 黎塔, 缪浩然, 张鹏远, 高圣翔, 黄远, 沈亮, 林格平. 一种基于自适应热词权重的语音识别方法及系统. CN: CN111354347A, 2020-06-30.
[46] 张鹏远, 陈航艇, 颜永红. 一种基于神经网络中间层特征滤波的音频信号分类方法. CN: CN111354373A, 2020-06-30.
[47] 张鹏远, 陈航艇, 颜永红. 一种基于前后端联合训练的音频场景分类方法及系统. CN: CN111354372A, 2020-06-30.
[48] 张鹏远, 卢春晖, 颜永红. 一种基于自注意力的汉语韵律层级预测方法及系统. CN: CN111354333A, 2020-06-30.
[49] 白海钏, 葛凤培, 张鹏远, 高圣翔, 黄远, 沈亮, 林格平. 一种基于局部纹理特征的音频场景识别方法及系统. CN: CN111341319A, 2020-06-26.
[50] 张鹏远, 尚增强, 颜永红, 颜永红. 一种基于自注意力机制的中文普通话字音转换方法. CN: CN111243578A, 2020-06-05.
[51] 张鹏远, 缪浩然, 程高峰, 颜永红. 联结主义时间分类和截断式注意力联合在线语音识别技术. CN: CN111179918A, 2020-05-19.
[52] 张鹏远, 缪浩然, 程高峰, 颜永红. 一种在线端对端语音转写方法及系统. CN: CN111128191A, 2020-05-08.
[53] 张鹏远, 张震, 邬龙, 王丽, 李鹏, 侯炜. 一种基于空时残差神经网络的远场语音识别方法. CN: CN110895933A, 2020-03-20.
[54] 徐及, 刘丹阳, 张鹏远, 颜永红. 基于语言种类和语音内容协同分类的多语言语音识别方法. CN: CN110895932A, 2020-03-20.
[55] 张鹏远, 张一珂, 潘接林, 颜永红. 一种基于N元文法神经网络语言模型的语音识别方法. CN: CN110858480A, 2020-03-03.
[56] 张鹏远, 张一珂, 潘接林, 颜永红. 一种基于生成对抗网络的语言模型数据增强方法. CN: CN110085215A, 2019-08-02.
[57] 张鹏远, 刘丹阳, 徐及, 颜永红. 一种基于迁移神经网络声学模型的语音识别系统及方法. CN: CN110070855A, 2019-07-30.
[58] 张鹏远, 战鸽, 潘接林, 颜永红. 一种语音特征重建方法及装置. CN: CN110070887A, 2019-07-30.
[59] 张鹏远, 张宇, 潘接林, 颜永红. 基于空间特征补偿的多通道语音识别声学建模方法及装置. CN: CN110047478A, 2019-07-23.
[60] 张鹏远, 张一珂, 潘接林, 颜永红. 一种基于统计语言模型得分规整的语音识别方法及系统. CN: CN109427330A, 2019-03-05.
[61] 张鹏远, 张宇, 潘接林, 颜永红. 一种基于滤波网络声学模型的多通道语音识别方法. CN: CN109427328A, 2019-03-05.
[62] 张鹏远, 董振江, 张宇, 贾霞, 李洁, 张恒生. 一种基于HLSTM模型的声学建模方法和装置. CN: CN108461080A, 2018-08-28.
[63] 张鹏远, 王智超, 潘接林, 颜永红. 一种基于CTC的声学模型训练方法. CN: CN108269568A, 2018-07-10.
[64] 张鹏远, 张一珂, 黎塔, 颜永红. 一种基于统计规律的中文词汇表未登录词比率的估计方法. CN: CN108109624A, 2018-06-01.
[65] 张鹏远, 王旭阳, 潘接林, 颜永红. 一种基于自适应学习率的端到端的语音识别方法. CN: CN107293291A, 2017-10-24.
[66] 张鹏远, 邢安昊, 潘接林, 颜永红. 一种神经网络声学模型激活函数定点量化方法. CN: CN107292382A, 2017-10-24.
[67] 王丽, 张鹏远, 刘建, 颜永红. 一种拼音拼读的发音质量评测系统. CN: CN106856095A, 2017-06-16.
[68] 张鹏远, 王旭阳, 潘接林, 颜永红. 基于前向神经网络语言模型的汉语语音关键词检索方法. CN: CN106856092A, 2017-06-16.
[69] 胡琦, 张鹏远, 潘接林, 颜永红. 一种连续语音流中的叠音检测方法. CN: CN106847267A, 2017-06-13.
[70] 张鹏远, 邢安昊, 潘接林, 颜永红. 一种神经网络声学模型压缩及语音识别方法. CN: CN106847268A, 2017-06-13.
[71] 张鹏远, 左玲云, 潘接林, 颜永红. 一种基于长短时记忆网络的语言模型重估方法. CN: CN106803422A, 2017-06-06.
[72] 张鹏远, 王旭阳, 潘接林, 颜永红. 一种基于字和词混合语言模型的汉语语音关键词检索方法. CN: CN106294460A, 2017-01-04.
[73] 张鹏远, 邢安昊, 潘接林, 颜永红. 数据驱动的基于奇异值分解的神经网络声学模型裁剪方法. CN: CN106297778A, 2017-01-04.
[74] 张鹏远, 潘接林, 颜永红. 一种低资源嵌入式语音识别的拒识方法. CN: CN105321518A, 2016-02-10.

出版信息

   
发表论文
(1) So-DAS: A Two-Step Soft-Direction-Aware Speech Separation Framework, IEEE Signal Processing Letter, 2023, 第 4 作者
(2) LWMD: A Comprehensive Compression Platform for End-to-End Automatic Speech Recognition Models, APPLIED SCIENCES-BASEL, 2023, 通讯作者
(3) First coarse, fine afterward: A lightweight two-stage complex approach for monaural speech enhancement, SPEECH COMMUNICATION, 2023, 通讯作者
(4) HierTTS: Expressive End-to-End Text-to-Waveform Using a Multi-Scale Hierarchical Variational Auto-Encoder, APPLIED SCIENCES-BASEL, 2023, 通讯作者
(5) How to make embeddings suitable for PLDA, COMPUTER SPEECH AND LANGUAGE, 2023, 第 6 作者
(6) Enhancing stock movement prediction with market index and curriculum learning, EXPERT SYSTEMS WITH APPLICATIONS, 2023, 通讯作者
(7) A stacked self-attention network for two-dimensional direction-of-arrival estimation in hands-free speech communication, JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, 2022, 通讯作者
(8) 使用变分自编码器的自回归多说话人中文语音合成, Autoregressive multi-speaker model in Chinese speech synthesis based on variational autoencoder, 声学学报, 2022, 通讯作者
(9) Neural keyword confidence estimation for open-vocabulary keyword spotting, ELECTRONICSLETTERS, 2022, 第 3 作者
(10) 波达方向初始化空间混合概率模型的语音增强, Direction-guided speech enhancement method of the spatial mixture model, 声学学报, 2022, 通讯作者
(11) An E2E-ASR-Based Iteratively-Trained Timestamp Estimator, IEEE SIGNAL PROCESSING LETTERS, 2022, 通讯作者
(12) Master-Teacher-Student: A Weakly Labelled Semi-Supervised Framework for Audio Tagging and Sound Event Detection, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2022, 第 4 作者
(13) A Two-Stage Attention Based Modality Fusion Framework for Multi-Modal Speech Emotion Recognition, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2021, 通讯作者
(14) Improved Speech Enhancement using a Complex-Domain GAN with Fused Time-Domain and Time-frequency Domain Constraints, PROC. INTERSPEECH 2021, 2021, 第 2 作者
(15) HISTORY UTTERANCE EMBEDDING TRANSFORMER LM FOR SPEECH RECOGNITION, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 4 作者
(16) Confidence Learning for Semi-Supervised Acoustic Event Detection, APPLIED SCIENCES-BASEL, 2021, 通讯作者
(17) Keyword search using attention-based end-to-end ASR and framesynchronous phoneme alignments, IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 2021, 第 5 作者
(18) D-MONA: A dilated mixed-order non-local attention network for speaker and language recognition, NEURAL NETWORKS, 2021, 第 4 作者
(19) A Pronunciation Prior Assisted Vowel Reduction Detection Framework with Multi-Stream Attention Method, APPLIED SCIENCES-BASEL, 2021, 第 4 作者
(20) A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation, NEURAL NETWORKS, 2021, 通讯作者
(21) A unified system for multilingual speech recognition and language identification, SPEECH COMMUNICATION, 2021, 第 3 作者
(22) Context-dependent Label Smoothing Regularization for Attention-based End-to-End Code-Switching Speech Recognition, International Symposium on Chinese Spoken Language Processing, 2020, 第 4 作者
(23) Transformer-based Online CTC/attention End-to-End Speech Recognition Architecture, 2020, 第 4 作者
(24) Robust audio retrieval method based on anti-noise fingerprinting and segmental matching, ELECTRONICS LETTERS, 2020, 通讯作者
(25) Domain Adaptation Using Class Similarity for Robust Speech Recognition, 2020, 第 5 作者
(26) End-to-End Multilingual Speech Recognition System with Language Supervision Training, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2020, 第 3 作者
(27) Online Hybrid CTC/Attention End-to-End Automatic Speech Recognition Architecture, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2020, 第 3 作者
(28) 一种基于多层感知器的房颤心电图检测方法, Multilayer perceptron-based method for atrial fibrillation ECG detection, 中国医学物理学杂志, 2020, 第 3 作者
(29) Multi-Accent Adaptation based on Gate Mechanism, 2020, 第 3 作者
(30) 基于预训练语言表示模型的汉语韵律结构预测, Chinese Prosodic Structure Prediction Based on a Pretrained Language Representation Model, 天津大学学报:自然科学与工程技术版, 2020, 第 1 作者
(31) Semantic Features Based N-Best Rescoring Methods for Automatic Speech Recognition, APPLIED SCIENCES-BASEL, 2019, 第 2 作者
(32) SELF-ATTENTION BASED PROSODIC BOUNDARY PREDICTION FOR CHINESE SPEECH SYNTHESIS, 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2019, 通讯作者
(33) AN AUDIO SCENE CLASSIFICATION FRAMEWORK WITH EMBEDDED FILTERS AND A DCT-BASED TEMPORAL MODULE, 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2019, 通讯作者
(34) Deep Scattering Spectra with Deep Neural Networks for Acoustic Scene Classification Tasks, Deep Scattering Spectra with Deep Neural Networks for Acoustic Scene Classification Tasks, CHINESE JOURNAL OF ELECTRONICS, 2019, 通讯作者
(35) Investigation of knowledge transfer approaches to improve the acoustic modeling of Vietnamese ASR system, IEEE-CAA JOURNAL OF AUTOMATICA SINICA, 2019, 第 3 作者
(36) Online Hybrid CTC/Attention Architecture for End-to-End Speech Recognition, PROC. INTERSPEECH 2019, 2019, 第 3 作者
(37) Speaker-Phonetic I-Vector Modeling for Text-Dependent Speaker Verification with Random Digit Strings, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2019, 第 3 作者
(38) Language Model Score Regularization for Speech Recognition, Language model score regularization for speech recognition, 电子学报:英文版, 2019, 通讯作者
(39) Spatial Smoothing Regularization for Bi-direction Long Short-term Memory Model, JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY, 2019, 通讯作者
(40) TEnet: target speaker extraction network with accumulated speaker embedding for automatic speech recognition, ELECTRONICS LETTERS, 2019, 通讯作者
(41) Tailoring an interpretable neural language model, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2019, 通讯作者
(42) Investigation of Knowledge Transfer Approaches to Improve the Acoustic Modeling of Vietnamese ASR System, Investigation of Knowledge Transfer Approaches to Improve the Acoustic Modeling of Vietnamese ASR System, 自动化学报:英文版, 2019, 第 3 作者
(43) Automatic Speech Recognition System with Output-Gate Projected Gated Recurrent Unit, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2019, 通讯作者
(44) 基于动态时间规整的语音关键词检索算法, A Keyword Search Algorithm for Speech Based on Dynamic Time Warping, 网络新媒体技术, 2019, 第 2 作者
(45) Language model score regularization for speech recognition, CHINESE JOURNAL OF ELECTRONICS, 2019, 通讯作者
(46) Weighted Feature Fusion Based Emotional Recognition for Variable-length Speech using DNN, 2019 15TH INTERNATIONAL WIRELESS COMMUNICATIONS & MOBILE COMPUTING CONFERENCE (IWCMC), 2019, 第 3 作者
(47) Utterance-level Permutation Invariant Training with Latency-controlled BLSTM for Single-channel Multi-talker Speech Separation, 2019 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 2019, 第 3 作者
(48) 基于维特比算法的深度神经网络语音端点检测, 重庆邮电大学学报(自然科学版), 2018, 第 2 作者
(49) Improve Multichannel Speech Recognition with Temporal and Spatial Information, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2018, 第 2 作者
(50) MULTICHANNEL ASR WITH KNOWLEDGE DISTILLATION AND GENERALIZED CROSS CORRELATION FEATURE, 2018 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2018), 2018, 第 3 作者
(51) 基于注意力LSTM和多任务学习的远场语音识别, Long short-term memory with attention and multitask learning for distant speech recognition, 清华大学学报:自然科学版, 2018, 第 2 作者
(52) Improving Language Modeling with an Adversarial Critic for Automatic Speech Recognition, 19TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2018), VOLS 1-6, 2018, 第 2 作者
(53) Multilingual Speech Recognition Training and Adaptation with Language-Specific Gate Units, 2018 11TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2018, 第 4 作者
(54) Discriminatively learned network for i-vector based speaker recognition, ELECTRONICS LETTERS, 2018, 第 3 作者
(55) 基于指纹权重的音频模板检索方法, Audio retrieval method based on weighted DNA, 中国科技论文, 2018, 第 4 作者
(56) Investigation on the combination of batch normalization and dropout in BLSTM-based acoustic modeling for ASR, 19TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2018), VOLS 1-6, 2018, 第 4 作者
(57) Space-Time Residual LSTM Architechture for Distant Speech Recognition, 2018 11TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2018, 第 3 作者
(58) Deep Convolutional Neural Network with Scalogram for Audio Scene Modeling, 19TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2018), VOLS 1-6, 2018, 第 2 作者
(59) Neural Network Language Modeling Using an Improved Topic Distribution Feature, JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY, 2018, 通讯作者
(60) Evaluating Modeling Units and Sub-word Features in Language Models for Turkish ASR, 2018 11TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2018, 第 3 作者
(61) IMPROVING MULTICHANNEL SPEECH RECOGNITION WITH GENERALIZED CROSS CORRELATION INPUTS AND MULTITASK LEARNING, 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2018, 第 3 作者
(62) 一种小资源下语音识别算法设计与优化, 清华大学学报, 2017, 第 1 作者
(63) Attention-based LSTM with Multi-task Learning for Distant Speech Recognition, 18TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2017), VOLS 1-6, 2017, 第 2 作者
(64) Fast Decoding Algorithm for Automatic Speech Recognition Based on Recurrent Neural Networks, JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY, 2017, 通讯作者
(65) 基于递归神经网络的语音识别快速解码算法, Fast Decoding Algorithm for Automatic Speech Recognition Based on Recurrent Neural Networks, 电子与信息学报, 2017, 第 2 作者
(66) 小资源下语音识别算法设计与优化, Design and optimization of a low resource speech recognition system, 清华大学学报(自然科学版), 2017, 第 1 作者
(67) Handling OOV Words in Mandarin Spoken Term Detection with an Hierarchical n-Gram Language Model, CHINESE JOURNAL OF ELECTRONICS, 2017, 通讯作者
(68) 基于多任务学习的神经网络语言模型建模方法, 2017, 第 2 作者
(69) 基于注意力LSTM和多任务学习的远场语音识别, 2017, 第 2 作者
(70) Fast Variable-Frame-Rate Decoding of Speech Recognition Based on Deep Neural Networks, 2017 13TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD), 2017, 第 2 作者
(71) 基于SVD的DNN裁剪方法和重训练, SVD-based DNN pruning and retraining, 清华大学学报. 自然科学版, 2016, 第 2 作者
(72) AN UNSUPERVISED VOCABULARY SELECTION TECHNIQUE FOR CHINESE AUTOMATIC SPEECH RECOGNITION, 2016 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2016), 2016, 第 2 作者
(73) Improved End-to-End Speech Recognition Using Adaptive Per-Dimensional Learning Rate Methods, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2016, 通讯作者
(74) 基于状态后验概率的语音唤醒识别系统, 中国声学学会青年学术会议, 2016, 第 3 作者
(75) Enhanced Out of Vocabulary Word Detection Using Local Acoustic Information, 2014 TENTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP 2014), 2014, 第 3 作者
(76) USING NEURAL NETWORK FRONT-ENDS ON FAR FIELD MULTIPLE MICROPHONES BASED SPEECH RECOGNITION, 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2014, 第 2 作者
(77) 汉语语言集外词检索算法的改进研究, Improved Mandarin Out of Vocabulary Word Detection, 网络新媒体技术, 2014, 第 2 作者
(78) Optimization of Spoken Term Detection System, JOURNAL OF APPLIED MATHEMATICS, 2012, 第 2 作者
(79) Enhancing the Robustness of the Posterior-Based Confidence Measures Using Entropy Information for Speech Recognition, IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2010, 第 4 作者
(80) A two-step keyword spotting method using fuzzy search algorithm, CHINESE JOURNAL OF ELECTRONICS, 2008, 通讯作者
(81) Fast fuzzy keyword spotting using syllable confusion network indexing, CHINESE JOURNAL OF ELECTRONICS, 2008, 第 3 作者
(82) Research on tone recognition in Chinese spontaneous speech, ACTA PHYSICA SINICA, 2007, 第 3 作者
(83) Research on tone recognition in Chinese spontaneous speech, ACTA PHYSICA SINICA, 2007, 第 3 作者
(84) 关键词检测系统中基于音素网格的置信度计算, Phoneme Lattice Based Confidence Measures in Keyword Spotting, 电子与信息学报, 2007, 第 1 作者
(85) 广播新闻语音的关键词检测系统, Keyword spotting system for broadcast news, 通信学报, 2007, 第 1 作者
(86) 一种任务域无关的语音关键词检测系统, 2005, 第 4 作者
(87) 一种网络信息安全中的语音关键词检测系统, 2004, 第 6 作者

科研活动

   
科研项目
( 1 ) 多语言言语数据的获取、标注和分析, 负责人, 国家任务, 2016-01--2020-12
( 2 ) ****技术研究与实现, 负责人, 国家任务, 2016-06--2017-06
( 3 ) ****关键词识别技术研究, 负责人, 国家任务, 2015-10--2016-10
( 4 ) 语种无关的语音关键词检测技术研究, 负责人, 研究所自主部署, 2015-08--2016-12
( 5 ) “语音地图”构建的理论与技术研究, 负责人, 国家任务, 2016-01--2018-12
( 6 ) ****技术研究, 负责人, 国家任务, 2016-12--2019-12
( 7 ) ****识别技术研究, 负责人, 国家任务, 2017-04--2018-03
( 8 ) ****技术研究与实现, 负责人, 国家任务, 2017-11--2018-11
( 9 ) 大规模连续语音识别领域的声学模型算法开发和改进, 负责人, 境内委托项目, 2017-06--2018-05
( 10 ) 适用于在线语音识别的声学模型拓扑结构研究, 负责人, 境内委托项目, 2017-10--2018-10
( 11 ) ****挖掘与分析, 负责人, 地方任务, 2016-10--2020-12
( 12 ) Multi-source Speech Recognition with Permutation Invariant Training, 负责人, 境内委托项目, 2018-07--2019-06
( 13 ) ****技术研究, 负责人, 国家任务, 2019-02--2022-01
( 14 ) 鲁棒音频场景识别技术研究, 负责人, 国家任务, 2021-01--2024-12
( 15 ) 语音生成对抗技术, 负责人, 国家任务, 2020-11--2021-12
( 16 ) 语音识别技术, 负责人, 中国科学院计划, 2020-01--2022-12
( 17 ) 语音综合分析技术, 负责人, 国家任务, 2020-12--2021-06
( 18 ) 语音信息挖掘技术, 负责人, 国家任务, 2020-09--2021-08
( 19 ) 听觉感知信号增强技术, 负责人, 国家任务, 2019-12--2023-12
( 20 ) 仿生信号生成技术, 负责人, 国家任务, 2020-03--2022-12
( 21 ) 音频真伪识别技术研究, 负责人, 国家任务, 2022-06--2024-06
参与会议
(1)音频鉴伪研究进展及展望   2021年声纹识别研究与应用学术研讨会   2021-11-20
(2)IMPROVING MULTICHANNEL SPEECH RECOGNITION WITH GENERALIZED CROSS CORRELATION INPUTS AND MULTITASK LEARNING   2018年国际声学、语音与信号处理会议   2018-04-15
(3)Attention-based LSTM with Multi-task Learning for Distant Speech Recognition   2016年国际语音通信协会年会   2017-08-20
(4)A DNN-HMM Approach to Non-negative Matrix Factorization Based Speech Enhancement   2016年国际语音通信协会年会   2016-09-07

指导学生

已指导学生

战鸽  博士研究生  081002-信号与信息处理  

卢春晖  硕士研究生  081002-信号与信息处理  

缪浩然  博士研究生  081002-信号与信息处理  

苗晓晓  博士研究生  081002-信号与信息处理  

刘畅  博士研究生  081002-信号与信息处理  

刘丹阳  博士研究生  081002-信号与信息处理  

陈航艇  博士研究生  081002-信号与信息处理  

邬龙  博士研究生  081002-信号与信息处理  

李文洁  博士研究生  081002-信号与信息处理  

杨润延  博士研究生  081002-信号与信息处理  

尚增强  博士研究生  081002-信号与信息处理  

刘育坤  博士研究生  081002-信号与信息处理  

张学君  博士研究生  081002-信号与信息处理  

刘钰卓  博士研究生  081002-信号与信息处理  

李昭奇  博士研究生  081002-信号与信息处理  

周博林  硕士研究生  085208-电子与通信工程  

张学帅  博士研究生  081002-信号与信息处理  

陈子毅  硕士研究生  081002-信号与信息处理  

王猛  硕士研究生  081002-信号与信息处理  

张浩哲  硕士研究生  081002-信号与信息处理  

柳宗铭  博士研究生  081002-信号与信息处理  

史佩杨  硕士研究生  081002-信号与信息处理  

高长丰  博士研究生  081002-信号与信息处理  

现指导学生

陈城鑫  博士研究生  081002-信号与信息处理  

杨家豪  博士研究生  081002-信号与信息处理  

华桦  博士研究生  081002-信号与信息处理  

张子寒  博士研究生  081002-信号与信息处理  

孙国伦  博士研究生  081002-信号与信息处理  

张宇翔  博士研究生  081002-信号与信息处理  

陆镜泽  博士研究生  081002-信号与信息处理  

王宇轩  硕士研究生  085400-电子信息  

杨晨  硕士研究生  081002-信号与信息处理  

翟垣智  博士研究生  081002-信号与信息处理  

黄贤  博士研究生  081002-信号与信息处理  

黄学鹏  博士研究生  081002-信号与信息处理  

王鹏  博士研究生  081002-信号与信息处理  

鲁勋  硕士研究生  081002-信号与信息处理  

李绪源  博士研究生  081002-信号与信息处理  

赵宇  博士研究生  081002-信号与信息处理