基本信息

殷鹏  男  博导  深圳华大生命科学研究院
电子邮件: yinpeng@genomics.cn
通信地址: 深圳市盐田区云水路9号华大时空中心

研究内容


DCS大模型团队以生命“中心法则”为核心,围绕生物信息基因组语言大模型为主要研究方向,利用混合专家深度学习架构,围绕人类基因组、微生物基因组建立生物语言大模型为主要目标,为基因序列比对、基因功能预测、基因设计等提供基础。充分利用多组学的生命健康数据,解读生命的动态性,构建“时空法则”AI大模型。

(1)基于人类基因组、微生物基因组数据,采用深度学习语言大模型结构,建立人源-微生物基因序列语言大模型。整合多组学数据,建立基因功能元件预测,基因突变功能预测,基因结构预测,人源-微生物互作预测等下游任务。

(2)基于群体基因组Pangenome数据,采用图深度学习架构,建立群体基因组AI表征模型。结合Biobank表型组数据,构建疾病关联基因预测,罕见突变功能预测等。

(3)基于biobank 人群队列的机器学习方法研究与应用:整合临床信息、全基因组信息、血检信息、代谢组数据等,对心脑血管、精神疾病等复杂疾病表型进行关联分析,对疾病进行预测或预警。使用统计模型和机器学习分析不同模态数据间的交互作用。


关键词:“中心法则”AI大模型,多组学、多模态、可解释性

欢迎加入我们AI For Omics团队!


招生信息

博士后(全年招,待遇好,快砸简历!)

全日制、非全日制 硕士、博士研究生 (国科大学位)

优秀的本科生、研究生可以来做客座实习(接收6个月以上的客座实习)

招生专业
081203-计算机应用技术
招生方向
计算生物
人工智能
生物统计

教育背景

2009-10--2014-02   英国纽卡斯尔大学   博士
2005-09--2009-07   中国科学技术大学   本科

工作经历

   
工作简历
2023-10~现在, 深圳华大生命科学研究院, 副研究员
2017-02~2023-10,中国科学院深圳先进技术研究院, 副研究员
2014-02~2017-02,英国利物浦大学, 博士后
社会兼职
2024-05-23-今,中国科学技术大学企业导师, 导师
2019-05-18-今,中国医促会健康大数据和数字化医疗分会, 青年学术部委员
2019-04-11-今,深圳市人工智能协会, 会员
2017-10-31-今,CCF中国计算机协会, 会员

专利与奖励

   
奖励信息
(1) 英国利物浦大学ITM学院优秀项目和奖金, , 研究所(学校), 2016
(2) 美国人类遗传学会会议(ASHG)2015 Reviewers’ Choice Abstract, , 其他, 2015
(3) 英国利物浦大学NWCR travel award, 其他, 2015
(4) 英国 Wellcome Trust 资助, 研究所(学校), 2010
(5) 英国纽卡斯尔大学全额奖学金, 研究所(学校), 2009
专利成果
( 1 ) 一种基于深度学习模型的基因序列预测方法及相关设备, 发明专利, 2022, 第 2 作者, 专利号: CN202211536008.0

( 2 ) 药物筛选方法及系统, 发明专利, 2022, 第 2 作者, 专利号: CN115132270A

( 3 ) 特发性肺纤维化中罕见巨噬细胞亚群及疾病标志物的鉴定方法及系统, 发明专利, 2022, 第 3 作者, 专利号: CN114708918A

( 4 ) 基于混合实验组和对照组单细胞样本的差异分析方法及系统, 发明专利, 2022, 第 2 作者, 专利号: CN114864003A

( 5 ) 一种基于多任务深度学习模型预测化合物性质的方法, 发明专利, 2022, 第 2 作者, 专利号: CN114566230A

( 6 ) 一种模型预测的关键区域的分析方法及装置, 发明专利, 2020, 第 3 作者, 专利号: CN111161789A

( 7 ) 基因型数据缺失的填充方法、装置及服务器, 发明专利, 2020, 第 2 作者, 专利号: CN111028884A

( 8 ) 基因型数据缺失的填充方法、装置及服务器, 2023, 第 2 作者, 专利号: CN111028884B

( 9 ) 一种分子间的结合活性预测方法及装置, 发明专利, 2020, 第 3 作者, 专利号: CN110910964A

( 10 ) 一种小分子抑制剂在抑制病毒沉默抑制蛋白中的应用, 发明专利, 2020, 第 5 作者, 专利号: CN111329858A

( 11 ) 骨密度性状遗传力分析方法及装置, 专利授权, 2019, 第 2 作者, 专利号: CN109637582A

( 12 ) 差异表达基因筛选方法及装置, 发明专利, 2020, 第 2 作者, 专利号: CN111341385A

( 13 ) 数据特征提取方法、装置及电子设备, 发明专利, 2020, 第 3 作者, 专利号: CN111325227A

( 14 ) 病历数据预测方法、装置及电子设备, 发明专利, 2020, 第 2 作者, 专利号: CN111312349A

( 15 ) 一种基于多组学集成的癌症亚型分类方法, 发明专利, 2020, 第 2 作者, 专利号: CN111291777A

( 16 ) 集合间相似度的确定方法和装置, 专利授权, 2018, 第 1 作者, 专利号: CN107909119A

出版信息

   
发表论文
[1] IEEE Journal of Biomedical and Health Informatics. 2024, 
[2] Fan Hu, Yishen Hu, Weihong Zhang, Huazhen Huang, Yi Pan, Peng Yin. A Multimodal Protein Representation Framework for Quantifying Transferability Across Biochemical Downstream Tasks. Advanced Science[J]. 2023, 
[3] Hu, Fan, Jiang, Jiaxin, Yin, Peng. Prediction of Potential Commercially Available Inhibitors against SARS-CoV-2 by Multi-Task Deep Learning Model. BIOMOLECULES[J]. 2022, 12(8): http://dx.doi.org/10.3390/biom12081156.
[4] Hu, Fan, Wang, Dongqi, Huang, Huazhen, Hu, Yishen, Yin, Peng. Bridging the Gap between Target-Based and Cell-Based Drug Discovery with a Graph Generative Multitask Model. JOURNAL OF CHEMICAL INFORMATION AND MODELING[J]. 2022, 62(23): 6046-6056, http://dx.doi.org/10.1021/acs.jcim.2c01180.
[5] Zhu, M, Yin, P, Hu, F, Jiang, J, Yin, L, Li, Y, Wang, S. Integrating genome-wide association and transcriptome prediction model identifies novel target genes for osteoporosis. OSTEOPOROSIS INTERNATIONAL[J]. 2021, 32(12): 2493-2503, http://dx.doi.org/10.1007/s00198-021-06024-z.
[6] Hu, Fan, Wang, Lei, Hu, Yishen, Wang, Dongqi, Wang, Weijie, Jiang, Jianbing, Li, Nan, Yin, Peng. A Novel Framework Integrating AI Model and Enzymological Experiments Promotes Identification of SARS-CoV-2 3CL Protease Inhibitors and Activity-based Probe. BRIEFINGS IN BIOINFORMATICS[J]. 2021, http://arxiv.org/abs/2105.14224.
[7] Hu, Fan, Jiang, Jiaxin, Wang, Dongqi, Zhu, Muchun, Yin, Peng. Multi-PLI: interpretable multi-task deep learning model for unifying protein-ligand interaction datasets. JOURNAL OF CHEMINFORMATICS[J]. 2021, 13(1): https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8051026/.
[8] Yin, Peng, Meng, Juan, Chen, Jincheng, Gao, Junxiao, Wang, Dongqi, Liu, Shuyan, Guo, Qinglong, Zhu, Muchun, Zhang, Gengwei, Liu, Yingxia, Li, Ye, Zhang, Guoliang. Antiviral drugs arbidol and interferon alpha-1b contribute to reducing the severity of COVID-19 patients: a retrospective cohort study. VIROLOGY JOURNAL[J]. 2021, 18(1): http://dx.doi.org/10.1186/s12985-021-01617-w.
[9] 殷鹏. Structure Enhanced Protein-Drug Interaction Prediction using Transformer and Graph Embedding. IEEE International Conference on Bioinformatics and Biomedicine. 2020, 
[10] 殷鹏. Generating Novel Compounds Targeting SARS-CoV-2 Main Protease Based on Imbalanced Dataset. IEEE International Conference on Bioinformatics and Biomedicine. 2020, 
[11] Turner, Richard M, Fontana, Vanessa, Zhang, Jieying E, Carr, Daniel, Yin, Peng, FitzGerald, Richard, Morris, Andrew P, Pirmohamed, Munir. A Genome-wide Association Study of Circulating Levels of Atorvastatin and Its Major Metabolites. CLINICAL PHARMACOLOGY & THERAPEUTICS[J]. 2020, 108(2): 287-297, https://www.doi.org/10.1002/cpt.1820.
[12] Yin, Peng, Shi, Jian Q. Simulation-based sensitivity analysis for non-ignorably missing data. STATISTICAL METHODS IN MEDICAL RESEARCH[J]. 2019, 28(1): 289-308, 
[13] Zhang, Haiping, Liao, Linbu, Saravanan, Konda Mani, Yin, Peng, Wei, Yanjie. DeepBindRG: a deep learning based method for estimating effective protein-ligand affinity. PEERJ[J]. 2019, 7: https://doaj.org/article/c3a06a2ffbe246f9ba02206d847ef4f2.
[14] Hu, Fan, Jiang, Jiaxin, Yin, Peng, Yoo, IH, Bi, JB, Hu, X. Interpretable Prediction of Protein-Ligand Interaction by Convolutional Neural Network. 2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM). 2019, 656-659, 
[15] Zhang, Jianye, Yin, Peng, Yoo, IH, Bi, JB, Hu, X. Multivariate Time Series Missing Data Imputation Using Recurrent Denoising Autoencoder. 2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM). 2019, 760-764, 
[16] Hawcutt, Daniel B, Francis, Ben, Carr, Daniel F, Jorgensen, Andrea L, Yin, Peng, Wallin, Naomi, OHara, Natalie, Zhang, Eunice J, Bloch, Katarzyna M, Ganguli, Amitava, Thompson, Ben, McEvoy, Laurence, Peak, Matthew, Crawford, Andrew A, Walker, Brian R, Blair, Joanne C, Couriel, Jonathan, Smyth, Rosalind L, Pirmohamed, Munir. Susceptibility to corticosteroid-induced adrenal suppression: a genome-wide association study. LANCET RESPIRATORY MEDICINE[J]. 2018, 6(6): 442-450, http://dx.doi.org/10.1016/S2213-2600(18)30058-4.
[17] Smith, Eve M D, Yin, Peng, Jorgensen, Andrea L, Beresford, Michael W, UK JSLE Study Grp. Clinical predictors of proteinuric remission following an LN flare - evidence from the UK JSLE cohort study. PEDIATRIC RHEUMATOLOGY[J]. 2018, 16: http://ir.siat.ac.cn:8080/handle/172644/14028.
[18] Wang, Shuqiang, Shen, Yanyan, Shi, Changhong, Yin, Peng, Wang, Zuhui, Cheung, Prudence WingHang, Cheung, Jason Pui Yin, Luk, Keith DipKei, Hu, Yong. Skeletal Maturity Recognition Using a Fully Automated System With Convolutional Neural Networks. IEEE ACCESS[J]. 2018, 6: 29979-29993, https://doaj.org/article/7c8c80d929a94f798fd09a9ee34b57c3.
[19] Smith, E M D, Yin, P, Jorgensen, A L, Beresford, M W. Clinical predictors of active LN development in children - evidence from the UK JSLE Cohort Study. LUPUS[J]. 2018, 27(13): 2020-2028, http://ir.siat.ac.cn:8080/handle/172644/14046.
[20] Thiesen, Signe, Yin, Peng, Jorgensen, Andrea L, Zhang, Jieying E, Manzo, Valentina, McEvoy, Laurence, Barton, Christopher, Picton, Susan, Bailey, Simon, Brock, Penelope, Vyas, Harish, Walker, David, Makin, Guy, Bandi, Srinivas, Pizer, Barry, Hawcutt, Daniel B, Pirmohamed, Munir. TPMT, COMT and ACYP2 genetic variants in paediatric cancer patients with cisplatin-induced ototoxicity. PHARMACOGENETICS AND GENOMICS[J]. 2017, 27(6): 213-222, http://dx.doi.org/10.1097/FPC.0000000000000281.
[21] 殷鹏. Investigating the prevalence, predictors and prognosis of suboptimal statin therapy early after a non-ST elevation acute coronary syndrome. Journal of Clinical Lipidology. 2017, 
[22] Wei, Dan, Peng, Yin, Wei, Yanjie, Jiang, Qingshan, Fang, Jinglong. A hybrid method for splice site prediction based on Markov model and codon information. INTERNATIONAL JOURNAL OF DATA MINING AND BIOINFORMATICS[J]. 2016, 16(4): 345-362, http://www.chinair.org.cn/handle/1471x/1747894.
[23] Francis, Ben, Yin, Peng, Cook, James, Jorgensen, Andrea, Hutton, Jane, Morris, Andrew. A Genome-Wide two-Component Mixture Model Expectation-Maximization Algorithm for Time to Event Data. GENETIC EPIDEMIOLOGY. 2016, 40(7): 637-637, https://www.webofscience.com/wos/woscc/full-record/WOS:000386034800083.
[24] 殷鹏. Study on the Optimal Mode of Foreign Investment Based on Simulated Annealing Algorithm. Journal of Computational and Theoretical Nanoscience. 2016, 
[25] Yin, Peng, Jorgensen, Andrea, Morris, Andrew, Turner, Richard, Fitzgerald, Richard, Stables, Rod, Hanson, Anita, Pirmohamed, Munir. SNP-Treatment Interactions of Cardiovascular Medications and Risk of Acute Coronary Syndrome Recurrence. GENETIC EPIDEMIOLOGY. 2016, 40(7): 672-672, https://www.webofscience.com/wos/woscc/full-record/WOS:000386034800176.
[26] 殷鹏. Pharmacogenetics on the time to acute coronary syndrome recurrence (PhACS): a UK cohort study. Hum Hered. 2016, 
[27] Lu, H, Yin, P, Yue, R X, Shi, J Q. Robust confidence intervals for trend estimation in meta-analysis with publication bias. JOURNAL OF APPLIED STATISTICS[J]. 2015, 42(12): 2715-2733, https://www.webofscience.com/wos/woscc/full-record/WOS:000365609900015.
[28] Yin, Peng, Jorgensen, Andrea, Morris, Andrew P, Turner, Richard, Fitzgerald, Richard, Stables, Rod, Hanson, Anita, Pirmohamed, Munir. Pharmacogenetics of Acute Coronary Syndrome. GENETIC EPIDEMIOLOGY. 2015, 39(7): 596-596, https://www.webofscience.com/wos/woscc/full-record/WOS:000363340500186.

指导学生

已指导学生

殷力  硕士研究生  085208-电子与通信工程  

李婉莹  硕士研究生  085210-控制工程  

胡奕绅  硕士研究生  085211-计算机技术  

王东奇  硕士研究生  085211-计算机技术  

宫长威  硕士研究生  081200-计算机科学与技术  

黄华振  硕士研究生  085400-电子信息  

荆常宏  硕士研究生  085404-计算机技术  

叶翔鹏  硕士研究生  085404-计算机技术  

王中昊  硕士研究生  085404-计算机技术  

胡博闻  硕士研究生  085211-计算机技术  

游森榕  硕士研究生  085211-计算机技术  

高俊晓  硕士研究生  085211-计算机技术  

现指导学生

李浩荣  硕士研究生  085404-计算机技术  

生物信息数据

(1)数万人肠道宏基因组,数十亿ORF基因序列; (2)中国人群 Pangenome 全基因组数据; (3)8万菌群基因组、3000人全基因组、2000动植物基因组; (4)1亿单细胞组学数据;(5)计算资源:100 张高端GPU显卡!