招生信息
招生专业
081104-模式识别与智能系统081203-计算机应用技术
招生方向
情感计算,语音与音频处理,人机交互
教育背景
2011-09--2015-07 中科院自动化所 工学博士2007-09--2009-07 北京理工大学 工学硕士2003-09--2007-07 北京理工大学 工学学士
工作经历
工作简历
2018-11~现在, 中科院自动化所, 副研究员2015-07~2018-10,中科院自动化所, 助理研究员
社会兼职
2022-02-14-今,中国指挥学会虚拟现实与人机交互专委会, 委员
2021-05-30-今,中国图象图形学会情感计算与理解专委会, 委员
2021-04-02-今,中国中文信息学会情感计算专委会, 委员
2019-11-27-今,中国图象图形学学会人机交互专委会, 委员
2018-12-25-今,中国人工智能学会情感智能专委会, 委员
2021-05-30-今,中国图象图形学会情感计算与理解专委会, 委员
2021-04-02-今,中国中文信息学会情感计算专委会, 委员
2019-11-27-今,中国图象图形学学会人机交互专委会, 委员
2018-12-25-今,中国人工智能学会情感智能专委会, 委员
教授课程
情感计算
专利与奖励
奖励信息
(1) The 2024 Multimodal Sentiment in-the-Wild Challenge Prize, 其他, 2024(2) 中国科学院大学朱李月华优秀教师奖, 院级, 2024(3) 第24届中国专利优秀奖, , 国家级, 2023(4) 国科大-华为“智能基座”优秀教师, 院级, 2023(5) The 2023 Facial Micro-Expression Grand Challenge Prize, , 其他, 2023(6) The 2022 Multimodal Sentiment in-the-Wild Challenge Prize, 一等奖, 其他, 2022(7) The 2021 Multimodal Sentiment in-the-Wild Challenge Prize, , 其他, 2021(8) 第十三届全国人机语音通讯学术会议最佳论文, 其他, 2021(9) 中国电子学会技术发明奖, 一等奖, 部委级, 2021(10) 中国科学院大学研究生优秀课程, 二等奖, 研究所(学校), 2021(11) The 2020 Multimodal Sentiment in-the-Wild Challenge Prize, 其他, 2020(12) 第九届计算与模式识别国际会议最佳论文, , 其他, 2020(13) 第十九届全国信号处理学术年会最佳论文, , 其他, 2019(14) 第十三届全国人机语音通讯学术会议最佳论文, , 其他, 2015(15) 具有个性化自适应能力的高性能语音处理技术及应用, 二等奖, 省级, 2014
专利成果
[1] Jianhua Tao, Hao Zhang, Bin Liu, SHE Wenxiang. Micro-expression recognition method based on multi-scale spatiotemporal feature neural network. US17471384, 2022-08-25.[2] Jianhua Tao, Zheng Lian, Bin Liu, Liu Xuefei. Dialogue emotion correction method based on graph neural network. US17472511, 2022-08-25.[3] Jianhua Tao, Cai Cong, Bin Liu, Mingyue Niu. Automatic depression detection method based on audio-video. US17472191, 2022-08-25.[4] Jianhua Tao, Sun Licai, Bin Liu, Zheng Lian. Multimodal dimensional emotion recognition method. US11281945, 2022-03-22.[5] Jianhua Tao, Sun Licai, Bin Liu, Zheng Lian. Multi-modal lie detection method and apparatus, and device. US11244119, 2022-02-08.[6] Jianhua Tao, Zheng Lian, Bin Liu, Sun Licai. Automatic lie detection method and apparatus for interactive scenarios, device and medium. US11238289, 2022-02-01.[7] Tao, Jianhua, He, Yu, Liu, Bin, Sun, Licai. Physiological signal prediction method. CN: US11227161(B1), 2022-01-18.[8] 陶建华, 张昊, 刘斌, 连政. 基于微表情、肢体动作和语音的多模态情感识别方法. CN: CN113469153A, 2021-10-01.[9] 陶建华, 肖明远, 刘斌, 连政. 基于音视频的疲劳状态检测方法和装置. CN: CN113642522B, 2022-02-08.[10] 陶建华, 肖明远, 刘斌, 连政. 基于音视频的疲劳状态检测方法和装置. CN: CN113642522A, 2021-11-12.[11] 陶建华, 何宇, 刘斌, 连政. 多模态融合的心理压力分析方法. CN: CN113255635A, 2021-08-13.[12] 陶建华, 蔡聪, 刘斌, 柳雪飞. 基于多角度分析的多模态精神状态评估方法. CN: CN113274023A, 2021-08-20.[13] 陶建华, 连政, 刘斌, 孙立才. 基于音视频的鲁棒情感建模系统. CN: CN113255800A, 2021-08-13.[14] 陶建华, 牛明月, 刘斌, 蔡聪. 基于混合网络和lp范数池化的抑郁状态检测方法及装置. CN: CN112687390A, 2021-04-20.[15] 陶建华, 连政, 刘斌, 孙立才. 海量音视频情感识别系统. CN: CN112633263A, 2021-04-09.[16] 陶建华, 肖明远, 刘斌, 连政. 自然场景下的表情识别方法和装置. CN: CN112580617A, 2021-03-30.[17] 陶建华, 牛明月, 刘斌, 李永伟. 时频通道注意力权重计算和向量化的方法和网络. CN: CN112581980A, 2021-03-30.[18] 陶建华, 孙立才, 刘斌, 连政. 多模态维度情感识别方法. CN: CN112560830A, 2021-03-26.[19] 陶建华, 孙立才, 刘斌, 柳雪飞. 多模态情感识别方法. CN: CN112559835A, 2021-03-26.[20] 陶建华, 连政, 刘斌, 柳雪飞. 基于图神经网络的对话情感纠错模型. CN: CN112579745A, 2021-03-30.[21] 陶建华, 连政, 刘斌, 柳雪飞. 基于图神经网络的对话情感纠错系统. CN: CN112579745B, 2021-06-08.[22] 陶建华, 何宇, 刘斌, 孙立才. 一种生理信号预测方法. CN: CN112580612A, 2021-03-30.[23] 陶建华, 张昊, 刘斌, 佘文祥. 基于多尺度时空特征神经网络的微表情识别方法. CN: CN112560810A, 2021-03-26.[24] 陶建华, 佘文祥, 刘斌, 连政. 基于融合深度特征的微表情识别方法. CN: CN112560812A, 2021-03-26.[25] 陶建华, 许珂, 刘斌, 李永伟. 融合深度特征和时序模型的语义情感分析方法. CN: CN112560503A, 2021-03-26.[26] 陶建华, 蔡聪, 刘斌, 牛明月. 端到端的音视频抑郁症自动检测研究方法. CN: CN112560811A, 2021-03-26.[27] 陶建华, 孙立才, 刘斌, 连政. 多模态谎言检测方法、装置、设备. CN: CN112329746A, 2021-02-05.[28] 陶建华, 牛明月, 刘斌, 李启飞. 自动抑郁检测方法、装置、设备. CN: CN112331337A, 2021-02-05.[29] 陶建华, 连政, 刘斌, 孙立才. 面向交互场景的自动谎言检测方法、装置、设备及介质. CN: CN112329748A, 2021-02-05.[30] 陶建华, 牛明月, 刘斌. 基于微表情视频的视频特征提取方法、微表情识别方法. CN: CN110532950A, 2019-12-03.[31] 陶建华, 郑艺斌, 温正棋, 刘斌. 基于LSTM循环神经网络的基频提取模型及训练方法. CN: CN106653056A, 2017-05-10.[32] 陶建华, 易江燕, 温正棋, 刘斌. 语音识别中的正则化口音自适应方法. CN: CN106531157A, 2017-03-22.[33] 陶建华, 刘斌. 语音带宽扩展模型的训练方法及语音带宽扩展方法. CN: CN107705801A, 2018-02-16.[34] 陶建华, 刘斌. 一种高效的语音检测方法. CN: CN103646649A, 2014-03-19.[35] 陶建华, 刘斌, 莫福源. 一种语音数据的编码及解码方法. CN: CN103247293A, 2013-08-14.[36] 陶建华, 刘斌, 潘诗锋. 音频数据的编码方法及解码方法. CN: CN103035238A, 2013-04-10.[37] 陶建华, 杨明浩, 李昊, 刘斌. 发音器官可视语音合成系统. CN: CN102820030A, 2012-12-12.
出版信息
发表论文
(1) DPP: ADual-Phase Processing Method for Cross-Cultural Humor Detection, ACM Multimedia Muse workshop, 2024, 第 8 作者(2) Pseudo Labels Regularization for Imbalanced Partial-label Learning, The 49th IEEE International Conference on Acoustics, Speech, & Signal Processing, 2024, 第 3 作者 通讯作者(3) GPT-4V with emotion A zero shot benchmark for Generalized Emotion Recognition, Information Fusion, 2024, 第 7 作者 通讯作者(4) SVFAP_Self-supervised_Video_Facial_Affect_Perceiver, IEEE Transactions on Affective Computing, 2024, 第 7 作者 通讯作者(5) Social Perception Prediction for MuSe 2024: Joint Learning of Multiple Perceptions, ACM Multimedia Muse Workshop, 2024, 第 8 作者(6) HiCMAE: Hierarchical Contrastive Masked Autoencoder for self-supervised Audio-Visual Emotion Recognition, INFORMATION FUSION, 2024, 第 3 作者 通讯作者(7) Dense Modality Interaction Network for Audio-Visual Event Localization, IEEE TRANSACTIONS ON MULTIMEDIA, 2023, 第 5 作者(8) SMIN: Semi-Supervised Multi-Modal Interaction Network for Conversational Emotion Recognition, IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, 2023, 第 2 作者 通讯作者(9) Multimodal Spatiotemporal Representation for Automatic Depression Level Detection, IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, 2023, 第 3 作者(10) GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2023, 第 4 作者 通讯作者(11) 多模态人机交互综述, A survey on multi-modal human-computer interaction, 中国图象图形学报, 2022, 第 8 作者(12) End-to-End Network Based on Transformer for Automatic Detection of Covid-19, 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, 第 2 作者(13) PIRNet: Personality-Enhanced Iterative Refinement Network for Emotion Recognition in Conversation, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2022, 第 2 作者 通讯作者(14) Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis, 2022, 第 3 作者(15) Multimodal Temporal Attention in Sentiment Analysis, Proceedings of the 3rd International on Multimodal Sentiment Analysis Workshop and Challenge(ACMMM2022), 2022, 第 4 作者(16) SMIN: Semi-supervised Multi-modal Interaction Network for Conversational Emotion Recognition, IEEE Transactions on Affective Computing, 2022, 第 2 作者 通讯作者(17) Dense Modality Interaction Network for Audio-Visual Event Localization, IEEE TRANSACTIONS ON MULTIMEDIA, 2022, 第 5 作者(18) A time-frequency channel attention and vectorization network for automatic depression level prediction, NEUROCOMPUTING, 2021, 第 2 作者 通讯作者(19) MULTI-SCALE AND MULTI-REGION FACIAL DISCRIMINATIVE REPRESENTATION FOR AUTOMATIC DEPRESSION LEVEL PREDICTION, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 3 作者(20) Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 5 作者(21) Multimodal Emotion Recognition and Sentiment Analysis via Attention Enhanced Recurrent Model, The 2nd Multimodal Sentiment Analysis Challenge, 2021, 第 4 作者(22) F-0-Noise-Robust Glottal Source and Vocal Tract Analysis Based on ARX-LF Model, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 4 作者(23) Multimodal Sentiment Analysis based on Recurrent Neural Network and Multimodal Attention, The 2nd Multimodal Sentiment Analysis Challenge, 2021, 第 5 作者(24) 多通道运动特征融合的微表情识别方法, Aggregation of Motion Features of Multiple Paths for Micro-Expression Recognition, 计算机辅助设计与图形学学报, 2021, 第 2 作者(25) CTNet: Conversational Transformer Network for Emotion Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 2 作者(26) MULTIMODAL CROSS- AND SELF-ATTENTION NETWORK FOR SPEECH EMOTION RECOGNITION, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 2 作者(27) TDCA-Net Time-Domain Channel Attention Network for Depression Detection, InterSpeech 2021, 2021, 第 3 作者(28) Learning long-term temporal contexts using skip RNN for continuous emotion recognition, Learning long-term temporal contexts using skip RNN for continuous emotion recognition, 虚拟现实与智能硬件(中英文), 2021, 第 2 作者(29) Multi-Scale and Multi-Region Facial Discriminative Representation for Automatic Depression Level Detection, ICASSP, 2021, 第 3 作者(30) DECN: Dialogical Emotion Correction Network for Conversational Emotion Recognition, NEUROCOMPUTING, 2021, 第 2 作者 通讯作者(31) Review of micro-expression spotting and recognition in video sequences, Review of micro-expression spotting and recognition in video sequences, 虚拟现实与智能硬件(中英文), 2021, 第 4 作者(32) AMINN: Attention-Based Multi-Information Neural Network for Emotion Recognition, ICCPR, 2020, 第 2 作者(33) End-to-End Post-Filter for Speech Separation With Deep Attention Fusion Features, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2020, 第 3 作者 通讯作者(34) Hybrid Network Feature Extraction for Depression Assessment from Speech, Interspeech, 2020, 第 4 作者(35) Comparison of glottal source parameter values in emotional vowels, Interspeech, 2020, 第 3 作者(36) MULTIMODAL TRANSFORMER FUSION FOR CONTINUOUS EMOTION RECOGNITION, ICASSP 2020, 2020, 第 3 作者(37) Conversational Emotion Recognition Using Self-Attention Mechanisms and Graph Neural Networks, Interspeech, 2020, 第 3 作者(38) Multi-modal Continuous Dimensional Emotion Recognition Using Recurrent Neural Network and Self-Attention Mechanism, The 1st Multimodal Sentiment Analysis Challenge, 2020, 第 2 作者(39) Learning Utterance-level Representationswith Label Smoothing for Speech Emotion Recognition, Interspeech, 2020, 第 3 作者(40) Multimodal Spatiotemporal Representation for Automatic Depression Level Detection, IEEE Transactions on Affective Computing, 2020, 第 3 作者(41) Joint Training for Simultaneous Speech Denoising and Dereverberation with Deep Embedding Representations, INTERSPEECH, 2020, 第 3 作者(42) Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition, Interspeech, 2020, 第 3 作者(43) Gated Recurrent Fusion of Spatial and Spectral Features for Multi-channel Speech Separation with Deep Embedding Representations, Interspeech, 2020, 第 3 作者(44) "Automatic Depression Level Detection via lp-norm Pooling", INTERSPEECH 2019, 2019, 第 3 作者(45) Discriminative Learning for Monaural Speech Separation Using Deep Embedding Features, interspeech2019, 2019, 第 2 作者(46) Conversational Emotion Analysis via Attention Mechanisms, Interspeech2019, 2019, 第 3 作者(47) 智能语音识别系统噪声鲁棒性研究, Research on Noisy Robustness of Intelligent Speech Recognition System, 信息技术与标准化, 2019, 第 2 作者(48) 一种基于卷积神经网络的端到端语音分离方法, An End-to-End Speech Separation Method Based on Convolutional Neural Network, 信号处理, 2019, 第 2 作者(49) 无菌条件非接触式多通道自然交互手术环境, Non Contact Multi-channel Natural Interactive Surgical Environment under Sterile Conditions, 软件学报, 2019, 第 10 作者(50) Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition, interspeeh2019, 2019, 第 3 作者(51) 基于迁移学习的噪声鲁棒语音识别声学建模, Transfer learning for acoustic modeling of noise robust speech recognition, 清华大学学报:自然科学版, 2018, 第 3 作者(52) CTC Regularized Model Adaptation for Improving LSTM RNN Based Multi-Accent Mandarin Speech Recognition, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2018, 第 5 作者(53) Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2018, 第 4 作者(54) 联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法, 信号处理, 2017, 第 1 作者(55) 基于注意力的端到端韵律结构和重音联合预测方法, 第十四届全国人机语音通讯学术会议 (NCMMSC 2017), 2017, 第 5 作者(56) Investigating Efficient Feature Representation Method and Training Object Function for BLSTM-based Phone Duration Prediction, Interspeech2017, 2017, 第 5 作者(57) A NOVEL PITCH EXTRACTION BASED ON JOINTLY TRAINED DEEP BLSTM RECURRENT NEURAL NETWORKS WITH BOTTLENECK FEATURES, 2017年IEEE声学,语音和信号处理国际会议(ICASSP 2017), 2017, 第 1 作者(58) 联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法, 信号处理, 2017, 第 1 作者(59) Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016, 第 5 作者(60) EXTRACTION OF TONGUE CONTOUR IN REAL-TIME MAGNETIC RESONANCE IMAGING SEQUENCES, ICASSP 2016, 2016, 第 5 作者(61) A Novel Research to Artificial Bandwidth Extension Based on Deep BLSTM Recurrent Neural Networks and Exemplar-based Sparse Representation, interspeech2016, 2016, 第 1 作者(62) EXTRACTION OF TONGUE CONTOUR IN REAL-TIME MAGNETIC RESONANCE IMAGING SEQUENCES, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 2016, 第 5 作者(63) A BLSTM Guided Unit Selection Synthesis System for Blizzard Challenge 2016, Blizzard2016, 2016, 第 5 作者(64) Speech Enhancement Based on Analysis-Synthesis Framework with Improved Parameter Domain Enhancement, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2016, 第 1 作者 通讯作者(65) CTC Regularized Model Adaptation for Improving LSTM RNN Based MultiAccent Mandarin Speech Recognition, 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2016, 第 4 作者(66) End-to-end Keywords Spotting Based on Connectionist Temporal Classification for Mandarin, 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2016, 第 5 作者(67) Text-based sentential stress prediction using continuous lexical embedding for Mandarin speech synthesis, 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016, 第 4 作者(68) A Novel Method of Artificial Bandwidth Extension Using Deep Architecture, 16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, 第 1 作者 通讯作者(69) User behavior fusion in dialog management with multi-modal history cues, MULTIMEDIA TOOLS AND APPLICATIONS, 2015, 第 8 作者(70) ESTIMATE ARTICULATORY MRI SERIES FROM ACOUSTIC SIGNAL USING DEEP ARCHITECTURE, 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015, 第 4 作者(71) 一种改进的基于分析合成框架的语音增强算法, 2015年第十三届全国人机语音通讯会议(NCMMSC2015) (NCMMSC2015), 2015, 第 1 作者(72) Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability, 第九届中文口语语言处理国际会议 (ISCSLP 2014), 2014, 第 1 作者(73) Speech Enhancement Based on Analysis���Synthesis Framework With Improved Pitch Estimation and Spectral Envelope Enhancement, ICSP2014, 2014, 第 1 作者(74) Context features based pre-selection and weight prediction in concatenation speech synthesis system, 第九届中文口语语言处理国际会议 (ISCSLP 2014), 2014, 第 5 作者(75) 面向窄带通信的极低速率语音编码算法研究, Research on Speech Coding Algorithm at Very Low Bit Rate for Narrow-Band Communication, 信号处理, 2013, 第 1 作者(76) MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning, ARXIV, 第 6 作者
发表著作
(1) 情感计算理论与方法, 清华大学出版社, 2024-06, 第 2 作者
科研活动
科研项目
( 1 ) 态势认知原型系统开发, 负责人, 境内委托项目, 2024-10--2025-03( 2 ) 面向小团体的多模态连续情感识别技术研究, 负责人, 国家任务, 2023-01--2026-12( 3 ) 跨模态对话情感识别技术, 负责人, 境内委托项目, 2022-09--2023-08( 4 ) 融合情景信息的个性化多模态生理信号复杂情感识别研究, 参与, 地方任务, 2021-12--2023-11( 5 ) 面向小团体目标人物心理生理智能监测技术, 负责人, 中国科学院计划, 2021-01--2023-12( 6 ) 心理实验范式设计和预实验验证技术, 参与, 境内委托项目, 2020-12--2023-04( 7 ) 高频脑电信号采集与处理技术, 参与, 境内委托项目, 2020-12--2023-04( 8 ) 情感识别技术, 参与, 境内委托项目, 2020-06--2025-05( 9 ) 连续状态空间个性化语音情感识别, 参与, 国家任务, 2019-01--2023-12( 10 ) 大数据分析, 参与, 中国科学院计划, 2018-10--2023-09
指导学生
已指导学生
凡佳辉 硕士研究生 085410-人工智能
柳晗 硕士研究生 085410-人工智能
李世渺 硕士研究生 085211-计算机技术
徐名宇 硕士研究生 081104-模式识别与智能系统
王于华 硕士研究生 085410-人工智能
徐珂 硕士研究生 085410-人工智能
现指导学生
张思源 硕士研究生 085404-计算机技术
陈顺 硕士研究生 085410-人工智能
温卓凡 硕士研究生 081203-计算机应用技术
张凤羽 硕士研究生 085410-人工智能
余聪 硕士研究生 081203-计算机应用技术