基本信息
刘斌  男  硕导  中国科学院自动化研究所
电子邮件: [email protected]
通信地址: 北京市海淀区中关村东路95号智能化大厦710
邮政编码:

招生信息

   
招生专业
081104-模式识别与智能系统
081203-计算机应用技术
招生方向
情感计算,语音与音频处理,人机交互

教育背景

2011-09--2015-07   中科院自动化所   工学博士
2007-09--2009-07   北京理工大学   工学硕士
2003-09--2007-07   北京理工大学   工学学士

工作经历

   
工作简历
2018-11~现在, 中科院自动化所, 副研究员
2015-07~2018-10,中科院自动化所, 助理研究员
社会兼职
2022-02-14-今,中国指挥学会虚拟现实与人机交互专委会, 委员
2021-05-30-今,中国图象图形学会情感计算与理解专委会, 委员
2021-04-02-今,中国中文信息学会情感计算专委会, 委员
2019-11-27-今,中国图象图形学学会人机交互专委会, 委员
2018-12-25-今,中国人工智能学会情感智能专委会, 委员

教授课程

情感计算

专利与奖励


奖励信息
(1) The 2024 Multimodal Sentiment in-the-Wild Challenge Prize, 其他, 2024
(2) 中国科学院大学朱李月华优秀教师奖, 院级, 2024
(3) 第24届中国专利优秀奖, , 国家级, 2023
(4) 国科大-华为“智能基座”优秀教师, 院级, 2023
(5) The 2023 Facial Micro-Expression Grand Challenge Prize, , 其他, 2023
(6) The 2022 Multimodal Sentiment in-the-Wild Challenge Prize, 一等奖, 其他, 2022
(7) The 2021 Multimodal Sentiment in-the-Wild Challenge Prize, , 其他, 2021
(8) 第十三届全国人机语音通讯学术会议最佳论文, 其他, 2021
(9) 中国电子学会技术发明奖, 一等奖, 部委级, 2021
(10) 中国科学院大学研究生优秀课程, 二等奖, 研究所(学校), 2021
(11) The 2020 Multimodal Sentiment in-the-Wild Challenge Prize, 其他, 2020
(12) 第九届计算与模式识别国际会议最佳论文, , 其他, 2020
(13) 第十九届全国信号处理学术年会最佳论文, , 其他, 2019
(14) 第十三届全国人机语音通讯学术会议最佳论文, , 其他, 2015
(15) 具有个性化自适应能力的高性能语音处理技术及应用, 二等奖, 省级, 2014
专利成果
[1] Jianhua Tao, Hao Zhang, Bin Liu, SHE Wenxiang. Micro-expression recognition method based on multi-scale spatiotemporal feature neural network. US17471384, 2022-08-25.

[2] Jianhua Tao, Zheng Lian, Bin Liu, Liu Xuefei. Dialogue emotion correction method based on graph neural network. US17472511, 2022-08-25.

[3] Jianhua Tao, Cai Cong, Bin Liu, Mingyue Niu. Automatic depression detection method based on audio-video. US17472191, 2022-08-25.

[4] Jianhua Tao, Sun Licai, Bin Liu, Zheng Lian. Multimodal dimensional emotion recognition method. US11281945, 2022-03-22.

[5] Jianhua Tao, Sun Licai, Bin Liu, Zheng Lian. Multi-modal lie detection method and apparatus, and device. US11244119, 2022-02-08.

[6] Jianhua Tao, Zheng Lian, Bin Liu, Sun Licai. Automatic lie detection method and apparatus for interactive scenarios, device and medium. US11238289, 2022-02-01.

[7] Tao, Jianhua, He, Yu, Liu, Bin, Sun, Licai. Physiological signal prediction method. CN: US11227161(B1), 2022-01-18.

[8] 陶建华, 张昊, 刘斌, 连政. 基于微表情、肢体动作和语音的多模态情感识别方法. CN: CN113469153A, 2021-10-01.

[9] 陶建华, 肖明远, 刘斌, 连政. 基于音视频的疲劳状态检测方法和装置. CN: CN113642522B, 2022-02-08.

[10] 陶建华, 肖明远, 刘斌, 连政. 基于音视频的疲劳状态检测方法和装置. CN: CN113642522A, 2021-11-12.

[11] 陶建华, 何宇, 刘斌, 连政. 多模态融合的心理压力分析方法. CN: CN113255635A, 2021-08-13.

[12] 陶建华, 蔡聪, 刘斌, 柳雪飞. 基于多角度分析的多模态精神状态评估方法. CN: CN113274023A, 2021-08-20.

[13] 陶建华, 连政, 刘斌, 孙立才. 基于音视频的鲁棒情感建模系统. CN: CN113255800A, 2021-08-13.

[14] 陶建华, 牛明月, 刘斌, 蔡聪. 基于混合网络和lp范数池化的抑郁状态检测方法及装置. CN: CN112687390A, 2021-04-20.

[15] 陶建华, 连政, 刘斌, 孙立才. 海量音视频情感识别系统. CN: CN112633263A, 2021-04-09.

[16] 陶建华, 肖明远, 刘斌, 连政. 自然场景下的表情识别方法和装置. CN: CN112580617A, 2021-03-30.

[17] 陶建华, 牛明月, 刘斌, 李永伟. 时频通道注意力权重计算和向量化的方法和网络. CN: CN112581980A, 2021-03-30.

[18] 陶建华, 孙立才, 刘斌, 连政. 多模态维度情感识别方法. CN: CN112560830A, 2021-03-26.

[19] 陶建华, 孙立才, 刘斌, 柳雪飞. 多模态情感识别方法. CN: CN112559835A, 2021-03-26.

[20] 陶建华, 连政, 刘斌, 柳雪飞. 基于图神经网络的对话情感纠错模型. CN: CN112579745A, 2021-03-30.

[21] 陶建华, 连政, 刘斌, 柳雪飞. 基于图神经网络的对话情感纠错系统. CN: CN112579745B, 2021-06-08.

[22] 陶建华, 何宇, 刘斌, 孙立才. 一种生理信号预测方法. CN: CN112580612A, 2021-03-30.

[23] 陶建华, 张昊, 刘斌, 佘文祥. 基于多尺度时空特征神经网络的微表情识别方法. CN: CN112560810A, 2021-03-26.

[24] 陶建华, 佘文祥, 刘斌, 连政. 基于融合深度特征的微表情识别方法. CN: CN112560812A, 2021-03-26.

[25] 陶建华, 许珂, 刘斌, 李永伟. 融合深度特征和时序模型的语义情感分析方法. CN: CN112560503A, 2021-03-26.

[26] 陶建华, 蔡聪, 刘斌, 牛明月. 端到端的音视频抑郁症自动检测研究方法. CN: CN112560811A, 2021-03-26.

[27] 陶建华, 孙立才, 刘斌, 连政. 多模态谎言检测方法、装置、设备. CN: CN112329746A, 2021-02-05.

[28] 陶建华, 牛明月, 刘斌, 李启飞. 自动抑郁检测方法、装置、设备. CN: CN112331337A, 2021-02-05.

[29] 陶建华, 连政, 刘斌, 孙立才. 面向交互场景的自动谎言检测方法、装置、设备及介质. CN: CN112329748A, 2021-02-05.

[30] 陶建华, 牛明月, 刘斌. 基于微表情视频的视频特征提取方法、微表情识别方法. CN: CN110532950A, 2019-12-03.

[31] 陶建华, 郑艺斌, 温正棋, 刘斌. 基于LSTM循环神经网络的基频提取模型及训练方法. CN: CN106653056A, 2017-05-10.

[32] 陶建华, 易江燕, 温正棋, 刘斌. 语音识别中的正则化口音自适应方法. CN: CN106531157A, 2017-03-22.

[33] 陶建华, 刘斌. 语音带宽扩展模型的训练方法及语音带宽扩展方法. CN: CN107705801A, 2018-02-16.

[34] 陶建华, 刘斌. 一种高效的语音检测方法. CN: CN103646649A, 2014-03-19.

[35] 陶建华, 刘斌, 莫福源. 一种语音数据的编码及解码方法. CN: CN103247293A, 2013-08-14.

[36] 陶建华, 刘斌, 潘诗锋. 音频数据的编码方法及解码方法. CN: CN103035238A, 2013-04-10.

[37] 陶建华, 杨明浩, 李昊, 刘斌. 发音器官可视语音合成系统. CN: CN102820030A, 2012-12-12.

出版信息

   
发表论文
(1) DPP: ADual-Phase Processing Method for Cross-Cultural Humor Detection, ACM Multimedia Muse workshop, 2024, 第 8 作者
(2) Pseudo Labels Regularization for Imbalanced Partial-label Learning, The 49th IEEE International Conference on Acoustics, Speech, & Signal Processing, 2024, 第 3 作者  通讯作者
(3) GPT-4V with emotion A zero shot benchmark for Generalized Emotion Recognition, Information Fusion, 2024, 第 7 作者  通讯作者
(4) SVFAP_Self-supervised_Video_Facial_Affect_Perceiver, IEEE Transactions on Affective Computing, 2024, 第 7 作者  通讯作者
(5) Social Perception Prediction for MuSe 2024: Joint Learning of Multiple Perceptions, ACM Multimedia Muse Workshop, 2024, 第 8 作者
(6) HiCMAE: Hierarchical Contrastive Masked Autoencoder for self-supervised Audio-Visual Emotion Recognition, INFORMATION FUSION, 2024, 第 3 作者  通讯作者
(7) Dense Modality Interaction Network for Audio-Visual Event Localization, IEEE TRANSACTIONS ON MULTIMEDIA, 2023, 第 5 作者
(8) SMIN: Semi-Supervised Multi-Modal Interaction Network for Conversational Emotion Recognition, IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, 2023, 第 2 作者  通讯作者
(9) Multimodal Spatiotemporal Representation for Automatic Depression Level Detection, IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, 2023, 第 3 作者
(10) GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2023, 第 4 作者  通讯作者
(11) 多模态人机交互综述, A survey on multi-modal human-computer interaction, 中国图象图形学报, 2022, 第 8 作者
(12) End-to-End Network Based on Transformer for Automatic Detection of Covid-19, 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, 第 2 作者
(13) PIRNet: Personality-Enhanced Iterative Refinement Network for Emotion Recognition in Conversation, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2022, 第 2 作者  通讯作者
(14) Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis, 2022, 第 3 作者
(15) Multimodal Temporal Attention in Sentiment Analysis, Proceedings of the 3rd International on Multimodal Sentiment Analysis Workshop and Challenge(ACMMM2022), 2022, 第 4 作者
(16) SMIN: Semi-supervised Multi-modal Interaction Network for Conversational Emotion Recognition, IEEE Transactions on Affective Computing, 2022, 第 2 作者  通讯作者
(17) Dense Modality Interaction Network for Audio-Visual Event Localization, IEEE TRANSACTIONS ON MULTIMEDIA, 2022, 第 5 作者
(18) A time-frequency channel attention and vectorization network for automatic depression level prediction, NEUROCOMPUTING, 2021, 第 2 作者  通讯作者
(19) MULTI-SCALE AND MULTI-REGION FACIAL DISCRIMINATIVE REPRESENTATION FOR AUTOMATIC DEPRESSION LEVEL PREDICTION, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 3 作者
(20) Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 5 作者
(21) Multimodal Emotion Recognition and Sentiment Analysis via Attention Enhanced Recurrent Model, The 2nd Multimodal Sentiment Analysis Challenge, 2021, 第 4 作者
(22) F-0-Noise-Robust Glottal Source and Vocal Tract Analysis Based on ARX-LF Model, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 4 作者
(23) Multimodal Sentiment Analysis based on Recurrent Neural Network and Multimodal Attention, The 2nd Multimodal Sentiment Analysis Challenge, 2021, 第 5 作者
(24) 多通道运动特征融合的微表情识别方法, Aggregation of Motion Features of Multiple Paths for Micro-Expression Recognition, 计算机辅助设计与图形学学报, 2021, 第 2 作者
(25) CTNet: Conversational Transformer Network for Emotion Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 2 作者
(26) MULTIMODAL CROSS- AND SELF-ATTENTION NETWORK FOR SPEECH EMOTION RECOGNITION, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 2 作者
(27) TDCA-Net Time-Domain Channel Attention Network for Depression Detection, InterSpeech 2021, 2021, 第 3 作者
(28) Learning long-term temporal contexts using skip RNN for continuous emotion recognition, Learning long-term temporal contexts using skip RNN for continuous emotion recognition, 虚拟现实与智能硬件(中英文), 2021, 第 2 作者
(29) Multi-Scale and Multi-Region Facial Discriminative Representation for Automatic Depression Level Detection, ICASSP, 2021, 第 3 作者
(30) DECN: Dialogical Emotion Correction Network for Conversational Emotion Recognition, NEUROCOMPUTING, 2021, 第 2 作者  通讯作者
(31) Review of micro-expression spotting and recognition in video sequences, Review of micro-expression spotting and recognition in video sequences, 虚拟现实与智能硬件(中英文), 2021, 第 4 作者
(32) AMINN: Attention-Based Multi-Information Neural Network for Emotion Recognition, ICCPR, 2020, 第 2 作者
(33) End-to-End Post-Filter for Speech Separation With Deep Attention Fusion Features, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2020, 第 3 作者  通讯作者
(34) Hybrid Network Feature Extraction for Depression Assessment from Speech, Interspeech, 2020, 第 4 作者
(35) Comparison of glottal source parameter values in emotional vowels, Interspeech, 2020, 第 3 作者
(36) MULTIMODAL TRANSFORMER FUSION FOR CONTINUOUS EMOTION RECOGNITION, ICASSP 2020, 2020, 第 3 作者
(37) Conversational Emotion Recognition Using Self-Attention Mechanisms and Graph Neural Networks, Interspeech, 2020, 第 3 作者
(38) Multi-modal Continuous Dimensional Emotion Recognition Using Recurrent Neural Network and Self-Attention Mechanism, The 1st Multimodal Sentiment Analysis Challenge, 2020, 第 2 作者
(39) Learning Utterance-level Representationswith Label Smoothing for Speech Emotion Recognition, Interspeech, 2020, 第 3 作者
(40) Multimodal Spatiotemporal Representation for Automatic Depression Level Detection, IEEE Transactions on Affective Computing, 2020, 第 3 作者
(41) Joint Training for Simultaneous Speech Denoising and Dereverberation with Deep Embedding Representations, INTERSPEECH, 2020, 第 3 作者
(42) Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition, Interspeech, 2020, 第 3 作者
(43) Gated Recurrent Fusion of Spatial and Spectral Features for Multi-channel Speech Separation with Deep Embedding Representations, Interspeech, 2020, 第 3 作者
(44) "Automatic Depression Level Detection via lp-norm Pooling", INTERSPEECH 2019, 2019, 第 3 作者
(45) Discriminative Learning for Monaural Speech Separation Using Deep Embedding Features, interspeech2019, 2019, 第 2 作者
(46) Conversational Emotion Analysis via Attention Mechanisms, Interspeech2019, 2019, 第 3 作者
(47) 智能语音识别系统噪声鲁棒性研究, Research on Noisy Robustness of Intelligent Speech Recognition System, 信息技术与标准化, 2019, 第 2 作者
(48) 一种基于卷积神经网络的端到端语音分离方法, An End-to-End Speech Separation Method Based on Convolutional Neural Network, 信号处理, 2019, 第 2 作者
(49) 无菌条件非接触式多通道自然交互手术环境, Non Contact Multi-channel Natural Interactive Surgical Environment under Sterile Conditions, 软件学报, 2019, 第 10 作者
(50) Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition, interspeeh2019, 2019, 第 3 作者
(51) 基于迁移学习的噪声鲁棒语音识别声学建模, Transfer learning for acoustic modeling of noise robust speech recognition, 清华大学学报:自然科学版, 2018, 第 3 作者
(52) CTC Regularized Model Adaptation for Improving LSTM RNN Based Multi-Accent Mandarin Speech Recognition, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2018, 第 5 作者
(53) Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2018, 第 4 作者
(54) 联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法, 信号处理, 2017, 第 1 作者
(55) 基于注意力的端到端韵律结构和重音联合预测方法, 第十四届全国人机语音通讯学术会议 (NCMMSC 2017), 2017, 第 5 作者
(56) Investigating Efficient Feature Representation Method and Training Object Function for BLSTM-based Phone Duration Prediction, Interspeech2017, 2017, 第 5 作者
(57) A NOVEL PITCH EXTRACTION BASED ON JOINTLY TRAINED DEEP BLSTM RECURRENT NEURAL NETWORKS WITH BOTTLENECK FEATURES, 2017年IEEE声学,语音和信号处理国际会议(ICASSP 2017), 2017, 第 1 作者
(58) 联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法, 信号处理, 2017, 第 1 作者
(59) Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016, 第 5 作者
(60) EXTRACTION OF TONGUE CONTOUR IN REAL-TIME MAGNETIC RESONANCE IMAGING SEQUENCES, ICASSP 2016, 2016, 第 5 作者
(61) A Novel Research to Artificial Bandwidth Extension Based on Deep BLSTM Recurrent Neural Networks and Exemplar-based Sparse Representation, interspeech2016, 2016, 第 1 作者
(62) EXTRACTION OF TONGUE CONTOUR IN REAL-TIME MAGNETIC RESONANCE IMAGING SEQUENCES, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 2016, 第 5 作者
(63) A BLSTM Guided Unit Selection Synthesis System for Blizzard Challenge 2016, Blizzard2016, 2016, 第 5 作者
(64) Speech Enhancement Based on Analysis-Synthesis Framework with Improved Parameter Domain Enhancement, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2016, 第 1 作者  通讯作者
(65) CTC Regularized Model Adaptation for Improving LSTM RNN Based MultiAccent Mandarin Speech Recognition, 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2016, 第 4 作者
(66) End-to-end Keywords Spotting Based on Connectionist Temporal Classification for Mandarin, 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2016, 第 5 作者
(67) Text-based sentential stress prediction using continuous lexical embedding for Mandarin speech synthesis, 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016, 第 4 作者
(68) A Novel Method of Artificial Bandwidth Extension Using Deep Architecture, 16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, 第 1 作者  通讯作者
(69) User behavior fusion in dialog management with multi-modal history cues, MULTIMEDIA TOOLS AND APPLICATIONS, 2015, 第 8 作者
(70) ESTIMATE ARTICULATORY MRI SERIES FROM ACOUSTIC SIGNAL USING DEEP ARCHITECTURE, 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015, 第 4 作者
(71) 一种改进的基于分析合成框架的语音增强算法, 2015年第十三届全国人机语音通讯会议(NCMMSC2015) (NCMMSC2015), 2015, 第 1 作者
(72) Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability, 第九届中文口语语言处理国际会议 (ISCSLP 2014), 2014, 第 1 作者
(73) Speech Enhancement Based on Analysis���Synthesis Framework With Improved Pitch Estimation and Spectral Envelope Enhancement, ICSP2014, 2014, 第 1 作者
(74) Context features based pre-selection and weight prediction in concatenation speech synthesis system, 第九届中文口语语言处理国际会议 (ISCSLP 2014), 2014, 第 5 作者
(75) 面向窄带通信的极低速率语音编码算法研究, Research on Speech Coding Algorithm at Very Low Bit Rate for Narrow-Band Communication, 信号处理, 2013, 第 1 作者
(76) MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning, ARXIV, 第 6 作者
发表著作
(1) 情感计算理论与方法, 清华大学出版社, 2024-06, 第 2 作者

科研活动

   
科研项目
( 1 ) 态势认知原型系统开发, 负责人, 境内委托项目, 2024-10--2025-03
( 2 ) 面向小团体的多模态连续情感识别技术研究, 负责人, 国家任务, 2023-01--2026-12
( 3 ) 跨模态对话情感识别技术, 负责人, 境内委托项目, 2022-09--2023-08
( 4 ) 融合情景信息的个性化多模态生理信号复杂情感识别研究, 参与, 地方任务, 2021-12--2023-11
( 5 ) 面向小团体目标人物心理生理智能监测技术, 负责人, 中国科学院计划, 2021-01--2023-12
( 6 ) 心理实验范式设计和预实验验证技术, 参与, 境内委托项目, 2020-12--2023-04
( 7 ) 高频脑电信号采集与处理技术, 参与, 境内委托项目, 2020-12--2023-04
( 8 ) 情感识别技术, 参与, 境内委托项目, 2020-06--2025-05
( 9 ) 连续状态空间个性化语音情感识别, 参与, 国家任务, 2019-01--2023-12
( 10 ) 大数据分析, 参与, 中国科学院计划, 2018-10--2023-09

指导学生

已指导学生

凡佳辉  硕士研究生  085410-人工智能  

柳晗  硕士研究生  085410-人工智能  

李世渺  硕士研究生  085211-计算机技术  

徐名宇  硕士研究生  081104-模式识别与智能系统  

王于华  硕士研究生  085410-人工智能  

徐珂  硕士研究生  085410-人工智能  

现指导学生

张思源  硕士研究生  085404-计算机技术  

陈顺  硕士研究生  085410-人工智能  

温卓凡  硕士研究生  081203-计算机应用技术  

张凤羽  硕士研究生  085410-人工智能  

余聪  硕士研究生  081203-计算机应用技术