刘斌-中国科学院大学-UCAS

招生信息

招生专业

081104-模式识别与智能系统
081203-计算机应用技术

招生方向

情感计算，语音与音频处理，人机交互

教育背景

2011-09--2015-07   中科院自动化所   工学博士
2007-09--2009-07   北京理工大学   工学硕士
2003-09--2007-07   北京理工大学   工学学士

工作经历

工作简历

2018-11~现在, 中科院自动化所, 副研究员
2015-07~2018-10,中科院自动化所, 助理研究员

社会兼职

2022-02-14-今,中国指挥学会虚拟现实与人机交互专委会, 委员
2021-05-30-今,中国图象图形学会情感计算与理解专委会, 委员
2021-04-02-今,中国中文信息学会情感计算专委会, 委员
2019-11-27-今,中国图象图形学学会人机交互专委会, 委员
2018-12-25-今,中国人工智能学会情感智能专委会, 委员

教授课程

情感计算

专利与奖励

奖励信息

（1） The 2024 Multimodal Sentiment in-the-Wild Challenge Prize, 其他, 2024
（2）中国科学院大学朱李月华优秀教师奖, 院级, 2024
（3）第24届中国专利优秀奖, , 国家级, 2023
（4）国科大-华为“智能基座”优秀教师, 院级, 2023
（5） The 2023 Facial Micro-Expression Grand Challenge Prize, , 其他, 2023
（6） The 2022 Multimodal Sentiment in-the-Wild Challenge Prize, 一等奖, 其他, 2022
（7） The 2021 Multimodal Sentiment in-the-Wild Challenge Prize, , 其他, 2021
（8）第十三届全国人机语音通讯学术会议最佳论文, 其他, 2021
（9）中国电子学会技术发明奖, 一等奖, 部委级, 2021
（10）中国科学院大学研究生优秀课程, 二等奖, 研究所（学校）, 2021
（11） The 2020 Multimodal Sentiment in-the-Wild Challenge Prize, 其他, 2020
（12）第九届计算与模式识别国际会议最佳论文, , 其他, 2020
（13）第十九届全国信号处理学术年会最佳论文, , 其他, 2019
（14）第十三届全国人机语音通讯学术会议最佳论文, , 其他, 2015
（15）具有个性化自适应能力的高性能语音处理技术及应用, 二等奖, 省级, 2014

专利成果

[1] Jianhua Tao, Hao Zhang, Bin Liu, SHE Wenxiang. Micro-expression recognition method based on multi-scale spatiotemporal feature neural network. US17471384, 2022-08-25.

[2] Jianhua Tao, Zheng Lian, Bin Liu, Liu Xuefei. Dialogue emotion correction method based on graph neural network. US17472511, 2022-08-25.

[3] Jianhua Tao, Cai Cong, Bin Liu, Mingyue Niu. Automatic depression detection method based on audio-video. US17472191, 2022-08-25.

[4] Jianhua Tao, Sun Licai, Bin Liu, Zheng Lian. Multimodal dimensional emotion recognition method. US11281945, 2022-03-22.

[5] Jianhua Tao, Sun Licai, Bin Liu, Zheng Lian. Multi-modal lie detection method and apparatus, and device. US11244119, 2022-02-08.

[6] Jianhua Tao, Zheng Lian, Bin Liu, Sun Licai. Automatic lie detection method and apparatus for interactive scenarios, device and medium. US11238289, 2022-02-01.

[7] Tao, Jianhua, He, Yu, Liu, Bin, Sun, Licai. Physiological signal prediction method. CN: US11227161(B1), 2022-01-18.

[8] 陶建华, 张昊, 刘斌, 连政. 基于微表情、肢体动作和语音的多模态情感识别方法. CN: CN113469153A, 2021-10-01.

[9] 陶建华, 肖明远, 刘斌, 连政. 基于音视频的疲劳状态检测方法和装置. CN: CN113642522B, 2022-02-08.

[10] 陶建华, 肖明远, 刘斌, 连政. 基于音视频的疲劳状态检测方法和装置. CN: CN113642522A, 2021-11-12.

[11] 陶建华, 何宇, 刘斌, 连政. 多模态融合的心理压力分析方法. CN: CN113255635A, 2021-08-13.

[12] 陶建华, 蔡聪, 刘斌, 柳雪飞. 基于多角度分析的多模态精神状态评估方法. CN: CN113274023A, 2021-08-20.

[13] 陶建华, 连政, 刘斌, 孙立才. 基于音视频的鲁棒情感建模系统. CN: CN113255800A, 2021-08-13.

[14] 陶建华, 牛明月, 刘斌, 蔡聪. 基于混合网络和lp范数池化的抑郁状态检测方法及装置. CN: CN112687390A, 2021-04-20.

[15] 陶建华, 连政, 刘斌, 孙立才. 海量音视频情感识别系统. CN: CN112633263A, 2021-04-09.

[16] 陶建华, 肖明远, 刘斌, 连政. 自然场景下的表情识别方法和装置. CN: CN112580617A, 2021-03-30.

[17] 陶建华, 牛明月, 刘斌, 李永伟. 时频通道注意力权重计算和向量化的方法和网络. CN: CN112581980A, 2021-03-30.

[18] 陶建华, 孙立才, 刘斌, 连政. 多模态维度情感识别方法. CN: CN112560830A, 2021-03-26.

[19] 陶建华, 孙立才, 刘斌, 柳雪飞. 多模态情感识别方法. CN: CN112559835A, 2021-03-26.

[20] 陶建华, 连政, 刘斌, 柳雪飞. 基于图神经网络的对话情感纠错模型. CN: CN112579745A, 2021-03-30.

[21] 陶建华, 连政, 刘斌, 柳雪飞. 基于图神经网络的对话情感纠错系统. CN: CN112579745B, 2021-06-08.

[22] 陶建华, 何宇, 刘斌, 孙立才. 一种生理信号预测方法. CN: CN112580612A, 2021-03-30.

[23] 陶建华, 张昊, 刘斌, 佘文祥. 基于多尺度时空特征神经网络的微表情识别方法. CN: CN112560810A, 2021-03-26.

[24] 陶建华, 佘文祥, 刘斌, 连政. 基于融合深度特征的微表情识别方法. CN: CN112560812A, 2021-03-26.

[25] 陶建华, 许珂, 刘斌, 李永伟. 融合深度特征和时序模型的语义情感分析方法. CN: CN112560503A, 2021-03-26.

[26] 陶建华, 蔡聪, 刘斌, 牛明月. 端到端的音视频抑郁症自动检测研究方法. CN: CN112560811A, 2021-03-26.

[27] 陶建华, 孙立才, 刘斌, 连政. 多模态谎言检测方法、装置、设备. CN: CN112329746A, 2021-02-05.

[28] 陶建华, 牛明月, 刘斌, 李启飞. 自动抑郁检测方法、装置、设备. CN: CN112331337A, 2021-02-05.

[29] 陶建华, 连政, 刘斌, 孙立才. 面向交互场景的自动谎言检测方法、装置、设备及介质. CN: CN112329748A, 2021-02-05.

[30] 陶建华, 牛明月, 刘斌. 基于微表情视频的视频特征提取方法、微表情识别方法. CN: CN110532950A, 2019-12-03.

[31] 陶建华, 郑艺斌, 温正棋, 刘斌. 基于LSTM循环神经网络的基频提取模型及训练方法. CN: CN106653056A, 2017-05-10.

[32] 陶建华, 易江燕, 温正棋, 刘斌. 语音识别中的正则化口音自适应方法. CN: CN106531157A, 2017-03-22.

[33] 陶建华, 刘斌. 语音带宽扩展模型的训练方法及语音带宽扩展方法. CN: CN107705801A, 2018-02-16.

[34] 陶建华, 刘斌. 一种高效的语音检测方法. CN: CN103646649A, 2014-03-19.

[35] 陶建华, 刘斌, 莫福源. 一种语音数据的编码及解码方法. CN: CN103247293A, 2013-08-14.

[36] 陶建华, 刘斌, 潘诗锋. 音频数据的编码方法及解码方法. CN: CN103035238A, 2013-04-10.

[37] 陶建华, 杨明浩, 李昊, 刘斌. 发音器官可视语音合成系统. CN: CN102820030A, 2012-12-12.

出版信息

发表论文

（1） DPP: ADual-Phase Processing Method for Cross-Cultural Humor Detection, ACM Multimedia Muse workshop, 2024, 第 8 作者
（2） Pseudo Labels Regularization for Imbalanced Partial-label Learning, The 49th IEEE International Conference on Acoustics, Speech, & Signal Processing, 2024, 第 3 作者  通讯作者
（3） GPT-4V with emotion A zero shot benchmark for Generalized Emotion Recognition, Information Fusion, 2024, 第 7 作者  通讯作者
（4） SVFAP_Self-supervised_Video_Facial_Affect_Perceiver, IEEE Transactions on Affective Computing, 2024, 第 7 作者  通讯作者
（5） Social Perception Prediction for MuSe 2024: Joint Learning of Multiple Perceptions, ACM Multimedia Muse Workshop, 2024, 第 8 作者
（6） HiCMAE: Hierarchical Contrastive Masked Autoencoder for self-supervised Audio-Visual Emotion Recognition, INFORMATION FUSION, 2024, 第 3 作者  通讯作者
（7） Dense Modality Interaction Network for Audio-Visual Event Localization, IEEE TRANSACTIONS ON MULTIMEDIA, 2023, 第 5 作者
（8） SMIN: Semi-Supervised Multi-Modal Interaction Network for Conversational Emotion Recognition, IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, 2023, 第 2 作者  通讯作者
（9） Multimodal Spatiotemporal Representation for Automatic Depression Level Detection, IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, 2023, 第 3 作者
（10） GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2023, 第 4 作者  通讯作者
（11）多模态人机交互综述, A survey on multi-modal human-computer interaction, 中国图象图形学报, 2022, 第 8 作者
（12） End-to-End Network Based on Transformer for Automatic Detection of Covid-19, 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, 第 2 作者
（13） PIRNet: Personality-Enhanced Iterative Refinement Network for Emotion Recognition in Conversation, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2022, 第 2 作者  通讯作者
（14） Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis, 2022, 第 3 作者
（15） Multimodal Temporal Attention in Sentiment Analysis, Proceedings of the 3rd International on Multimodal Sentiment Analysis Workshop and Challenge（ACMMM2022), 2022, 第 4 作者
（16） SMIN: Semi-supervised Multi-modal Interaction Network for Conversational Emotion Recognition, IEEE Transactions on Affective Computing, 2022, 第 2 作者  通讯作者
（17） Dense Modality Interaction Network for Audio-Visual Event Localization, IEEE TRANSACTIONS ON MULTIMEDIA, 2022, 第 5 作者
（18） A time-frequency channel attention and vectorization network for automatic depression level prediction, NEUROCOMPUTING, 2021, 第 2 作者  通讯作者
（19） MULTI-SCALE AND MULTI-REGION FACIAL DISCRIMINATIVE REPRESENTATION FOR AUTOMATIC DEPRESSION LEVEL PREDICTION, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 3 作者
（20） Gated Recurrent Fusion With Joint Training Framework for Robust End-to-End Speech Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 5 作者
（21） Multimodal Emotion Recognition and Sentiment Analysis via Attention Enhanced Recurrent Model, The 2nd Multimodal Sentiment Analysis Challenge, 2021, 第 4 作者
（22） F-0-Noise-Robust Glottal Source and Vocal Tract Analysis Based on ARX-LF Model, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 4 作者
（23） Multimodal Sentiment Analysis based on Recurrent Neural Network and Multimodal Attention, The 2nd Multimodal Sentiment Analysis Challenge, 2021, 第 5 作者
（24）多通道运动特征融合的微表情识别方法, Aggregation of Motion Features of Multiple Paths for Micro-Expression Recognition, 计算机辅助设计与图形学学报, 2021, 第 2 作者
（25） CTNet: Conversational Transformer Network for Emotion Recognition, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2021, 第 2 作者
（26） MULTIMODAL CROSS- AND SELF-ATTENTION NETWORK FOR SPEECH EMOTION RECOGNITION, 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, 第 2 作者
（27） TDCA-Net Time-Domain Channel Attention Network for Depression Detection, InterSpeech 2021, 2021, 第 3 作者
（28） Learning long-term temporal contexts using skip RNN for continuous emotion recognition, Learning long-term temporal contexts using skip RNN for continuous emotion recognition, 虚拟现实与智能硬件(中英文), 2021, 第 2 作者
（29） Multi-Scale and Multi-Region Facial Discriminative Representation for Automatic Depression Level Detection, ICASSP, 2021, 第 3 作者
（30） DECN: Dialogical Emotion Correction Network for Conversational Emotion Recognition, NEUROCOMPUTING, 2021, 第 2 作者  通讯作者
（31） Review of micro-expression spotting and recognition in video sequences, Review of micro-expression spotting and recognition in video sequences, 虚拟现实与智能硬件(中英文), 2021, 第 4 作者
（32） AMINN: Attention-Based Multi-Information Neural Network for Emotion Recognition, ICCPR, 2020, 第 2 作者
（33） End-to-End Post-Filter for Speech Separation With Deep Attention Fusion Features, IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2020, 第 3 作者  通讯作者
（34） Hybrid Network Feature Extraction for Depression Assessment from Speech, Interspeech, 2020, 第 4 作者
（35） Comparison of glottal source parameter values in emotional vowels, Interspeech, 2020, 第 3 作者
（36） MULTIMODAL TRANSFORMER FUSION FOR CONTINUOUS EMOTION RECOGNITION, ICASSP 2020, 2020, 第 3 作者
（37） Conversational Emotion Recognition Using Self-Attention Mechanisms and Graph Neural Networks, Interspeech, 2020, 第 3 作者
（38） Multi-modal Continuous Dimensional Emotion Recognition Using Recurrent Neural Network and Self-Attention Mechanism, The 1st Multimodal Sentiment Analysis Challenge, 2020, 第 2 作者
（39） Learning Utterance-level Representationswith Label Smoothing for Speech Emotion Recognition, Interspeech, 2020, 第 3 作者
（40） Multimodal Spatiotemporal Representation for Automatic Depression Level Detection, IEEE Transactions on Affective Computing, 2020, 第 3 作者
（41） Joint Training for Simultaneous Speech Denoising and Dereverberation with Deep Embedding Representations, INTERSPEECH, 2020, 第 3 作者
（42） Context-Dependent Domain Adversarial Neural Network for Multimodal Emotion Recognition, Interspeech, 2020, 第 3 作者
（43） Gated Recurrent Fusion of Spatial and Spectral Features for Multi-channel Speech Separation with Deep Embedding Representations, Interspeech, 2020, 第 3 作者
（44） "Automatic Depression Level Detection via lp-norm Pooling", INTERSPEECH 2019, 2019, 第 3 作者
（45） Discriminative Learning for Monaural Speech Separation Using Deep Embedding Features, interspeech2019, 2019, 第 2 作者
（46） Conversational Emotion Analysis via Attention Mechanisms, Interspeech2019, 2019, 第 3 作者
（47）智能语音识别系统噪声鲁棒性研究, Research on Noisy Robustness of Intelligent Speech Recognition System, 信息技术与标准化, 2019, 第 2 作者
（48）一种基于卷积神经网络的端到端语音分离方法, An End-to-End Speech Separation Method Based on Convolutional Neural Network, 信号处理, 2019, 第 2 作者
（49）无菌条件非接触式多通道自然交互手术环境, Non Contact Multi-channel Natural Interactive Surgical Environment under Sterile Conditions, 软件学报, 2019, 第 10 作者
（50） Unsupervised Representation Learning with Future Observation Prediction for Speech Emotion Recognition, interspeeh2019, 2019, 第 3 作者
（51）基于迁移学习的噪声鲁棒语音识别声学建模, Transfer learning for acoustic modeling of noise robust speech recognition, 清华大学学报：自然科学版, 2018, 第 3 作者
（52） CTC Regularized Model Adaptation for Improving LSTM RNN Based Multi-Accent Mandarin Speech Recognition, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2018, 第 5 作者
（53） Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2018, 第 4 作者
（54）联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法, 信号处理, 2017, 第 1 作者
（55）基于注意力的端到端韵律结构和重音联合预测方法, 第十四届全国人机语音通讯学术会议 (NCMMSC 2017), 2017, 第 5 作者
（56） Investigating Efficient Feature Representation Method and Training Object Function for BLSTM-based Phone Duration Prediction, Interspeech2017, 2017, 第 5 作者
（57） A NOVEL PITCH EXTRACTION BASED ON JOINTLY TRAINED DEEP BLSTM RECURRENT NEURAL NETWORKS WITH BOTTLENECK FEATURES, 2017年IEEE声学，语音和信号处理国际会议(ICASSP 2017), 2017, 第 1 作者
（58）联合长短时记忆递归神经网络和非负矩阵分解的语音混响消除方法, 信号处理, 2017, 第 1 作者
（59） Investigating Deep Neural Network Adaptation for Generating Exclamatory and Interrogative Speech in Mandarin, 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016, 第 5 作者
（60） EXTRACTION OF TONGUE CONTOUR IN REAL-TIME MAGNETIC RESONANCE IMAGING SEQUENCES, ICASSP 2016, 2016, 第 5 作者
（61） A Novel Research to Artificial Bandwidth Extension Based on Deep BLSTM Recurrent Neural Networks and Exemplar-based Sparse Representation, interspeech2016, 2016, 第 1 作者
（62） EXTRACTION OF TONGUE CONTOUR IN REAL-TIME MAGNETIC RESONANCE IMAGING SEQUENCES, 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 2016, 第 5 作者
（63） A BLSTM Guided Unit Selection Synthesis System for Blizzard Challenge 2016, Blizzard2016, 2016, 第 5 作者
（64） Speech Enhancement Based on Analysis-Synthesis Framework with Improved Parameter Domain Enhancement, JOURNAL OF SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2016, 第 1 作者  通讯作者
（65） CTC Regularized Model Adaptation for Improving LSTM RNN Based MultiAccent Mandarin Speech Recognition, 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2016, 第 4 作者
（66） End-to-end Keywords Spotting Based on Connectionist Temporal Classification for Mandarin, 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2016, 第 5 作者
（67） Text-based sentential stress prediction using continuous lexical embedding for Mandarin speech synthesis, 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2016, 第 4 作者
（68） A Novel Method of Artificial Bandwidth Extension Using Deep Architecture, 16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, 第 1 作者  通讯作者
（69） User behavior fusion in dialog management with multi-modal history cues, MULTIMEDIA TOOLS AND APPLICATIONS, 2015, 第 8 作者
（70） ESTIMATE ARTICULATORY MRI SERIES FROM ACOUSTIC SIGNAL USING DEEP ARCHITECTURE, 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015, 第 4 作者
（71）一种改进的基于分析合成框架的语音增强算法, 2015年第十三届全国人机语音通讯会议（NCMMSC2015） (NCMMSC2015), 2015, 第 1 作者
（72） Efficient voice activity detection algorithm based on sub-band temporal envelope and sub-band long-term signal variability, 第九届中文口语语言处理国际会议 (ISCSLP 2014), 2014, 第 1 作者
（73） Speech Enhancement Based on Analysis��Synthesis Framework With Improved Pitch Estimation and Spectral Envelope Enhancement, ICSP2014, 2014, 第 1 作者
（74） Context features based pre-selection and weight prediction in concatenation speech synthesis system, 第九届中文口语语言处理国际会议 (ISCSLP 2014), 2014, 第 5 作者
（75）面向窄带通信的极低速率语音编码算法研究, Research on Speech Coding Algorithm at Very Low Bit Rate for Narrow-Band Communication, 信号处理, 2013, 第 1 作者
（76） MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning, ARXIV, 第 6 作者

发表著作

（1）情感计算理论与方法, 清华大学出版社, 2024-06, 第 2 作者

科研活动

科研项目

（ 1 ）态势认知原型系统开发, 负责人, 境内委托项目, 2024-10--2025-03
（ 2 ）面向小团体的多模态连续情感识别技术研究, 负责人, 国家任务, 2023-01--2026-12
（ 3 ）跨模态对话情感识别技术, 负责人, 境内委托项目, 2022-09--2023-08
（ 4 ）融合情景信息的个性化多模态生理信号复杂情感识别研究, 参与, 地方任务, 2021-12--2023-11
（ 5 ）面向小团体目标人物心理生理智能监测技术, 负责人, 中国科学院计划, 2021-01--2023-12
（ 6 ）心理实验范式设计和预实验验证技术, 参与, 境内委托项目, 2020-12--2023-04
（ 7 ）高频脑电信号采集与处理技术, 参与, 境内委托项目, 2020-12--2023-04
（ 8 ）情感识别技术, 参与, 境内委托项目, 2020-06--2025-05
（ 9 ）连续状态空间个性化语音情感识别, 参与, 国家任务, 2019-01--2023-12
（ 10 ）大数据分析, 参与, 中国科学院计划, 2018-10--2023-09

指导学生

已指导学生

凡佳辉硕士研究生 085410-人工智能

柳晗硕士研究生 085410-人工智能

李世渺硕士研究生 085211-计算机技术

徐名宇硕士研究生 081104-模式识别与智能系统

王于华硕士研究生 085410-人工智能

徐珂硕士研究生 085410-人工智能

现指导学生

张思源硕士研究生 085404-计算机技术

陈顺硕士研究生 085410-人工智能

温卓凡硕士研究生 081203-计算机应用技术

张凤羽硕士研究生 085410-人工智能

余聪硕士研究生 081203-计算机应用技术