Sirui Zhao-赵思蕊

2026

[CVPR 2026] Yubo Huang, Weiqiang Wang, Sirui Zhao*, Tong Xu, Lin Liu, Enhong Chen* "Bind-Your-Avatar: Multi-Character-Talking Video Generation with Dynamic 3D-mask-based Embedding Router", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2026: 4440-4449

[IEEE TAFFC] Feng-Qi Cui; Jinyang Huang*; Sirui Zhao; Kun Li, Zhi Liu, Meng Li, Ziyu Jia, Dan Guo∗, Meng Wang. "PersoMoni: A Comprehensive Video-Based Benchmark Dataset for Fine-grained Personality Assessment with 15 Trait Dimensions", IEEE Transactions on Affective Computing, 2026. DOI: 10.1109/TAFFC.2026.3698795. (Accept)

[IEEE TCE] Feng-Qi Cui; Jinyang Huang*; Sirui Zhao; Xinyu Li; Xin Yan; Ziyu Jia. "Robust Low-Rank Sparse Framework for Video-Based Affective Computing", IEEE Transactions on Consumer Electronics, 2026. DOI: 10.1109/TCE.2026.3697969. (Accept)

[ACM TOMM] Yifan Xu, Sirui Zhao*, Shifeng Liu, Tong Xu, Enhong Chen*. "Emotionally Controllable Audio-driven Talking Face Generation", ACM Transactions on Multimedia Computing, Communications, and Applications, 22(2), 2026. DOI: 10.1145/3779219.

[IEEE TMM] Shukang Yin#, Chaoyou Fu#*, Sirui Zhao*, Chuanjiang Ge, Yan Yang, Yuhan Dai, Yongdong Luo, Tong Xu, Caifeng Shan, Enhong Chen*. "Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation", IEEE Transactions on Multimedia, 2026. DOI: 10.1109/TMM.2026.3673542.

[ICASSP'26] Kang Yin, Chunyu Qiang, Sirui Zhao*, Xiaopeng Wang, Yuzhe Liang, Pengfei Cai, Tong Xu*, Chen Zhang, Enhong Chen, "DMP-TTS: Disentangled Multi-modal Prompting for Controllable Text-to-Speech with Chained Guidance", In Proceedings of the 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP'26), Barcelona, Spain, 2026.

[ICIP 2026] Jingzhi Jiang, Sirui Zhao*, Xiaohao Wang, Fengyuan Liu, Tong Xu, Enhong Chen*, "STMGaze: Spatiotemporal Modeling with Orthogonal Mamba Scanning for Video-based Gaze Estimation", In Proceedings of the 33rd IEEE International Conference on Image Processing (ICIP'26), 2026, Tampere, Finland. (Accept).

2025

[arXiv] Sirui Zhao, Zhengye Zhang, Shifeng Liu, Xinglong Mao, Shukang Yin, Chaoyou Fu, Tong Xu, Enhong Chen*. "MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception", arXiv preprint arXiv:2505.07007, 2025.

[PRAI'25] Yu Bai, Sirui Zhao*, Min Zhang, Shifeng Liu, Yifei Zhu, Tong Xu*. "EmotionChat: Emotional Chain of Thought based MLLM for Dialogue Generation", In Proceedings of the 2025 8th International Conference on Pattern Recognition and Artificial Intelligence (PRAI'25), 2025: 840-848.

[ICMEW'25] Xiaobai Li, Xinglong Mao, Hao Zou, Jingjing Chen, Sirui Zhao. "Cross-Cultural Nuances of Micro-Expressions and Action Units: A Comparative Study", IEEE International Conference on Multimedia and Expo Workshops (ICMEW), 2025.

[ACM MM'2025] Fangyuan Liu#, Sirui Zhao*, Kang Yin#, Tong Xu, Enhong Chen*. "DepFormer: A Unified Framework with Bimodal Collaborative Transformer for Depression Detection", Proceedings of the 33rd ACM International Conference on Multimedia, 2025.

[FCS] Biao Zhu, Jun Zhang, Sirui Zhao*, Zhengye Zhang, Enhong Chen*. "Unsupervised lightweight 3D convolutional network for enhanced infrared imaging in wearable devices", Frontiers of Computer Science, 2026, 20: 2001306. DOI: 10.1007/s11704-025-40948-7.

[IEEE TAFFC] Shifeng Liu, Xinlong Mao, Sirui Zhao*, Peiming Li, Tong Xu, Enhong Chen*. "MER-CLIP: AU-Guided Vision-Language Alignment for Micro-Expression Recognition", IEEE Transactions on Affective Computing, 16(4): 3028-3042, 2025. DOI: 10.1109/TAFFC.2025.3584918.

[ICME 2025] Fangyuan Liu, Sirui Zhao*, Tong Xu, Yu Sun, Hao Wang, Suojuan Zhang, Enhong Chen*. "PhysFFTFormer: A Frequency Domain-based Vision Transformer for Efficient Remote Physiological Measurement", In Proceedings of the IEEE International Conference on Multimedia&Expo 2025 (ICME'25), Nantes, France, 2025. DOI: 10.1109/ICME59968.2025.11209039.

[ICIP 2025] Xiaohao Wang, Sirui Zhao*, Xinglong Mao, Yiming Zhang, Shifeng Liu, Tong Xu, Enhong Chen*, "DGRGaze: A difference-guided gaze estimation framework based on 6D rotation matrix representation", In Proceedings of the 32nd IEEE International Conference on Image Processing (ICIP'25), 2025, Anchorage Alaska, USA. DOI: 10.1109/ICIP55913.2025.11084613.

[CVPR2025] Chaoyou Fu, Yuhan Dai, Yondong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun. "Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis", In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025 (CVPR'25), Nashville TN, USA, 2025.

[ICIC 2025] Siyuan Jin, Sirui Zhao*, Yifan Xu, Shifeng Liu, Mengduo Wu, Tong Xu*, "JoyLive: Efficient audio-driven portrait animation by 3D implicit keypoints", Advanced Intelligent Computing Technology and Applications, ICIC 2025, LNCS 15856, Springer, 2025, pp. 499-510. DOI: 10.1007/978-981-96-9914-8_42.

[ICIC 2025] Kang Yin, Sirui Zhao*, Xinlong Mao, Shifeng Liu, Yiming Zhang, Tong Xu*, Enhong Chen, "A Phoneme-Aware Multi-Task Learning Framework with Dynamic Prioritization for Speech Emotion Recognition", Advanced Intelligent Computing Technology and Applications, ICIC 2025, CCIS 2568, Springer, 2025, pp. 511-522. DOI: 10.1007/978-981-96-9955-1_42.

2024

[SCIS] Shukang Yin#, Chaoyou Fu#*, Sirui Zhao#*, Tong Xu, Hao Wang, Dianbo Sui, Enhong Chen*. "Woodpecker: Hallucination Correction for Multimodal Large Language Models", SCIENCE CHINA Information Sciences(SCIS), 67(12): 220105, 2024. DOI: 10.1007/s11432-024-4251-x.

[IRAC'24] Yifan Xu, Sirui Zhao*, Tong Xu, Enhong Chen*. "AUD: AU-based Diffusion Model for Facial Expression Synthesis from a Single Image", In 2024 International Conference on Intelligent Robotics and Automatic Control (IRAC), 2024: 631-636.

[PRAI'24] Yudong Xia, Sirui Zhao*, Tong Wu, Huaying Tang, Tong Xu*. "AIGLLM: An Action Instruction Generation Method with Visually Enhanced LLM", In 2024 7th International Conference on Pattern Recognition and Artificial Intelligence (PRAI), 2024: 84-90.

[PRAI'24] Mengduo Wu, Sirui Zhao*, Tong Wu, Yifan Xu, Tong Xu*, Enhong Chen. "AVF-LIP: High-fidelity Talking Face Generation via Audio-visual Fusion", In 2024 7th International Conference on Pattern Recognition and Artificial Intelligence (PRAI), 2024: 491-499.

[PRAI'24] Tong Wu, Sirui Zhao*, Siyuan Jin, Tong Xu, Enhong Chen*. "CMDM: A Control Motion Diffusion Model for 2D Digital Human Motion Video Generation", In 2024 7th International Conference on Pattern Recognition and Artificial Intelligence (PRAI), 2024: 202-209.

[arXiv] Tingjia Shen, Hao Wang*, Jiaqing Zhang, Sirui Zhao, Liangyue Li, Zulong Chen, Defu Lian, Enhong Chen. "Exploring User Retrieval Integration Towards Large Language Models for Cross-domain Sequential Recommendation", arXiv preprint arXiv:2406.03085, 2024.

[arXiv] Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Zhi Li, Sirui Zhao, Zhen Wang, Defu Lian, Enhong Chen. "Learning Partially Aligned Item Representation for Cross-domain Sequential Recommendation", arXiv preprint arXiv:2405.12473, 2024.

[IRAC'24] Guoqing Zhao, Tong Xu*, Sirui Zhao. "Prompting LLM for Embodied Tasks with Expert Instruction and Dimension Separation", In 2024 International Conference on Intelligent Robotics and Automatic Control (IRAC), 2024: 422-426.

[National Science Review] Shukang Yin#, Chaoyou Fu#*, Sirui Zhao#*, Ke Li, Xing Sun, Tong Xu, Enhong Chen*. "A Survey on Multimodal Large Language Models", National Science Review, 11(12): nwae403, 2024. DOI: 10.1093/nsr/nwae403.

[arXiv] Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He. "MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs", arXiv preprint arXiv:2411.15296, 2024.

[arXiv] Chaoyou Fu, Yuhan Dai, Yongdong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun. "Video-MME: The first-ever comprehensive evaluation benchmark of multi-modal LLMs in video analysis", arXiv preprint arXiv:2405.21075, 2024.

[ACM MM'24] Zhengye Zhang#, Sirui Zhao#, Xinglong Mao, Shifeng Liu, Hao Wang, Tong Xu, Enhong Chen*. "A Multi-scale Feature Learning Network with Optical Flow Correction for Micro- and Macro-expression Spotting", In Proceedings of the 32nd ACM International Conference on Multimedia (ACM MM'24), Melbourne, Australia, 2024, pp. 11497-11502. DOI: 10.1145/3664647.3689143.

[ICME'24] Shifeng Liu, Xinglong Mao, Sirui Zhao*, Chaoyou Fu, Ying Yu, Tong Xu, Enhong Chen*. "TGMAE: Self-supervised Micro-Expression Recognition with Temporal Gaussian Masked Autoencoder", In Proceedings of the 2024 IEEE International Conference on Multimedia and Expo (ICME'24), Niagara Falls, Canada, 2024. DOI: 10.1109/ICME57554.2024.10687556.

[ACM TOMM] Shukang Yin, Sirui Zhao*, Hao Wang, Tong Xu, Enhong Chen*. "Exploiting Instance-level Relationships in Weakly Supervised Text-to-Video Retrieval", ACM Transactions on Multimedia Computing, Communications, and Applications, 20(10): 1-21, 2024. DOI: 10.1145/3663571.

[PRCV'24] Xinglong Mao, Shifeng Liu, Sirui Zhao*, Hao Wang, Tong Xu, Enhong Chen*. "H2LMER: A Cross Frame-Rate Representation Alignment Framework for Micro-Expression Recognition", Chinese Conference on Pattern Recognition and Computer Vision (PRCV), 2024.

[ICMR'24] Chenxiao Liu, Zheyong Xie, Sirui Zhao, Jin Zhou, Tong Xu*, Minglei Li, Enhong Chen, "Speak From Heart: An Emotion-Guided LLM-Based Multimodal Method for Emotional Dialogue Generation", In Proceedings of the 14th International Conference on Multimedia Retrieval (ICMR'24), Dusit Thani Laguna Phuket, Thailand, 2024, pp. 533-542. DOI: 10.1145/3652583.3658104.

[ACM SIGKDD'24] Mingjia Yin, Hao Wang*, Wei Guo, Yong Liu, Suojuan Zhang, Sirui Zhao, Defu Lian, Enhong Chen, "Dataset Regeneration for Sequential Recommendation", The 30th ACM SIGKDD Conference on Knowledge Discovery & Data Mining (KDD'2024), 2024, pp. 3954-3965. DOI: 10.1145/3637528.3671841.

[TOIS] Hao Wang, Mingjia Yin, Luankang Zhang, Sirui Zhao, Enhong Chen, "MF-GSLAE: A Multi-Factor User Representation Pre-training Framework for Dual-Target Cross-Domain Recommendation", ACM Transactions on Information Systems, 43(2): Article 30, 1-28, 2025. DOI: 10.1145/3690382.

2023

[TAFFC] Sirui Zhao, Huaying Tang, Xinglong Mao, Shifeng Liu, Hao Wang, Tong Xu, Enhong Chen*, "DFME: A New Benchmark for Dynamic Facial Micro-expression Recognition", IEEE Transactions on Affective Computing, doi: 10.1109/TAFFC.2023.3341918, 2023.

[ACM TOMM] Sirui Zhao, Hongyu Jiang, Hanqing Tao, Rui Zha, Kun Zhang, Tong Xu, Enhong Chen. "PEDM: A Multi-task Learning Model for Persona-aware Emoji-embedded Dialogue Generation", ACM Transactions on Multimedia Computing, Communications and Applications, 2023, 19(3s): 1-21.

[ICME'23] Shukang Yin, Shiwei Wu, Tong Xu, Sirui Zhao*, Enhong Chen*. "AU-aware graph convolutional network for Macro- and Micro-expression spotting", 2023 IEEE International Conference on Multimedia and Expo (ICME), IEEE, 2023: 228-233.

[ICME'23] Yiming Zhang, Hao Wang, Yifan Xu, Xinglong Mao, Tong Xu, Sirui Zhao*, Enhong Chen*. "Adaptive Graph Attention Network with Temporal Fusion for Micro-Expressions Recognition", 2023 IEEE International Conference on Multimedia and Expo (ICME), IEEE, 2023: 1391-1396.

[PRAI'23] Huaying Tang, Xiaorong Zhang, Xinglong Mao, Shifeng Liu, Sirui Zhao*, Enhong Chen*. "Global and Local Mixer for Micro-Expression Recognition", 2023 IEEE 6th International Conference on Pattern Recognition and Artificial Intelligence (PRAI), Haikou, China, 2023, pp. 509-517.

[IWMCAS'23] Liu Minghao, Liu Haiyi, Zhao Sirui*, Ma Fei, Li Minglei, Dai Zonghong, Wang Hao, Xu Tong, Chen Enhong*. "STAN: Spatial-Temporal Awareness Network for Temporal Action Detection", Proceedings of the 6th International Workshop on Multimedia Content Analysis in Sports, 2023: 161-165.

[CIKM'23] Mingjia Yin, Hao Wang*, Xiang Xu, Likang Wu, Sirui Zhao, Wei Guo, Yong Liu, Ruiming Tang, Defu Lian, Enhong Chen, "APGL4SR: A Generic Framework with Adaptive and Personalized Global Collaborative Information in Sequential Recommendation", Proceedings of the 32nd ACM International Conference on Information and Knowledge Management (CIKM'2023), Birmingham, United Kingdom, 2023, pp. 3009-3019. DOI: 10.1145/3583780.3614781.

[FCS] Mingdi HU, Long BAI, Jiulun FAN, Sirui ZHAO, Enhong CHEN, "Vehicle Color Recognition Based on Smooth Modulation Neural Network with Multi-Scale Feature Fusion", Frontiers of Computer Science, 2023, 17(3): 173321.

2022

[Neural Networks] Sirui Zhao, Huaying Tang, Shifeng Liu, Yangsong Zhang, Hao Wang, Tong Xu, Enhong Chen*. "ME-PLAN: A Deep Prototypical Learning with Local Attention Network For Dynamic Micro-Expression Recognition", Neural Networks, 2022, 153: 427-443.

[ACM MM'22] Sirui Zhao, Shukang Yin, Huaying Tang, Jin Rijin, Yifan Xu, Tong Xu, Enhong Chen*, "Fine-grained Micro-Expression Generation based on Thin-Plate Spline and Relative AU Constraint", Proceedings of the 30th ACM International Conference on Multimedia, 2022: 7150-7154.

[ACM MM'22] Wenhao Leng, Sirui Zhao#, Yiming Zhang, Shiifeng Liu, Xinglong Mao, Hao Wang, Tong Xu, Enhong Chen*. "ABPN: Apex and Boundary Perception Network for Micro- and Macro-Expression Spotting", Proceedings of the 30th ACM International Conference on Multimedia. 2022: 7160-7164.

[ICIP'22] Rijin Jin, Sirui Zhao, Zhongkai Hao, Yifan Xu, Tong Xu*, Enhong Chen, "AVT: Au-Assisted Visual Transformer for Facial Expression Recognition", 2022 IEEE International Conference on Image Processing (ICIP), IEEE, 2022: 2661-2665.

[TAFFC] Wei Cao, Kun Zhang, Shulan Ruan, Hanqing Tao, Sirui Zhao, Hao Wang, Qi Liu, Enhong Chen. "Causal Narrative Comprehension: A New Perspective for Emotion Cause Extraction", IEEE Transactions on Affective Computing, 13(4): 1743-1758, 2022.

[PRAI'22] Hongyi Li, Sirui Zhao, Yadong Wu, Shiwei Wu, Tong Xu and Enhong Chen*, "Supervised Contrastive Attentive Learning for Facial Expression Recognition in the wild", 2022 5th International Conference on Pattern Recognition and Artificial Intelligence (PRAI), IEEE, 2022: 293-301.

2021

[Neurocomputing] Sirui Zhao, Hanqing Tao, Yangsong Zhang, Tong Xu, Kun Zhang, Zhongkai Hao, Enhong Chen*. "A Two-stage 3D CNN based Learning Method for Spontaneous Micro-Expression Recognition", Neurocomputing, 2021, 448(2021), 276-289.

[Neural Networks] Yangsong Zhang, Huan Cai, Li Nie, Peng Xu, Sirui Zhao, Cuntai Guan. "An end-to-end 3D convolutional neural network for decoding attentive mental state", Neural Networks, 2021, 144: 129-137.

[ACM MM'21] Yifan Xu, Sirui Zhao, Huaying Tang, Xinlong Mao, Tong Xu*, Enhong Chen, "FAMGAN: Fine-grained AUs Modulation based Generative Adversarial Network for Micro-Expression Generation", In Proceedings of the 29th ACM International Conference on Multimedia (ACM MM'21), Chengdu, China, 2021, 4813-4817.

[Vis] Liang Fan, Cheng Chen, Sirui Zhao, Xiarorong Zhang, Yadong Wu, Fang Wang, et al., "Multi-threaded parallel projection tetrahedral algorithm for unstructured volume rendering", Journal of Visualization, 2021, 24(2): 261-274.

Patent application

一种基于 AU 控制扩散模型的面部表情合成方法及系统，2026-2-27，中国，CN2025102206632
基于解耦多模态提示和链式引导的可控文本转语音方法，2026-2-25，中国，ZL202511851131.5（授权）
一种融合行为和情感的多用户交互响应策略自动切换方法，2026-1-16，中国，CN2026100565334
一种基于场景图的机器人自主规划方法，2025-12-15，中国，ZL2025118814464（授权）
微表情大语言模型软件【简称：微表情大模型V1.0】，2025-7-28(公告日)，中国，202510983852.5（软件著作权）
一种视角可控的背光模组及液晶显示器，2025-11-07(公告日)，中国，ZL202511203370.X（授权）
一种基于6D旋转矩阵表征的差异引导视线估计方法及装置，2025-09-19，中国，ZL202510983852.5（授权）
一种基于多感受野视觉特征提取的微表情识别方法及系统，2025-05-23，中国，ZL202510336419.2（授权）
一种非接触心率检测方法、系统及相关设备，2025-05-02，中国，ZL202510240309.6（授权）
一种基于AU引导的微表情识别方法及装置，2025-02-18，中国，ZL202411783466.3（授权）
一种基于音素感知的语音情感识别方法及装置，2024-12-08，中国，ZL202411505238.X（授权）
基于小波变换混合增强对比学习的微动作识别方法及装置，2024-7-15，中国，ZL202410938994.5（授权）
跨帧率微表情识别方法及装置，2024-7-16，中国，ZL202410592967.7（授权）
一种微表情识别模型的训练方法、识别方法及相关设备，2024-7-26，中国，ZL202410649574.5（授权）
视频检索方法、系统、设备及存储介质，2023-10-16，中国，ZL202311331941.9（授权）
一种自发微表情识别方法，2022-9-30, 中国，ZL202011559343.3（授权）
自然场景下人脸表情识别方法、系统、设备及存储介质，2022-9-06, 中国，ZL202210546946.2（授权）
微表情峰值自动检测方法、系统、设备及存储介质，2022-4-14，中国，ZL202210387781.9（授权）
人脸表情识别方法、系统、设备及存储介质，2022-4-28, 中国，CN202210459722.8
微表情检测方法、系统、设备及存储介质，2023-04-03，中国，CN202310345351 .5
文本情感原因的识别方法、系统、设备及存储介质，申请日期：2022-8-26, 中国， CN202211032385.0
一种基于可视交互的三维人体动作关键帧提取方法，申请日期：2022-11-23, 中国， CN202211476480.X

Hosted and Participated Research Projects

January 2025 - January 2028, 主持, The Natural Science Foundation of China, 国家自然科学基金青年基金
January 2023 - January 2024, 主持, The Natural Science Foundation of Sichuan, China, 省自然科学基金青年基金
My research is also supported by grants from these leading companies, e.g., Huawei, and Huadong Photoelectric

Focusing on affective intelligence, committed to solving fine-grained emotion understanding in micro-expression analysis and multimodal human-computer interaction!

There's always a way as long as you maintain in good a state of mind!

Biography

Awards and Honors

Selected Publications