👋 About Me

Hi! I am a second year PhD student studying at Tsinghua University starting from Fall 2024, majoring in Computer Science and Technology. I am a member of THUNLP, advised by Prof. Zhiyuan Liu. I received my bachelor’s degree with honors from Tsinghua University in June 2024. My research interests primarily lie in the field of natural language processing, with a particular focus on alignment and reinforcement learning for LLMs.

🌟 News

2026.06: 🎉 Honored to be one of Qingyuan InnoVibe 2026’s Most Promising Rising Academic Stars!
2026.05: 🔥 Rethinking OPD accepted by ICML 2026 FoGen Workshop, see you in Seoul! BTW metrics are merged into veRL.
2026.05: 🎉 Honored to be recognized as a Gold Reviewer of ICML 2026!
2026.05: 🎉 CPMobius accepted by ICML 2026 [GitHub]
2026.04: 🎉 Rethinking OPD released at arXiv [GitHub]
2026.02: 🎉 Unsupervised RLVR accepted by ICLR 2026 [GitHub]
2025.12: 🔥 JustRL accepted by ICLR 2026 Blog Track [GitHub]
2025.10: 🎉 Veri-R1 released at arXiv [GitHub]
2025.09: 🔥 Survey of RL for LRM released at arXiv [GitHub]
2025.07: 🎉 AIR accepted by COLM 2025
2025.05: 🎉 EscapeBench accepted by ACL 2025 [GitHub]
2025.05: 🎉 Dynamic of Zero-Shot Generalization accepted by ACL 2025 [GitHub]
2025.02: 🔥 PRIME released at arXiv [GitHub]
2024.05: 🎉 Tell Me More accepted by ACL 2024 [GitHub]
2024.05: 🔥 UltraFeedback accepted by ICML 2024 [GitHub]
2023.10: 🎉 Our work on LLM-generated Text Detection is accepted by EMNLP 2023 [GitHub]
2022.09: 🎉 OpenBackdoor accepted by NeurIPS Datasets & Benchmarks 2022 (Spotlight) [GitHub]

📝 Publications

(* denotes equal/core contribution, ^† denotes project lead， ^‡ indicates corresponding author.)

CPMobius: Iterative Coach-Player Reasoning for Data-Free Reinforcement Learning
Ran Li*, Zeyuan Liu*, Yinghao chen, Bingxiang He, Jiarui Yuan, Zixuan Fu, Weize Chen, Jinyi Hu, Zhiyuan Liu^‡, Maosong Sun
ICML 2026 [GitHub]
Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
Yaxuan Li*, Yuxin Zuo*^†, Bingxiang He*^†, Jinqian Zhang, Chaojun Xiao^‡, Cheng Qian, Tianyu Yu, Huan-ang Gao, Wenkai Yang, Zhiyuan Liu^‡, Ning Ding^‡
ICML 2026 FoGen Workshop Poster [GitHub 600+ Stars]
How Far Can Unsupervised RLVR Scale LLM Training?
Bingxiang He*, Yuxin Zuo*^†, Zeyuan Liu*, Shangziqi Zhao*, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou^‡, Zhiyuan Liu^‡, Ning Ding^‡
ICLR 2026 [GitHub 1k+ Stars]
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding^‡, Zhiyuan Liu^‡
ICLR 2026 Blog [GitHub 200+ Stars]
MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe
MiniCPM-V Team
CVPR 2026 [GitHub 24k+ Stars]
A Survey of Reinforcement Learning for Large Reasoning Models
Kaiyan Zhang*^†, Yuxin Zuo*^†, Bingxiang He*, Youbang Sun*, Runze Liu*, Che Jiang*, Yuchen Fan*, Kai Tian*, Guoli Jia*, Pengfei Li*, Yu Fu*, Xingtai Lv*, Yuchen Zhang*, Sihang Zeng*, Shang Qu*, Haozhan Li*, Shijie Wang*, Yuru Wang*, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi^‡, Ning Ding^‡, Bowen Zhou^‡
Preprint [GitHub 2k+ Stars]
AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset
Bingxiang He*, Wenbin Zhang*, Jiaxi Song, Cheng Qian, Zixuan Fu, Bowen Sun, Ning Ding, Haiwen Hong, Longtao Huang, Hui Xue, Ganqu Cui^‡, Wanxiang Che^‡, Zhiyuan Liu, Maosong Sun
COLM 2025
MiniCPM4: Ultra-Efficient LLMs on End Devices
Preprint MiniCPM Team [GitHub 8k+ Stars]
Process Reinforcement through Implicit Rewards
Ganqu Cui*, Lifan Yuan*, Zefan Wang*, Hanbin Wang*, Yuchen Zhang*, Jiacheng Chen*, Wendi Li*, Bingxiang He*, Yuchen Fan*, Tianyu Yu*, Qixin Xu*, Weize Chen, Jiarui Yuan, Huayu Chen, Kaiyan Zhang, Xingtai Lv, Shuo Wang, Yuan Yao, Xu Han, Hao Peng, Yu Cheng, Zhiyuan Liu, Maosong Sun, Bowen Zhou, Ning Ding
Preprint [GitHub 1k+ Stars]
EscapeBench: Pushing Language Models to Think Outside the Box
Cheng Qian, Peixuan Han, Qinyu Luo, Bingxiang He, Xiusi Chen, Yuji Zhang, Hongyi Du, Jiarui Yao, Xiaocheng Yang, Denghui Zhang, Yunzhu Li, Heng Ji
ACL 2025 Main [GitHub]
The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning
Bingxiang He*, Ning Ding*, Cheng Qian*, Jia Deng, Ganqu Cui, Lifan Yuan, Haiwen Hong, Huan-ang Gao, Longtao Huang, Hui Xue, Huimin Chen, Zhiyuan Liu^‡, Maosong Sun^‡
ACL 2025 Findings [GitHub]
Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
Cheng Qian*, Bingxiang He*, Zhong Zhuang, Jia Deng, Yujia Qin, Xin Cong, Zhong Zhang, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun
ACL 2024 Main [GitHub]
UltraFeedback: Boosting Language Models with High-quality Feedback
Ganqu Cui*, Lifan Yuan*, Ning Ding, Guanming Yao, Bingxiang He, Wei Zhu, Yuan Ni, Guotong Xie, Ruobing Xie, Yankai Lin, Zhiyuan Liu, Maosong Sun
ICML 2024 [GitHub 300+ Stars]
Beat LLMs at Their Own Game: Zero-Shot LLM-Generated Text Detection via Querying ChatGPT
Biru Zhu, Lifan Yuan, Ganqu Cui, Yangyi Chen, Chong Fu, Bingxiang He, Yangdong Deng, Zhiyuan Liu, Maosong Sun, Ming Gu
EMNLP 2023 Main [GitHub]
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks
Ganqu Cui*, Lifan Yuan*, Bingxiang He, Yangyi Chen, Zhiyuan Liu, Maosong Sun
NeurIPS Datasets & Benchmarks 2022 (Spotlight) [GitHub 200+ Stars]

📖 Educations

2024.09 - 2029.06 (now), Tsinghua University Ph.D. in Computer Science and Technology (THUNLP)
2020.09 - 2024.06, Tsinghua University B.S. in Computer Science and Technology with honors

🎖 Honors and Awards

Qingyuan InnoVibe 2026 (Most Promising Rising Academic Stars), BAAI. 2026.06
ICML 2026 Gold Reviewer. 2026.05
Comprehensive Merit Scholarship of Tsinghua for the 2024-2025 school year, Dept. of CST. 2025.12
Outstanding Graduate Award, Beijing Municipal Education Commission. 2024.06
Outstanding Paper Award for Diploma Project, Tsinghua University. 2024.06
Five Star ZiJing Volunteer Award, Tsinghua University Communist Youth League Committee. 2024.05
Comprehensive Merit Scholarship of Tsinghua for the 2022-2023 school year, Dept. of CST. 2023.10
Comprehensive Merit Scholarship of Tsinghua for the 2021-2022 school year, Dept. of CST (Top 1). 2022.10
Third Prize in THU Challenge Cup Academic Competition, Tsinghua University. 2022.04
Comprehensive Merit Scholarship of Tsinghua for the 2020-2021 school year, Dept. of CST. 2021.10
Second Prize in National Undergraduate Physics Competition, Beijing Physics Society. 2021.04
Second Prize in Freshmen Scholarship, Tsinghua University. 2020.09

💬 Invited Talks

Three Boundaries for Scalable Reinforcement Learning. Qingyuan InnoVibe 2026 in BAAI. 2026.06
AMA (Ask Me Anything) for Rethinking OPD. QingKeAI. 2026.05
Towards Scalable Reinforcement Learning for LLMs. BAAI. NICE. 2026.05
How Far Can Unsupervised RLVR Scale LLM Training? AI TIME. Synced. QingKeAI. 2026.04
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe. QingKeAI. 2026.02
The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning. Alibaba Security. 2025.05
Tell me more! towards implicit user intention understanding of language model driven agents. Wiztalk. 2024.08

🛠️ Services

Conference Reviewer: NeurIPS (2024 - 2025), ICLR (2025 - 2026), ICML (2025 - 2026), ACL ARR (2024 - 2026), COLM (2025 - 2026), COLM SCALR Workshop (2025), AAAI (2026), AISTATS (2025 - 2026), ICCV (2025)