👋 About Me

Hi! I am a second-year PhD student at Tsinghua University, majoring in Computer Science and Technology. I am a member of THUNLP, advised by Prof. Zhiyuan Liu. I received my bachelor’s degree with honors from Tsinghua University in June 2024. My research interests lie in natural language processing, with a focus on alignment, reinforcement learning, and self-evolving language models.

🌟 News

2026.07: 🎉 Selected for the CIE-Tencent Doctoral Research Incentive Project (44 recipients nationwide)!
2026.06: 🎉 Honored to be one of Qingyuan InnoVibe 2026’s Most Promising Rising Academic Stars!
2026.06: 🔥 NatureBench released at arXiv [GitHub] [Leaderboard]
2026.05: 🔥 Rethinking OPD accepted by ICML 2026 FoGen Workshop, see you in Seoul! BTW metrics are merged into veRL.
2026.05: 🎉 Honored to be recognized as a Gold Reviewer of ICML 2026!
2026.05: 🎉 CPMobius accepted by ICML 2026 [GitHub]
2026.04: 🎉 Rethinking OPD released at arXiv [GitHub]
2026.02: 🎉 Unsupervised RLVR accepted by ICLR 2026 [GitHub]
2025.12: 🔥 JustRL accepted by ICLR 2026 Blog Track [GitHub]
2025.10: 🎉 Veri-R1 released at arXiv [GitHub]
2025.09: 🎉 MiniCPM-V 4.5 accepted by CVPR 2026 [GitHub]
2025.09: 🔥 Survey of RL for LRM released at arXiv [GitHub]
2025.07: 🎉 AIR accepted by COLM 2025
2025.06: 🔥 MiniCPM4 released at arXiv [GitHub]
2025.05: 🎉 EscapeBench accepted by ACL 2025 [GitHub]
2025.05: 🎉 Dynamics of Zero-Shot Generalization accepted by ACL 2025 [GitHub]
2025.02: 🔥 PRIME released at arXiv [GitHub]
2024.05: 🎉 Tell Me More accepted by ACL 2024 [GitHub]
2024.05: 🔥 UltraFeedback accepted by ICML 2024 [GitHub]
2023.10: 🎉 Our work on LLM-generated Text Detection is accepted by EMNLP 2023 [GitHub]
2022.09: 🎉 OpenBackdoor accepted by NeurIPS Datasets & Benchmarks 2022 (Spotlight) [GitHub]

📝 Publications

(* denotes equal/core contribution, ^† denotes project lead, ^‡ indicates corresponding author.)

Google Scholar · 2300+ citations

CPMobius: Iterative Coach-Player Reasoning for Data-Free Reinforcement Learning
Ran Li*, Zeyuan Liu*, Yinghao Chen, Bingxiang He, Jiarui Yuan, Zixuan Fu, Weize Chen, Jinyi Hu, Zhiyuan Liu^‡, Maosong Sun
ICML 2026 [GitHub]
▸ Featured by OpenBMB
Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe
Yaxuan Li*, Yuxin Zuo*^†, Bingxiang He*^†, Jinqian Zhang, Chaojun Xiao^‡, Cheng Qian, Tianyu Yu, Huan-ang Gao, Wenkai Yang, Zhiyuan Liu^‡, Ning Ding^‡
ICML 2026 FoGen Workshop [GitHub 800+ Stars]
▸ Adopted by ModelBest (MiniCPM5) and ByteDance Seed’s veRL · #1 on HF Daily Papers · 19k+ views on X · Featured by AK, TuringPost, QingKeAI, Synced, OpenBMB, TsinghuaNLP
How Far Can Unsupervised RLVR Scale LLM Training?
Bingxiang He*, Yuxin Zuo*^†, Zeyuan Liu*, Shangziqi Zhao*, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou^‡, Zhiyuan Liu^‡, Ning Ding^‡
ICLR 2026 [GitHub 1k+ Stars]
▸ #3 on HF Daily Papers · 9k+ views on X · Featured by AK, TuringPost, HuggingPapers, sheriyuo, Synced, OpenBMB, TsinghuaNLP
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe
Bingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding^‡, Zhiyuan Liu^‡
ICLR 2026 Blog [Blog] [GitHub 280+ Stars]
▸ 15k+ HF downloads · Adopted by ModelBest (MiniCPM5) · 42k+ views on X · 100k+ views on Zhihu · Featured by alphaXiv, DAIR.AI, Synced, TsinghuaNLP, QingKeAI
MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe
MiniCPM-V Team
CVPR 2026 [GitHub 25k+ Stars]
▸ 280k+ HF downloads/mo · Integrated into llama.cpp, vLLM, Ollama, SGLang, LLaMA-Factory · Featured by OpenBMB
A Survey of Reinforcement Learning for Large Reasoning Models
Kaiyan Zhang*^†, Yuxin Zuo*^†, Bingxiang He*, Youbang Sun*, Runze Liu*, Che Jiang*, Yuchen Fan*, Kai Tian*, Guoli Jia*, Pengfei Li*, Yu Fu*, Xingtai Lv*, Yuchen Zhang*, Sihang Zeng*, Shang Qu*, Haozhan Li*, Shijie Wang*, Yuru Wang*, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi^‡, Ning Ding^‡, Bowen Zhou^‡
Preprint [GitHub 2.5k+ Stars]
▸ #1 on HF Daily Papers · 150k+ views on X · Featured by elvis (DAIR.AI), TuringPost, Synced, TsinghuaNLP
NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?
Yuru Wang*, Lejun Cheng*, Yuxin Zuo*, Sihang Zeng, Bingxiang He, Che Jiang, Junlin Yang, Yuchong Wang, Kaikai Zhao, Weifeng Huang, Kai Tian, Zhenzhao Yuan, Jincheng Zhong, Weizhi Wang, Ning Ding, Bowen Zhou^‡, Kaiyan Zhang^‡
Preprint [GitHub 50+ Stars] [Data] [Leaderboard]
▸ #2 on HF Daily Papers · Featured by TsinghuaC3I
AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset
Bingxiang He*, Wenbin Zhang*, Jiaxi Song, Cheng Qian, Zixuan Fu, Bowen Sun, Ning Ding, Haiwen Hong, Longtao Huang, Hui Xue, Ganqu Cui^‡, Wanxiang Che^‡, Zhiyuan Liu, Maosong Sun
COLM 2025
▸ 8k+ views on X · Featured by Synced, TsinghuaNLP
MiniCPM4: Ultra-Efficient LLMs on End Devices
MiniCPM Team
Preprint [GitHub 9k+ Stars] [HF Collection]
▸ Featured by OpenBMB (18k+ views), TsinghuaNLP
Process Reinforcement through Implicit Rewards
Ganqu Cui*, Lifan Yuan*, Zefan Wang*, Hanbin Wang*, Yuchen Zhang*, Jiacheng Chen*, Wendi Li*, Bingxiang He*, Yuchen Fan*, Tianyu Yu*, Qixin Xu*, Weize Chen, Jiarui Yuan, Huayu Chen, Kaiyan Zhang, Xingtai Lv, Shuo Wang, Yuan Yao, Xu Han, Hao Peng, Yu Cheng, Zhiyuan Liu, Maosong Sun, Bowen Zhou, Ning Ding
Preprint [Blog] [GitHub 1.9k+ Stars]
▸ 240k+ views on X · Liked by John Schulman and reposted by Nathan Lambert · Featured by QbitAI
EscapeBench: Pushing Language Models to Think Outside the Box
Cheng Qian, Peixuan Han, Qinyu Luo, Bingxiang He, Xiusi Chen, Yuji Zhang, Hongyi Du, Jiarui Yao, Xiaocheng Yang, Denghui Zhang, Yunzhu Li, Heng Ji
ACL 2025 Main [GitHub]
The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning
Bingxiang He*, Ning Ding*, Cheng Qian*, Jia Deng, Ganqu Cui, Lifan Yuan, Haiwen Hong, Huan-ang Gao, Longtao Huang, Hui Xue, Huimin Chen, Zhiyuan Liu^‡, Maosong Sun^‡
ACL 2025 Findings [GitHub]
Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
Cheng Qian*, Bingxiang He*, Zhong Zhuang, Jia Deng, Yujia Qin, Xin Cong, Zhong Zhang, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun
ACL 2024 Main [GitHub]
▸ Featured by AK (10k+ views)
UltraFeedback: Boosting Language Models with High-quality Feedback
Ganqu Cui*, Lifan Yuan*, Ning Ding, Guanming Yao, Bingxiang He, Wei Zhu, Yuan Ni, Guotong Xie, Ruobing Xie, Yankai Lin, Zhiyuan Liu, Maosong Sun
ICML 2024 [GitHub 350+ Stars] [Data]
▸ Featured by Thomas Wolf (170k+ views)
Beat LLMs at Their Own Game: Zero-Shot LLM-Generated Text Detection via Querying ChatGPT
Biru Zhu, Lifan Yuan, Ganqu Cui, Yangyi Chen, Chong Fu, Bingxiang He, Yangdong Deng, Zhiyuan Liu, Maosong Sun, Ming Gu
EMNLP 2023 Main [GitHub]
A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks
Ganqu Cui*, Lifan Yuan*, Bingxiang He, Yangyi Chen, Zhiyuan Liu, Maosong Sun
NeurIPS Datasets & Benchmarks 2022 (Spotlight) [GitHub 200+ Stars]

📖 Educations

2024.09 - 2029.06 (now), Tsinghua University Ph.D. in Computer Science and Technology (THUNLP)
2020.09 - 2024.06, Tsinghua University B.S. in Computer Science and Technology with honors

💼 Experience

2026.03 - present, ModelBest (面壁智能), Beijing. Research Intern, Forward-Four Program (前进四计划). Working with Postdoc Chaojun Xiao.
- Post-training of the MiniCPM4 & MiniCPM5 series: SFT, RL, and on-policy distillation (OPD).
- AutoSFT: a coding-agent that autonomously searches SFT data recipes; the SFT data engine of the pipeline.
- RL: a minimal, stable RL recipe landed as MiniCPM5’s math & reasoning RL; diagnosing and fixing training collapse.
- OPD: co-developed the OPD recipe, integrated into MiniCPM5 as the cross-domain model-merging mechanism.

🎖 Honors and Awards

CIE-Tencent Doctoral Research Incentive Project (中国电子学会-腾讯大模型博士生科研激励计划, 44 Recipients Nationwide, ¥100,000 Grant). 2026.07
Qingyuan InnoVibe 2026 (青源最受瞩目学术新星, 25 Winners Nationwide), BAAI. 2026.06
ICML 2026 Gold Reviewer (Top 25%). 2026.05
Comprehensive Scholarship of Tsinghua University for 2024-2025, Dept. of CST (Top 10). 2025.12
Outstanding Graduate Award, Beijing Municipal Education Commission (Top 5%). 2024.06
Outstanding Paper Award for Diploma Project, Tsinghua University (Top 5%). 2024.06
Comprehensive Scholarship of Tsinghua University for 2022-2023, Dept. of CST (Top 10). 2023.10
12·9 Scholarship of Tsinghua University for 2021-2022, Dept. of CST (Top 1). 2022.10
Third Prize in THU Challenge Cup Academic Competition, Tsinghua University. 2022.04
Comprehensive Scholarship of Tsinghua University for 2020-2021, Dept. of CST (Top 10). 2021.10
Second Prize in Freshmen Scholarship, Tsinghua University (Top 10 in Guangdong Province, Gaokao). 2020.09

💬 Invited Talks

Three Boundaries for Scalable Reinforcement Learning. Qingyuan InnoVibe 2026 in BAAI. 2026.06
AMA (Ask Me Anything) for Rethinking OPD. QingKeAI. 2026.05
Towards Scalable Reinforcement Learning for LLMs. BAAI. NICE. 2026.05
How Far Can Unsupervised RLVR Scale LLM Training? AI TIME. Synced. QingKeAI. 2026.04
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe. QingKeAI. 2026.02
The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning. Alibaba Security. 2025.05
Tell me more! towards implicit user intention understanding of language model driven agents. Wiztalk. 2024.08

🛠️ Services

Conference Reviewer: NeurIPS (2024 - 2025), ICLR (2025 - 2026), ICML (2025 - 2026), ACL ARR (2024 - 2026), COLM (2025 - 2026), COLM SCALR Workshop (2025), AAAI (2026), AISTATS (2025 - 2026), ICCV (2025)

Bingxiang He