Sober Reasoning Leaderboard 🍷

Andreas Hochlehnert*¹, Hardik Bhatnagar*¹, Vishaal Udandarao^1,2, Samuel Albanie, Ameya Prabhu¹, Matthias Bethge¹

¹Tübingen AI Center - University of Tübingen ²University of Cambridge

Evaluation reports Pass@1 accuracy (mean ± std) across six math benchmarks using standardized evaluation. The scores are across 10 seeds for AIME24, AIME25, and AMC23; and across 3 seeds for MATH500, Minerva and OlympiadBench.

Paper Code

Filter by Base Model:

Model	Organization	Base Model	Method	Link	AIME'24	AIME'25	AMC'23	MATH500	Minerva	OlympiadBench	Avg