Artikel.
Das Urteil scheint gefällt: Künstliche Intelligenz wird Mathematiker nicht ersetzen – zumindest nicht jetzt. Das ist das Ergebnis der »First Proof«-Challenge, des derzeit vielleicht aussagekräftigsten Tests der Fähigkeit großer Sprachmodelle (LLMs), mathematische Forschung zu betreiben. Elf Spitzenmathematiker stellten den Test am 5. Februar 2026 vor und veröffentlichten eine Woche später die Ergebnisse. Es ist noch zu früh, um endgültig zu beurteilen, wie viele der zehn Probleme KI-Modelle tatsächlich eigenständig lösten. Aber eines ist klar: Kein KI-System war auch nur annähernd in der Lage, alle Aufgaben zu lösen.
Die Fachleute hinter First Proof haben hierfür zehn »Lemmas« vorgestellt, das sind kleinere Theoreme, die den Weg zu einem größeren Ergebnis ebnen. Solche Lemmas zu beweisen, gehört zur alltäglichen Arbeit in der Mathematik: Es ist die Art von Problem, die zum Beispiel Doktorandinnen und Doktoranden übertragen wird. Das Team von First Proof hat Aufgaben ausgewählt, deren Lösung eine gewisse Kreativität erfordert und nicht nur eine Zusammenstellung von Standardtechniken ist, sagt Mohammed Abouzaid von der Stanford University, Mitglied des First Proof-Teams.
Die Herausforderung zeigt die Grenzen aktueller KI-Systeme auf – und rückt auch eine aufkeimende Community von KI-Enthusiasten innerhalb der Mathematik ins Rampenlicht. Angebliche Beweise, erstellt von teilweise namhaften Fachleuten und Studierenden, überschwemmten Online-Diskussionsforen und Social-Media-Konten. »Wir hatten nicht erwartet, dass es so viel Aktivität geben würde«, sagt Abouzaid.
Genauso wenig habe er mit den bemerkenswerten Bemühungen vonseiten der großen KI-Unternehmen gerechnet, die teilweise sehr viel Arbeit in das Projekt gesteckt haben. Das unterstreicht, wie ernst KI-Start-ups und Firmen wie OpenAI die Herausforderung nehmen, einem Sprachmodell Mathematik näherzubringen.
KI erreicht noch nicht das Niveau heutiger Mathematiker.
Das First-Proof-Team gab am frühen Morgen des Valentinstags die Lösungen der zehn Probleme bekannt. Zudem veröffentlichten die Fachleute einen Beitrag über ihre eigenen Erfahrungen beim Versuch, die Aufgaben mit Sprachmodellen zu lösen. Die KI-Modelle lieferten zwar zu jedem überzeugende Beweise, allerdings waren nur zwei davon korrekt: die für das neunte und das zehnte Problem. Und wie sich herausstellte, war ein Beweis, der fast identisch mit dem des neunten Problems war, bereits online verfügbar. Die erste Aufgabe von First Proof war ebenfalls »kontaminiert«. Ein Beweisentwurf war auf der Website des Fields-Medaillengewinners Martin Hairer zu finden, doch die KI-Modelle konnten die enthaltenen Lücken nicht füllen.
Der Stil der Beweise, die die Sprachmodelle vorlegten, war besonders überraschend, sagt Abouzaid. »Die richtigen Lösungen haben den Stil der Mathematik des 19. Jahrhunderts«, sagt er. »Aber wir versuchen, die Mathematik des 21. Jahrhunderts zu entwickeln.«
Externe Einreichungen schienen nicht viel besser abzuschneiden. Einige enthalten offenbar auch menschliches Zutun, bei denen mehrere das Ergebnis langer Dialoge waren, die von Mathematikern überprüft wurden. Die Regeln von First Proof verbieten jedoch solche menschlichen Eingriffe. »Wie können wir beurteilen, wie hoch der Beitrag von der KI ist, wenn Menschen an der Lösung beteiligt waren?«, sagt die Mathematikerin Lauren Williams von der Harvard University.
OpenAI veröffentlichte seine Ergebnisse am Samstag, den 14. Februar, nach einem einwöchigen Sprint unter Verwendung der neuesten, noch unveröffentlichten KI-Modelle, die mit dem Feedback menschlicher Mathematiker arbeiten. Der wissenschaftliche Leiter des Unternehmens, Jakub Pachocki, sagte auf Social Media, er und sein Team gingen davon aus, dass sechs der zehn Lösungen »eine hohe Wahrscheinlichkeit haben, richtig zu sein«. Doch Fachleute haben bereits auf mögliche Lücken in mindestens einem dieser sechs Ergebnisse hingewiesen.
Abgesehen von der Frage, wie viel menschliche Unterstützung die KIs hatten, scheint der Großteil der eingereichten Lösungen aus überzeugendem Unsinn zu bestehen. Noch bevor die Challenge überhaupt beendet war, stellten Experten einige vermeintliche Ergebnisse infrage, die zunächst glaubwürdig erschienen.
»Um ehrlich zu sein, bin ich etwas enttäuscht«Kevin Barreto, Mathematiker.
Es wird noch einige Tage dauern, bis Fachleute die eingereichten Lösungen ordnungsgemäß geprüft haben. Noch schwieriger wird es jedoch, zu beurteilen, ob ein Beweis wirklich neu ist. »In der Mathematik gibt es nichts, was völlig ohne Präzedenzfall ist«, sagt der Mathematiker Daniel Litt von der University of Toronto, der nicht zum Team von First Proof gehört.
Viele Fachleute zeigen sich wenig überrascht von den Ergebnissen der KI-Modelle. »Ich habe vielleicht zwei bis drei eindeutig korrekte Lösungen von öffentlich zugänglichen Modellen erwartet«, sagt Litt. »Zehn hätten mich schon sehr erstaunt.« Dennoch wäre es noch vor wenigen Monaten undenkbar gewesen, auch nur wenige gültige Lösungen für Probleme auf Forschungsniveau von einer KI zu erhalten. »Ich habe bereits von Kollegen gehört, dass sie schockiert sind«, erklärt der Mathematiker Scott Armstrong von der Sorbonne. »Diese Technologie wird die Mathematik verändern – und das geschieht jetzt gerade.«
Andere sind weniger beeindruckt. »Die Modelle scheinen sich schwergetan zu haben«, sagt Kevin Barreto von der University of Cambridge, der nicht zum First-Proof-Team gehörte. Er hat im Januar 2026 KI-Modelle eingesetzt, um eines der Erdős-Probleme zu lösen, eine Reihe von Herausforderungen, die der ungarische Mathematiker Paul Erdős gestellt hat. »Um ehrlich zu sein, bin ich etwas enttäuscht.«