OpenAIs stärkstes o3-Modell wurde des Betrugs überführt, da es sich im Voraus privilegierten Zugang zum Fragenkatalog des FrontierMath-Tests verschafft hat
Ein Auftragnehmer von EpochAI namens "Meemi" enthüllte im Less Wrong Forum, dass OpenAI nicht nur finanzielle Unterstützung für den FrontierMath-Benchmark-Test bereitstellte, sondern auch privilegierten Zugang zur Testfragenbank erhielt.
Tamay Besiroglu, stellvertretender Direktor und einer der Mitbegründer von EpochAI, gab dies bald auf der Plattform X zu. Wir haben einen Fehler gemacht, indem wir OpenAIs Beteiligung an FrontierMath nicht früher offengelegt haben. Unser Vertrag verbot es uns, dies vor der Veröffentlichung von o3 zu tun. Im Nachhinein hätten wir uns früher stärker um Transparenz bemühen sollen. Wir erkennen dies an und versprechen, es in Zukunft besser zu machen.
Elliot Glazer, Chefmathematiker bei EpochAI, räumte ein, dass er während des Projekts nicht proaktiv Informationen über die Finanzierung durch die Industrie offengelegt hat und entschuldigte sich bei Mathematikern, die möglicherweise nicht teilgenommen hätten, wenn sie dies im Voraus gewusst hätten. Bezüglich der o3-Ergebnisse äußerte er Vertrauen in die Genauigkeit der von OpenAI gemeldeten Ergebnisse, betonte jedoch, dass EpochAI dies durch einen unabhängigen Retention-Testsatz, der entwickelt wird, überprüfen muss und versprach, dass die Bewertungsergebnisse dieses Satzes veröffentlicht werden. Auf die Frage nach dem Status dieses Retention-Sets stellte Glazer klar, dass es sich noch in der Entwicklung befindet und nicht abgeschlossen ist.
Es wird berichtet, dass FrontierMath ein hochgewichteter Benchmark zur Bewertung fortgeschrittener mathematischer Denkfähigkeiten ist. Es wurde gemeinsam von EpochAI mit mehr als 60 führenden Mathematikern erstellt, darunter mehrere Fields-Medaillengewinner und erfahrene Aufgabensteller für Internationale Mathematik-Olympiaden.
Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.
Das könnte Ihnen auch gefallen
Plume Staffel 1 Airdrop kommt bald
Übersicht über wichtige Entwicklungen am 21. Januar um Mittag