Η Μυστική Χρηματοδότηση του OpenAI για Θέτει Ερωτήματα για το Μοντέλο o3

Η Μυστική Χρηματοδότηση του OpenAI για Θέτει Ερωτήματα για το Μοντέλο o3

Οι πρόσφατες αποκαλύψεις ότι το OpenAI χρηματοδότησε μυστικά και είχε πρόσβαση στο σύνολο δεδομένων αναφοράς FrontierMath έχουν προκαλέσει ανησυχίες σχετικά με την εγκυρότητα των υψηλών βαθμολογιών που επιτεύχθηκαν από το μοντέλο o3 της OpenAI. Αυτή η αποκάλυψη θέτει ερωτήματα για το αν το OpenAI χρησιμοποίησε το σύνολο δεδομένων (dataset) για να εκπαιδεύσει το μοντέλο o3 και αν οι επιδόσεις του μοντέλου είναι πραγματικά μια αμερόληπτη μέτρηση των ικανοτήτων του.

Εκτός από τη χρηματοδότηση της δημιουργίας του συνόλου δεδομένων FrontierMath, το OpenAI είχε επίσης πρόσβαση σε αυτό, μια λεπτομέρεια που δεν αποκαλύφθηκε στους μαθηματικούς που συνέβαλαν στο έργο. Η Epoch AI, η οργάνωση πίσω από το FrontierMath, αναγνώρισε τη συμμετοχή του OpenAI μόνο στην τελική εργασία που δημοσιεύτηκε στο Arxiv.org, η οποία εισήγαγε το benchmark. Πρώιμες εκδόσεις της εργασίας δεν ανέφεραν τη χρηματοδότηση του OpenAI.

Οι Υψηλές Βαθμολογίες στο FrontierMath Θέτουν Ερωτήματα

Η είδηση για την αδιάκριτη συμμετοχή του OpenAI έχει προκαλέσει απογοήτευση στην κοινότητα της Τεχνητής Νοημοσύνης και έχει θέσει αμφιβολίες για τις υψηλές βαθμολογίες που πέτυχε το μοντέλο o3 στο FrontierMath. Οι επικριτές ανησυχούν ότι η πρόσβαση του OpenAI στο σύνολο δεδομένων μπορεί να έχει παραμορφώσει τα αποτελέσματα, καθώς ολόκληρος ο σκοπός του benchmark είναι να αξιολογήσει τα μοντέλα AI χωρίς αυτά να γνωρίζουν εκ των προτέρων τις ερωτήσεις και τις λύσεις.

Μια ανάρτηση στο subreddit r/singularity εξέφρασε αυτήν την απογοήτευση, επικαλούμενη ένα έγγραφο που ισχυρίζεται ότι οι μαθηματικοί πίσω από το FrontierMath δεν ήξεραν για την εμπλοκή του OpenAI:

«Το FrontierMath, το πρόσφατο καινοτόμο μαθηματικό benchmark, χρηματοδοτείται από το OpenAI. Το OpenAI φέρεται να έχει πρόσβαση στις ερωτήσεις και τις λύσεις. Αυτό είναι απογοητευτικό, γιατί το benchmark παρουσιάστηκε στο κοινό ως μέσο αξιολόγησης των πιο προηγμένων μοντέλων, με τη στήριξη καταξιωμένων μαθηματικών. Στην πραγματικότητα, η Epoch AI δημιουργεί σύνολα δεδομένων για το OpenAI. Ποτέ δεν αποκαλύφθηκαν οι σχέσεις με το OpenAI πριν.»

Η συζήτηση αναφέρθηκε επίσης σε μια δημοσίευση που αποκάλυψε την πιο βαθιά εμπλοκή του OpenAI:

«Οι μαθηματικοί που δημιούργησαν τις ασκήσεις για το FrontierMath δεν είχαν (ενεργή) ενημέρωση για τη χρηματοδότηση από το OpenAI. …Τώρα, η Epoch AI ή το OpenAI δεν αναγνωρίζουν δημοσίως ότι το OpenAI έχει πρόσβαση στις ασκήσεις, τις απαντήσεις ή τις λύσεις. Έχω ακούσει δεύτερο χέρι ότι το OpenAI έχει πρόσβαση στις ασκήσεις και τις απαντήσεις και τις χρησιμοποιεί για επικύρωση.»

Η Αντίδραση της Epoch AI και Οι Προσπάθειες για Διαφάνεια

Ο Tamay Besiroglu, αναπληρωτής διευθυντής της Epoch AI, επιβεβαίωσε ότι το OpenAI είχε πρόσβαση στο μεγαλύτερο μέρος του συνόλου δεδομένων FrontierMath, αλλά υποστήριξε ότι υπήρχε ένα «holdout» σύνολο ασκήσεων που το OpenAI δεν είχε πρόσβαση. Αναγνώρισε την έλλειψη διαφάνειας σχετικά με την εμπλοκή του OpenAI και εξήγησε ότι το συμβόλαιό τους τους εμπόδιζε να αποκαλύψουν νωρίτερα τη σχέση χρηματοδότησης.

«Κάναμε λάθος που δεν ήμασταν πιο διαφανείς για την εμπλοκή του OpenAI,» παραδέχτηκε ο Besiroglu. «Ήμασταν περιορισμένοι από την υποχρέωση να αποκαλύψουμε τη συνεργασία μέχρι την κυκλοφορία του o3, και με το βλέμμα στο παρελθόν, έπρεπε να διαπραγματευτούμε σκληρότερα για να έχουμε τη δυνατότητα να είμαστε διαφανείς με τους συντελεστές του benchmark το συντομότερο δυνατό. Το συμβόλαιό μας μας εμπόδιζε να αποκαλύψουμε την πηγή χρηματοδότησης και το γεγονός ότι το OpenAI έχει πρόσβαση σε μεγάλο μέρος του συνόλου δεδομένων, αλλά όχι σε όλα.»

Όσον αφορά τη χρήση του συνόλου δεδομένων για εκπαίδευση, ο Besiroglu εξήγησε ότι υπήρχε μια «προφορική συμφωνία» για να διασφαλιστεί ότι το σύνολο δεδομένων «holdout» δεν θα χρησιμοποιηθεί στην εκπαίδευση του μοντέλου o3, προσθέτοντας ότι το OpenAI είχε στηρίξει πλήρως τη διατήρηση αυτού του χωριστού, αθέατου συνόλου δεδομένων για να αποτραπεί η υπερβολική προσαρμογή του μοντέλου.

«Από την πρώτη μέρα, το FrontierMath σχεδιάστηκε και παρουσιάστηκε ως εργαλείο αξιολόγησης,» τόνισε ο Besiroglu, «και πιστεύουμε ότι αυτές οι ρυθμίσεις αντανακλούν αυτόν τον σκοπό.»

Παρά τη διαφάνεια που προσπάθησε να προσφέρει η Epoch AI, η κατάσταση παραμένει αντικείμενο ελέγχου, καθώς ο πλήρης αντίκτυπος της συμμετοχής του OpenAI στα αποτελέσματα του benchmark παραμένει ασαφής.

ΣΧΕΤΙΚΑ ΑΡΘΡΑ