ΤΕΧΝΟΛΟΓΙΑ

Πέρασε η AI το πιο δύσκολο τεστ μαθηματικών; Τα αποτελέσματα της πρόκλησης First Proof

Επιμέλεια: Θοδωρής Ρούσσος 16 Φεβρουαρίου 2026 - 19:18

Η πρόκληση First Proof έθεσε 10 απαιτητικά μαθηματικά προβλήματα σε μοντέλα Τεχνητής Νοημοσύνης. Πόσα λύθηκαν χωρίς ανθρώπινη βοήθεια και τι δείχνουν τα αποτελέσματα;

Πόσα προβλήματα λύθηκαν πραγματικά;
Ανθρώπινη παρέμβαση και γκρίζες ζώνες
Πειστικές... ανοησίες;
Απογοήτευση ή προειδοποίηση για το μέλλον;

Δέκα απαιτητικά μαθηματικά προβλήματα, μία εβδομάδα προθεσμία και ένας σαφής στόχος: να διαπιστωθεί αν τα σύγχρονα μοντέλα τεχνητής νοημοσύνης μπορούν να σταθούν στο ύψος της ερευνητικής μαθηματικής σκέψης. Το αποτέλεσμα; Εντυπωσιακό σε κάποια σημεία, αλλά μακριά από το να θεωρηθεί ανατρεπτικό για το επάγγελμα του μαθηματικού.

Η πρόκληση «First Proof» σχεδιάστηκε ως ένα αυστηρό τεστ αντοχής για τα LLM, με τη συμμετοχή 11 διακεκριμένων μαθηματικών. Στις 5 Φεβρουαρίου παρουσιάστηκαν δέκα «λήμματα» - δηλαδή επιμέρους θεωρήματα που λειτουργούν ως σκαλοπάτια για μεγαλύτερα αποτελέσματα. Τα επίσημα συμπεράσματα δημοσιοποιήθηκαν ανήμερα του Αγίου Βαλεντίνου, αφήνοντας την μαθηματική κοινότητα με ανάμεικτες εντυπώσεις.

Πόσα προβλήματα λύθηκαν πραγματικά;

Η άμεση απάντηση: κανένα μοντέλο δεν κατάφερε να επιλύσει και τα δέκα.

Σύμφωνα με τους διοργανωτές, τα συστήματα τεχνητής νοημοσύνης παρήγαγαν φαινομενικά πειστικές αποδείξεις για όλα τα προβλήματα. Ωστόσο, μόλις δύο από αυτές κρίθηκαν ορθές - συγκεκριμένα το ένατο και το δέκατο λήμμα. Ακόμη κι εκεί, διαπιστώθηκε ότι μία από τις λύσεις έμοιαζε σχεδόν ταυτόσημη με ήδη υπάρχουσα απόδειξη.

Ο Mohammed Abouzaid, καθηγητής στο Πανεπιστήμιο Στάνφορντ και μέλος της ομάδας, σημείωσε ότι οι ορθές λύσεις «θυμίζουν μαθηματικά του 19ου αιώνα», ενώ η σύγχρονη έρευνα επιδιώκει πολύ διαφορετικά, πιο αφηρημένα και σύνθετα μονοπάτια.

Ανθρώπινη παρέμβαση και γκρίζες ζώνες

Η πρόκληση είχε σαφή κανόνα: καμία ανθρώπινη μαθηματική παρέμβαση. Ωστόσο, αρκετές εξωτερικές υποβολές φάνηκε να προέκυψαν ύστερα από εκτεταμένους «διαλόγους» ανθρώπων με τα μοντέλα.

Η Lauren Williams, καθηγήτρια στο Χάρβαρντ και συνιδρύτρια της πρωτοβουλίας, έθεσε το κρίσιμο ερώτημα: όταν ένας άνθρωπος καθοδηγεί το μοντέλο, πού τελειώνει η ανθρώπινη σκέψη και πού αρχίζει η τεχνητή;

Από την πλευρά της, η OpenAI δημοσίευσε τα δικά της αποτελέσματα έπειτα από εσωτερικό «σπριντ» μίας εβδομάδας, αξιοποιώντας τα πιο πρόσφατα μοντέλα της. Ο επικεφαλής επιστήμονας Jakub Pachocki δήλωσε ότι έξι από τις δέκα λύσεις «έχουν μεγάλες πιθανότητες να είναι σωστές», αν και ήδη έχουν εντοπιστεί πιθανά κενά σε τουλάχιστον μία.

Πειστικές... ανοησίες;

Πριν καν ολοκληρωθεί επίσημα η πρόκληση, αρκετές υποτιθέμενες λύσεις που κυκλοφόρησαν σε διαδικτυακά φόρουμ αμφισβητήθηκαν έντονα από ειδικούς. Η εμπειρία αυτή ανέδειξε ένα γνωστό πρόβλημα των LLM: την παραγωγή κειμένων με ύφος βεβαιότητας, τα οποία όμως καταρρέουν σε έναν προσεκτικό έλεγχο.

Ο Daniel Litt από το Πανεπιστήμιο του Τορόντο επισήμανε ότι η αξιολόγηση της «πρωτοτυπίας» μιας απόδειξης είναι συχνά δυσκολότερη από την επιβεβαίωση της ορθότητάς της. «Τίποτα στα μαθηματικά δεν είναι χωρίς προηγούμενο», σχολίασε.

Η ομάδα του First Proof αντιμετωπίζει την πρωτοβουλία ως πείραμα και ήδη σχεδιάζει δεύτερο γύρο με αυστηρότερους ελέγχους, με νέες λεπτομέρειες να αναμένονται τον Μάρτιο.

Απογοήτευση ή προειδοποίηση για το μέλλον;

Για ορισμένους, τα αποτελέσματα ήταν αναμενόμενα. «Δύο ή τρεις καθαρά σωστές λύσεις θα ήταν ρεαλιστικές. Δέκα θα ήταν παράδοξο», σημείωσε ο Litt.

Άλλοι, ωστόσο, υπογραμμίζουν ότι ακόμη και λίγες έγκυρες λύσεις σε ερευνητικό επίπεδο θα θεωρούνταν αδιανόητες πριν από λίγους μήνες. Ο μαθηματικός Scott Armstrong από τη Σορβόννη εκτιμά ότι «τα εργαλεία αυτά ήδη αλλάζουν τα μαθηματικά».

Πιο επιφυλακτικός εμφανίστηκε ο Kevin Barreto από το Πανεπιστήμιο του Cambridge, ο οποίος είχε αξιοποιήσει AI για πρόβλημα του Paul Erdős. «Τα μοντέλα δυσκολεύτηκαν. Ειλικρινά, περίμενα κάτι περισσότερο», ανέφερε.

Η πρόκληση «First Proof» δεν απέδειξε ότι η Τεχνητή Νοημοσύνη μπορεί να αντικαταστήσει τον ερευνητή μαθηματικό. Απέδειξε όμως ότι έχει ήδη φτάσει σε ένα επίπεδο που προκαλεί σοβαρό διάλογο.

ΤΙ ΔΙΑΒΑΖΕΤΑΙ