OpenAI : Νέα μοντέλα συλλογιστικής o3 και o3 Mini

OpenAI : Νέα μοντέλα συλλογιστικής o3 και o3 Mini

Η OpenAI ανακοίνωσε την οικογένεια μοντέλων συλλογισμού o3. Παρόμοια με την υπάρχουσα οικογένεια o1, η οικογένεια o3 θα περιλαμβάνει μοντέλα o3 και o3 mini.

Το OpenAI παρουσίασε ορισμένους αριθμούς αναφοράς για τα μοντέλα o3.

  • Το o3 σημείωσε σημαντική ανακάλυψη 75,7% στην αξιολόγηση ARC-AGI Semi-Private. Με διαμόρφωση o3 υψηλής απόδοσης, σημείωσε 87,5% στο Semi-Private Eval.
  • Στο σημείο αναφοράς EpochAI Frontier Math, το o3 έλυσε το 25,2% των προβλημάτων, ενώ τα υπάρχοντα μοντέλα έλυσαν μόνο το 2%.
  • Στο SWE-Bench Verified, το o3 σημείωσε 71,7, το οποίο είναι 22,8 μονάδες υψηλότερο από το o1.
  • Στο Codeforces, το o3 πέτυχε βαθμολογία Elo 2727.
  • Στο AIME 2024, το o3 πέτυχε βαθμολογία 96,7%. Για σύγκριση, ο o1 σημείωσε 83,3.
  • Στο GPQA Diamond, το o3 σημείωσε 87,7%. Συγκριτικά, το o1 σημείωσε 78%.

Η ομάδα του βραβείου ARC έγραψε τα εξής σχετικά με τα νέα μοντέλα o3 από το OpenAI:

Το OpenAI o3 είναι ένα σημαντικό άλμα προς τα εμπρός στην ικανότητα του AI να προσαρμόζεται σε νέες εργασίες. Είναι μια πραγματική σημαντική ανακάλυψη, που σηματοδοτεί μια ποιοτική αλλαγή στις ικανότητες της τεχνητής νοημοσύνης σε σύγκριση με τους προηγούμενους περιορισμούς των LLM. Το o3 είναι ένα σύστημα ικανό να προσαρμόζεται σε εργασίες που δεν έχει συναντήσει ποτέ πριν, προσεγγίζοντας αναμφισβήτητα την απόδοση σε ανθρώπινο επίπεδο στον τομέα ARC-AGI.

Το μοντέλο o3 mini θα παρέχει στους χρήστες τη δυνατότητα επιλογής μεταξύ τριών επιπέδων συλλογισμού: Υψηλό, Μεσαίο και Χαμηλό. Το Χαμηλό επίπεδο θα είναι το ταχύτερο αλλά λιγότερο ακριβές, ενώ το Υψηλό θα είναι το πιο αργό αλλά πιο ακριβές.

Το OpenAI δεν έχει κυκλοφορήσει ακόμη τα μοντέλα o3. Ωστόσο, ξεκίνησε σήμερα να μοιράζεται τα μοντέλα o3 για δοκιμές ασφάλειας και ασφάλειας. Οι ενδιαφερόμενοι ερευνητές ασφάλειας και ασφάλειας μπορούν επίσης να υποβάλουν αίτηση για πρόσβαση στα μοντέλα o3 πριν από τη δημόσια κυκλοφορία. Τα μοντέλα o3 αναμένεται να είναι διαθέσιμα στο κοινό το 2025.

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *