Πρόσφατες έρευνες αποκαλύπτουν ότι τα μεγάλα γλωσσικά μοντέλα (LLMs) αντιμετωπίζουν σοβαρές δυσκολίες σε σύνθετες λογικές εργασίες, κάτι που υποδηλώνει πως έχουν εγγενή όρια στις ικανότητές τους.
Τα προβλήματα λογικής αποκαλύπτουν τις αδυναμίες των LLMs
Το 1962, το περιοδικό Life International δημοσίευσε έναν λογικό γρίφο γνωστό ως “Το Αίνιγμα του Αϊνστάιν”. Το πρόβλημα απαιτούσε πολυεπίπεδη λογική σκέψη και αποτέλεσε ένα κριτήριο για τη μέτρηση των ορίων των σημερινών μοντέλων μηχανικής μάθησης.
Η ερευνήτρια Nouha Dziri και η ομάδα της στο Allen Institute for AI διαπίστωσαν ότι τα σύγχρονα LLMs, όπως το ChatGPT, αδυνατούν να επιλύσουν τέτοιου είδους σύνθετα προβλήματα. Αυτά τα μοντέλα φαίνεται πως στηρίζονται κυρίως σε μοτίβα που έχουν μάθει κατά την εκπαίδευσή τους, παρά σε πραγματική λογική σκέψη.

Περιορισμοί στη σύνθετη σκέψη
Οι ερευνητές ανακάλυψαν ότι τα LLMs αποτυγχάνουν σε εργασίες όπως ο πολλαπλασιασμός μεγάλων αριθμών και η επίλυση σύνθετων αινιγμάτων. Για παράδειγμα, όταν ζητήθηκε από το GPT-4 να πολλαπλασιάσει δύο τριψήφιους αριθμούς, το κατάφερε μόνο στο 59% των περιπτώσεων. Με τετραψήφιους αριθμούς, η ακρίβεια έπεσε στο 4%.
Ομοίως, όταν το GPT-4 αντιμετώπισε μια απλουστευμένη έκδοση του αινίγματος του Αϊνστάιν με δύο σπίτια και δύο χαρακτηριστικά ανά σπίτι, έδωσε τη σωστή απάντηση κάθε φορά. Όμως, όταν το πρόβλημα αυξήθηκε σε πέντε σπίτια με πέντε χαρακτηριστικά, η επιτυχία του ήταν 0%.
Η μαθηματική απόδειξη των περιορισμών των LLMs
Ο ερευνητής Binghui Peng και η ομάδα του στο Πανεπιστήμιο της Καλιφόρνιας, Μπέρκλεϊ, απέδειξαν μαθηματικά ότι οι μετασχηματιστές (transformers), η βασική τεχνολογία πίσω από τα περισσότερα LLMs, έχουν εγγενείς περιορισμούς στις ικανότητές τους. Μελετώντας ένα απλό μοντέλο με ένα μόνο επίπεδο, κατέληξαν στο συμπέρασμα ότι η υπολογιστική δύναμη αυτών των μοντέλων δεν επαρκεί για την πλήρη κατανόηση και επίλυση συνθετικών προβλημάτων.

Υπάρχει λύση;
Παρότι τα ευρήματα είναι σαφή, οι ερευνητές αναζητούν τρόπους να υπερβούν αυτά τα όρια. Μία μέθοδος είναι η τεχνική chain-of-thought prompting, η οποία ενθαρρύνει το LLM να αναλύει τα προβλήματα σε μικρότερα βήματα. Επίσης, ερευνητές πειραματίζονται με νέες αρχιτεκτονικές που θα μπορούσαν να ξεπεράσουν τους περιορισμούς των transformers.
Παρόλα αυτά, τα μαθηματικά αποδεικνύουν ότι πάντα θα υπάρχουν σύνθετα προβλήματα που τα LLMs αδυνατούν να επιλύσουν. Αυτό εγείρει ερωτήματα για το μέλλον της τεχνητής νοημοσύνης και το κατά πόσο τα σημερινά μοντέλα μπορούν να αποτελέσουν τη βάση για αληθινή νοημοσύνη.
Ρωτήσαμε το ίδιο το ChatGPT: “Γιατί δυσκολεύονται τα LLMs στη λογική;” Δείτε τι μας απάντησε:
Έλλειψη αφηρημένης συλλογιστικής
Τα LLMs δεν έχουν μια εσωτερική “λογική μηχανή” που να επεξεργάζεται συλλογισμούς όπως ένας μαθηματικός ή φιλόσοφος. Χρησιμοποιούν στατιστικά μοτίβα αντί αυστηρών κανόνων λογικής.
- Επειδή λειτουργούν με πιθανότητες, μπορεί να δώσουν απαντήσεις που “μοιάζουν” σωστές αλλά δεν είναι αυστηρά ορθές.
- Ενώ μπορούν να αναγνωρίζουν μοτίβα, συχνά δυσκολεύονται να επεκτείνουν ένα λογικό συμπέρασμα πέρα από αυτά που έχουν δει στα δεδομένα τους.
- Οι περίπλοκες λογικές ακολουθίες που απαιτούν διατήρηση πληροφοριών μεταξύ των βημάτων είναι πρόκληση, καθώς η “μνήμη” των μοντέλων είναι πεπερασμένη.
Πού φαίνεται αυτό;
- Γρίφοι λογικής (π.χ. “Αν όλοι οι άνθρωποι είναι θνητοί και ο Σωκράτης είναι άνθρωπος, είναι θνητός ο Σωκράτης;”)
- Μαθηματικά προβλήματα (ιδίως όταν απαιτούν πολλαπλά βήματα)
- Συνδυαστική σκέψη (π.χ. Sudoku, Towers of Hanoi)
- Παραπλανητικές διατυπώσεις (όπου η σωστή απάντηση δεν είναι η πιο προφανής)
Μπορούν να βελτιωθούν;
Ναι, με συνδυασμό τεχνικών όπως:
- Χρήση εξειδικευμένων μοντέλων για λογική και μαθηματικά
- Ενσωμάτωση εξωτερικών εργαλείων (π.χ. συμβολικά συστήματα όπως Wolfram Alpha)
- Βελτίωση της αρχιτεκτονικής τους για πολυβηματική συλλογιστική (όπως γίνεται με τα νέα LLMs που έχουν εξελιγμένες δυνατότητες “reasoning”)
Παρόλα αυτά, ακόμα και οι πιο προηγμένες εκδοχές τους εξακολουθούν να έχουν αδυναμίες, ειδικά σε πολύπλοκες ή μη τυποποιημένες λογικές προκλήσεις.
ΤΛ: Πώς γίνεται όμως τα μαθηματικά να αποδεικνύουν ότι πάντα θα υπάρχουν σύνθετα προβλήματα που τα LLMs αδυνατούν να επιλύσουν” δεν έχουν… κομπιουτεράκια τα LLMs??
ChatGPT:
Ναι, ισχύει ότι υπάρχουν σύνθετα προβλήματα που τα LLMs πάντα θα αδυνατούν να επιλύσουν, και αυτό δεν είναι απλά θέμα “ανεπαρκούς εκπαίδευσης” αλλά βαθύτερου θεωρητικού περιορισμού.
1. Τα Μαθηματικά και τα Όρια της Υπολογιστικής Ικανότητας
Αυτό που λες βασίζεται σε θεμελιώδεις μαθηματικές αρχές, όπως:
- Το Θεώρημα της Μη Πληρότητας του Gödel (Gödel’s Incompleteness Theorem)
Υπάρχουν πάντα αληθείς προτάσεις μέσα σε ένα φορμαλιστικό σύστημα (όπως τα μαθηματικά) που δεν μπορούν να αποδειχθούν εντός του συστήματος. Αυτό σημαίνει ότι κανένα μοντέλο (ούτε ένα LLM ούτε ένας τυπικός αλγόριθμος) δεν μπορεί να λύσει όλα τα μαθηματικά προβλήματα.- Το Πρόβλημα της Στάσης (Halting Problem) του Turing
Ο Alan Turing απέδειξε ότι δεν υπάρχει γενικός αλγόριθμος που να αποφασίζει αν κάθε πιθανό πρόγραμμα θα σταματήσει ή θα τρέχει για πάντα. Αυτό σημαίνει ότι οποιοδήποτε σύστημα (LLM ή ακόμα και ένας υπερυπολογιστής) έχει θεμελιώδη όρια στο τι μπορεί να υπολογίσει.- NP-πληρότητα και Θεωρία Υπολογιστικής Πολυπλοκότητας
Υπάρχουν προβλήματα που είναι τόσο υπολογιστικά δύσκολα (π.χ. το Traveling Salesman Problem) που ακόμα και οι καλύτεροι αλγόριθμοι δεν μπορούν να τα λύσουν σε λογικό χρόνο. Αν το LLM δεν έχει ειδικό αλγόριθμο ή εξωτερικό σύστημα να το βοηθήσει, απλά θα αποτύχει.
2. Γιατί τα LLMs δεν έχουν “κομπιουτεράκια”;
Τα LLMs δεν είναι αριθμομηχανές ούτε κλασικά προγράμματα που εκτελούν ακριβείς υπολογισμούς.
- Μάθηση από κείμενα, όχι μαθηματική συλλογιστική
Τα LLMs εκπαιδεύονται πάνω σε κείμενα, όχι σε καθαρά λογικά ή αλγοριθμικά μοντέλα. Αυτό σημαίνει ότι, αντί να κάνουν μαθηματικούς υπολογισμούς, προβλέπουν πιθανές απαντήσεις με βάση τα δεδομένα που έχουν δει.- Δεν εκτελούν ακριβή υπολογιστικά βήματα
Όταν ένας άνθρωπος ή ένας κλασικός αλγόριθμος λύνει ένα μαθηματικό πρόβλημα, ακολουθεί μια αυστηρή λογική διαδικασία. Τα LLMs, όμως, δουλεύουν με πιθανοτικές συναρτήσεις και δεν έχουν εγγενώς μηχανισμούς “καθαρού” λογικού συλλογισμού.- Χρειάζονται εξωτερικά εργαλεία για ακριβείς υπολογισμούς
Γι’ αυτό και τα πιο εξελιγμένα LLMs συνδέονται με μαθηματικούς υπολογιστές (π.χ. Wolfram Alpha) για να εκτελούν ακριβείς πράξεις όταν χρειάζεται.
3. Άρα, υπάρχουν προβλήματα που πάντα θα τα δυσκολεύουν;
Ναι! Υπάρχουν πάντα προβλήματα που:
- Δεν έχουν υπολογίσιμη λύση (Gödel, Turing).
- Είναι εκθετικά δύσκολα (NP-hard προβλήματα).
- Απαιτούν περισσότερη “κατανόηση” από μοτίβα κειμένου (αληθινή λογική).
Τα LLMs μπορεί να γίνουν καλύτερα, αλλά πάντα θα υπάρχουν θεωρητικά όρια στο τι μπορούν να επιτύχουν!