Conversare con sistemi di intelligenza artificiale come ChatGPT o Gemini è diventato un'esperienza sorprendentemente naturale, quasi indistinguibile da un dialogo con un essere umano. Ma cosa succede "dietro le quinte" di queste menti digitali per renderle così abili con le parole? Per molto tempo, il funzionamento interno di queste reti neurali è rimasto un mistero. Ora, un nuovo studio sta iniziando a svelare i segreti di questo affascinante processo. Una ricerca appena pubblicata sul Journal of Statistical Mechanics: Theory and Experiment (JSTAT), e riportata da Science Daily, ci offre un pezzo importante di questo puzzle.
La mente dell'IA svelata: come i chatbot imparano il linguaggio
Lo studio dimostra che, proprio come un bambino che impara a leggere, le reti neurali iniziano a comprendere le frasi in un modo molto basilare: si concentrano sulla posizione delle parole. In altre parole, la rete deduce le relazioni (soggetto, verbo, complemento) in base a dove le parole si trovano nella frase. Pensate a una frase semplice come "Maria mangia la mela": all'inizio, l'IA impara che "Maria" viene prima del verbo e "mela" dopo, e da questo capisce chi fa cosa.
La vera rivelazione arriva quando la rete neurale viene esposta a una quantità sufficiente di dati per il suo addestramento. A un certo punto, quasi all'improvviso, si verifica un cambiamento sorprendente: la rete compie un vero e proprio "salto di qualità" e passa a una strategia completamente nuova, basata sul significato delle parole. Non importa più tanto dove le parole sono posizionate, quanto il loro intrinseco significato e le relazioni che costruiscono tra loro.
Un passaggio che, spiegano i ricercatori, avviene in modo brusco, una volta superata una soglia critica di dati, in modo molto simile a ciò che i fisici chiamano una "transizione di fase" in sistemi complessi. Questo fenomeno è stato osservato in un modello semplificato del meccanismo di "auto-attenzione", un componente fondamentale dei moderni modelli linguistici come quelli che usiamo quotidianamente. I trasformatori, l'architettura su cui si basano questi modelli, sono maestri nell'elaborare sequenze di testo e utilizzano l'auto-attenzione per valutare l'importanza di ogni parola rispetto alle altre all'interno di una frase.
"Per valutare le relazioni tra le parole, la rete può utilizzare due strategie, una delle quali è quella di sfruttare la posizione delle parole", ha spiegato Hugo Cui, ricercatore post-dottorato presso l'Università di Harvard e primo autore dello studio, che ha aggiunto: "Questa è la prima strategia che emerge spontaneamente quando la rete viene addestrata. Tuttavia, nel nostro studio, abbiamo osservato che se l'addestramento continua e la rete riceve dati sufficienti, a un certo punto – una volta superata una soglia – la strategia cambia bruscamente: la rete inizia a fare affidamento sul significato." Cui descrive questo cambiamento come una vera e propria transizione di fase, un concetto preso in prestito dalla fisica statistica, che studia il comportamento collettivo di sistemi composti da un numero enorme di elementi, come atomi o molecole.
Le reti neurali, infatti, sono anch'esse fatte di un'enorme quantità di "nodi" (simili ai neuroni del cervello umano) che interagiscono tra loro. L'intelligenza del sistema emerge proprio da questa interazione collettiva. Ecco perché si può parlare di un cambiamento così netto nel comportamento della rete, paragonabile, ad esempio, al modo in cui l'acqua, in determinate condizioni, passa improvvisamente dallo stato liquido a quello gassoso. "Capire da un punto di vista teorico che il cambio di strategia avviene in questo modo è importante", ha sottolineato Cui.
"Le nostre reti sono semplificate rispetto ai modelli complessi con cui le persone interagiscono quotidianamente, ma possono fornirci spunti per iniziare a comprendere le condizioni che portano un modello a stabilizzarsi su una strategia piuttosto che su un'altra. Si spera che questa conoscenza teorica possa essere utilizzata in futuro per rendere l'uso delle reti neurali più efficiente e sicuro." La ricerca, intitolata "Una transizione di fase tra apprendimento posizionale e semantico in un modello risolvibile di attenzione ai prodotti punto", è stata condotta da Hugo Cui, Freya Behrens, Florent Krzakala e Lenka Zdeborová ed è stata pubblicata su JSTAT come parte del numero speciale di Machine Learning 2025, oltre a essere inclusa negli atti della conferenza NeurIPS 2024. Un passo significativo verso la comprensione di come le macchine imparano a "parlare" davvero.