Le immagini del cervello rivelano come funzionano le strategie di apprendimento

L'aggiornamento è necessario in modo da poter fare previsioni accurate su tali ricompense di fronte a un ambiente in evoluzione.
Sebbene esattamente come il cervello orchestra questo processo non sia chiaro, il nuovo studio suggerisce che una combinazione di due distinte strategie di apprendimento guida il nostro comportamento.
Un documento sul lavoro apparirà sulla rivista Neurone.
Una strategia di apprendimento accettata, chiamata apprendimento senza modello, si basa su confronti tentativi ed errori tra la ricompensa che ci aspettiamo in una data situazione e la ricompensa che effettivamente otteniamo.
Il risultato di questo confronto è la generazione di un "errore di previsione della ricompensa", che corrisponde a tale differenza.
Ad esempio, un errore di previsione della ricompensa potrebbe corrispondere alla differenza tra il rendimento monetario previsto su un investimento finanziario e i nostri guadagni reali.
Nel secondo meccanismo, chiamato apprendimento basato su modello, il cervello genera una mappa cognitiva dell'ambiente che descrive la relazione tra diverse situazioni.
"L'apprendimento basato su modello è associato alla generazione di un 'errore di previsione dello stato', che rappresenta il livello di sorpresa del cervello in una nuova situazione data la sua attuale stima dell'ambiente", afferma Jan Gläscher, uno studioso postdottorato al Caltech e responsabile autore dello studio.
"Pensa a una situazione in cui prendi sempre lo stesso percorso quando torni a casa dopo il lavoro, ma in un giorno particolare la strada normale è bloccata a causa di lavori di costruzione", dice Gläscher.
“Un sistema di apprendimento senza modelli andrebbe perduto inutilmente; si occupa solo di intraprendere azioni che in passato erano gratificanti, quindi se quelle azioni non fossero più disponibili non sarebbe in grado di decidere dove andare dopo.
"Ma un sistema basato su modello sarebbe in grado di interrogare la sua mappa cognitiva e capire una deviazione efficiente utilizzando un percorso alternativo".
"Sebbene il meccanismo di apprendimento senza modello più semplice sia stato ben studiato e il suo meccanismo di apprendimento di base, che è guidato da errori di previsione della ricompensa, sia relativamente ben compreso, i meccanismi alla base del più sofisticato sistema di apprendimento basato su modello, con la sua ricca adattabilità e flessibilità , sono meno compresi ", afferma John P. O'Doherty, professore di psicologia al Caltech.
Per caratterizzare ulteriormente le basi neurologiche di questi due sistemi di apprendimento, Gläscher, O'Doherty e i loro colleghi hanno progettato un compito decisionale basato su computer che ha permesso loro di misurare quando e dove il cervello calcola sia i segnali di errore di predizione di stato che di ricompensa, e per determinare se i due tipi di errori producono effettivamente firme neurali diverse.
Nel compito, i soggetti dovevano fare delle scelte tra un movimento sinistro e destro che permettesse loro di spostarsi tra diversi “stati” - indicati da icone grafiche - in un ambiente virtuale; il processo è simile a quello di navigare in un semplice videogioco.
Ogni scelta sinistra o destra fatta in questo ambiente virtuale ha portato il soggetto a un nuovo stato. Il loro obiettivo era raggiungere un particolare stato obiettivo per ottenere una ricompensa monetaria, "e le loro possibilità di finire in quello stato obiettivo dipendevano fortemente dal particolare modello di scelte sequenziali che hanno fatto", spiega O'Doherty.
Un sistema basato su modelli può apprendere la struttura dell'ambiente virtuale e quindi utilizzare queste informazioni per calcolare le azioni necessarie per arrivare allo stato di ricompensa, in un modo analogo a come un giocatore di scacchi potrebbe provare a pensare attraverso le mosse di scacchi sequenziali necessarie per vincere una partita.
Un sistema senza modelli, d'altra parte, imparerebbe solo a scegliere ciecamente quelle azioni che hanno dato ricompensa in passato, senza valutare le conseguenze nella situazione attuale.
Diciotto partecipanti sono stati scansionati utilizzando la risonanza magnetica funzionale mentre imparavano il compito. Le scansioni cerebrali hanno mostrato la firma neurale distintiva, precedentemente caratterizzata, dell'errore di previsione della ricompensa, generato durante l'apprendimento senza modello, in un'area nel mezzo del cervello chiamata striato ventrale.
Durante l'apprendimento basato su modelli, tuttavia, la firma neurale di un errore di previsione dello stato è apparsa in due diverse aree sulla superficie del cervello nella corteccia cerebrale: il solco intraparietale e la corteccia prefrontale laterale.
Queste osservazioni suggeriscono che due tipi unici di segnali di errore vengono calcolati nel cervello umano, si verificano in diverse regioni del cervello e possono rappresentare strategie computazionali separate per guidare il comportamento.
"Un sistema senza modello funziona in modo molto efficace in situazioni altamente automatizzate e ripetitive, ad esempio, se prendo regolarmente la stessa strada per tornare a casa dal lavoro", afferma Gläscher, "mentre un sistema basato su modello, sebbene richieda una potenza di elaborazione, è in grado di adattarsi in modo flessibile a nuove situazioni, come la necessità di trovare un nuovo percorso dopo un blocco stradale ".
Questi due distinti meccanismi di apprendimento svolgono ruoli complementari nel controllo del comportamento umano, afferma Gläscher.
"Poiché la potenza di elaborazione del nostro cervello è limitata, non ha senso implementare il sistema basato su modelli più intensivo dal punto di vista computazionale per controllare tutto ciò che facciamo. Invece, è meglio fare affidamento sul sistema senza modello per gran parte del nostro comportamento quotidiano e utilizzare il sistema basato su modello solo per situazioni nuove o complesse. Un'area importante per ulteriori ricerche sarà quella di cercare di comprendere i fattori che governano il modo in cui questi sistemi interagiscono insieme al fine di controllare il comportamento e di determinare come questo viene implementato nel cervello ".
Fonte: California Institute of Technology