Intervista a Blerina Spahiu: le allucinazioni dell’Intelligenza Artificiale

8 Marzo 2024 15:09

In vista dell’evento online del 14 marzo “Intelligenza Artificiale: opportunità o minaccia?” riportiamo l’intervista a Blerina Spahiu, PhD in Informatica e ricercatrice del Dipartimento di Informatica, Sistemistica e Comunicazioni dell’Università degli Studi di Milano-Bicocca, i cui temi di ricerca si concentrano sulla profilazione dei Knowledge Graphs, sull'analisi dei Big Data, sulla qualità dei Knowledge Graphs e sul Machine Learning.

L’intervista tratta il tema delle allucinazioni dei moderni modelli di intelligenza artificiale (IA), termine con il quale si indicano informazioni e avvenimenti che vengono generati, da parte dei modelli di linguaggio (LLMs), senza tener fede a dati o eventi reali. La seconda parte dell'intervista riporterà come l’integrazione dei grafi di conoscenza (KGs) possa essere una potenziale soluzione al problema delle allucinazioni.

Cosa sono le allucinazioni nell’AI e perché è importante individuarle?

Con il termine allucinazione, nei recenti sviluppi di modelli di intelligenza artificiale, ci si riferisce a una situazione per la quale un modello di linguaggio (LLM) - come GPT-4 di OpenAI o PaLM di Google - genera informazioni o fatti falsi, che non sono basati su dati o eventi reali.

Gli algoritmi di AI possono produrre output che non sono basati sui dati di addestramento, e che sono decodificati erroneamente dal modello o non seguono alcun pattern identificabile. In altre parole, l'AI elabora una risposta che può colloquialmente essere paragonata a quella che darebbe una persona affetta da allucinazioni.

Le allucinazioni nell'AI possono rappresentare un problema soprattutto qualora i sistemi venissero utilizzati per prendere decisioni importanti, come diagnosi mediche, operazioni finanziarie, legali, etc.

Da dove derivano questi errori nell'intelligenza artificiale?

Questi errori possono sorgere da molteplici fonti. In primo luogo, la qualità dei dati di
addestramento gioca un ruolo cruciale.

Se un modello di intelligenza artificiale non è esposto a una quantità sufficiente di dati rappresentativi, potrebbe non avere la capacità di cogliere appieno il contesto o di identificare correttamente i pattern nei dati, portandoci a interpretazioni sbagliate. Inoltre, gli algoritmi di intelligenza artificiale possono effettuare supposizioni errate durante l'elaborazione delle informazioni.

Queste supposizioni, basate su logiche difettose o su dati incompleti, possono portare a risultati distorti o fuorvianti. Un altro fattore significativo è la presenza di pregiudizi o distorsioni nei dati di addestramento. Se il set di dati utilizzato per addestrare il modello è influenzato da tali pregiudizi, l'intelligenza artificiale potrebbe memorizzarli e generare output che riflettono tali distorsioni, anziché rispecchiare accuratamente la realtà. Inoltre, i modelli di intelligenza artificiale complessi possono essere particolarmente suscettibili a errori di interpretazione o allucinazioni, poiché possono essere più difficili da comprendere o controllare.

Infine, l'eccessivo addestramento su un set di dati ristretto può portare a una mancanza di capacità di generalizzazione. In altre parole, il modello potrebbe risultare preciso solo per i dati di addestramento, non riuscendo a gestire correttamente nuovi dati o situazioni non precedentemente incontrate.

Perché è difficile validare l’output di un modello di AI generativa?

I modelli di AI generativa sono spesso criticati per la loro mancanza di interpretabilità. Questi
modelli rappresentano implicitamente la conoscenza nei loro parametri, il che rende difficile
interpretare o convalidare la conoscenza ottenuta attraverso di essi.

In aggiunta, va considerato che questi modelli operano attraverso un modello probabilistico, il quale rappresenta un processo incerto. Questo significa che anziché fornire risposte assolute o certezze, i modelli di intelligenza artificiale basati su probabilità forniscono stime di probabilità su quale risposta (o sequenza di parole) sia la più probabile in base alle informazioni disponibili.

In altre parole, il modello valuta diverse possibilità e assegna loro una probabilità di occorrenza, consentendo di selezionare l'opzione più plausibile in base a tali stime. Tuttavia, poiché le probabilità non forniscono una certezza assoluta, ciò introduce un elemento di incertezza nel processo decisionale dell'AI, rendendolo suscettibile a errori o allucinazioni, soprattutto in contesti complessi o ambigui.

Inoltre, i pattern specifici e le funzioni utilizzate da questi modelli per giungere a predizioni o decisioni non sono direttamente accessibili o spiegabili agli utenti.
Anche se alcuni modello sono in grado di spiegare le loro predizioni applicando un ragionamento logico, le loro spiegazioni e ragionamenti soffrono anch'essi del problema delle allucinazioni. Questo compromette gravemente l'applicazione degli LLMs in scenari ad alto rischio, come la diagnosi medica e il giudizio legale.

Ad esempio, in uno scenario di diagnosi medica, gli LLMs potrebbero diagnosticare erroneamente una malattia e fornire spiegazioni che contraddicono il senso comune medico. Ciò solleva un'altra questione, ovvero che gli LLMs addestrati su un corpus generale potrebbero non essere in grado di generalizzare bene a domini specifici o a nuove conoscenze a causa della mancanza di conoscenze specifiche del dominio o di nuovi dati di addestramento.

Come possiamo evitare i problemi di allucinazione nei modelli di AI generativa?

Per affrontare i problemi sopra menzionati, una soluzione potenziale è quella di integrare i grafi di conoscenza (KGs) negli LLMs. I grafi di conoscenza, che memorizzano enormi quantità di informazioni sotto forma di triple, rappresentano un metodo strutturato di rappresentazione della conoscenza. Esempi di grafi di conoscenza sono DBPedia e WikiData, che raccolgono in modo strutturato l’informazione che in Wipedia è pensata per essere letta e usata da utenti umani.

Questi grafi sono cruciali per varie applicazioni in quanto offrono una conoscenza esplicita e
accurata. Inoltre, sono rinomati per la loro possibilità di supportare forme di ragionamento
simbolico, che genera risultati interpretabili. I KGs possono anche evolvere attivamente con
l'aggiunta continua di nuove conoscenze. Inoltre, gli esperti possono costruire KGs dominio-
specifici per fornire conoscenze specifiche, precise e affidabili.

Tuttavia, va considerato che la costruzione dei KGs è complessa e gli approcci attuali spesso
non riescono a gestire la natura incompleta e dinamicamente mutevole dei KGs reali. Questi
approcci falliscono nel modellare efficacemente le entità non viste e nel rappresentare nuovi
fatti. Inoltre, spesso ignorano le abbondanti informazioni testuali nei KGs e sono personalizzati per specifici KGs o compiti, mancando di generalizzabilità. Recentemente, la possibilità di unificare LLMs e KGs ha attirato sempre più l'attenzione da parte dei ricercatori e dei professionisti.

Come possono essere migliorati gli LLMs attraverso l'integrazione dei KGs?

Prima di tutto, abbiamo il pre-addestramento degli LLMs potenziato dai KGs, dove i KGs
vengono utilizzati durante la fase di pre-addestramento degli LLMs per migliorarne l'espressione della conoscenza. Questo consente loro di acquisire una comprensione più approfondita deidati. Tuttavia, la conoscenza del mondo reale è soggetta a cambiamenti e il limite di questi approcci è che non consentono aggiornamenti alla conoscenza incorporata senza dover riallenare il modello.

Di conseguenza, potrebbero non generalizzare bene alla conoscenza non vista durante l'elaborazione inferenziale. Pertanto, considerevoli ricerche sono state dedicate a mantenere separati lo spazio della conoscenza e lo spazio del testo e ad inserire la conoscenza durante l'inferenza.

Uno degli approcci che sta attirando sempre più attenzione è il "Retrieval-Augmented Generation"; (RAG), un approccio ampiamente utilizzato per integrare conoscenza negli LLMs durante l'inferenza. Questo metodo si basa sull'idea di recuperare informazioni rilevanti da un vasto corpus e poi fonderle negli LLMs.

Ad esempio, consideriamo un LLM che sta generando una risposta a una domanda posta da un utente. Utilizzando RAG, il sistema cerca prima informazioni pertinenti nella base di conoscenza esterna, come un grafo di conoscenza. Questo può includere fatti, definizioni o concetti correlati alla domanda posta. Per esempio, se la domanda riguarda l'altezza della Torre Eiffel, RAG potrebbe cercare informazioni sulla dimensione della Torre Eiffel nel grafo di conoscenza. Una volta che RAG ha recuperato queste informazioni rilevanti, le incorpora nel processo di generazione di testo degli LLMs.

Queste informazioni possono essere utilizzate come contesto aggiuntivo durante la generazione della risposta. Ad esempio, nel caso della domanda sull'altezza della Torre Eiffel, le informazioni recuperate potrebbero essere utilizzate per fornire dettagli accurati sulla sua altezza nella risposta generata dall'LLM.

Questo processo di integrazione della conoscenza esterna durante la generazione di testo consente agli LLMs di produrre risposte più accurate, informative e pertinenti alle domande degli utenti. Inoltre, poiché RAG è in grado di recuperare e incorporare dinamicamente nuove informazioni durante l'inferenza, il sistema può adattarsi e migliorare continuamente le proprie prestazioni in risposta a domande diverse e complesse.

Ci può dare un esempio pratico in cui vengono utilizzati gli LLMs e il RAG?

Oggi i robot stanno diventando sempre più intelligenti e capaci di svolgere compiti diversi,
offrendo molteplici opportunità di impiego in scenari diversi. Ad esempio, consideriamo un
contesto in cui il robot deve affrontare un compito complesso come la preparazione della
colazione.

Supponiamo che l';utente dia al robot un comando in linguaggio naturale come
'prepara la colazione', oppure specifici compiti come 'fai il caffè' o 'cuoci le uova'. Gli LLMs sono in grado di elaborare questi comandi ad alto livello e decomporli in sottoattività più gestibili.

Questo processo di decomposizione consente al robot di comprendere in modo sequenziale e
efficace i passaggi necessari per completare il compito. Inoltre, gli LLMs possono valutare la
fattibilità delle azioni selezionate. Per esempio, se il robot deve cucinare una frittata ma non
dispone di uova, il sistema può utilizzare il suo ragionamento per suggerire alternative o
adattare la strategia di cucina.

Per far evolvere il ragionamento degli LLMs in base all'esperienza del robot, può essere d’aiuto un framework basato su RAG. Questo framework combina un LLM con un database che contiene una descrizione dettagliata dell'ambiente circostante, che può essere generata dalle videocamere incorporate nel robot, le azioni intraprese nel passato per task simili e i risultati ottenuti. In sintesi, l'obiettivo del RAG è superare le sfide legate all'integrazione delle esperienze dei robot con la conoscenza degli LLMs.

Questo approccio innovativo consente ai robot di apprendere dalle loro interazioni senza la necessità di riaddestrare completamente gli LLMs dopo ogni risultato imprevisto. Inoltre, permette ai robot di adattarsi rapidamente alle modifiche nelle loro capacità fisiche, garantendo un'interazione più fluida e intelligente con l'ambiente circostante.

Se sei interessato al tema dell’Intelligenza Artificiale e vuoi saperne di più, il 14 marzo non perderti l’evento online “Intelligenza Artificiale: opportunità o minaccia?"

Per registrarti e partecipare CLICCA QUI