Che cos’è il few-shot learning?

Il few-shot learning (FSL) è un framework di apprendimento automatico in cui un modello di intelligenza artificiale impara a fare previsioni accurate utilizzando un numero limitato di esempi etichettati. Questo approccio si basa sull’addestramento del modello su schemi e caratteristiche generali validi per diversi compiti. Si rivela particolarmente utile in contesti in cui i dati disponibili sono limitati, come nel riconoscimento di immagini e nell’elaborazione del linguaggio.

Che cosa significa few-shot learning?

Il few-shot learning (FSL) è un framework dell’apprendimento automatico, ovvero una struttura di base per il codice di programmazione. Viene utilizzato per addestrare i modelli di intelligenza artificiale a fare previsioni accurate utilizzando una piccola quantità di dati per l’addestramento. Mentre i metodi di apprendimento automatico tradizionali in genere richiedono migliaia di dati per ottenere risultati affidabili, il few-shot learning punta all’ottimizzazione dell’apprendimento con quantità minime di dati.

L’obiettivo principale del few-shot learning è apprendere in modo efficace basandosi su pochi esempi. Lavorando con una quantità minima di dati, questo approccio si rivela particolarmente prezioso nelle situazioni in cui è difficile raccogliere grandi quantità di dati etichettati. Spesso semplicemente i costi sono troppo elevati oppure, a volte, sono disponibili solo pochi esempi o campioni. Questo è il caso, ad esempio, di malattie rare o di manoscritti unici.

I software IA di IONOS
Scopri la potenza dell'intelligenza artificiale
  • Siti web in tempo record
  • Soluzioni IA per il tuo business
  • Risparmio di tempo e risultati eccellenti

Il few-shot learning è considerato un sottoinsieme dell’n-shot learning. Ciò significa che il few-shot learning rappresenta generalmente un cosiddetto sistema di categorizzazione N-way-K-shot, dove “N” rappresenta il numero delle classi e “K” il numero di esempi forniti per ciascuna classe. In questo ambito dell’intelligenza artificiale rientrano anche il one-shot learning (un esempio etichettato per classe) e il zero-shot learning (nessun esempio etichettato). Il primo è considerato una variante avanzata del few-shot learning, mentre il secondo è trattato come un problema di apprendimento distinto.

Come funziona il few-shot learning?

Sebbene algoritmi specifici e reti neurali siano spesso in grado di svolgere con successo molti compiti a esso correlati, il few-shot learning è definito soprattutto dal problema di apprendimento specifico, piuttosto che dall’uso di un modello specifico. Di conseguenza, esiste una vasta gamma di metodi FSL che spaziano dall’adattamento di modelli già addestrati al meta-apprendimento, fino all’uso di modelli generativi. Di seguito, esaminiamo più nel dettaglio i singoli approcci.

Apprendimento per trasferimento

Gli approcci basati sull’apprendimento per trasferimento, o transfer learning, si concentrano sull’adattamento di modelli già addestrati per risolvere nuovi compiti. Invece di addestrare un modello da zero, si trasferiscono caratteristiche e rappresentazioni già apprese, perfezionandole per un nuovo compito. Ciò aiuta a evitare il sovra-addestramento, che è spesso un rischio dell’apprendimento supervisionato con pochi esempi, soprattutto per i modelli con un gran numero di parametri, come le reti neurali convoluzionali (CNN).

Un metodo comune consiste nel configurare un modello di classificazione, addestrandolo con poche nuove classi di dati. Nei casi più complessi, le reti del few-shot learning richiedono spesso l’adattamento dell’architettura di rete. L’apprendimento per trasferimento risulta particolarmente efficace quando esistono forti similitudini tra il compito originale e quello nuovo o quando l’addestramento originale è stato svolto in un contesto simile.

Approccio a livello di dati

Il few-shot learning a livello di dati si basa sull’idea di generare dati di addestramento aggiuntivi per affrontare il problema della quantità limitata di campioni di dati etichettati. Questo approccio è utile in situazioni in cui è difficile ottenere esempi reali, come nel caso di specie appena scoperte. Se sono disponibili campioni sufficientemente vari, si possono creare dati supplementari simili utilizzando modelli generativi come le reti generative avversarie, anche conosciute come Generative Adversarial Network (GAN). È inoltre possibile combinare l’ampliamento dei dati con altri metodi come il meta-apprendimento.

Meta-apprendimento

Il meta-apprendimento, o meta-learning, offre un approccio più ampio e indiretto rispetto al classico apprendimento per trasferimento o all’apprendimento supervisionato. Infatti, qui il modello non viene addestrato solo per compiti specifici: nel breve termine impara a risolvere compiti entro un certo contesto, mentre a lungo termine è in grado di riconoscere schemi e strutture comuni a più compiti. Questo permette di fare previsioni sul grado di somiglianza tra i punti dati di varie classi e di servirsi di queste informazioni per risolvere compiti successivi.

Meta-apprendimento basato su metriche

Gli approcci di meta-apprendimento basati su metriche non modellano confini diretti di classificazione, ma valori continui per rappresentare uno specifico campione di dati. L’inferenza si basa sull’apprendimento di nuove caratteristiche che misurano le similarità tra il valore e quelli dei singoli campioni e classi. Gli algoritmi FSL basati su metriche includono:

  • Reti siamesi: si avvalgono dell’apprendimento contrastivo per risolvere problemi di classificazione binaria, verificando se due campioni costituiscono una coppia positiva (corrispondente) o negativa (non corrispondente).
  • Reti corrispondenti : i matching network sono in grado di effettuare classificazioni multiple, utilizzando una rete neurale per restituire un incorporamento per ogni campione all’interno dei set di supporto e di query. La classificazione viene prevista confrontando i campioni di supporto e quelli di interrogazione.
  • Reti prototipiche: calcolano le caratteristiche medie dei campioni forniti per ciascuna classe per creare un prototipo per ogni classe. I singoli punti di dati vengono classificati in base alla loro relativa vicinanza ai prototipi specifici della classe.
  • Reti di relazioni: i relation network (RN) impiegano un modulo di incorporazione, ma anche un modulo di relazione che genera una funzione di distanza non lineare adatta al problema di classificazione specifico.

Meta-apprendimento basato sull’ottimizzazione

Nelle tecniche di meta-apprendimento basate sull’ottimizzazione, noto anche come meta-apprendimento basato sul gradiente, l’algoritmo individua i parametri iniziali del modello o gli iperparametri delle reti neurali da ottimizzare per adattarsi in modo efficace alle necessità specifiche. Si tratta dunque di un processo di ottimizzazione dell’algoritmo di ottimizzazione stesso, definito anche come meta-ottimizzazione o ottimizzazione della discesa del gradiente.

Il più noto metodo FSL basato sull’ottimizzazione è il meta-apprendimento agnostico del modello, o model-agnostic meta-learning (MAML), il quale non si concentra su un compito specifico, ma può essere applicato a tutti i modelli che apprendono tramite discesa del gradiente. Per addestrare i modelli di meta-apprendimento si possono utilizzare anche le reti LSTM (LSTM = long short-term memory). La particolarità di questo tipo di ottimizzazione dell’incorporazione latente, ovvero latent embedding optimisation (LEO), è l’apprendimento di una distribuzione generativa dei parametri del modello specifici per ciascun compito specifico.

Quali sono i principali ambiti di applicazione del few-shot learning?

Il few-shot learning può essere utilizzato in molti modi diversi, perché in ultima analisi sono molti i settori e le aree di ricerca in grado di trarre vantaggio da questo tipo di apprendimento, efficiente anche in situazioni in cui i dati etichettati sono limitati. Le principali aree di applicazione includono:

  • Visione artificiale: molti degli algoritmi FSL più popolari sono stati inizialmente sviluppati per compiti di classificazione delle immagini. Tuttavia, il few-shot learning è adatto anche a problemi di visione artificiale più complessi, come il riconoscimento di oggetti, in cui è necessario localizzare con precisione i singoli componenti dell’immagine.
  • Robotica: il few-shot learning può essere utilizzato per aiutare i robot a orientarsi più rapidamente in nuovi ambienti e padroneggiare più velocemente nuovi compiti.
  • Elaborazione del linguaggio naturale (NLP): i metodi FSL (in particolare l’apprendimento per trasferimento) aiutano ad adattare i modelli linguistici di grandi dimensioni, o large language model (LLM). Questi modelli vengono addestrati in anticipo con grandi quantità di dati per svolgere compiti specifici per i quali è richiesta la comprensione del contesto. Tra questi troviamo la classificazione dei testi e l’analisi del sentiment.
  • Sanità: grazie alla sua capacità di rilevare e apprendere rapidamente classi di dati sconosciute e rare, il few-shot learning risulta ideale per i settori medici in cui è difficile ottenere dati etichettati. Un esempio classico è la diagnosi di malattie rare.
  • Settore bancario: gli istituti di credito utilizzano algoritmi di few-shot learning per il rilevamento delle frodi, al fine di identificare modelli o comportamenti anomali nelle transazioni finanziarie. Questo approccio è efficace anche quando sono disponibili solo pochi casi di frode nel dataset.

Sfide pratiche nell’implementazione del few-shot learning

L’implementazione del few-shot learning presenta alcune sfide pratiche: una delle principali è il rischio di overfitting (sovra-adattamento). I modelli con pochi esempi di addestramento tendono infatti ad apprendere in modo eccessivo dai dati disponibili, risultando poco generalizzabili. Inoltre, il few-shot learning richiede che i modelli siano adattati e sintonizzati con estrema precisione per ottenere buone prestazioni.

Anche la qualità dei dati disponibili è un fattore cruciale: se i pochi esempi non sono rappresentativi o contengono errori, le prestazioni del modello ne risentiranno significativamente. Inoltre, la selezione di caratteristiche appropriate e di metodi per ampliare il dataset risulta particolarmente impegnativa data la quantità limitata di dati. Anche le risorse di calcolo e il tempo necessari per l’addestramento di modelli ottimizzati di few-shot learning sono aspetti da non sottovalutare.

Hai trovato questo articolo utile?
Per offrirti una migliore esperienza di navigazione online questo sito web usa dei cookie, propri e di terze parti. Continuando a navigare sul sito acconsenti all’utilizzo dei cookie. Scopri di più sull’uso dei cookie e sulla possibilità di modificarne le impostazioni o negare il consenso.
Page top