Apprendimento semi-supervisionato: una spiegazione

Nell’apprendimento semi-supervisionato, un modello viene addestrato con dati etichettati e non etichettati. Con un numero inferiore di punti dati etichettati, l’algoritmo impara a riconoscere i modelli nelle istanze di dati senza una variabile target nota, ottenendo così una modellazione più precisa ed efficiente.

Che cos’è l’apprendimento semi-supervisionato?

L’apprendimento semi-supervisionato (in inglese “semi-supervised learning”) è un approccio ibrido all’apprendimento automatico che combina i punti di forza dell’apprendimento supervisionato con quelli dell’apprendimento non supervisionato. Il metodo prevede l’utilizzo di una piccola quantità di dati etichettati e di una grande quantità di dati non etichettati ai fini dell’addestramento dei modelli di intelligenza artificiale. Ciò consente all’algoritmo di riconoscere i modelli supportati dai dati etichettati all’interno di set di dati non etichettati. Grazie a questo processo di apprendimento combinato, il modello comprende meglio la struttura dei dati non etichettati, ottenendo previsioni più accurate.

I software IA di IONOS
Scopri la potenza dell'intelligenza artificiale
  • Siti web in tempo record
  • Soluzioni IA per il tuo business
  • Risparmio di tempo e risultati eccellenti

Premesse per l’apprendimento semi-supervisionato

Gli algoritmi progettati per l’apprendimento semi-supervisionato si basano su diverse ipotesi di base sui dati:

  1. Ipotesi di continuità: i punti più vicini tra loro hanno più probabilità di avere la stessa designazione di uscita.
  2. Ipotesi di cluster: i dati possono essere suddivisi in cluster discreti e i punti collocati nello stesso cluster hanno una maggiore probabilità di avere la stessa etichetta di uscita.
  3. Ipotesi del manifold: i dati si trovano approssimativamente su un manifold (o varietà, ovvero una collezione di punti connessi tra loro) che ha una dimensione minore dello spazio di input. Grazie a questa premessa, è possibile utilizzare distanze e densità.

Qual è la differenza tra apprendimento supervisionato e non supervisionato?

L’apprendimento supervisionato, l’apprendimento non supervisionato e l’apprendimento semi-supervisionato sono tutti approcci fondamentali del machine learning. Ciò che li differenzia è che ciascuno di essi si avvale di un proprio approccio per addestrare i modelli di intelligenza artificiale. La seguente panoramica evidenzia come l’apprendimento semi-supervisionato differisca dai metodi tradizionali:

  • L’apprendimento supervisionato (“supervised learning” in inglese) è caratterizzato dal fatto che vengono utilizzati solo dati etichettati. Ogni esempio di dati ha quindi una variabile target o una soluzione nota che l’algoritmo deve prevedere. Questo approccio all’apprendimento automatico è considerato molto preciso, ma necessita di grandi quantità di dati etichettati, spesso costosi e che richiedono molto tempo per essere ottenuti.
  • L’apprendimento non supervisionato (“unsupervised learning” in inglese), invece, lavora esclusivamente con dati non strutturati. L’algoritmo cerca di identificare modelli o strutture nei dati senza specificare una soluzione. Questo tipo di apprendimento è adatto quando non sono disponibili dati etichettati, ma può essere limitato nella sua accuratezza e nel suo potere predittivo a causa della mancanza di punti di riferimento esterni.
  • L’apprendimento semi-supervisionato combina entrambi gli approcci utilizzando una piccola quantità di dati etichettati per comprendere la struttura di un grande insieme di dati non etichettati. Le tecniche di apprendimento semi-supervisionato modificano un algoritmo supervisionato per integrare i dati non etichettati nel modello. In questo modo è possibile ottenere un elevato livello di precisione nelle predizioni con uno sforzo di etichettatura relativamente ridotto.

Le differenze tra i singoli metodi di apprendimento automatico possono essere illustrate ancora meglio con l’aiuto di un esempio pratico. Facendo un’analogia con la scuola, si può dire che l’apprendimento supervisionato è quando alunne e alunni sono supervisionati sia a scuola che a casa. Quando invece hanno il compito di acquisire le conoscenze in autonomia, si tratta di apprendimento non supervisionato. Quando un concetto viene spiegato in classe e rafforzato con i compiti a casa, si parla di apprendimento semi-supervisionato.

N.B.

Nel nostro articolo sull’intelligenza artificiale generativa approfondiamo in dettaglio la branca dell’IA che si occupa dell’addestramento delle macchine.

Come funziona l’apprendimento semi-supervisionato?

L’apprendimento semi-supervisionato è un processo a più fasi che comprende i seguenti passaggi:

  1. Definizione dell’obiettivo o del problema: in primo luogo, si definisce chiaramente l’obiettivo o lo scopo del modello di apprendimento automatico. Ci si concentra sulle ottimizzazioni che si vogliono ottenere attraverso l’apprendimento automatico.
  2. Etichettatura dei dati: alcuni dei dati non strutturati vengono etichettati per fornire indicazioni all’algoritmo di apprendimento. Il funzionamento dell’apprendimento semi-supervisionato richiede l’utilizzo di dati pertinenti per l’addestramento del modello. Ad esempio, se un classificatore di immagini viene addestrato a distinguere tra cani e gatti, sarà inutile inserire immagini di automobili e treni all’interno dell’addestramento.
  3. Addestramento del modello: questa fase prevede che i dati strutturati vengano utilizzati per insegnare al modello quale sia il suo compito e quali siano i risultati desiderati.
  4. Addestramento con dati non etichettati: dopo che il modello è stato addestrato con i dati di addestramento, vengono integrati i dati non etichettati.
  5. Valutazione e perfezionamento del modello: le valutazioni e gli aggiustamenti del modello sono fondamentali per garantire che il modello creato funzioni correttamente. L’addestramento contribuisce al miglioramento continuo. Il processo viene ripetuto finché l’algoritmo non raggiunge la qualità dei risultati desiderata.
Diagramma esplicativo dell’apprendimento semi-automatico
Il diagramma illustra un semplice esempio di come funziona l’apprendimento semi-supervisionato: il modello di intelligenza artificiale fa la previsione corretta sulla base dei dati già etichettati.

Quali sono i vantaggi dell’apprendimento semi-supervisionato?

L’apprendimento semi-supervisionato risulta particolarmente utile in presenza di grandi quantità di dati non etichettati. In questo caso, infatti, etichettare tutti o la maggior parte dei dati potrebbe risultate eccessivamente costoso o complesso. Si tratta di un aspetto importante, perché l’addestramento dei modelli di intelligenza artificiale normalmente necessita di una grande quantità di dati etichettati per fornire il contesto necessario. Occorrono centinaia o addirittura migliaia di immagini di addestramento etichettate affinché un modello di classificazione delle immagini sia in grado di distinguere tra due oggetti, ad esempio un tavolo e una sedia. Anche l’etichettatura dei dati, ad esempio nel campo del sequenziamento genetico, richiede competenze specifiche.

L’apprendimento semi-supervisionato permette di raggiungere un elevato livello di accuratezza nonostante disponga di una piccola quantità di dati etichettati, dal momento che gli insiemi di dati etichettati migliorano gli insiemi di dati non etichettati. I dati strutturati forniscono un aiuto iniziale, che può contribuire ad aumentare significativamente la velocità di apprendimento e l’accuratezza. Questo approccio consente quindi di ottenere il massimo da una quantità limitata di dati etichettati, pur utilizzando una grande quantità di dati non etichettati, favorendo così una maggiore efficienza in termini di costi.

N.B.

Naturalmente, l’apprendimento semi-supervisionato comporta anche sfide e limitazioni: se, ad esempio, i dati inizialmente etichettati non sono corretti, potrebbero emergere conclusioni errate con un impatto negativo sulla qualità del modello. In più, il modello può facilmente perdere di valore se i dati etichettati e non etichettati non sono rappresentativi della distribuzione complessiva.

Quali sono i campi di applicazione più importanti per l’apprendimento semi-supervisionato?

L’apprendimento semi-supervisionato è oggi utilizzato in diversi contesti, ma il campo di applicazione classico rimane quello dei compiti di classificazione. Nella panoramica seguente riportiamo una sintesi dei principali campi di applicazione:

  • Classificazione di contenuti web: i motori di ricerca come Google ricorrono all’apprendimento semi-supervisionato per valutare la pertinenza dei siti web per determinati termini di ricerca.
  • Classificazione di testi e immagini: in questo caso l’obiettivo è quello di classificare testi o immagini in una o più categorie predefinite. L’apprendimento semi-supervisionato si presta molto bene a questo scopo, dato che ha solitamente a che fare con una grande quantità di dati non etichettati e l’etichettatura di tutti i record di dati sarebbe troppo dispendiosa in termini di tempo e di costi.
  • Analisi vocale e linguistica: anche l’etichettatura dei file audio richiede molto tempo. Una soluzione naturale a questo problema è rappresentata dall’apprendimento semi-supervisionato.
  • Analisi delle sequenze proteiche: a causa delle dimensioni notevoli dei filamenti di DNA, l’apprendimento semi-supervisionato è adatto all’analisi delle sequenze di proteine.
  • Rilevamento di anomalie: l’apprendimento semi-supervisionato può essere utilizzato per rilevare modelli insoliti che differiscono dalla norma.
Hai trovato questo articolo utile?
Per offrirti una migliore esperienza di navigazione online questo sito web usa dei cookie, propri e di terze parti. Continuando a navigare sul sito acconsenti all’utilizzo dei cookie. Scopri di più sull’uso dei cookie e sulla possibilità di modificarne le impostazioni o negare il consenso.
Page top