Long Short-Term Memory: reti con memoria a lungo termine

La Long Short-Term Memory (LSTM) è una tecnica che permette di allenare le reti neurali e conservare a lungo termine le informazioni rilevanti. Questa tecnologia utilizza sia una memoria a breve termine che una a lungo termine e sta alla base degli ultimi progressi nel campo dell’intelligenza artificiale.

Che cos’è la memoria a breve-lungo termine (LSTM)?

La Long Short-Term Memory (LSTM) è una tecnologia informatica che memorizza dati per un periodo di tempo prolungato all’interno di una rete neurale. Questa tecnica è particolarmente utile per l’elaborazione di dati sequenziali, poiché permette alla rete di accedere a eventi passati e utilizzarli nei calcoli successivi. A differenza delle reti neurali ricorrenti (RNN), le reti LSTM non gestiscono solo una “memoria a breve termine”, ma dispongono anche di una “memoria a lungo termine”.

Questa capacità permette di conservare selettivamente informazioni rilevanti per periodi estesi, rendendole particolarmente adatte a riconoscere dipendenze a lungo termine e a memorizzare dati per periodi prolungati. Tale aspetto è importante soprattutto nel contesto del deep learning e dell’intelligenza artificiale. Alla base del funzionamento delle reti LSTM ci sono le cosiddette porte o gate, il cui ruolo verrà spiegato più avanti nell’articolo. Le reti LSTM creano modelli particolarmente efficaci per la previsione e l’elaborazione di dati temporali.

I software IA di IONOS
Scopri la potenza dell'intelligenza artificiale
  • Siti web in tempo record
  • Soluzioni IA per il tuo business
  • Risparmio di tempo e risultati eccellenti

Quali sono gli elementi di una cella LSTM?

Una cella dotata di Long Short-Term Memory (LSTM) è costituita da diversi elementi che forniscono alla rete varie possibilità operative. La cella deve essere in grado di conservare dati per periodi prolungati e, quando necessario, collegarli a nuove informazioni. Altrettanto importante è che essa possa eliminare autonomamente dalla sua “memoria” i dati non più rilevanti o superflui. Per svolgere queste funzioni, la cella LSTM è composta da quattro diversi componenti:

  • Gate di input: stabilisce quali informazioni in ingresso conservare e in che modo integrarle nella memoria a lungo termine.
  • Forget gate: il “gate di cancellazione” decide quali informazioni nella memoria a lungo termine possono essere rimosse, eliminando i dati non più necessari o irrilevanti.
  • Gate di output: controlla quali informazioni devono essere utilizzate per l’output, basandosi sia sull’input corrente che sullo stato interno della cella.

Il quarto componente è lo stato della cella. Memorizza le informazioni selezionate e regola il modo in cui gli altri componenti interagiscono, influenzando i flussi di dati e la gestione della memoria.

Come funziona la Long Short-Term Memory?

Analogamente alla rete neurale ricorrente (RNN) e alla più semplice rete neurale feed-forward (FNN), anche le celle con memoria a breve-lungo termine (LSTM) operano su diversi strati. Tuttavia, a differenza di altre reti, le LSTM possono memorizzare informazioni per periodi di tempo più lunghi e utilizzarle successivamente. Ogni cella LSTM sfrutta i tre gate già descritti, insieme a una memoria a breve e a lungo termine.

  • La memoria a breve termine, conosciuta come Hidden State, memorizza temporaneamente le informazioni provenienti dai passaggi di calcolo precedenti, una caratteristica comune anche ad altre reti. La memoria a lungo termine, chiamata Cell State o stato della cella, consente invece di conservare i dati per periodi estesi, una capacità distintiva delle LSTM rispetto ad altre reti. Le nuove informazioni passano ora attraverso i tre gate.

  • Nel gate di input, l’input corrente viene moltiplicato per l’Hidden State e la ponderazione dell’ultimo passaggio. Questo gate decide quali informazioni del nuovo input sono rilevanti e quindi devono essere aggiunte allo stato della cella precedente, aggiornando così il nuovo Cell State.

  • Il forget gate stabilisce quali informazioni mantenere e quali eliminare. Considera sia l’ultimo Hidden State che l’input corrente. Attraverso una funzione sigmoidea, che restituisce valori tra 0 e 1, il gate decide cosa “dimenticare” (0) e cosa “conservare” (1). Il risultato si moltiplica per lo stato attuale della cella, scartando le informazioni con un valore vicino allo 0.

  • Infine, il gate di output determina quali informazioni devono essere utilizzate per l’output. L’Hidden State e la funzione sigmoidea sono usati per elaborare il risultato, mentre lo stato della cella viene attivato e moltiplicato con una funzione tanh (tangente iperbolica) per decidere quali dati passeranno attraverso il gate di uscita.

Quali diverse architetture esistono?

Sebbene il funzionamento di base sia simile in tutte le reti con Long Short-Term Memory, esistono differenze sostanziali fra le varie architetture delle varianti LSTM. Molto diffuse sono le Peephole LSTM, chiamate così perché i gate hanno accesso diretto allo stato della cella, come se “sbirciassero” al suo interno. In italiano, il termine “peephole” significa “spioncino”. Un’altra variante sono le peephole convolutional LSTM, che combinano la convoluzione discreta con la moltiplicazione di matrici per calcolare l’attività di un neurone.

Quali sono i principali ambiti di applicazione della Long Short-Term Memory?

Oggi, le reti neurali con memoria a breve-lungo termine vengono usate in moltissimi modi diversi e in un gran numero di settori diversi. Gli ambiti di utilizzo principali sono:

  • Generazione automatica di testi
  • Analisi di sequenze di dati temporali
  • Riconoscimento vocale
  • Previsione dell’andamento del mercato azionario
  • Composizione musicale

Inoltre, la Long Short-Term Memory è fondamentale per identificare anomalie, ad esempio tentativi di frode o attacchi informatici. Questo tipo di tecnologia si usa anche per raccomandare contenuti come film, serie TV, musica o libri, basandosi sui dati degli utenti, o analizzare video, immagini e canzoni. Oltre a migliorare la sicurezza, consente di ridurre significativamente i costi operativi.

Le grandi aziende come Google, Apple e Amazon utilizzano reti LSTM per vari prodotti e servizi, tra cui assistenti vocali (Siri e Alexa), il programma di traduzione Google Traduttore, il software AlphaGo e il riconoscimento vocale sugli smartphone. Anche il completamento automatico della tastiera di Apple si basa su questa tecnologia.

Hai trovato questo articolo utile?
Per offrirti una migliore esperienza di navigazione online questo sito web usa dei cookie, propri e di terze parti. Continuando a navigare sul sito acconsenti all’utilizzo dei cookie. Scopri di più sull’uso dei cookie e sulla possibilità di modificarne le impostazioni o negare il consenso.
Page top