WDF*IDF: cosa può veramente fare la formula magica per la SEO?
Da molti anni ormai infuria una vera e propria battaglia per assicurarsi le migliori posizioni nei risultati di ricerca di Google e simili: se un tempo la SEO era un tipo di “sport popolare” che consisteva nell’inserire più parole chiave possibili nei diversi testi di un sito web, oggi l’arte dell’ottimizzazione per i motori di ricerca risiede principalmente nella creazione di testi unici.
Non importa che si tratti di homepage o di pagine di prodotti o categorie: sono la rilevanza e l’esclusività dei contenuti, che devono distinguersi dalle pagine concorrenti, la chiave per aggiudicarsi una posizione privilegiata tra i primi risultati di ricerca. Un termine che viene sempre più utilizzato in questo contesto è la cosiddetta analisi o formula WDF*IDF.
Cosa significa WDF*IDF?
WDF*IDF è una modalità di analisi che si utilizza nell’ambito dell’ottimizzazione per i motori di ricerca per stabilire parole chiave e concetti che possono aumentare nel lungo termine la rilevanza di testi pubblicati e in tal modo dell’intero progetto web. Si tratta di una formula nella quale vengono moltiplicati tra di loro i due valori WDF (Within Document Frequency) e IDF (Inverse Document Frequency). Il risultato è la frequenza relativa del termine in un documento (il “peso del termine”) in rapporto a tutti gli altri documenti presenti sul web che contengono la stessa keyword considerata nell’analisi. Prima di poter condurre un’analisi WDF*IDF occorre innanzitutto esaminare i due fattori menzionati.
Come stabilire il valore della Within Document Frequency (WDF)
La Within Document Frequency descrive appunto la frequenza con cui compare un determinato termine in un documento rispetto a tutti gli altri termini contenuti. Per aumentare la validità del valore determinato, la formula si basa su un logaritmo che impedisce l’assegnazione di un peso troppo rilevante al termine centrale. Il concetto è comparso per la prima volta nel 1992 nei lavori di Donna Harman, che nell’articolo “Ranking algorithms”|Information Retrieval – Chapter 14: “Ranking Algorthms” descrive la WDF come una possibilità di dare alle parole di un determinato documento un valore di peso utilizzabile per le scienze informatiche.
Nell’ottimizzazione di un sito web il valore WDF è da lungo tempo utilizzato come alternativa al valore meno flessibile della densità della keyword (Keyword Density), che non fa altro che comunicare la frequenza relativa di un termine chiave.
La formula per stabilire la Within Document Frequency è la seguente:
Dove le singole componenti dell’equazione rivestono il significato chiarito in tabella:
i | Termine per il quale bisogna stabilire la Within Document Frequency |
j | Documento da analizzare |
Lj | Numero totale di parole nel documento “j” |
Freq(i,j) | Frequenza di una parola “i” nel documento “j” |
log2 | Logaritmo in base 2 (del valore espresso tra parentesi) |
Il valore WDF per un termine “i” nel documento “j” viene così ottenuto applicando il logaritmo in base 2 alla frequenza del termine con l’aggiunta di un’unità e dividendo poi per il logaritmo in base 2 del numero di tutte le parole del documento. In questo modo si ottengono informazioni più significative riguardo alla rilevanza del termine rispetto al semplice metodo della densità relativa. Chiariamo questo concetto con un esempio:
Una parola sotto indagine che compare 50 volte in un documento di 1.000 parole ha una Within Document Frequency di circa 0,57. La frequenza relativa si attesta perciò intorno al 6% (frequenza molto simile a quella semplice della densità, che sarebbe appunto del 5%). Se la frequenza del concetto viene forzatamente aumentata soltanto ai fini dell’ottimizzazione, per esempio fino a 500, il valore di WDF è di circa 0,9, un valore circa 1,5 volte più grande di quello del testo originario. Se invece si sceglie di considerare il valore relativo, che è salito al 50%, si tratterebbe di un valore 10 volte più grande di quello del testo originario.
Come stabilire il valore dell’Inverse Document Frequency (IDF)
L’Inverse Document Frequency (IDF), ossia il valore di frequenza inversa nel documento è un valore che non considera il significato di un termine basandosi sulla sua frequenza in un determinato documento, ma che misura la sua diffusione e utilizzo nel corpus totale dei documenti: più un termine ha potenziale, più alta è l’Inverse Document Frequency. Il caso ottimale è quello che il termine compaia molto spesso in pochi documenti. Invece hanno poco valore le parole che compaiono praticamente in tutti i documenti o molto raramente. Così per fare un esempio la parola “Informazioni” ha un valore IDF molto basso, poiché è utilizzata praticamente in ogni progetto web.
Per calcolare il valore dell’Inverse Document Frequency, viene utilizzata la seguente formula che si serve anch’essa di un logaritmo:
Le diverse componenti dell’equazione IDF sono spiegate in tabella:
i | Termine per il quale si vuole stabilire il valore dell’Inverse Document Frequency |
log | Logaritmo del numero ottenuto dalle parentesi su base 10 |
ND | Numero di tutti i documenti nel corpus dei documenti (che contengono la parola considerata) |
fi | Numero di tutti i documenti nei quali compare il termine “i” |
Per indagare il valore IDF di un termine “i” si divide il numero totale di tutti i documenti contenuti nel corpus (e rilevanti) per il numero dei documenti che contengono il termine, e si aggiunge infine il valore 1. Dal risultato di questa operazione si estrae il logaritmo.
Come si calcola il numero di tutti i documenti rilevanti nel corpus?
Con ND, la formula IDF contiene una componente che non può essere stabilita in modo uniforme: si tratta più del risultato della frequenza di tutte le parole significative del documento considerato, nonché del numero assoluto dei documenti.
Nell’ambito di un’analisi di documenti web ai fini SEO il potenziale numero totale è tuttavia a dir poco enorme, poiché bisogna considerare tutte le pagine indicizzate da Google o dagli altri motori di ricerca. Per poter arrivare comunque a un valore concreto si aggiunge il numero dei risultati di ricerca di tutti i termini pertinenti nel documento. In un documento fortemente semplificato che contiene solamente le due parole “ottimizzazione” (6.860.000 risultati di ricerca; novembre 2018) e “analisi” (93.200.000 risultati di ricerca; novembre 2018) ND ha il valore di 100.060.000.
WDF*IDF: la combinazione delle due formule
Poiché la Within Document Frequency rappresenta la rilevanza di un termine all’interno di un documento particolare e l’Inverse Document Frequency rispecchia il ruolo di un termine in rapporto a tutti i documenti di un corpus, la combinazione di entrambi i valori fornisce una visione approfondita dell’effettiva frequenza del termine e del potenziale della parola considerata per l’ottimizzazione dei contenuti del testo considerato. A questo scopo occorre semplicemente moltiplicare i valori l’uno per l’altro, per cui la formula generale per l’analisi WDF*IDF e quindi per l’identificazione del valore più esatto e più utilizzabile riguardo alla frequenza di una parola è espressa in questo modo:
Tendenzialmente si hanno in questo modo tutte le componenti necessarie per stabilire il valore della parola utilizzata nel testo considerato. Bisogna però tener conto anche del fatto che più la base di dati è grande, maggiormente significativi saranno i risultati.
Per fare in modo che l’analisi WDF*IDF sia davvero utilizzabile al fine dell’ottimizzazione per i motori di ricerca deve essere però effettuata per tutte le parole significative all’interno di un documento. Manualmente ciò richiederebbe senza dubbio un grande dispendio di tempo ed energie, perciò un appropriato tool WDF*IDF è un must per il calcolo del peso di una parola. Questi programmi (vedi sotto) da un lato aiutano ad accertare la qualità del testo considerato, mentre dall’altro danno anche suggerimenti su quali termini manchino in un documento perché sia il più possibile unico e pertinente.
La frequenza di un termine “i” nel documento “j” si può stabilire moltiplicando la Within Document Frequency del termine “i” nel documento “j” con l’Inverse Document Frequency del termine “i” nel corpus completo dei documenti.
I vantaggi di WDF*IDF per l’ottimizzazione per i motori di ricerca
I vantaggi di un’analisi completa del WDF*IDF sono evidenti: i valori ottenuti per soppesare i termini centrali servono perfettamente come punti di riferimento per redigere testi che:
- Possiedano un’alta rilevanza per i motori di ricerca
- Coprano campi tematici con poca concorrenza
- Non facciano in alcun modo spam di keyword
- E che siano inoltre il più possibile unici
Chi perciò non è soddisfatto del ranking del proprio sito web e vuole ottimizzarlo ha un potente alleato nei valori WDF*IDF. Sulla base dei dati analizzati si possono dare consigli concreti per ritoccare i testi, consigli che non mirano semplicemente ad aumentare la densità delle keyword.
Al di là dell’incredibile aiuto che un’analisi WDF*IDF vi fornisce, non bisogna mai dimenticare che il contenuto è scritto principalmente per i lettori e non per i motori di ricerca. Poiché tra l’altro i motori di ricerca sono sempre più in grado di afferrare i testi a livello semantico, sul lungo periodo non c’è modo di aggirare la necessità di contenuti di qualità, in cui le parole chiave non hanno che un ruolo limitato.
Quali sono i punti deboli dell’analisi WDF*IDF?
Anche se di base i valori risultanti dall’analisi WDF*IDF forniscono input di grande valore per l’ottimizzazione dei siti web, ci sono tuttavia un paio di punti da considerare prima dell’analisi e anche nella successiva valutazione dei risultati. Uno dei problemi fondamentali è che in un’analisi WDF*IDF vengono considerati sempre tutti gli elementi di testo di un documento, non importa che siano titoli, descrizioni di prodotto o categorie o didascalie delle immagini. Ciò preclude pertanto la disamina dei singoli componenti.
Anche nel caso in cui solo un determinato paragrafo sia troppo appesantito da un numero eccessivo di parole chiave o contenga troppi pochi termini elementari, il metodo di analisi non fornisce una risposta soddisfacente, poiché la valutazione della frequenza viene sempre effettuata sull’intero documento.
Prima di condurre un’analisi WDF*IDF per il vostro progetto web, dovreste innanzitutto accertarvi che il contenuto relativo sia adatto per il metodo di analisi basato sulla frequenza dei termini. Inoltre occorre analizzare criticamente i risultati ottenuti in modo da evitare potenziali errori (ad esempio a causa di una base di dati troppo limitata).
Un’ulteriore debolezza della formula WDF*IDF consiste nel fatto che diventa rilevante soltanto quando si considera un numero di parole elevato. Per brevi passaggi di testo quali possono essere le descrizioni di prodotto, brevi post di un blog o articoli di attualità, l’analisi non dà alcun risultato di nota o utilizzabile, per cui non è adatta per progetti web come i negozi online o i portali di notizie.
Per quanto riguarda i siti web che, come appunto i portali di notizie, si basano principalmente sul lavoro editoriale, c’è inoltre lo svantaggio che l’analisi WDF*IDF si può applicare difficilmente nei regolari processi di lavoro. Poiché in questi casi si richiedono principalmente tempestività e aggiornamenti velocissimi, l’ottimizzazione sarebbe praticabile soltanto a posteriori, cioè dopo la pubblicazione dei testi, rimanendo pur sempre molto dispendiosa in termini di tempo.
Panoramica su vantaggi e svantaggi dell’analisi WDF*IDF
Vantaggi dell’analisi WDF*IDF | Svantaggi dell’analisi WDF*IDF |
Permette di portare alla luce eventuali spam di keyword | Considera sempre il contenuto completo di testo di un documento |
Considera la rilevanza e l’unicità come criteri decisivi per soppesare la frequenza | Non fornisce informazioni su paragrafi particolari o porzioni di testo che varrebbe la pena ottimizzare |
Valuta i termini con una concorrenza più bassa rispetto a quelli altamente competitivi | Non adatto a testi brevi con poche parole |
Unifica le discipline dell’analisi documentale e interdisciplinare | Difficile da inserire nei processi lavorativi dove sono importanti la tempestività e la reattività |
Appiattisce i risultati attraverso logaritmi per raggiungere risultati più significativi | É difficile stabilire il numero preciso di tutti i documenti rilevanti |
Che tool esistono per l’analisi WDF*IDF?
Ci sono diversi tool che aiutano a condurre un’analisi WDF*IDF. A tal proposito occorre distinguere le applicazioni che sono esclusivamente parte di una suite SEO da quelle offerte come soluzioni a sé stanti. A seconda della gamma di funzioni e delle possibilità di utilizzo, i tool hanno prezzi differenti. Per dare una panoramica sulle diverse applicazioni, abbiamo creato per voi la seguente lista dei migliori tool WDF*IDF:
- SEOlyze: con SEOlyze si possono condurre analisi semantiche e ricerche che si basano sul principio WDF*IDF. Il prodotto si concentra principalmente sul perfezionamento dei contenuti del sito web e a tal fine offre diversi strumenti come un tool per le “W-questions”, un Duplicate Content Checker o l’analisi di leggibilità (secondo le formule di Flesch, basate però sulla lingua inglese). Tuttavia il fulcro è la funzione completa di analisi WDF*IDF, i cui risultati possono essere implementati grazie all’editor integrato direttamente nell’interfaccia SEOlyze. Oltre al tool WDF*IDF la suite SEO contiene diverse feature per il rank tracking nonché ulteriori diversi strumenti per la generale ottimizzazione on-page (analisi keyword, checker per metadati, immagini, link, ecc.).
- XOVI: XOVI mette a disposizione dei propri clienti una suite SEO che accontenta anche i più esigenti. Il toolbox XOVI, disponibile in tre modalità di utilizzo (Pro, Business ed Enterprise), contiene tra l’altro strumenti per tenere sott’occhio annunci, traffico, keyword, backlink e segnali sociali. Con XOVI TextOptimizer inoltre è contenuto anche un tool WDF*IDF per il testo che non soltanto calcola la rilevanza dei termini utilizzati e suggerisce ulteriori parole basandosi sui primi dieci risultati di ricerca di Google, ma permette anche l’editing diretto.
- Seobility: Seobility offre sulla propria pagina diversi tool SEO gratuiti, tra cui un semplice tool WDF*IDF. Questa applicazione web consente agli utenti di analizzare il peso di un termine utilizzando la formula WDF*IDF. Inoltre lo strumento suggerisce altri termini (compreso il valore di frequenza) che corrispondono alla parola cercata. L’accesso al programma Seobility è però limitato a cinque utilizzi al giorno per utente. Gli utenti che creano un account possono utilizzare opzioni di ricerca avanzata e per esempio modificare la base del logaritmo, alzare il numero dei risultati di ricerca considerati o scegliere la piattaforma (desktop/mobile) per la quale si desidera ottimizzare.