RankBrain: l’evoluzione dell’algoritmo di Google
Per quanto riguarda la ricerca sul web, Google si basa su un componente di auto apprendimento dell’algoritmo: è stato questo il messaggio dello scienziato Greg Corrado che il 15 ottobre 2015 ha suscitato molto clamore. Il dipendente di Google ha reso noto all’agenzia stampa Bloomberg che il leader dei motori di ricerca si baserebbe sull’intelligenza artificiale (IA) per l’interpretazione delle richieste degli utenti. Un sistema di nome “RankBrain” sarebbe stato integrato nell’algoritmo del motore di ricerca già diversi mesi prima della pubblicazione dell’intervista. Da anni Google investe milioni nella ricerca sull’IA. Già nel 2012 il motore di ricerca ha ingaggiato il visionario della tecnologia Raymond Kurzweil come Director of Engineering (capo dello sviluppo tecnico). Nel 2014 è seguita la rilevazione, per circa 500 milioni di euro, della start-up specializzata in sistemi di intelligenza artificiale DeepMind. Con RankBrain Google fa rientrare l’impegno profuso nell’ambito dell’intelligenza artificiale nel suo business principale. Ma in realtà quanto è intelligente questa nuova tecnologia? E quali effetti ha RankBrain sul lavoro dei gestori dei siti e degli esperti SEO?
Che cos’è RankBrain?
Secondo Corrado, RankBrain viene utilizzato dall’inizio del 2015 come parte dell’algoritmo di ricerca di Google “Hummingbird”, anche se ancora con delle limitazioni per quanto riguarda le nuove richieste.
Secondo le informazioni rilasciate, Google riceve giornalmente circa 3 miliardi di richieste attraverso la ricerca web. Per circa il 15 percento delle richieste da parte degli utenti si tratta di keyword e combinazioni di parole che non sono mai state prima d’ora ricercate su Google, tra cui rientrano termini colloquiali, neologismi o frasi complesse “long tail”.
Con una keyword long tail (keyword “dalla coda lunga“) si intendono termini complessi, composti da più parole o persino da un’intera frase. Il contrario di una keyword long tail è una short head, quindi una frase breve e significativa. Esempio di keyword long tail: come funziona un cloud server; esempio di keyword short head: cloud server.
Nel 2016 l’utilizzo di RankBrain è stato esteso all’intera ricerca di Google, così che oggi questa tecnologia è coinvolta nell’elaborazione di tutte le richieste che Google riceve tramite la ricerca web. Il compito principale di RankBrain è quello di interpretare keyword e frasi con l’obiettivo di individuare la rispettiva intenzione dell’utente. Nell’articolo di Bloomberg, RankBrain è stato presentato come un sistema di intelligenza artificiale in grado di imparare in maniera autonoma. Ma che cosa intende Google con intelligenza artificiale? E come funziona esattamente RankBrain?
Machine Learning: Making Sense of a Messy World (Google via YouTube).
Ricerca sull’intelligenza artificiale: 60 anni di IA
Certo è che un computer in grado di pensare completamente in maniera autonoma e la singolarità tecnologica pronosticata dai futurologi è ancora fantascienza. Invece, la ricerca sull’intelligenza artificiale si occupa da circa 60 anni dell’automatizzazione del comportamento intelligente. Invano si ricerca ancora oggi una definizione generale del termine “Intelligenza artificiale”. Lo stesso vale anche per il termine “Intelligenza“. La nascita della ricerca sull’IA risale a una conferenza presso il college americano Dartmouth nel 1956. I temi trattati durante l’evento, secondo la richiesta di finanziamento avanzata nel 1955, spaziavano dai computer automatici, ai sintetizzatori vocali, alle reti neuronali, all’apprendimento automatico, oltre che passare per considerazioni sull’astrazione, sul caso e sulla creatività. Tutto questo è stato riassunto da John McCarthy, responsabile principale dell’organizzazione, con la fino ad allora sconosciuta parola chiave Artificial Intelligence (“Intelligenza artificiale”). Così il pluripremiato informatico ha mosso i primi passi nella creazione di un nuovo campo interdisciplinare e ha definito come segue il rispettivo ambito di ricerca nella richiesta di finanziamento alla conferenza di Dartmouth:
For the present purpose the artificial intelligence problem is taken to be that of making a machine behave in ways that would be called intelligent if a human were so behaving.
Per ora si considera che il problema dell’intelligenza artificiale sarebbe quello di far comportare una macchina in modi che verrebbero chiamati intelligenti, se fosse un umano a comportarsi così.
John McCarthy, 1955
Una simile definizione si trova ancora oggi nell’Encyclopaedia Britannica:
Artificial intelligence (AI), the ability of a digital computer or computer-controlled robot to perform tasks commonly associated with intelligent beings.
Intelligenza artificiale (IA), l’abilità di un computer digitale o di un robot controllato da un computer di eseguire compiti comunemente associati con esseri intelligenti.
Encyclopaedia Britannica
Il pioniere del computer Alan Turing ha proposto già nel 1950 un esperimento per mettere alla prova oggettivamente l’intelligenza di una macchina. Nel così chiamato test di Turing un tester umano collegato a tastiera e schermo, e quindi senza ricorrere a un contatto visivo e uditivo, intrattiene una conversazione con due collaboratori sconosciuti: uno umano, mentre l’altro è una macchina. L’obiettivo di entrambi i collaboratori è quello di convincere il tester che abbia a che fare con un individuo pensante. Secondo Turing, una macchina ha superato il test quando il tester non sa riconoscere quale dei due collaboratori sia una macchina. Fino ad oggi il test di Turing è rimasto un ostacolo insormontabile. In questo contesto il chatbot Eugene Goostman ha sollevato una grande attenzione mediatica e nel 2014 ha preso parte a un esperimento senza precedenti. Il successo del super computer viene perciò contestato da molti esperti. I critici dubitano però che il test sviluppato da Turing sia adatto a dimostrare l’intelligenza artificiale. Alla resa dei conti l’esperimento simula solo una conversazione interpersonale e quindi la competenza linguistica riflette solo una parte dell’intelligenza umana. Inoltre il test di Turing verifica esclusivamente se i segnali trasmessi da una macchina si possano interpretare come comportamento intelligente. Non è stato però indagato sulla presenza di intelligenza, ad esempio sotto forma di intenzionalità o volontà propria. Nella pratica questa distinzione è però di importanza secondaria. Qui viene messa in primo piano soprattutto la funzionalità dei sistemi di intelligenza artificiale. Questo modo di procedere orientato alla prassi della ricerca sull’intelligenza artificiale è dimostrato nella definizione dell’informatica Elaine Rich:
Artificial Intelligence is the study of how to make computers do things at which, at the moment, people are better.
L’intelligenza artificiale è lo studio di come far fare cose ai computer, nelle quali, al momento, sono meglio le persone.
Elaine Rich, 1983
Ci sono perciò due diversi concetti legati all’intelligenza artificiale:
- Intelligenza artificiale forte (Strong Artificial Intelligence): considerando l’intelligenza artificiale forte, una macchina dovrebbe possedere capacità intellettuali simili a quelle degli uomini per essere ritenuta intelligente. Oltre alla capacità di giungere a conclusioni e risolvere i problemi, questa corrente comprende concetti come la consapevolezza, la conoscenza di sé, la percezione di sé, la sensibilità e la saggezza. Lo scopo è quello di sviluppare l’intelligenza.
- Intelligenza artificiale debole (Weak Artificial Intelligence): considerando l’intelligenza artificiale debole, le macchine devono essere dotate di capacità che vengono associate nell’uomo ad un comportamento intelligente. L’obiettivo è così quello di simulare un comportamento umano intelligente che rientra nelle facoltà del pensiero logico, del prendere decisioni, pianificare, imparare e comunicare, sfruttando regole matematiche.
Se Google parla riferendosi a RankBrain di un sistema di intelligenza artificiale di auto apprendimento intende così l’intelligenza artificiale debole. Si tratta di una tecnologia che trova soluzioni automatiche a problematiche che finora dovevano essere elaborate dagli uomini. Come la maggior parte dei sistemi di questo tipo, anche RankBrain ricorre alle tecniche dell’apprendimento automatico.
Con apprendimento automatico (in inglese machine learning) si intende la produzione artificiale del sapere derivato dall’esperienza. I sistemi di machine learning analizzano grandi quantità di dati, identificano grazie ad algoritmi matematici schemi, trend e riferimenti incrociati, per poi giungere sulla base di questi dati a previsioni autonome. Per avere maggiori informazioni sui sistemi di apprendimento automatico e le relative possibilità di applicazione nell’ambito dell’online marketing e dell’analisi web, consultate l’articolo sul tema.
RankBrain può essere considerata un’intelligenza artificiale secondo il concetto di IA debole. Il sistema si basa su tecniche di apprendimento autonomo e viene utilizzato nell’ambito dell’algoritmo di ricerca di Google nell’interpretazione degli input degli utenti.
Come funziona RankBrain?
RankBrain aiuta Google a interpretare gli input utente e a cercare così le pagine dall’indice di ricerca di Google, un grande database di circa 100 milioni di gigabyte, che si avvicinano il più possibile all’intenzione di ricerca dell’utente. In questo caso il sistema di intelligenza artificiale va ben oltre il semplice confronto dei termini ricercati.
Già con l’Hummingbird Update ad agosto 2013, Google ha implementato la cosiddetta ricerca semantica. Mentre i termini e le combinazioni di parole prima di Hummingbird erano state valutate statisticamente e senza considerare i rapporti di relazione tra di loro, con l’update dell’algoritmo di Google l’importanza degli input utente aumenta e gli viene dedicata una maggiore attenzione. Con RankBrain Google aggiunge ora alla ricerca semantica un sistema di intelligenza artificiale di apprendimento autonomo che è in grado preventivamente di impiegare la conoscenza maturata in risposta a nuove richieste, mai fatte prima d’ora.
Bloomberg utilizza la seguente richiesta su Google per spiegare come funziona RankBrain:
“What’s the title of the consumer at the highest level of a food chain“
“Qual è il nome del consumatore al livello più alto della catena alimentare?”
Al posto di analizzare ogni singola parola indipendentemente dal resto della frase, RankBrain comprende la semantica dell’intera sequenza immessa dall’utente e individua così l’intenzione di chi cerca. Quindi, malgrado la lunga frase, l’utente giunge in brevissimo tempo alla risposta sperata.
Essendo un sistema di apprendimento autonomo, RankBrain ricorre così alla sua esperienza con le richieste poste in precedenza, crea collegamenti e mostra delle previsioni su quello che cerca l’utente e trova il modo per rispondere al meglio alla sua richiesta. Così scioglie le ambiguità e rende accessibile il significato di termini sconosciuti fino ad ora (ad esempio di neologismi). Google non rivela però come il sistema di IA sia in grado di svolgere questo compito. Gli esperti SEO presumono però che RankBrain trasmetta le ricerche tramite vettori di parole in una forma tale che consenta ai computer di interpretare le varie correlazioni. Già nel 2013 Google ha rilasciato il software open source di machine learning Word2Vec, con il quale si trasmettono, si misurano e si confrontano i legami semantici tra le parole in una rappresentazione matematica. Alla base di questa analisi ci sono i corpora linguistici. Per “apprendere” le relazioni tra le parole, Word2Vec genera prima di tutto uno spazio vettoriale n-dimensionale, in cui ogni parola del corpus alla base è rappresentata come vettore (si parla di “dati di test”). Così n indica in quante dimensioni vettoriali deve essere riprodotta una parola. Più dimensioni vengono scelte per i vettori delle parole, più il programma comprende le relazioni con le altre parole. Nel secondo passaggio lo spazio vettoriale creato viene immesso in una rete neurale artificiale (in inglese artificial neural network, abbreviato in ANN) che consente di adattarlo tramite un algoritmo di apprendimento di modo tale che le parole, usate nello stesso contesto, creino anche un vettore di parole simile. La somiglianza tra i vettori di parole viene calcolata servendosi della cosiddetta similarità del coseno con valori compresi tra -1 e +1. Detto in altre parole: se si immette su Word2Vec come input un qualsiasi corpus, il programma restituisce come output dei vettori di parola corrispondenti, che consentono una valutazione della vicinanza o distanza semantica delle parole contenute nel corpus. Se Word2Vec viene confrontato con un nuovo input, il programma è in grado di adattare lo spazio vettoriale e di creare così nuove relazioni di significato o di tralasciare i vecchi presupposti, grazie all’algoritmo di apprendimento: la rete neurale viene quindi “allenata”.
Tramite le reti neurali artificiali i ricercatori nel campo dell’intelligenza artificiale cercano di simulare i principi dell’organizzazione e dell’elaborazione della mente umana. L’obiettivo è quello di sviluppare dei sistemi che sono in grado di trattare la risoluzione di problemi, anche in presenza di vaghezza o sfocatura, e che riescono così ad assumere anche i compiti che finora erano prerogativa degli esseri umani. Le reti neurali vengono utilizzate, ad esempio, da Google nell’ambito del riconoscimento automatico delle immagini.
Ufficialmente Google non associa il funzionamento di Word2Vec con il componente dell’algoritmo di ricerca RankBrain, ma è lecito supporre che il sistema di intelligenza artificiale si basi su simili operazioni matematiche.
RankBrain e l’ottimizzazione per i motori di ricerca (SEO)
Ancora più sorprendente della divulgazione che i risultati di ricerca di Google nel campo dell’intelligenza artificiale finiscono nella ricerca web, risulta essere il grado in cui questo succede: infatti dal 2016 Google non si limita solo a far interpretare tutte le richieste da RankBrain, ma secondo Corrado, il sistema di intelligenza artificiale di apprendimento automatico è persino integrato nell’algoritmo di Google e sarebbe il terzo fattore di ranking più importante.
Secondo Google, RankBrain sarebbe il terzo fattore di ranking più importante nella ricerca web. Il primo e il secondo posto se lo contendono, secondo il Search Quality Senior Strategist di Google, Andrey Lipattsev, il content e i backlink.
Per i gestori dei siti web e gli esperti SEO cambia così soprattutto l’approccio alle strategie per l’analisi keyword. Essendo un motore di ricerca semantico, Google è in grado di ricorrere alla conoscenza pregressa sotto forma di concetti e relazioni per individuare l’importanza contenutistica dei testi e delle ricerche. Se una pagina web ottiene una buona posizione per uno specifico termine, dipende quindi meno dal fatto se questa contenga la parola, quanto molto di più se il contenuto testuale della pagina web è rilevante per il rispettivo concetto, che collega RankBrain con il termine. L’attenzione quindi non ricade sulla keyword in sé, bensì sulla rilevanza contenutistica all’interno della pagina. Anche Searchmetrics è giunto a questo risultato. L’azienda del software, presente sul mercato internazionale SEO con una piattaforma di Search e Content Marketing, pubblica dal 2012 una serie di studi molto in vista sui principali fattori di ranking dell’algoritmo di Google. L’attuale studio del 2016 mette in evidenza come le classiche checklist SEO abbiano fatto il loro tempo. Con il titolo “Searchmetrics Ranking Factors – Rebooting for Relevance”, Searchmetrics tratta gli sviluppi più recenti su Google. La conclusione è che i fattori di ranking generali non bastano più a spiegare l’attuale grado di sviluppo raggiunto dal motore di ricerca. Al loro posto i gestori dei siti dovrebbero concentrarsi sulla rilevanza del content e sulle esigenze degli utenti. Ma i requisiti richiesti al sito dall’utente si differenziano nettamente a seconda della sezione e del settore. L’azienda ha perciò annunciato di presentare in futuro dei risultati di ricerca specifici per settore.
Grazie a RankBrain la rilevanza dei contenuti e l’intenzione dell’utente ritornano ad essere gli elementi principali dell’ottimizzazione per i motori di ricerca.
Per ricercare la relazione tra il ranking di un sito e la sua rilevanza per il rispettivo termine, Searchmetrics si è servito in uno studio del 2016 di un software di word embedding, che presenta le relazioni semantiche sotto forma di vettori. Partendo da un set di 10.000 keyword, l’azienda ha determinato per ogni termine la rilevanza del content dei primi 20 risultati di ricerca, omettendo le parole chiave. In aggiunta gli analisti hanno cancellato la rispettiva ricerca dai testi delle pagine web posizionati sui motori di ricerca e hanno individuato per il contenuto rimanente uno score di rilevanza da 0 a 100. Questo è stato infine messo in relazione con la loro posizione nelle SERPs.
Il risultato è che le pagine web nelle prime posizioni di Google si contraddistinguono per una rilevanza del contenuto nettamente maggiore rispetto alle pagine che si trovano nelle posizioni inferiori del motore di ricerca. Searchmetrics ha individuato una maggiore rilevanza del content per le pagine web alle posizioni dalla 3 alla 6. Qui è da tenere presente che le posizioni 1 e 2 per molti termini sono occupate dalle pagine aziendali, che approfittano, secondo Searchmetrics, del fattore brand nel ranking di Google.
Anche i migliori contenuti raggiungono le vette del ranking di Google solo quando ci sono i presupposti tecnici. Le pagine di successo sono ben accessibili, nella stessa maniera, per gli uomini e le macchine. I fattori principali sono, oltre ai tempi di caricamento e alle dimensioni dei file, la struttura URL di un sito, così come il collegamento tramite link interni. Inoltre sin dall’update Mobile Friendly di Google anche una struttura delle pagine adatta per i dispositivi mobili rientra tra i prerequisiti tecnici che contribuiscono al successo delle pagine web.
Perciò ci si interroga sulla domanda: come dovrebbero reagire i gestori dei siti a RankBrain e agli altri sviluppi su Google? Searchmetrics indica come fattore di successo principale una struttura testuale olistica, intendendo quindi una creazione dei testi non orientata alle keyword, bensì ai temi. L’attenzione è tutta sull’utente. L’obiettivo è quello di rispondere alle richieste su Google con contenuti rilevanti. Perciò i gestori dei siti dovrebbero individuare l’intenzione degli utenti per tutte le keyword per le quali si vorrebbero posizionare sul motore di ricerca. Solo così si possono strutturare i termini e ricondurre ai campi tematici che servono come base per un piano redazionale e la creazione di testi ricchi di contenuti e che valga la pena leggere. Per saperne di più sull’uso delle keyword, consultate il nostro articolo al riguardo: “Ricerca, analisi e strategia delle parole chiave”.