Dopo che Karl Kratz, una voce di merito nel coro degli esperti di posizionamento in Germania, ha resuscitato un modello matematico di Information Retrieval degli anni Settanta incredibilmente vicino a quello che Google potrebbe applicare per il ranking, sulla scena SEO tedesca si รจ scatenata una certa dose di panico.
Parametri fino ad allora sicuri e afferrabili anche da chi non ha una laurea in matematica, come la keyword density in percentuale sul testo, sono spariti per lasciare spazio a minacciosi logaritmi: il modello WDF*IDF. Come funziona? Ve lo spieghiamo in questo post.
Analisi WDF*IDF: un modello di classificazione dei documenti in base alle parole che contengono
Lโanalisi WDF*IDF รจ una teoria matematica che permette di catalogare dei documenti in ordine di rilevanza rispetto ad un termine-chiave in esso contenuto. Una sorta di teoria del ranking dei portali in base alle keywords che contengono, pubblicata nellโera dellโoffline, quando gli ideatori di Google erano ancora in fasce.
Indipendentemente dal fatto che questa teoria abbia o meno ispirato Google, sicuramente ci si avvicina piรน delle speculazioni di molti. Nasce il desiderio di sfruttare questo modello per ottenere informazioni sui contenuti dei primi risultati di ricerca per utilizzarli nei propri portali.
Il modello WDF*IDF si basa su due informazioni fondamentali:
โข WDF (Within Document Frequency) rispecchia la frequenza di utilizzo di una certa parola allโinterno di un documento (o, per lโuso che ne vogliamo fare, in una pagina web) rispetto al numero totale di parole presenti. Possiamo pensarla come una keyword density, ma estratta con un calcolo piรน complesso;
โข IDF (Inverse Document Frequency) misura la pertinenza di una parola nel documento (pagina web) in cui รจ riportata rispetto ad un gruppo di documenti (altre pagine web) che riportano la stessa parola. Il suo ideatore principale รจ il professore tedesco Gerald Salton, che inizia a parlarne per la prima volta con un modello di analisi vettoriale dello spazio (Vector Space Model) allโinizio degli anni Settanta.
La teoria si basa sulla possibilitร di poter rappresentare ogni documento di testo esistente tramite vettori in uno spazio ad n dimensioni. Ogni parola di senso compiuto allโinterno del documento viene presa in considerazione per la creazione del vettore che descrive il documento: restano esclusi i termini stopwords, come le preposizioni, etc. A seconda di quale sia la parola centrale che si prende in considerazione di volta in volta (il nostro โtermine di ricercaโ), lo scalare di ciascun vettore rappresenta il peso della parola per il documento in questione.
Altri vettori generati sulla base di altri documenti che indicano la stessa direzione (o una direzione molto simile) per quella parola sono verosimilmente simili al documento originale. ร cosรฌ possibile riordinarli e catalogarli in ordine di rilevanza rispetto alla parola. Detto in termini moderni, le pagine web con caratteristiche che risultino affini applicando questo modello sono probabilmente da posizionare per prime nei risultati per quella keyword: un vero e proprio ranking sulla base della keyword per quanto riguarda il puro contenuto testuale della pagina.
La novitร rispetto alla semplice densitร di keywords รจ che questo modello vettoriale mette in evidenza lโimportanza della parola nel contesto, non semplicemente la sua ripetizione. Ecco svelato cosa si intende per โcontenuti di qualitร โ e come probabilmente Google riesce a vederne la differenza. ร possibile sfruttare lโanalisi WDF*IDF per scandagliare la SERP ed ottenere informazioni utili a definire i criteri per posizionare il mio portale? Sรฌ, e non cโรจ bisogno di una laurea cum laude in matematica teorica per farlo.
Analisi semantica CRR: un tool SEO che suggerisce le keywords sulla base dei risultati organici di Google.
La versione moderna dellโanalisi WDF*IDF si chiama analisi CRR (Content Relevance Rank) ed รจ un tool SEO sviluppato dal content marketplace (scrittura testi per il web) leader in Germania, greatcontent. Qui si propone il percorso inverso: da documenti giร classificati per una certa parola, ovvero a partire dai primi 10 risultati organici in tempo reale per una certa keyword, lo strumento suggerisce le keywords secondarie (analisi semantica) e la loro importanza nel testo da creare tramite un criterio semplice da applicare: una keyword density ideale. Oggi lo testiamo per voi sul TagliaBlog.
Test: analisi CRR per โstampanti laserโ
Dopo aver fatto il login sul nostro account greatcontent, alla voce โprogettiโ possiamo accedere al pannello di analisi CRR. Lโinterfaccia ricapitola le funzionalitร dello strumento e ci chiede di inserire due informazioni: 1. Termine principale (keyword); 2. Dominio del motore di ricerca. Al momento lo strumento propone Google in tutti i suoi domini come parametro di Search Engine. Noi scriviamo โstampanti laserโ, selezioniamo โGoogle.itโ e clicchiamo su โAvvia analisiโ. Costa 1 euro. Mentre aspettiamo 2-5 minuti per il risultato dellโanalisi, andiamo su google.it con la nostra keyword per vedere cosa succede. Oltre ai numerosi risultati pay, ecco i primi 10 risultati. Torniamo allโanalisi CRR, che nel frattempo รจ completata.
Lโinterfaccia ci ha restituito un grafico interattivo che mostra una serie scalabile di termini e la loro presenza (media e massima) nella totalitร dei risultati di ricerca ottenuti. Possiamo restringere la visuale ad una lista piรน o meno lunga di parole (di default sono ca. 20) ed escludere a piacimento la CRR media o massima. Passiamo al secondo livello di analisi. In un nuovo grafico interattivo vediamo su quali portali e quanto spesso compaiono le keywords trovate: i 10 primi risultati organici di Google sono riordinati piรน sotto con colori diversi da ritrovare nel grafico.
Un secondo box li elenca con indicazione del conteggio delle parole su ciascuna pagina, per darci unโidea della quantitร del contenuto da proporre (e produrre). Tornando alla prima pagina dellโanalisi e scorrendo a fondo pagina, possiamo selezionare fino a 5 keywords secondarie che vogliamo includere nel nostro nuovo testo.
Lo strumento ci rimanda direttamente al modulo di richiesta di testo (dopotutto siamo su un content marketplace) che ha giร incluso le keywords selezionate e la loro densitร percentuale ideale.
Links utili
Analisi CRR spiegata in italiano da Francesca Zadra per greatcontent.it (in italiano): http://blog.greatcontent.it/2013/10/ricerca-keywords-nuovo-tool-analisi-semantica-crr-content-relevance-ranking-wdf-idf/ – Paper: โA Vector Space Model dor Automatic Indexingโ, G. Salton, A. Wong and C.S. Yang, Cornell University: http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-salton.pdf – Analisi WDF*IDF spiegata in 3 puntate da Dr. Arne-Christian Sigge di content.de (in tedesco): http://blog.content.de/2013/03/27/wdf-idf-analysen-loesen-die-keywortdichte-ab/
Autore: Francesca Zadra, per il Max Valle.