Dopo che Karl Kratz, una voce di merito nel coro degli esperti di posizionamento in Germania, ha resuscitato un modello matematico di Information Retrieval degli anni Settanta incredibilmente vicino a quello che Google potrebbe applicare per il ranking, sulla scena SEO tedesca si è scatenata una certa dose di panico.

Parametri fino ad allora sicuri e afferrabili anche da chi non ha una laurea in matematica, come la keyword density in percentuale sul testo, sono spariti per lasciare spazio a minacciosi logaritmi: il modello WDF*IDF. Come funziona? Ve lo spieghiamo in questo post.

Analisi WDF*IDF: un modello di classificazione dei documenti in base alle parole che contengono

L’analisi WDF*IDF è una teoria matematica che permette di catalogare dei documenti in ordine di rilevanza rispetto ad un termine-chiave in esso contenuto. Una sorta di teoria del ranking dei portali in base alle keywords che contengono, pubblicata nell’era dell’offline, quando gli ideatori di Google erano ancora in fasce.

Indipendentemente dal fatto che questa teoria abbia o meno ispirato Google, sicuramente ci si avvicina più delle speculazioni di molti. Nasce il desiderio di sfruttare questo modello per ottenere informazioni sui contenuti dei primi risultati di ricerca per utilizzarli nei propri portali.

Il modello WDF*IDF si basa su due informazioni fondamentali:

• WDF (Within Document Frequency) rispecchia la frequenza di utilizzo di una certa parola all’interno di un documento (o, per l’uso che ne vogliamo fare, in una pagina web) rispetto al numero totale di parole presenti. Possiamo pensarla come una keyword density, ma estratta con un calcolo più complesso;

• IDF (Inverse Document Frequency) misura la pertinenza di una parola nel documento (pagina web) in cui è riportata rispetto ad un gruppo di documenti (altre pagine web) che riportano la stessa parola. Il suo ideatore principale è il professore tedesco Gerald Salton, che inizia a parlarne per la prima volta con un modello di analisi vettoriale dello spazio (Vector Space Model) all’inizio degli anni Settanta.

La teoria si basa sulla possibilità di poter rappresentare ogni documento di testo esistente tramite vettori in uno spazio ad n dimensioni. Ogni parola di senso compiuto all’interno del documento viene presa in considerazione per la creazione del vettore che descrive il documento: restano esclusi i termini stopwords, come le preposizioni, etc. A seconda di quale sia la parola centrale che si prende in considerazione di volta in volta (il nostro “termine di ricerca”), lo scalare di ciascun vettore rappresenta il peso della parola per il documento in questione.

Altri vettori generati sulla base di altri documenti che indicano la stessa direzione (o una direzione molto simile) per quella parola sono verosimilmente simili al documento originale. È così possibile riordinarli e catalogarli in ordine di rilevanza rispetto alla parola. Detto in termini moderni, le pagine web con caratteristiche che risultino affini applicando questo modello sono probabilmente da posizionare per prime nei risultati per quella keyword: un vero e proprio ranking sulla base della keyword per quanto riguarda il puro contenuto testuale della pagina.

La novità rispetto alla semplice densità di keywords è che questo modello vettoriale mette in evidenza l’importanza della parola nel contesto, non semplicemente la sua ripetizione. Ecco svelato cosa si intende per “contenuti di qualità” e come probabilmente Google riesce a vederne la differenza. È possibile sfruttare l’analisi WDF*IDF per scandagliare la SERP ed ottenere informazioni utili a definire i criteri per posizionare il mio portale? Sì, e non c’è bisogno di una laurea cum laude in matematica teorica per farlo.

Analisi semantica CRR: un tool SEO che suggerisce le keywords sulla base dei risultati organici di Google.

La versione moderna dell’analisi WDF*IDF si chiama analisi CRR (Content Relevance Rank) ed è un tool SEO sviluppato dal content marketplace (scrittura testi per il web) leader in Germania, greatcontent. Qui si propone il percorso inverso: da documenti già classificati per una certa parola, ovvero a partire dai primi 10 risultati organici in tempo reale per una certa keyword, lo strumento suggerisce le keywords secondarie (analisi semantica) e la loro importanza nel testo da creare tramite un criterio semplice da applicare: una keyword density ideale. Oggi lo testiamo per voi sul TagliaBlog.

Test: analisi CRR per “stampanti laser”

Dopo aver fatto il login sul nostro account greatcontent, alla voce “progetti” possiamo accedere al pannello di analisi CRR. L’interfaccia ricapitola le funzionalità dello strumento e ci chiede di inserire due informazioni: 1. Termine principale (keyword); 2. Dominio del motore di ricerca. Al momento lo strumento propone Google in tutti i suoi domini come parametro di Search Engine. Noi scriviamo “stampanti laser”, selezioniamo “Google.it” e clicchiamo su “Avvia analisi”. Costa 1 euro. Mentre aspettiamo 2-5 minuti per il risultato dell’analisi, andiamo su google.it con la nostra keyword per vedere cosa succede. Oltre ai numerosi risultati pay, ecco i primi 10 risultati. Torniamo all’analisi CRR, che nel frattempo è completata.

L’interfaccia ci ha restituito un grafico interattivo che mostra una serie scalabile di termini e la loro presenza (media e massima) nella totalità dei risultati di ricerca ottenuti. Possiamo restringere la visuale ad una lista più o meno lunga di parole (di default sono ca. 20) ed escludere a piacimento la CRR media o massima. Passiamo al secondo livello di analisi. In un nuovo grafico interattivo vediamo su quali portali e quanto spesso compaiono le keywords trovate: i 10 primi risultati organici di Google sono riordinati più sotto con colori diversi da ritrovare nel grafico.

Un secondo box li elenca con indicazione del conteggio delle parole su ciascuna pagina, per darci un’idea della quantità del contenuto da proporre (e produrre). Tornando alla prima pagina dell’analisi e scorrendo a fondo pagina, possiamo selezionare fino a 5 keywords secondarie che vogliamo includere nel nostro nuovo testo.

Lo strumento ci rimanda direttamente al modulo di richiesta di testo (dopotutto siamo su un content marketplace) che ha già incluso le keywords selezionate e la loro densità percentuale ideale.

Links utili

Analisi CRR spiegata in italiano da Francesca Zadra per greatcontent.it (in italiano): http://blog.greatcontent.it/2013/10/ricerca-keywords-nuovo-tool-analisi-semantica-crr-content-relevance-ranking-wdf-idf/ – Paper: “A Vector Space Model dor Automatic Indexing”, G. Salton, A. Wong and C.S. Yang, Cornell University: http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-salton.pdf – Analisi WDF*IDF spiegata in 3 puntate da Dr. Arne-Christian Sigge di content.de (in tedesco): http://blog.content.de/2013/03/27/wdf-idf-analysen-loesen-die-keywortdichte-ab/

Autore: Francesca Zadra, per il Max Valle.