wdf e idf

Dopo che Karl Kratz, una voce di merito nel coro degli esperti di posizionamento in Germania, ha resuscitato un modello matematico di Information Retrieval degli anni Settanta incredibilmente vicino a quello che Google potrebbe applicare per il ranking, sulla scena SEO tedesca si รจ scatenata una certa dose di panico.

Parametri fino ad allora sicuri e afferrabili anche da chi non ha una laurea in matematica, come la keyword density in percentuale sul testo, sono spariti per lasciare spazio a minacciosi logaritmi: il modello WDF*IDF. Come funziona? Ve lo spieghiamo in questo post.

Analisi WDF*IDF: un modello di classificazione dei documenti in base alle parole che contengono

Lโ€™analisi WDF*IDF รจ una teoria matematica che permette di catalogare dei documenti in ordine di rilevanza rispetto ad un termine-chiave in esso contenuto. Una sorta di teoria del ranking dei portali in base alle keywords che contengono, pubblicata nellโ€™era dellโ€™offline, quando gli ideatori di Google erano ancora in fasce.

Indipendentemente dal fatto che questa teoria abbia o meno ispirato Google, sicuramente ci si avvicina piรน delle speculazioni di molti. Nasce il desiderio di sfruttare questo modello per ottenere informazioni sui contenuti dei primi risultati di ricerca per utilizzarli nei propri portali.

Il modello WDF*IDF si basa su due informazioni fondamentali:

โ€ข WDF (Within Document Frequency) rispecchia la frequenza di utilizzo di una certa parola allโ€™interno di un documento (o, per lโ€™uso che ne vogliamo fare, in una pagina web) rispetto al numero totale di parole presenti. Possiamo pensarla come una keyword density, ma estratta con un calcolo piรน complesso;

โ€ข IDF (Inverse Document Frequency) misura la pertinenza di una parola nel documento (pagina web) in cui รจ riportata rispetto ad un gruppo di documenti (altre pagine web) che riportano la stessa parola. Il suo ideatore principale รจ il professore tedesco Gerald Salton, che inizia a parlarne per la prima volta con un modello di analisi vettoriale dello spazio (Vector Space Model) allโ€™inizio degli anni Settanta.

La teoria si basa sulla possibilitร  di poter rappresentare ogni documento di testo esistente tramite vettori in uno spazio ad n dimensioni. Ogni parola di senso compiuto allโ€™interno del documento viene presa in considerazione per la creazione del vettore che descrive il documento: restano esclusi i termini stopwords, come le preposizioni, etc. A seconda di quale sia la parola centrale che si prende in considerazione di volta in volta (il nostro โ€œtermine di ricercaโ€), lo scalare di ciascun vettore rappresenta il peso della parola per il documento in questione.

Altri vettori generati sulla base di altri documenti che indicano la stessa direzione (o una direzione molto simile) per quella parola sono verosimilmente simili al documento originale. รˆ cosรฌ possibile riordinarli e catalogarli in ordine di rilevanza rispetto alla parola. Detto in termini moderni, le pagine web con caratteristiche che risultino affini applicando questo modello sono probabilmente da posizionare per prime nei risultati per quella keyword: un vero e proprio ranking sulla base della keyword per quanto riguarda il puro contenuto testuale della pagina.

La novitร  rispetto alla semplice densitร  di keywords รจ che questo modello vettoriale mette in evidenza lโ€™importanza della parola nel contesto, non semplicemente la sua ripetizione. Ecco svelato cosa si intende per โ€œcontenuti di qualitร โ€ e come probabilmente Google riesce a vederne la differenza. รˆ possibile sfruttare lโ€™analisi WDF*IDF per scandagliare la SERP ed ottenere informazioni utili a definire i criteri per posizionare il mio portale? Sรฌ, e non cโ€™รจ bisogno di una laurea cum laude in matematica teorica per farlo.

Analisi semantica CRR: un tool SEO che suggerisce le keywords sulla base dei risultati organici di Google.

La versione moderna dellโ€™analisi WDF*IDF si chiama analisi CRR (Content Relevance Rank) ed รจ un tool SEO sviluppato dal content marketplace (scrittura testi per il web) leader in Germania, greatcontent. Qui si propone il percorso inverso: da documenti giร  classificati per una certa parola, ovvero a partire dai primi 10 risultati organici in tempo reale per una certa keyword, lo strumento suggerisce le keywords secondarie (analisi semantica) e la loro importanza nel testo da creare tramite un criterio semplice da applicare: una keyword density ideale. Oggi lo testiamo per voi sul TagliaBlog.

Test: analisi CRR per โ€œstampanti laserโ€

Dopo aver fatto il login sul nostro account greatcontent, alla voce โ€œprogettiโ€ possiamo accedere al pannello di analisi CRR. Lโ€™interfaccia ricapitola le funzionalitร  dello strumento e ci chiede di inserire due informazioni: 1. Termine principale (keyword); 2. Dominio del motore di ricerca. Al momento lo strumento propone Google in tutti i suoi domini come parametro di Search Engine. Noi scriviamo โ€œstampanti laserโ€, selezioniamo โ€œGoogle.itโ€ e clicchiamo su โ€œAvvia analisiโ€. Costa 1 euro. Mentre aspettiamo 2-5 minuti per il risultato dellโ€™analisi, andiamo su google.it con la nostra keyword per vedere cosa succede. Oltre ai numerosi risultati pay, ecco i primi 10 risultati. Torniamo allโ€™analisi CRR, che nel frattempo รจ completata.

Analisi CRR

Lโ€™interfaccia ci ha restituito un grafico interattivo che mostra una serie scalabile di termini e la loro presenza (media e massima) nella totalitร  dei risultati di ricerca ottenuti. Possiamo restringere la visuale ad una lista piรน o meno lunga di parole (di default sono ca. 20) ed escludere a piacimento la CRR media o massima. Passiamo al secondo livello di analisi. In un nuovo grafico interattivo vediamo su quali portali e quanto spesso compaiono le keywords trovate: i 10 primi risultati organici di Google sono riordinati piรน sotto con colori diversi da ritrovare nel grafico.

Secondo livello di analisi CRR

Un secondo box li elenca con indicazione del conteggio delle parole su ciascuna pagina, per darci unโ€™idea della quantitร  del contenuto da proporre (e produrre). Tornando alla prima pagina dellโ€™analisi e scorrendo a fondo pagina, possiamo selezionare fino a 5 keywords secondarie che vogliamo includere nel nostro nuovo testo.

Lo strumento ci rimanda direttamente al modulo di richiesta di testo (dopotutto siamo su un content marketplace) che ha giร  incluso le keywords selezionate e la loro densitร  percentuale ideale.

Links utili

Analisi CRR spiegata in italiano da Francesca Zadra per greatcontent.it (in italiano): http://blog.greatcontent.it/2013/10/ricerca-keywords-nuovo-tool-analisi-semantica-crr-content-relevance-ranking-wdf-idf/ – Paper: โ€œA Vector Space Model dor Automatic Indexingโ€, G. Salton, A. Wong and C.S. Yang, Cornell University: http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-salton.pdf – Analisi WDF*IDF spiegata in 3 puntate da Dr. Arne-Christian Sigge di content.de (in tedesco): http://blog.content.de/2013/03/27/wdf-idf-analysen-loesen-die-keywortdichte-ab/

Autore: Francesca Zadra, per il Max Valle.

Max Valle

Da oltre 30 anni, offro consulenza e servizi digitali ad aziende e professionisti che desiderano far crescere il proprio business. Attraverso l’acquisizione di nuovi clienti in modo etico ed efficace, e l’utilizzo delle piรน recenti tecnologie web, aiuto i miei clienti a raggiungere i loro obiettivi nel pieno rispetto delle normative vigenti.

  • Certified Professional Ethical Hacker nยฐ4053103 
  • International Web Association nยฐ0312827
  • Membro Federprivacy nยฐFP-9572
  • Associazione Informatici Professionisti nยฐ3241
  • Consulente Tecnico d’Ufficio (CTU)

Oppure chiamami gratuitamente:

Numero Verde Max Valle