Matt Cutts è passato dalle parole ai fatti e l’algoritmo atto a colpire le content farm, annunciato il 21 gennaio scorso, è stato attivato qualche giorno fa. Secondo Cutts, “le query sono variate in una percentuale leggermente superiore al 2%, ma le variazioni evidenti riguardano meno di mezzo punto percentuale. L’effetto finale è che gli utenti avranno una maggior possibilità di vedere siti con contenuto originale piuttosto che siti che copiano o “estraggono” i contenuti dai siti originali.”

Contenuti e Content Farm Esistono 2 grosse tipologie di contenuti che vengono spesso nominate sia da Matt Cutts che nelle linee guida di Google (e in quelle di tutti gli altri motori di ricerca): il contenuto originale e il contenuto di qualità. Dal contenuto originale discende direttamente il discorso dei contenuti duplicati e di quelli copiati da altri siti o generati automaticamente. Su questo genere di contenuti Google ha scritto delle indicazioni molto chiare, ed è sicuramente il campo nel quale il motore si trova maggiormente a suo agio: algoritmicamente, infatti, è piuttosto facile per Google scovare del contenuto duplicato (totalmente e parzialmente); un po’ meno penalizzare i “copioni” (Google, come ben sappiamo, può decidere di posizionare più in alto la pagina copiata rispetto a quella originale, se il sito che contiene i contenuti copiati ha più anzianità/trust/link di quello originale).

Ma lasciamo per un attimo stare questo discorso e passiamo a quello, più interessante, dei contenuti di qualità. La “qualità“, ci dice il dizionario, è la “proprietà caratteristica di una cosa, che ne determina la natura e la distingue dalle altre”. Leggendo questa definizione pensavo ad un certo punto di aver cercato per sbaglio “originalità”, quasi che i 2 termini fossero sinomini. Cosa distingue quindi un contenuto “originale” da uno “di qualità“? sempre il solito dizionario mi dice che la qualità è una “caratteristica positiva”. Molto bene, ma come fa allora un motore di ricerca a misurare questa “caratteristica positiva”? Come fa Google a determinare un contenuto di buona qualità, rispetto ad uno di scarsa qualità?

Come fa Google a penalizzare chi produce contenuti di scarsa qualità (ovvero le content farm)? Siccome un algoritmo non credo possa capire se un pezzo di Montanelli contiene più “qualità” di quello di un alunno delle elementari, Google utilizza cose come l’anzianità del sito, la quantità di contenuti a tema pubblicati nello stesso sito, il mantenimento del tema nel corso del tempo, il numero di link in ingresso e tutta una serie di altri parametri che permettono al motore di capire in quale posizione della SERP infilare la pagina.

Ma l’utilizzo di queste tecniche, benché riesca ad assegnare un “punteggio” all’interno di una classifica, non risolve il quesito della qualità di un contenuto. Io credo che la qualità, soprattutto se di un testo scritto, sia qualcosa di estremamente “umano” e soggettivo. Intendo dire che solo un essere umano può riuscire a leggere un articolo, capirne la qualità, e darne una valutazione, un voto. Google equipara questo voto ad un link, Facebook ad un like, Twitter ad un RT: tutti parametri estremamente “non umani”, e soprattutto estremamente taroccabili (non penso di scandalizzare nessuno se dico che da tempo è fiorente sul web la compra-vendita di link, like e retweet).

Insomma, Google non è in grado di determinare se un contenuto prodotto da una content farm è di qualità o meno. Se un freelance, scarso e sottopagato quanto vuoi, scrive un articolo per Demand Media, Associated Content o SEED.COM, in Google dovrebbe esserci qualcuno che legge “umanamente” quel contenuto, per poi dargli “soggettivamente” un voto. Si, umano e soggettivo: perché alla fine Novella 2000 vende più copie di tanti quotidiani, e I Can Has Cheezburger? fa almeno 100.000 utenti unici al giorno. Cos’è dunque un contenuto di qualità?