I contenuti duplicati sono un tema eternamente discusso nell’ambito SEO, e ancora oggi c’è parecchia confusione su come gestirli correttamente per riuscire a piacere a Google. Durante il 2013, Matt Cutts è intervenuto più volte sul tema con diverse “video-risposte”, visto che in molti gli pongono domande e sono in cerca di continui chiarimenti. Google, all’interno del suo “Centro assistenza Strumenti per i Webmaster”, spiega con dovizia di particolari il concetto di contenuti duplicati, ma è bene anche ascoltare i vari punti di vista del solito Cutts, espressi nei 3 video qui sotto. Nel primo, datato 22 Luglio 2013, la domanda era su come i contenuti duplicati “obbligatori” (ad esempio, i “Termini e Condizioni” su più offerte) influiscano sul posizionamento.

Cutts risponde di non preoccuparsi, a meno che il contenuto duplicato risulti spammoso o contenga un eccesso di parole chiave (=keyword stuffing). Se invece il contenuto è un boilerplate necessario, per Google non dovrebbe essere un problema: è in grado di identificarlo e – al massimo – di non conteggiarlo. Nel secondo, datato 23 Settembre 2013, si parla invece del problema dei contenuti duplicati all’interno delle schede prodotto degli ecommerce.
In questo caso, Cutts suggerisce di inserire nella scheda prodotto del contenuto originale, che permetta alla pagina di distinguersi da tutte le altre che utilizzano (ad esempio) lo stesso feed di affiliazione (che, di conseguenza, genera contenuto duplicato più e più volte). Bisogna insomma aggiungere del valore alla pagina e non pretendere di potersi posizionare meglio di altri se si creano pagine praticamente identiche ad altre già pubblicate da tempo. Ma la risposta più interessante è probabilmente quella inclusa nel video del 16 Dicembre 2013, nel quale la domanda era: “Come fa Google a gestire i contenuti duplicati, e quali effetti negativi possono avere sul posizionamento, dal punto di vista della SEO?”
“E’ importante prendere atto che il 25-30% di tutti i contenuti presenti sul web, è contenuto duplicato. Per esempio, pensa alla documentazione di un software. O a chi, su un blog, cita un paragrafo di un testo preso da qualcun altro. Quindi, non è che ogni singolo contenuto duplicato viene considerato spam. Se così fosse, la qualità dei risultati di Google ne risulterebbe danneggiata, anziché migliorata. Pertanto, quando Google trova 2 pagine identiche, ragiona così: “Anziché mostrarle entrambe, visto che sono duplicate, ne mostriamo una sola, e l’altra la mettiamo fuori dai risultati visibili”. Se poi un utente vuole fare una ricerca esaustiva, può utilizzare i filtri per decidere di visualizzare ogni singola pagina, e in quel caso troverà anche quelle duplicate. La maggior parte dei contenuti duplicati non viene considerata spam, ma viene gestita in un apposito cluster. Se però l’intento è ingannevole, dannoso o manipolatorio, allora Google si riserva il diritto di considerarli spam. Un volta mi hanno chiesto: “Come faccio a creare un “autoblog” (=blog che si alimenta di contenuti in modo automatico) tramite un feed RSS, senza che venga visto come spam?” Il problema è che se si vuole generare automaticamente del contenuto da un feed RSS, senza aggiungerci un sacco di valore, c’è la probabilità di essere visti come spammer”. Concludendo e riassumendo In pratica, Matt Cutts ci dice che: • se il contenuto duplicato è poco, viene ben tollerato da Google • se il contenuto è perfettamente duplicato su varie pagine, non è detto che venga considerato spam, ma comunque la pagina con più trust vince (e l’altra viene sepolta in fondo alle SERP del motore di ricerca) • se si esagera nell’intento di manipolare il posizionamento e ingannare gli utenti, allora Google può prendere provvedimenti più seri. Lo stesso dicasi per chi fa scraping di contenuti altrui.