Nella giornata di oggi, 18 Gennaio 2012, Wikipedia – e tanti altri siti – potrebbero essere irraggiungibili. Oscurati. Spenti. Il motivo รจ una protesta verso le proposte di legge SOPA (“Stop Online Piracy Act”) e PIPA (“Protect IP Act”), rispettivamente in discussione, negli USA, presso la Camera e il Senato. Ma quando un sito รจ inaccessibile al Googlebot, cosa succede? Non si rischia di perdere qualche posizione nelle SERP del motore di ricerca? Probabilmente queste non sono domande che si pongono coloro che spengono un sito per protesta, ma proviamo comunque a rispondere – e a trovare una soluzione. Fra i consigli piรน completi che ho trovato online, ci sono quelli di Pierre Far, Webmaster Trends Analyst presso Google. In un suo post su Google+, Far suggerisce questi 5 punti: 1. Cosa piรน importante: un webmaster dovrebbe restituire un errore 503 per tutti gli URL interessati al blackout (che possono essere una parte del sito, o l’intero sito). Ciรฒ aiuta in 2 modi: a. Comunica al motore di ricera che quelli non sono contenuti “reali”, e che quindi non saranno indicizzati b. Anche se viene mostrato lo stesso contenuto (ad esempio il messaggio “sito offline”) su tutti gli URL, ciรฒ non causerร  un problema di contenuti duplicati 2. Il tasso di scansione del Googlebot si riduce quando vede un header 503. Ciรฒ รจ inevitabile, ma essendo il blackout transitorio non dovrebbe causare problemi a lungo termine e la velocitร  di scansione riprenderร  molto velocemente non appena tutto tornerร  come prima. I tempi variano da sito a sito, e comunque dovrebbero essere nell’ordine di pochi giorni. 3. Due note importanti sul robots.txt: a. Per come il Googlebot รจ attualmente configurato, tutta la scansione si ferma se il robots.txt restituisce un 503. Tale blocco continuerร  fino a quanto il Googlebot non vede uno status code 200 o un 404. Pertanto, se oscuri solo una porzione del sito, assicurati che lo status code che restituisce il robots.txt non sia un 503. b. Alcuni webmaster possono essere tentati di modificare il robots.txt per ottenere un โ€œDisallow: /โ€, nel tentativo di bloccare la scansione durante il blackout. Non farlo! Bloccare il Googlebot in questo modo ha buone probabilitร  di causare problemi di scansione per un periodo molto piรน lungo dei pochi giorni indicati al punto 2. 4. Compariranno alcuni errori nel Webmaster Tools: significa che Google si รจ accorto del blackout. Assicurati di monitorare la sezione “Crawl Errors”, soprattutto per un paio di settimane dopo il blackout, per assicurarti che persistano problemi imprevisti. 5. In linea generale: non metterti a cambiare troppe cose, in particolare su parametri che impiegano un certo tempo prima che abbiano effetto. Non modificare le impostazioni DNS. Come accennato qui sopra, non modificare il contenuto del file robots.txt, e non alterare la velocitร  di scansione nei Webmaster Tools. Mantenere piรน settaggi costanti prima, durante e dopo il blackout minimizzerร  gli eventuali piccoli problemi che potranno presentarsi. Il lungo elenco di suggerimenti di Far รจ stato ben sintetizzato in un post pubblicato un annetto fa sul Google Italy Blog, e intitolato “come gestire il downtime pianificato di un sito”; in buona sostanza: Invece di utilizzare un codice HTTP 404 (Not Found) o mostrare una pagina di errore con codice di stato 200 (OK), รจ meglio utilizzare un codice HTTP 503 (Service Unavailable) che indichi ai crawler dei motori di ricerca che il downtime รจ temporaneo. Inoltre, questo permette ai webmaster di fornire sia ai visitatori che ai bot una stima temporanea su quando il sito sarร  nuovamente funzionante. Se nota, la durata del downtime puรฒ essere specificata in secondi o in relazione alla data e allโ€™ora stimati per il completamento, grazie ad un’intestazione opzionale di Retry-After, che Googlebot puรฒ usare per determinare quando scansionare di nuovo lโ€™URL.

Max Valle

Da oltre 30 anni, offro consulenza e servizi digitali ad aziende e professionisti che desiderano far crescere il proprio business. Attraverso l’acquisizione di nuovi clienti in modo etico ed efficace, e l’utilizzo delle piรน recenti tecnologie web, aiuto i miei clienti a raggiungere i loro obiettivi nel pieno rispetto delle normative vigenti.

  • Certified Professional Ethical Hacker nยฐ4053103 
  • International Web Association nยฐ0312827
  • Membro Federprivacy nยฐFP-9572
  • Associazione Informatici Professionisti nยฐ3241
  • Consulente Tecnico d’Ufficio (CTU)

Oppure chiamami gratuitamente:

Numero Verde Max Valle