spider indicizzazione e copia cache

Eโ€™ passata ormai qualche settimana, ma solo ora ho ricavato un poโ€™ di tempo per buttare giรน due righe a riguardo e desideravo condividerle con voi. In occasione della creazione di un nuovo blog su wordpress.com ho avuto modo di osservare i tempi di indicizzazione e gli aggiornamenti della copia cache.

Il blog รจ stato creato il Giovedรฌ 14 Giugno e non ha mai, penso, ricevuto un backlink da nessun sito (nemmeno una fantomatica pagina di wordpress.com con i link agli โ€œultimi blog creatiโ€) se non da un mio post che sapevo sarebbe stato preso nellโ€™indice la notte successiva. Chiaramente, da spavaldo, giร  il 15 Giugno sono andato a verificare unโ€™eventuale presenza nellโ€™indice di Google (ho utilizzato anche lo strumento della Google Dance per verificare su piรน datacenter contemporaneamente), ottenendo risposta negativa.

Purtroppo il 16 e 17 Giugno non ho avuto modo di verificare lโ€™eventuale indicizzazione del blog poichรฉ non ho internet a casa, ma il Lunedรฌ successivo, il 18 Giugno, da lavoro, ho constatato che il blog era stato inserito nellโ€™indice. A dir la veritร  ho la netta sensazione che il blog fosse nellโ€™indice giร  Domenica 17 Giugno, in ogni caso non ho modo di provarlo. Da qui due brevi considerazioni:

  • la velocitร  di indicizzazione di nuovi contenuti che credo si stia abbassando man mano che Google si evolve (ho letto della volontร  di arrivare ad un punto di โ€œindex real timeโ€, cioรจ indicizzazione in tempo reale);
  • il fatto che รจ bastato solo un link, inserito nel posto giusto, per far indicizzare un nuovo documento in circa 72 ore.

Devo essere sincero, non so quanto possa incidere il fatto che il tutto รจ avvenuto verso la fine della settimana, arco di tempo durante il quale, da quello che so, Google fa un rapido aggiornamento dei datacenter.

Osservando invece la copia cache, ho fatto un paio di riflessioni interessanti, che magari suonano giร  note ai piรน ma che, ai miei occhi, sono sembrate stimolanti. Come ho scritto sopra ho avuto modo di verificare che il 15 Giugno il sito non era presente nellโ€™indice di Google ma che vi fosse entrato solamente il 18 (anche se ho lโ€™impressione che lโ€™ingresso sia avvenuto il 17). Ma il 18 stesso sono andato a guardarmi pure la copia cache e la relativa data ad essa associata: 15 Giugno!

Significa che uno spider si รจ occupato di far visita al sito e di scaricarsi la copia cache e che un altro spider si รจ occupato di inserire il blog nellโ€™indice, altrimenti non si spiega come mai, di fatto, il blog avesse giร  una copia cache nonostante non fosse ancora presente nellโ€™indice. Questo un poโ€™ evolve la mia definizione della copia cache, o meglio, rimette in discussione lโ€™ordine temporale delle varie fasi di indicizzazione ed aggiornamento della copia cache: poichรฉ, molto probabilmente, sono due spider diversi, รจ difficile definire una qualche sorta di propedeuticitร  tra una fase e lโ€™altra, avvengono indipendentemente lโ€™una dallโ€™altra, anche quando il documento non รจ ancora stato inserito nellโ€™indice.

Quindi, alla consapevolezza della presenza di diversi tipi di spider con diverse mansioni, questa osservazione mi ha dato modo di confermare che vi sono anche due spider diversi che si occupano della copia cache e dellโ€™indicizzazione. Tra lโ€™altro, mentre scrivo, mi ritornano in mente quelle osservazioni durante le quali mi ero annotato che lโ€™ultimo post di questo blog era stato indicizzato, ma la copia cache della index (dove chiaramente il post era presente) era in realtร  priva del post in oggetto, in sostanza, era in ritardo di qualche giorno.

Quindi cโ€™รจ uno spider che si occupa di verificare gli aggiornamenti di documenti giร  esistenti ed uno che si occupa di verificare la presenza di documenti non ancora inseriti nellโ€™indice e, a sua volta, inserirli, anche se non escludo il fatto che sia un terzo spider che si occupa di aggiornare lโ€™indice della presenza di nuovi documenti.

Poi, relativamente ai tempi di indicizzazione e copia cache, credo che servano maggiori osservazioni ma mi sento di confermare quanto letto nei vari blog: i tempi di indicizzazione di nuovi documenti si stanno abbassando sempre piรน! Ad ogni modo ho un paio di domini freschi freschi per osservare di nuovo queste tipologie di tempistiche. Autore: Marco Ziero (per MaxValle).

Max Valle

Da oltre 30 anni, offro consulenza e servizi digitali ad aziende e professionisti che desiderano far crescere il proprio business. Attraverso l’acquisizione di nuovi clienti in modo etico ed efficace, e l’utilizzo delle piรน recenti tecnologie web, aiuto i miei clienti a raggiungere i loro obiettivi nel pieno rispetto delle normative vigenti.

  • Certified Professional Ethical Hacker nยฐ4053103 
  • International Web Association nยฐ0312827
  • Membro Federprivacy nยฐFP-9572
  • Associazione Informatici Professionisti nยฐ3241
  • Consulente Tecnico d’Ufficio (CTU)

Oppure chiamami gratuitamente:

Numero Verde Max Valle