Eโ passata ormai qualche settimana, ma solo ora ho ricavato un poโ di tempo per buttare giรน due righe a riguardo e desideravo condividerle con voi. In occasione della creazione di un nuovo blog su wordpress.com ho avuto modo di osservare i tempi di indicizzazione e gli aggiornamenti della copia cache.
Il blog รจ stato creato il Giovedรฌ 14 Giugno e non ha mai, penso, ricevuto un backlink da nessun sito (nemmeno una fantomatica pagina di wordpress.com con i link agli โultimi blog creatiโ) se non da un mio post che sapevo sarebbe stato preso nellโindice la notte successiva. Chiaramente, da spavaldo, giร il 15 Giugno sono andato a verificare unโeventuale presenza nellโindice di Google (ho utilizzato anche lo strumento della Google Dance per verificare su piรน datacenter contemporaneamente), ottenendo risposta negativa.
Purtroppo il 16 e 17 Giugno non ho avuto modo di verificare lโeventuale indicizzazione del blog poichรฉ non ho internet a casa, ma il Lunedรฌ successivo, il 18 Giugno, da lavoro, ho constatato che il blog era stato inserito nellโindice. A dir la veritร ho la netta sensazione che il blog fosse nellโindice giร Domenica 17 Giugno, in ogni caso non ho modo di provarlo. Da qui due brevi considerazioni:
- la velocitร di indicizzazione di nuovi contenuti che credo si stia abbassando man mano che Google si evolve (ho letto della volontร di arrivare ad un punto di โindex real timeโ, cioรจ indicizzazione in tempo reale);
- il fatto che รจ bastato solo un link, inserito nel posto giusto, per far indicizzare un nuovo documento in circa 72 ore.
Devo essere sincero, non so quanto possa incidere il fatto che il tutto รจ avvenuto verso la fine della settimana, arco di tempo durante il quale, da quello che so, Google fa un rapido aggiornamento dei datacenter.
Osservando invece la copia cache, ho fatto un paio di riflessioni interessanti, che magari suonano giร note ai piรน ma che, ai miei occhi, sono sembrate stimolanti. Come ho scritto sopra ho avuto modo di verificare che il 15 Giugno il sito non era presente nellโindice di Google ma che vi fosse entrato solamente il 18 (anche se ho lโimpressione che lโingresso sia avvenuto il 17). Ma il 18 stesso sono andato a guardarmi pure la copia cache e la relativa data ad essa associata: 15 Giugno!
Significa che uno spider si รจ occupato di far visita al sito e di scaricarsi la copia cache e che un altro spider si รจ occupato di inserire il blog nellโindice, altrimenti non si spiega come mai, di fatto, il blog avesse giร una copia cache nonostante non fosse ancora presente nellโindice. Questo un poโ evolve la mia definizione della copia cache, o meglio, rimette in discussione lโordine temporale delle varie fasi di indicizzazione ed aggiornamento della copia cache: poichรฉ, molto probabilmente, sono due spider diversi, รจ difficile definire una qualche sorta di propedeuticitร tra una fase e lโaltra, avvengono indipendentemente lโuna dallโaltra, anche quando il documento non รจ ancora stato inserito nellโindice.
Quindi, alla consapevolezza della presenza di diversi tipi di spider con diverse mansioni, questa osservazione mi ha dato modo di confermare che vi sono anche due spider diversi che si occupano della copia cache e dellโindicizzazione. Tra lโaltro, mentre scrivo, mi ritornano in mente quelle osservazioni durante le quali mi ero annotato che lโultimo post di questo blog era stato indicizzato, ma la copia cache della index (dove chiaramente il post era presente) era in realtร priva del post in oggetto, in sostanza, era in ritardo di qualche giorno.
Quindi cโรจ uno spider che si occupa di verificare gli aggiornamenti di documenti giร esistenti ed uno che si occupa di verificare la presenza di documenti non ancora inseriti nellโindice e, a sua volta, inserirli, anche se non escludo il fatto che sia un terzo spider che si occupa di aggiornare lโindice della presenza di nuovi documenti.
Poi, relativamente ai tempi di indicizzazione e copia cache, credo che servano maggiori osservazioni ma mi sento di confermare quanto letto nei vari blog: i tempi di indicizzazione di nuovi documenti si stanno abbassando sempre piรน! Ad ogni modo ho un paio di domini freschi freschi per osservare di nuovo queste tipologie di tempistiche. Autore: Marco Ziero (per MaxValle).