Crawler
Un crawler (detto anche web crawler, spider o robot), รจ un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Un crawler รจ un tipo di bot (programma o script che automatizza delle operazioni). I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice. Un uso estremamente comune dei crawler รจ nel Web. Sul Web, il crawler si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi). Durante l’analisi di un URL, identifica tutti gli hyperlink presenti nel documento e li aggiunge alla lista di URL da visitare. Il processo puรฒ essere concluso manualmente o dopo che un determinato numero di collegamenti รจ stato seguito. Inoltre i crawler attivi su Internet hanno la facoltร di essere indirizzati da quanto indicato nel file “robots.txt” posto nella root del sito. All’interno di questo file, รจ possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltร di seguire i consigli, ma non l’obbligo. Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca aggiornati al 21 febbraio 2008: