[imga="right"]http://www.p2psin.it/images/lente.jpg[/imga]Il file robots.txt è un file attraverso il quale è possibile permettere o negare l'accesso agli spider dei motori di ricerca per l'indicizzazione di un sito web.
Nel file sono contenute delle semplici istruzioni che gli spider seguiranno; ma vediamole nel dettaglio.

User-agent:
Disallow:


Nel primo campo, User-agent, dobbiamo inserire il nome dello spider o se ci riferiamo a tutti, il segno *.
Nel campo Disallow, dobbiamo inserire il percorso del file o della directory, che non vogliamo venga indicizzata.

User-agent:*
Disallow:


Cosi tutti gli spider possono indicizzare l'intero contenuto del sito.

User-agent: googlebot
Disallow: /esempio.html


Cosi stiamo dicendo a Google, di non indicizzare la pagina /esempio.html

User-agent: googlebot
Disallow: /italia/


Cosi invece, stiamo dicendo a Google di non indicizzare la cartella "italia"

Una lista degli spider più importanti possiamo trovarla qui

Jarod1981 <=> p2psin.it