Fire Robots.txt – Cosa Bisogna Sapere

File Robots.txt…ne avrai sicuramente sentito parlare, in caso contrario o se vuoi saperne di più leggi fino in fondo e scoprirai come istruire gli spider dei motori di ricerca per ottimizzare la navigazione e l’indicizazzione delle pagine web del tuo sito.

Il File Robots.txt è un semplice file di testo che ti aiuterà nell’indicizzazione da parte dei motori di ricerca in quanto è stato pensato proprio per questo scopo. Inoltre scoprirai la sua utilità se vorrai fornire indicazioni precise su quali pagine vuoi far indicizzare ai motori di ricerca e quali no.


Tutti i principali motori di ricerca cercheranno nella directory principale del tuo sito il file Robots.txt, prima di indicizzare il tuo sito. Per questo motivo il file deve avere delle caratteristiche per essere interpretato al meglio dai motori:

  • Il file deve essere nominato: robots.txt
  • Il file robots.txt deve essere posizionato nella root del sito
  • Non deve contenere tag HTML o altro testo (anche perchè saranno ignorati dallo spider)

Il file file robots.txt è la soluzione adottata dallo “Robots Exclusion Standard” per fare in modo che alcune parti del sito o alcune pagine siano escluse dall’indicizzazione da parte dei motori di ricerca.

Questo file quindi non è propriamente ottimizzato per migliorare il posizionamento ma soprattutto per inibire i motori di ricerca.

File Robots.txt: Come crearlo

Ti basterà aprire un semplice editor di testo e compilare il file secondo questa sintassi:

User-agent: [nome spider]

Disallow: [cartella/file da escludere]

 

Ti faccio alcuni esempi per scrivere correttamente un file robots.txt:

  • Escludere l‘intero sito a tutti gli spider (il sito non verrà indicizzato)

User-agent:*

Disallow: /

  • Escludere la cartella Admin dagli indici di Google

User-agent: googlebot

Disallow: /admin/

  • Escludere la cartella admin a tutti gli spider

User-agent: *

Disallow: /admin/

Avrai sicuramente capito come funziona il file Robots.txt, basta che tieni a mente che l’asterisco (*) rappresenta tutti gli spider e nel Disallow basta che indichi il file o la cartella da non indicizzare (non indicare il nome del sito: valore relativo).

Ti consiglio di escludere dagli indici cartelle contenenti Database, pagine e cartelle di amministrazione del sito, pagine dinamiche che non hanno contenuto e documenti che non vuoi divulgare. Così facendo proteggerai i documenti e le pagine che vuoi tenere riservate e migliorerai lavelocità di indicizzazione del tuo sito web.