Il file robots.txt deve risiedere nella directory principale del sito.
Per il sito www.example.com, il file robots.txt si trova all’indirizzo www.example.com/robots.txt.
Il file robots.txt è un file di testo conforme al protocollo di esclusione robots ed è formato da una serie di regole che indica ai diversi crawler cosa non devono leggere.
Importante quindi capire fina da subito che il robots.txt indica ai motori di ricerca cosa non scansionare e non cosa indicizzare.
Ogni regola blocca o consente l’accesso di tutti o di uno specifico crawler a un percorso di file specificato nel dominio o nel sottodominio in cui è ospitato il file robots.txt.
A meno che non venga specificato diversamente nel file robots.txt, la scansione è implicitamente autorizzata per tutti i file.
Screaming Frog in assenza di indicazioni specifiche per lo user agent che si sta usando leggerà il robots e come tutti i crawler lo rispetterà.
C’è, però, una opzione dentro Configuration -> robots.txt per indicare al software cosa fare in caso si incontri un blocco nel robots. Le opzioni sono 3:
- Respect robots.txt – Questa opzione farà rispettare il file robots.txt andando a non scansionare gli URL presenti nel file stesso.
- Ignore robots.txt – Questa opzione indica che SEO Spider non scaricherà nemmeno il file robots.txt e quindi tutte le direttive sui robot verranno completamente ignorate.
- Ignore robots.xt but report status – Indica che il robots.txt dei siti web verrà scaricato e segnalato nel SEO Spider ma le direttive al suo interno verranno ignorate. Ciò consente di eseguire la scansione, ma vedere quali pagine dovrebbero essere bloccate dal robots durante la scansione.
Oltre le 3 opzioni che possono essere azionate nel menù a tendina, esistono altre 3 opzioni molto interessanti. La prima
- Show Internal URLs Blocked by robots.txt – Per impostazione predefinita, gli URL interni bloccati da robots.txt verranno visualizzati nella scheda “Interni” con il codice di stato “0” e lo stato “Bloccato da Robots.txt”. Per nascondere questi URL nell’interfaccia deseleziona questa opzione.
- Show External URLs Blocked by robots.txt – Per impostazione predefinita gli URL esterni bloccati da robots.txt sono nascosti. Per visualizzarli nella scheda Esterno con Codice di stato ‘0’ e Stato ‘Bloccato da Robots.txt’ seleziona questa opzione.
Infine ricordiamo che esiste un menù dedicato alla visualizzazione degli URL bloccati da robots.txt che trovate sotto Response Codes -> Blocked by Robots.txt
Tips
Se volete testare in autonomia un file robots.txt vi consiglio di usare il seguente tool https://technicalseo.com/tools/robots-txt/