Robots.txt per un sito completo
Sviluppo Siti Sunday 16 March 2008 alle 17:30Il file robots.txt è sottovalutato dalla maggior parte dei webmaster. Anzi, sono convinto che i webmaster di “basso livello”, gli improvvisati produttori di siti internet, non sappiano neanche cosa sia o cosa serva.
Il file robots.txt è per i crawler dei motori di ricerca uno standard, uno standard che fa molto comodo soprattutto ai fini dell’ottimizzazione del sito per i motori di ricerca, quando si vuole che le SERP del proprio sito siano pulite. Se il file robots.txt non viene usato, il crawler, il programma di ricerca del search engine, che non lo trova indicizzerà qualsiasi cosa, dove con qualsiasi cosa intendo tutte le pagine raggiungibili tramite links (collegamenti ipertestuali) i links che possono provenire da siti esterni o dalle proprie pagine già indicizzate.
robots.txt: come si usa?
L’utilizzo del file robots.txt è semplicissimo: basta infatti creare un semplice documento di testo, creato con Blocco Note (notepad) con direttive che indicano solamente le pagine o directory da escludere dall’indicizzazione.
Il contenuto del file avrà sempre più o meno questa forma:
User-agent: * Disallow:
L’esemio appena descritto indica che tutti (*) gli user-agent (spider dei motori di ricerca) che avranno accesso al file dovranno rispettare la direttiva di esclusione (Disallow) di nulla (infatti dopo la parola chiave disallow non è presente alcun nome di pagina o directory del sito). Questo è il file robots.txt che TUTTI i siti dovrebbero possedere.
Se avessimo voluto invece disabilitare una specifica directory o file, avremmo potuto scrivere nel corpo del documento del file robots.txt indicazioni quali
User-agent: * Disallow: /segreta.html Disallow: /privata/
Disabilitando così la pagina segreta.html e la directory privata dall’inclusione nelle SERP.
Gli user-agent sono specificabili uno ad uno, utilizzando il loro “nome di battaglia” personale, identificato come user-agent string (vedi l’elenco degli spider sul mercato).
E’ necessario l’uso del file robots.txt?
L’utilizzo del file robots.txt non è necessario, anche se ne è sempre consigliato l’uso per evitare di far ritornare un’errore 404 dal server in analisi: se il vostro server fosse configurato in modo da bloccare il normale svolgimento del “motore” dello spider, il vostro sito potrebbe non essere mai indicizzato, o indicizzato in maniera alquanto aleatoria.
Quindi piuttosto che non crearlo, create un documento blank, completamente vuoto e caricatelo nella root (cartella principale) del vostro sito, sarà già sufficiente
Vi ricordo inoltre che il nome del file è robots.txt e non robot.txt come tanti suppongono.
Cosa serve il file robots.txt?
Se avete una parte del sito che NON deve in alcun modo essere scoperta o per lo meno indicizzata dai motori di ricerca, dovete includerla nel file robots.txt come spiegato in precedenza: eviterete le spiacevoli sorprese di vedere le vostre pagine in Google come è successo a me con il tool Google Search Analyzer.
Una volta inserita la dichiarazione di disabilitazione di una directory o di una specifica pagina nel file robots.txt, i risultati già indicizzati nei motori di ricerca relativi ai percorsi indicati spariranno con l’aggiornamento dalle SERP, anche se dovrà passare un indeterminato tempo prima che potrete notare risultati (o meglio non notarli più).
Altrimenti, se vorreste vedere Google subito, o quasi, “corretto”, vi consiglio di utilizzare i Webmaster Tools che la casa californiana ci mette comodamente a disposizione. Basterà indicare quali pagine, o directory, eliminare dalle SERP per vedere magicamente tutto scomparire, se tutto va bene, nell’arco di uno o due giorni…
robots.txt dinamico
Un file robots.txt può anche essere reso dinamico utilizzando la tecnica dell’URL Rewrite. Attraverso una pagina ASP o PHP andrete a “scrivere” dinamicamente il contenuto del file robots.txt e attraverso le regole di riscrittura degli URL, attraverso l’uso di direttive di nella forma (chiaramente la sola per il linguaggio utilizzato)
RewriteRule /robots.txt /robots.asp [L]
RewriteRule /robots.txt /robots.php [L]
avrete modo di direzionare tutte le richieste del file robots.txt all’output creato attraverso lo script creato ad hoc.
Il tuo sito ha il file robots.txt?
Non sai se la tua web agency ha creato il file robots.txt? Controlla utilizzando il mio tool WebSite Page Analyzer: la prima funzione verificherà infatti l’esistenza del file robots.txt nella root del tuo dominio e ti permetterà di leggerne e valutarne il contenuto.
Se il file non è presente, provvedi immediatamente a chiamare la tua agenzia web e chiedi loro di creare ed aggiungere alla root del tuo sito questo semplice ma importante documento. Spesso infatti, durante la creazione di un sito internet, il file robots.txt non viene preso in considerazione perchè non influisce con gli aspetti grafici e funzionali della navigazione. Così, se le agenzie non si occupano anche indirettamente dell’ottimizzazione per i motori di ricerca, non si preoccupano di creare questo utile e importante documento.
Per approfondire consiglio la lettura del sito: www.robotstxt.org
26 March 2008 alle 18:20
informazione interessante.
per istruire i robots, affinchè non indicizzino un certo file, è sufficiente inserire
disallow: nomefile.jpg
ad esempio