🏆 Crear un fichero robots.txt

Cómo ya sabrás el fichero robots.txt es el encargado de indicar a los bots que recorren internet en busca de información de que manera tienen que rastrear tu página web.

Este archivo solo indica la manera de hacerlo, es importante que entiendas que es una indicación y no una regla de permisos, es decir, indicas a los robots de que manera deben rastrear la web pero no es un elemento de seguridad que bloquee contenido de tu web. Si quieres utilizar una regla de seguridad tendrás que utilizar algún otro elemento, como por ejemplo el fichero .htaccess si tu servidor es Apache.

La mayoría de los bots ~~comerciales~~, de empresas conocidas harán caso a las indicaciones que les pone en este fichero el cual debe seguir la normativa del estandar de exclusión de robots, esta normativa fue creada en 1994 con el fin de realizar un estandar o normativa que deben de aplicar todos los robots ~~comerciales~~.

Directivas e indicaciones del fichero Robots

Crawl-delay

La directiva Crawl-delay indica cada cuanto tiempo puede rastrear la siguiente URL el bot, muchas veces en servidores pequeños o webs muy grandes el rastreo de miles de URLS puede ralentizar el servidor o incluso provocar caidas o pequeños problemas.
Para no cargar tanto el servidor se utiliza esta directiva.

Un ejemplo sería así:

User-agent: *
Crawl-delay: 20

Aquí indica a todos los robots que deben de rastrear cada URL con una pausa de 20 segundos.

Allow y Disallow

Esta es la más importante, indica que se permite rastrear y que no se permite rastrear.

Sería así:

User-agent: *
Allow: /admin/documentos/
Disallow: /admin/

Aquí permites realizar el rastreo de la carpeta /admin/documentos/* y no permites hacer el rastreo del resto de contenido de la carpeta /admin/

Directiva Sitemaps

Esta es una directiva que indica a los crawler dónde se encuentra el sitemap.xml , es bastante recomendado que si tu sitemap se encuentra en algún sitio diferente a dominio.com/sitemap.xml le indiques a los bots dónde se encuentra el sitemap.xml.
El sitemap es muy importante para lograr que rastreen tu web adecuadamente y logren indexar todo el contenido que quieras indexar.

Ejemplo de empleo de la directiva sitemaps dentro del fichero robots.txt

Sitemap: http://www.tu-dominio.com/sitemap_el2.xml

Curiosidades del fichero robots.txt

Os dejo uno ejemplos que me han parecido como poco curiosos de como algunas empresas utilizan el fichero robots.txt

El primer ejemplo es de la casa real de España.

Robots Casa real

Después de todos los casos de corrupción de Urdangarin han decidido indicarles a los buscadores que no indexen el contenido con relación con esta persona.

Podían haber quitado el contenido directamente, pero creo que podría tener una repercusión mediática y han optado por esta opción que pasará más desapercibida.

http://www.casareal.es/robots.txt

Robots TripAdvisor

Curioso tambien el mensaje de TripAdvisor, diciendote que si estás curioseando este fichero y no eres un robot les envíes el curriculum por si tu perfil encaja entre sus SEOs.

https://www.tripadvisor.com/robots.txt

Robots Glassdoor

En la misma linea que la anterior , ofreciendo empleo a los SEO white.

https://www.glassdoor.com/robots.txt

Fichero Robots para WordPress (WP)

No podía faltar la mención a este CMS archifamoso, a continuación os dejo un fichero robots.txt válido para cualquier instalación WordPress.

User-Agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /wp-content/plugins/
Disallow: /readme.html
Disallow: /refer/
Disallow: /wp-*
Disallow: /comments/feed/
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /
 
Sitemap: http://www.dominio.com/post-sitemap.xml