Saltar al contenido
Codif铆ca.me | Desarrollo web | Programaci贸n

Crear un fichero robots.txt

30 noviembre, 2016

C贸mo ya sabr谩s el fichero robots.txt es el encargado de indicar a los bots que recorren internet en busca de informaci贸n de que manera tienen que rastrear tu p谩gina web.

Este archivo solo indica la manera de hacerlo, es importante que entiendas que es una indicaci贸n y no una regla de permisos, es decir, indicas a los robots de que manera deben rastrear la web pero no es un elemento de seguridad que bloquee contenido de tu web. Si quieres utilizar una regla de seguridad tendr谩s que utilizar alg煤n otro elemento, como por ejemplo el fichero .htaccess si tu servidor es Apache.

La mayor铆a de los bots comerciales, de empresas conocidas har谩n caso a las indicaciones que les pone en este fichero el cual debe seguir la normativa del estandar de exclusi贸n de robots, esta normativa fue creada en 1994 con el fin de realizar un estandar o normativa que deben de aplicar todos los robots comerciales.

Directivas e indicaciones del fichero Robots

Crawl-delay

La directiva Crawl-delay indica cada cuanto tiempo puede rastrear la siguiente URL el bot, muchas veces en servidores peque帽os o webs muy grandes el rastreo de miles de URLS puede ralentizar el servidor o incluso provocar caidas o peque帽os problemas.
Para no cargar tanto el servidor se utiliza esta directiva.

Un ejemplo ser铆a as铆:

User-agent: *
Crawl-delay: 20

Aqu铆 indica a todos los robots que deben de rastrear cada URL con una pausa de 20 segundos.

Allow y Disallow

Esta es la m谩s importante, indica que se permite rastrear y que no se permite rastrear.

Ser铆a as铆:

User-agent: *
Allow: /admin/documentos/
Disallow: /admin/

Aqu铆 permites realizar el rastreo de la carpeta /admin/documentos/* y no permites hacer el rastreo del resto de contenido de la carpeta /admin/

Directiva Sitemaps

Esta es una directiva que indica a los crawler d贸nde se encuentra el sitemap.xml , es bastante recomendado que si tu sitemap se encuentra en alg煤n sitio diferente a dominio.com/sitemap.xml le indiques a los bots d贸nde se encuentra el sitemap.xml.
El sitemap es muy importante para lograr que rastreen tu web adecuadamente y logren indexar todo el contenido que quieras indexar.

Ejemplo de empleo de la directiva sitemaps dentro del fichero robots.txt

Sitemap: http://www.tu-dominio.com/sitemap_el2.xml

Curiosidades del fichero robots.txt

Os dejo uno ejemplos que me han parecido como poco curiosos de como algunas empresas utilizan el fichero robots.txt

El primer ejemplo es de la casa real de Espa帽a.

Robots Casa real

Despu茅s de todos los casos de corrupci贸n de Urdangarin han decidido indicarles a los buscadores que no indexen el contenido con relaci贸n con esta persona.

Pod铆an haber quitado el contenido directamente, pero creo que podr铆a tener una repercusi贸n medi谩tica y han optado por esta opci贸n que pasar谩 m谩s desapercibida.

http://www.casareal.es/robots.txt

casareal

Robots TripAdvisor

Curioso tambien el mensaje de TripAdvisor, diciendote que si est谩s curioseando este fichero y no eres un robot les env铆es el curriculum por si tu perfil encaja entre sus SEOs.

https://www.tripadvisor.com/robots.txt

tripadvisor

Robots Glassdoor

En la misma linea que la anterior , ofreciendo empleo a los SEO white.

https://www.glassdoor.com/robots.txt

glassdoor

Fichero Robots para WordPress (WP)

No pod铆a faltar la menci贸n a este CMS archifamoso, a continuaci贸n os dejo un fichero robots.txt v谩lido para cualquier instalaci贸n WordPress.

User-Agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /wp-content/plugins/
Disallow: /readme.html
Disallow: /refer/
Disallow: /wp-*
Disallow: /comments/feed/
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /
 
Sitemap: http://www.dominio.com/post-sitemap.xml