Robots.txt: Todo lo que debes de saber sobre su configuración

El fichero robots.txt es un archivo de texto que aporta recomendaciones a los diferentes crawlers y robots de motores de búsqueda para que las cumplan. Usar el archivo robots.txt  es fundamental para tener tu web correctamente indexada ya que te permite tener cierto control sobre la información que puede ser indexada o no por los motores de búsqueda.

Imagen de https://d33wubrfki0l68.cloudfront.net/0a6712b1771847ef3a2800b09edd6f492624b0c8/71bbf/robots.txt

¿Qué es y para qué se utiliza el archivo robots.txt?

Los motores de búsqueda utilizan mecanismos conocidos como robots, crawlers, indexadores o spiders que analizan constantemente los servidores disponibles en Internet para encontrar nuevas webs o actualizar la información disponible en su base de datos. Por ejemplo, Googlebot es el nombre del robot del buscador Google. También existen otros como:

  • Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.
  • Googlebot-Image, robot indexador de imágenes del buscador de Google.
  • Googlebot-News, robot indexador de noticias para Google News.
  • Bingbot, crawler de indexación del buscador Bing

Para ayudar a los motores de búsqueda en la indexación de información de tu sitio web, puedes utilizar robots.txt que orientaran y ayudaran a obtener la información con mayor facilidad.

El archivo robots.txt es un archivo de texto en el que se añaden unas reglas que funcionan como filtros para los buscadores y permite el control de indexación a determinadas páginas o carpetas de tu web. El robot consultará en primer lugar este archivo y deberá de respetar las directivas incluidas en él.

Información y Contenido del archivo Robots.txt

Usar robots.txt es importante, ya que por ejemplo podemos:

  • Impedir el acceso a robots: En muchos casos es preferible no permitir a ciertos robots el acceso a tu sitio web, ya que hay robots que analizan el sitio con fines malintencionados.
  • Reducir la sobrecarga del servidor: Se puede controlar el flujo de robots, algunos de ellos saturan el servidor por el número de peticiones que realizan lo que puede provocar lentitud en la página web.
  • Prohibir zonas: Puede haber ciertas carpetas que se encuentren disponibles en nuestro sitio web, pero que no deseamos que la información contenida sea indexada por los buscadores.
  • Fijar mapas del sitio: Es posible indicar un sitemap para orientar a los robots.
  • Eliminar contenido duplicado: Si eliminamos la duplicidad de contenido los buscadores nos darán una mayor puntuación, lo que mejorara el posicionamiento en los buscadores.

A continuación se explicaran los diferentes elementos que podemos encontrar dentro de un archivo robots.txt:

  • User-agent: En este campo se indica el robot o robots a los que va a afectar las reglas que se encontrarán en el archivo.
  • Disallow: Se indicará qué páginas o carpetas no pueden incluirse en los motores de búsqueda.
  • Allow: Se indicará qué páginas o carpetas pueden ser indexadas por los rastreadores.
  • Sitemap: Muestra la localización del sitemap de tu web, es recomendable para que los rastreadores encuentren las nuevas entradas con mayor facilidad.
  • Crawl-delay: Indica al robot el número de segundos que debe esperar para que analice entre cada página o carpeta. Es muy útil para reducir la carga del servidor.
  • Asterisco (*): Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por imágenes serían /imagenes*/
  • Dólar ($): Indica el final de un URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría «/prueba.php$».
  • Comentarios (#). Se pueden añadir comentarios para entender mejor tu robots.txt. Ejemplo: #Regla utilizada para Google Bot.

Se debe tener en cuenta los siguientes aspectos:

  • Debe existir solo un robots.txt para cada web y este debe estar situado en el directorio raíz.
  • Robots.txt no hace que una página sea eliminada del índice de los motores de búsqueda si ya ha sido indexada.
  • Los robots de búsqueda solo siguen lo que has especificado en tu robots.txt.
  • Los robots son sensibles a las mayúsculas y minúsculas.
  • La información de tu robots.txt es pública y cualquiera puede acceder a ella tecleando http://sudominio.com/robots.txt.

Ejemplos

Un ejemplo de robots.txt básico sería:

User-Agent: *
Disallow: /nombredelacarpeta/
Sitemap: http://tudominio.com/sitemap.xml

Otro ejemplo más complejo sería:

User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /imagenes/
Disallow: /videos/
Allow: /tecnologia/computadoras
Crawl-delay: 10
User-agent: googlebot
Disallow: /usuarios/
Disallow: /documentacion/
Sitemap:

Conclusiones

Los motores de búsqueda indexan todo el contenido que encuentran a su paso, el robots.txt funciona esencialmente con reglas de negación para no permitir la indexación de ciertos archivos o carpetas.

Es utilizado por los SEO para evitar las duplicidades en el contenido, permitir o denegar la indexación de contenido de los spiders y otras tareas.

Comparte este artículo:

No hay comentarios a este artículo

Sé el primero en enviar un comentario: