Los robots web

Los robots web son también conocidos como web wanderers, crawlers o spiders y son programas que funcionan a través de la red de manera automática. Los spammers pueden usar robots web para escanear en busca de direcciones email o para otros muchos usos, como obtener los precios más baratos de productos, viajes etc.

web_crawlers

Los buscadores como Google lo usan para indexar el contenido de las webs, mediante el rastreo que es el proceso en el cual el robot descubre páginas nuevas y actualizadas y las añade al índice de Google. El proceso del rastreo suele comenzar con una lista de URL´s de webs, que se genera a partir de rastreos anteriores y se amplía con los datos del sitemap que los desarrolladores web ofrecen.

El sitemap es un archivo de tipo XML en el que los programadores web incluyen una lista de páginas que les interesa que se indexen, con alguna información adicional como la frecuencia en la que la página cambia de contenidos o cuando fue su última actualización. Se recomienda habitualmente que este archivo «sitemap.xml» este situado en el root del sitio.

uso-de-sitemap

Algunas veces las indexaciones de este tipo de programas pueden generar sobrecarga en el sistema llegando incluso a provocar la caída del sistema, especialmente en aplicaciones web que tienen funcionan con bases de datos grandes o tienen de por si, una alta carga de servidor, ya sea por afluencia de usuarios o por procesos internos. El efecto de sobrecarga, generada por la llegada de robots que indexan muy rápidamente el sitio es conocido como Rapid Fire, generando cientos de conexiones por segundo.

Mas adelante hablaremos de métodos que podemos emplear para evitar esas sobrecargas

Comparte este tutorial:

No hay comentarios en este tutorial

Sé el primero en enviar un comentario: