Categorías: Actualidad

El ataque de los robots

Imagina que tienes una web y que te has currado el SEO y SEM de la misma, de manera que sales en todos los buscadores en los primeros puestos.

Tu web tiene muchos accesos, estás muy contento porque tu negocio funciona. Pero de repente, un día, la web empieza a ir muy lenta. Revisas el servidor y ves que la CPU está al 100%.

Vas corriendo a ver tus estadísticas de usuarios activos y ves que no has tenido un aumento tal que justifique ese incremento de consumo de recursos. Revisas las funcionalidades nuevas que has podido añadir a la web, pero no encuentras que eso pueda provocar un aumento tan considerable en el uso de los recursos del servidor. Revisas cachés, tiempos de respuesta y nada.

Por último y ya a la desesperada empiezas a revisar los logs del servidor web y allí los ves, como una plaga campando a sus anchas y comiendo recursos como unos locos: los robots.

Aprender a programar robots.txt es tu tabla de salvación

Los robots o crawlers, son software que usan las empresas, principalmente de buscadores como Google, Bing o Yahoo, para rastrear e indexar las webs que hay en Internet.

El problema con los robots es que no tienen el comportamiento típico de un usuario y por tanto es posible que tú no hayas previsto la secuencia o cantidad de accesos que puedan hacer. A parte de que son capaces de recorrer más páginas por segundo que un usuario normal.

Para defenderte de los accesos masivos de los robots tienes una primera línea de defensa muy fácil de implementar: robots.txt. Ese sencillo fichero que se aloja en la raíz de tu web puede hacer un trabajo extraordinario, así como las 3 leyes de la robótica de Isaac Asimov. No voy a decir todos, pero sí la mayoría de los robots respetan ese fichero y lo tienen en cuenta.

Para empezar podemos indicar en robots.txt qué páginas no queremos que indexe:

User-agent: *

Disallow: /pagina-que-no-quiero-indexar.html

Disallow: /directorio-que-no-quiero-que-indexe/

Con esto pareamos cierto tráfico, pero la línea que realmente hace que los robots no machaquen todo el rato nuestra web es la siguiente:

User-agent: *

Crawl-delay: 5

Aquí lo que hacemos es definirle al robot el tiempo que tiene que esperar entre una petición y otra, así logramos que el ratio de peticiones baje y no acabe con el rendimiento del servidor.

Antes de que te pongas manos a la obra es conveniente que sepas que los cambios que se realizan en robots.txt no son inmediatos, tienen que propagarse y suelen tardar varias horas en ser efectivos.

Fco. Javier Martín

Siguiente Growth Hacking 7: Referencia »

Anterior « Agenda tecnológica: diciembre de 2016

Publicado por

Fco. Javier Martín

Etiquetas: códigorobotstutorialweb designwordpress

Hace 9 años

DESPACE frente a otras soluciones: ¿qué lohace único?
Si buscas herramientas tecnológicas hoy en día, todo suena igual. ✅ “Plataforma flexible.”✅ “Conecta todo…
De la teoría a la práctica: cómo construir tu espacio de datos con DESPACE sin complicarte
Cuando hablamos de plataformas modulares, conectividad con distintos sistemas o visualización de información útil en…
De un simple software a DESPACE: la evolución que está cambiando las reglas del juego
Durante mucho tiempo, hablar de software era hablar de soluciones cerradas y rígidas. Herramientas pensadas…

Latencia, jitter y pérdida de paquetes: por qué tu red “va lenta”

Muchas organizaciones cuentan con conexiones de alta capacidad y, sin embargo, experimentan problemas al utilizar…

Hace 2 semanas

Actualidad

DESPACE frente a otras soluciones: ¿qué lohace único?

Si buscas herramientas tecnológicas hoy en día, todo suena igual. ✅ “Plataforma flexible.”✅ “Conecta todo…

Hace 3 semanas

Consejos para tu empresa

Así evoluciona el papel del partner de ciberseguridad: de proveedor a consultor de riesgo

Durante años, el papel del integrador en ciberseguridad, también en nuestro caso, estuvo centrado en…

Hace 1 mes

Consejos para tu empresa

La continuidad de negocio y la resiliencia marcarán la agenda tecnológica de 2026

La evolución del mercado TI hacia 2026 viene marcada por un entorno dinámico impulsado por…

Hace 1 mes

Actualidad

De la teoría a la práctica: cómo construir tu espacio de datos con DESPACE sin complicarte

Cuando hablamos de plataformas modulares, conectividad con distintos sistemas o visualización de información útil en…

Hace 2 meses

Actualidad

De un simple software a DESPACE: la evolución que está cambiando las reglas del juego

Durante mucho tiempo, hablar de software era hablar de soluciones cerradas y rígidas. Herramientas pensadas…

Hace 3 meses