¿Qué es el ‘crawl budget’ y cómo se optimiza en SEO?
El universo de páginas indexadas en Google, con más de 130 billones de entradas, no es fruto de la casualidad: el buscador desarrollado por Larry Page y Serguéi Brin cuenta con un ‘ejército’ de bots que rastrean y evalúan el contenido publicado por este extenso catálogo de webs. Dado que esta actividad consume parte de los recursos del servidor web, Google restringe el tiempo que sus bots dedican a analizar las novedades de cada página. Esta limitación se denomina formalmente ‘presupuesto de rastreo’ o crawl budget.
Cuanto mayor sea el número de páginas de un sitio web, mayor será la importancia de la optimización del presupuesto de rastreo. Acciones como la modificación de la frecuencia de rastreo, el uso de etiquetas ‘noindex’ y ‘nofollow’ o la creación de un archivo robots.txt o un mapa de sitio contribuyen a mejorar este factor, como se explicará en las siguientes líneas, después de responder al interrogante de qué es el crawl budget.
Presupuesto de rastreo o ‘crawl budget’: una breve definición
El presupuesto de rastreo se define como el tiempo que los motores de búsqueda invierten en analizar el contenido de un sitio web en un periodo determinado, generalmente un día. No existe un crawl budget por defecto. De una web a otra, y también de un día para otro, las variaciones de este presupuesto pueden ser drásticas.
Los rastreadores, arañas o bots de rastreo son diferentes en cada buscador: Google dispone de GoogleBot (con una versión para ordenadores y otra para móviles); Yahoo, de Slurp, y Bing, de BingBot. Estos crawlers se ocupan de inspeccionar e indexar las páginas web que juzguen útiles y relevantes para el usuario, siguiendo con mayor o menor libertad las directrices asignadas en el archivo robots.txt. Así es cómo funciona el crawl budget en Google, esencialmente.
Para establecer el presupuesto de rastreo, el buscador propiedad de Alphabet se basa en una serie de factores, resumibles en los siguientes: (1) las dimensiones de la web; (2) el número de enlaces internos que conforman su arquitectura web; (3) la frecuencia de rastreo especificada en Search Console o en el archivo robots.txt, y (4) el acatamiento de las directrices para webmasters.
Aunque no es posible conocer el número de páginas que se rastrearán al día (10, 100, 1.000), los propietarios de sitios web deben limitarse a eliminar aquellos elementos que afectan negativamente al crawl budget, dejando que los bots hagan el resto.
Respecto al impacto del crawl budget en SEO, es claramente beneficioso, aunque de un modo indirecto, pues no constituye un factor de posicionamiento. Citando un artículo de Gary Illyes publicado en Google Developers, «por mucho que aumentes la frecuencia de rastreo, la posición de tu sitio en las SERPs no tiene por qué mejorar. Google tiene en cuenta cientos de factores a la hora de posicionar los resultados y, aunque es necesario rastrear una página para que aparezca en ellos, el rastreo no es uno de ellos»
Sin embargo, Illyes reconoce que «si un sitio es rápido, la experiencia de los usuarios es mejor y el sitio se rastrea con más frecuencia». Interpretando lo anterior, si bien es discutible la influencia del crawl budget en posicionamiento SEO, no hay duda de que optimizar este aspecto supone un plus para la mejora del ranking del contenido web en Google y otros buscadores. Como impone la lógica, cuanto mayor sea el número de páginas indexadas, mayores serán las posibilidades de que una parte de ellas alcance en la cima de las SERPs.
¿Cómo optimizar el ‘crawl budget’? 6 estrategias de eficacia demostrada
Implementar un archivo robots.txt
El archivo robots.txt contiene directrices que los rastreadores o crawlers de Google deberían seguir durante el proceso de investigación y clasificación de páginas. Este protocolo permite establecer la prioridad a la hora de indexar unas páginas frente a otras, y así maximizar el aprovechamiento del presupuesto de rastreo, previniendo malgastarlo en contenidos y archivos de menor o nula importancia.
Usar las etiquetas ‘noindex’ y ‘nofollow’
Sabiamente utilizadas, las etiquetas ‘noindex’ y ‘nofollow’ sirven para regular el acceso y la indexación de contenidos entre los bots de rastreo. Ciertas páginas de un sitio web, como el aviso legal, el login de los administradores o las categorías y etiquetas que se acumulan con el paso del tiempo. Los webmasters menos experimentados pueden considerar que poner trabas a los buscadores es erróneo, juzgando más adecuado indexar la mayor cantidad de páginas posible. La realidad es que esta práctica consume una porción útil del crawl budget.
Por consiguiente, se recomienda la inclusión de la etiqueta ‘noindex’ en aquellos contenidos que no deban indexarse, para evitar desperdiciar el presupuesto de rastreo con ellas. En cuanto a los enlaces que no interese que los bots sigan y analicen, Google pone a disposición de los webmasters la etiqueta ‘nofollow’. En teoría, esto debería contribuir al ahorro del crawl budget, pero desde Google advierte que no es seguro: «Se gasta presupuesto de rastreo al evaluar cualquier URL, por lo que, aunque en una de tus páginas se marque una URL con la regla ‘nofollow’, es posible que la URL se acabe rastreando si está enlazada en otra página del sitio o de Internet sin dicha regla».
Ajustar la frecuencia de rastreo
La frecuencia de rastreo es un parámetro disponible en el archivo robots.txt que modifica la regularidad con que las arañas rastreadoras chequean las novedades de un sitio web, por así decirlo. De acuerdo con Google Developers, el límite de la frecuencia de rastreo altera «la frecuencia con la que se obtienen las páginas», a fin de que, «al hacerlo, no empeore la experiencia de los usuarios que visitan el sitio».
Para escoger una frecuencia de rastreo óptima, debe considerarse el volumen de publicaciones diarias y semanales. Los portales informativos pueden pasarse con una frecuencia mínima, mientras que los medios de comunicación, tiendas online o foros debería considerar elevar su frecuencia de rastreo. De lo contrario, los bots de Google, Bing, etcétera, ignorarían gran parte del contenido recién publicado, que dilataría demasiado su inclusión en las SERPs.
Corregir los errores 404 y las redirecciones 301
Las páginas de error 404 suponen un obstáculo no sólo para la navegación de los internautas, sino también para la labor indexadora que desempeñan los diferentes crawlers. Estos fallos se originan, bien en la construcción del hipervínculo, bien en la URL de la página de destino. Corregirlos evitará que usuarios y bots acaben en un callejón sin salida: los unos aumentando la tasa de rebote, los otros desperdiciando el presupuesto de rastreo.
También es prioritario disminuir las redirecciones 301, que obligan a los bots a zigzaguear entre URLs. En palabras de Google, «si malgastamos los recursos del servidor con páginas como estas, se dejarán de rastrear otras que son realmente interesantes, lo que puede provocar que se tarde mucho en descubrir contenido de calidad que haya en un sitio».
Priorizar el lenguaje HTML frente al JS y el Ajax
Otra forma de optimizar el crawl budget consiste en priorizar el uso del lenguaje HTML frente al JavaScript o el XML. Cierto es que el Google —motor de búsqueda con la mayor cuota de este mercado y, por tanto, dominador indiscutible de la búsqueda de internet— puede ‘leer’ archivos en JavaScript, pero Bing, DuckDuckGo y otros en ascenso no son tan habilidosos. Por esta razón, es aconsejable utilizar HTML siempre que sea posible.
Por idénticas razones, se recomienda prescindir del lenguaje Ajax (JavaScript asíncrono y XML), así como de los contenidos Flash. Prescindir de este último formato es asimismo una decisión lógica para el SEO, pues Google bloquea en su navegador web cualquier elemento en Flash desde el 1 de septiembre de 2015.
Suprimir factores negativos para el rastreo
Las páginas con problemas de navegación, contenido duplicado y otros aspectos negativos tampoco son del gusto de los bots de rastreo. «Según nuestros análisis, si un sitio tiene muchas URLs de poca calidad, el rastreo y la indexación podrían verse perjudicados», según explican desde Google Developers.
Otro de los factores contraproducentes para la optimización del crawl budget es la acumulación de enlaces rotos. Los hipervínculos pueden sufrir este destino por diversas razones: migración de la web, modificación de URLs, etcétera. Cuando el usuario clica en uno de estos enlaces, es redirigido a una página 404, situación que también entorpece la navegación de los bots, impidiéndoles además el análisis y la indexación de la página solicitada.
Sintetizando lo anterior, el presupuesto de rastreo necesita, para aprovecharse adecuadamente, que los webmasters implementen un archivo robots.txt y un mapa de sitio. Deben corregirse problemas como la presencia de enlaces rotos y de páginas 404, así como reemplazar lenguajes como JavaScript y Ajax por HTML. Adoptar estos consejos no garantiza un ascenso explosivo en las SERPs, pero sí una mejora sustancial del número de páginas indexadas, beneficio que en sí mismo justifica cualquiera de estos esfuerzos.
Tabla de contenidos