¬ŅQu√© es el archivo robots.txt y c√≥mo beneficia al SEO de sitios web?

robots txt

¬ŅQu√© es el archivo robots.txt y c√≥mo beneficia al SEO de sitios web?

De los googlebots depende que el famoso buscador de Mountain View rastree e indexe el contenido de un sitio web, por lo que interesa allanarles el camino de entrada y facilitarles el trabajo. Sin embargo, no basta con eliminar la metaetiqueta ‘noindex’, porque las ara√Īas rastreadoras de Google son el origen de incontables problemas en el SEO (s√≠, errare machinum est).

El archivo ‘robots.txt’ nace de la necesidad de orientar a los googlebots en su odisea indexadora, beneficiando de diversas formas el posicionamiento web: evita la inclusi√≥n de contenido duplicado, bloquea el rastreo de p√°ginas ocultas, mejora el aprovechamiento del presupuesto de rastreo, etc√©tera. Debido a la importancia de este protocolo de exclusi√≥n, utilizado desde los or√≠genes de Internet, Google inform√≥ en julio de 2019 de su intenci√≥n de oficializarlo y ponerlo al nivel de los est√°ndares W3C, pues en la actualidad el ‘robots.txt’ se considera un est√°ndar de facto, asumido por el resto de la comunidad web a fuerza de tiempo y uso.

Robots.txt, un protocolo para orientar a los rastreadores de Google

El archivo ‘robots.txt’ se define formalmente como un protocolo de exclusi√≥n para robots, es decir, para la legi√≥n de crawlers o rastreadores con los que Google investiga p√°ginas internas, URLs, im√°genes, enlaces entrantes, etc√©tera, para su indexaci√≥n. La finalidad del ‘robots.txt’ es restringir la actividad de los rastreadores en todas aquellas p√°ginas que, por alguna raz√≥n, interese mantener fuera de las SERPs. (Pero cuidado, que las etiquetas ‘disallow’ de este protocolo no reemplazan la funci√≥n de la directiva ‘noindex’, que explicamos en estas t√©cnicas avanzadas para mejorar el SEO).

De este modo, el ‘robots.txt’ cumple una funci√≥n orientativa y limitante de la actuaci√≥n de los crawlers, que por su comportamiento a veces gargantuesco pueden enviar al √≠ndice de Google cualquier archivo, desde la informaci√≥n de perfiles de registro hasta cadenas de p√°ginas duplicadas en las b√ļsquedas internas. En una palabra, este protocolo de exclusi√≥n es SEO friendly, siempre que se le ate corto.

Sintetizando, y en l√≠neas generales, el archivo ‘robots.txt’ es (y no es):

  • Este protocolo ‘explica’ a los googlebots de Google qu√© p√°ginas pueden solicitar y cu√°les no.
  • Este protocolo no obliga a los rastreadores a indexar o desindexar contenidos, desempe√Īando en realidad el papel de unas instrucciones que aqu√©llos bien pueden ignorar ‚ÄĒaunque por lo general, las respeten.
  • Este protocolo tampoco impide la visualizaci√≥n en las SERPs de p√°ginas y archivos marcados con la etiqueta ‘disallow’, que por su valor orientativo puede ser ignorada por el buscador.
  • Este protocolo ni sustituye ni asume las funciones de un sitemap. Este archivo acoge un listado de las URLs principales de un sitio web, pormenorizando su ruta y nivel de prioridad, para su lectura por usuarios humanos y googlebots.

  • Aclarado qu√© es el ‘robots.txt’, parece l√≥gico repasar el origen de este protocolo. El ingeniero de software holand√©s Martijn Koster propuso este archivo como est√°ndar en febrero de 1994 a trav√©s de un simple lista de correos electr√≥nicos, despu√©s de sufrir un ataque de DDoS a manos del novelista Charles Stross a causa de un comportamiento inadecuado de un crawler.

    Con posterioridad este protocolo ha pasado por muchas manos ‚ÄĒdesarrolladores vinculados a Google, webmasters independientes, etc√©tera‚ÄĒ que durante m√°s de 20 a√Īos han perfeccionado su c√≥digo. Hoy el archivo ‘robots.txt’ es ampliamente utilizado por Google, Bing o Yahoo!, como ayer lo era por Lycos, AltaVista y otros buscadores de la ‘prehistoria’ de la Red.

    Un archivo, m√ļltiples utilidades: 4 cosas que el ‘robots.txt’ hace por tu sitio web

    Salvando las distancias, un ‘robots.txt’ hace las veces de agente de tr√°fico, abriendo la circulaci√≥n en un sentido y restringi√©ndola en otro. Por supuesto que los conductores temerarios pueden ignorar sus advertencias, pero por lo general su presencia aumentar√° la seguridad en carretera. Del mismo modo, este protocolo beneficia el posicionamiento SEO de diversas formas, que se desgranar√°n a continuaci√≥n:

    Optimizar el crawl budget

    Que el tiempo es oro lo saben hasta los googlebots, y por ello limitan el tiempo que invierten en analizar los contenidos de un sitio web. Para optimizar este proceso, conocido como presupuesto de rastreo o crawl budget, el uso de ‘robots.txt’ en Google es un poderoso aliado, ya que permite concentrar la atenci√≥n de los rastreadores en el contenido verdaderamente importante, dejando a un lado las p√°ginas y archivos irrelevantes.

    Evitar incurrir en contenido duplicado

    El contenido duplicado es una de las principales causas de penalizaci√≥n en motores de b√ļsqueda, por la inflexibilidad del algoritmo Panda con este error, a menudo accidental y al que puede inducir la glotoner√≠a de los rastreadores, pues llegan a indexar absolutamente todo. Las directrices del ‘robots.txt’ minimizan este problema, al etiquetar con ‘disallow’ los duplicados inevitables. No obstante, el Centro de B√ļsqueda de Google alerta de que esta etiqueta no sustituye a ‘noindex’: ¬ęNo uses un archivo robots.txt para ocultar una p√°gina web de los resultados de la B√ļsqueda de Google, ya que es posible que acabe index√°ndose aunque no se visite si hay otras p√°ginas que dirigen a ella con texto descriptivo¬Ľ.

    personas navegando frente a una pantalla con logotipo de google

    Bloquear la indexación de páginas y recursos

    ‘Bloquear’ es sin duda una palabra inapropiada en este caso, pues la informaci√≥n contenida en el protocolo de exclusi√≥n no es vinculante para los crawlers del buscador de Mountain View. Pero en la pr√°ctica responde bien al efecto de etiquetar con ‘disallow’ secciones privadas del sitio web que no deber√≠an aparecer en las SERPs, como el acceso de los administradores o el dashboard de los perfiles de usuarios registrados. In√ļtil ser√° hacerlo, sin embargo, si los buscadores ya han indexado las p√°ginas en cuesti√≥n; su utilidad se reduce a las secciones web que a√ļn no hayan sido rastreadas e indexadas.

    ¬ŅY para qu√© m√°s sirve el ‘robots.txt’? De nuevo, el Centro de B√ļsqueda de Google da la respuesta, pues este archivo ayuda a ¬ęgestionar el tr√°fico de los rastreadores y evitar que aparezcan archivos de imagen, v√≠deo y audio en los resultados de la B√ļsqueda de Google. De todas formas, ten en cuenta que no impedir√° que otras p√°ginas o usuarios enlacen a tu archivo de imagen, v√≠deo o audio¬Ľ.

    Orientar a los ‘googlebots’ hacia el sitemap

    Pese a ser distinto, el archivo ‘robots.txt’ y el sitemap colaboran en cierta medida. Podr√≠a suceder, y de hecho sucede, que los rastreadores de Google no encuentren este documento en su ruta habitual (‘www.minegocio.es/sitemap_index.xml’, por ejemplo). En este caso el protocolo ‘robots.txt’ aporta un valioso granito de arena al SEO de la p√°gina web, ya que orienta a los motores de b√ļsqueda hacia la ruta del mapa de sitio.

    Creando un archivo ‘robots.txt’: estos son sus elementos principales

    El directorio de nivel superior del host es el lugar apropiado para alojar al crear un archivo ‘robots.txt’, al que s√≥lo deber√≠a accederse con el identificador del puerto y el protocolo adecuados. Su estructura se compone de diversos elementos y etiquetas ‚ÄĒuser-agent, disallow‚ÄĒ que cumplen una funci√≥n espec√≠fica, que detallaremos en las siguientes l√≠neas:

    User-agent

    Con una cuota de mercado del 85,86%, Google monopoliza el tr√°fico procedente de buscadores, a pesar de que la b√ļsqueda org√°nica se ha diversificado en los √ļltimos a√Īos, por la introducci√≥n de nuevos motores de b√ļsqueda (DuckDuckGo, Baidu) que se han sumado a las antiguas alternativas (Bing, Yahoo!, Yandex). Para especificar a qu√© buscador queremos transmitir las directrices del ‘robots.txt’ se emplea el c√≥digo ‘user-agent’, seguido del nombre del crawler en cuesti√≥n: bingbot, slurpbot, baiduspider, duckduckbot o sogou spider, entre otros.

    Allow

    El comando ‘allow’ se utiliza para indicar a los rastreadores que pueden indexar libremente la p√°gina en cuesti√≥n. Como se observa en el ejemplo de ‘robots.txt’, no es necesario repetir este comando en todas las p√°ginas de una secci√≥n o categor√≠a, bastando con mencionarla en su principal: ‘/shop/product’ o ‘/noticias/blog’, por ejemplo.

    ejemplo de robots txt

    Disallow

    Contrariamente a ‘allow’, el comando ‘disallow’ impide a los rastreadores de Google y otros motores de b√ļsqueda el acceso e indexaci√≥n de los archivos y p√°ginas indicados.

    Ruta del sitemap

    Como venimos avisando, el archivo ‘robots.txt’ permite clarificar la ruta del mapa de sitio. Para ello se emplea el comando de nombre hom√≥nimo, ‘sitemap’, especificando despu√©s de dos puntos la URL completa, sin exceptuar el protocolo ‘http’ o ‘https’.

    Crawl-delay

    Otro comando indispensable para saber c√≥mo configurar el archivo ‘robots.txt’ es ‘crawl-delay’, pensado para determinar los tiempos de acceso y rastreo de cada rastreador, con el fin de prevenir sobrecargas. Un buen ejemplo ser√≠a ¬ęcrawl-delay: 120¬Ľ, que obliga a los diferentes crawlers a esperar este lapso antes de realizar un nuevo sondeo.

    Asterisco (*)

    El valor del asterisco equivale a una secuencia completa de caracteres y es √ļtil, por tanto, para evitar reiteraciones en el protocolo de exclusi√≥n.

    Dólar ($)

    Para neutralizar el acceso a URLs con una terminaci√≥n espec√≠fica, como ‘.jpg’ o ‘.pdf’, existe un comando simbolizado por el d√≥lar estadounidense que realiza esta funci√≥n. Al igual que el asterisco, pretende ahorrar duplicaciones innecesarias que malgasten el valioso presupuesto de rastreo de los crawlers.