Así es Indexifembedded, la nueva meta etiqueta de Google

indexifembedded

Así es Indexifembedded, la nueva meta etiqueta de Google

El pasado 21 de enero, Google present√≥ una nueva etiqueta del robots.txt denominada ‘indexifembedded‘, destinada a maximizar el control sobre el momento en que se indexa un contenido en el buscador.

Como probablemente sepas, el archivo robots.txt contiene un conjunto de directrices para las ara√Īas de rastreo de Google y otros motores de b√ļsqueda. En esencia, permite indicarles qu√© p√°ginas pueden o no indexar, adem√°s de establecer la prioridad y comunicar otros par√°metros a estos rastreadores. En este documento se emplean multitud de metaetiquetas ‚ÄĒ’noindex’, ‘follow’, ‘nosnippet’, etc√©tera‚ÄĒ, y desde principios de a√Īo, Indexifembedded ha pasado a engrosar esta lista.

En concreto, la nueva etiqueta de robots.txt est√° pensada para indicar a los googlebots que debe indexar el contenido cuando est√© insertado o ‘embebido’ (embedded) mediante inline frame o iframes, una etiqueta HTML que posibilita la incrustaci√≥n, en un marco, de contenido de otra p√°gina web en la nuestra. Por ejemplo, si el c√≥digo de un v√≠deo de YouTube o de un mensaje de Twitter apareciera entre iframes en una p√°gina marcada con el atributo ‘noindex’, el webmaster podr√≠a ordenar a los googlebots que indexe ese contenido en particular por medio de la etiqueta indexifembedded. Expresado de otra forma, las etiquetas ‘noindex’ y ‘indexifembedded’ pueden convivir en una misma p√°gina web sin generar un conflicto con el documento robots.txt.

ejemplo de etiqueta indexifembedded

¬ęLa etiqueta indexifembedded soluciona un problema habitual que afecta especialmente a los editores de redes sociales: aunque quieran que su contenido se indexe cuando est√© insertado en p√°ginas externas, no significa que quieran que sus p√°ginas de redes sociales se indexen por s√≠ solas. Por ese motivo, utilizan una etiqueta ‘noindex’ en esas p√°ginas. Sin embargo, durante la indexaci√≥n, la etiqueta noindex tambi√©n impide insertar el contenido en otras p√°ginas¬Ľ, aclaran los autores Weizi Wang y Gary en una publicaci√≥n del Centro de la B√ļsqueda de Google.

SEO y robots.txt: ¬Ņc√≥mo se interrelacionan en beneficio de la b√ļsqueda online?

Las directivas presentes en el archivo robots.txt permiten a los webmasters ‘comunicarse’ con los indexadores de cada motor de b√ļsqueda, un eslab√≥n esencial en la cadena de posicionamiento online. Gracias al elemento del protocolo HTTP conocido como ‘user-agent’, es posible transmitir una informaci√≥n a un grupo de rastreadores en particular. Los m√°s utilizados son los siguientes:

  • Googlebot. Las ara√Īas rastreadoras de Google han sido definidas por el famoso buscador como el ¬ęnombre gen√©rico de los dos tipos de rastreadores web de Google: uno que simula ser un usuario de computadoras de escritorio y otro que simula ser un usuario de dispositivos m√≥viles¬Ľ. Para las im√°genes, se emplea el googlebot-image.
  • Bingbot. Desarrollado en 2010, este robot de rastreo es actualmente utilizado por el motor de b√ļsqueda de Microsoft, Bing.
  • Slurp. Pese a su declive, Yahoo! no se ha quedado atr√°s en el uso de web crawlers y utiliza activamente el denominado Slurp con el doble objetivo de ¬ęrecopilar contenido de sitios asociados para su inclusi√≥n en sitios como Yahoo News, Yahoo Finance y Yahoo Sports, y acceder a p√°ginas de sitios de toda la Web para mejorar el contenido personalizado de Yahoo para nuestros usuarios¬Ľ, citando la informaci√≥n facilitada por Help Central del buscador.

  • etiqueta indexifembedded en robots.txt

    Respecto a los beneficios que resultan de la interdependencia entre las etiquetas del robots.txt y las estrategias SEO, pueden citarse los siguientes:

    Reducción del contenido duplicado

    El contenido publicado es uno de los grandes males de internet, razón por la que acarrea importantes penalizaciones de Google, que persigue esta y otras prácticas incompatibles con sus directrices de calidad. Sin embargo, la duplicación de páginas puede producirse de manera accidental por una mala configuración de las categorías y las etiquetas en el CMS. El uso de las directivas del robots.txt permite combatir este problema.

    Aprovechamiento del ‘crawl budget’

    El presupuesto de rastreo, o crawl budget, se define como el tiempo que los rastreadores del buscador dedican a revisar e indexar las páginas de un sitio web. Dado que este tiempo es limitado, optimizar el archivo robots.txt es una buena forma de agilizar la indexación de contenidos, son sobrecargar el ancho de banda del servidor web.

    Indexación restringida de ciertas páginas

    Directivas como ‘index’ o ‘noimageindex’ est√°n pensadas para indicar a los rastreadores del buscador qu√© p√°ginas pueden o no indexar en las SERPs. De este modo, se obtiene un mayor control sobre el contenido que acaba engrosando el ranking de los motores de b√ļsqueda ‚ÄĒpero como se explicar√° m√°s adelante, Google y otros buscadores pueden ignorar estas restricciones.

    Por otra parte, las etiquetas del robots.txt benefician al sitio web de muchas otras formas: evitando que el servidor web pueda sobrecargarse y provocar caídas; respetando la privacidad de determinadas páginas y secciones web; limitando la indexación de material audiovidual y de recursos web que interese ocular en las SERPs, etcétera.

    Anteriormente, se ha mencionado que directivas como ‘noindex’ permiten limitar la indexaci√≥n de p√°ginas en las SERPs del buscador, pero ¬Ņrealmente pueden excluirse contenidos utilizando las etiquetas del archivo robots.txt? Aunque buscadores como Google no suelen indexar p√°ginas bloqueadas en este archivo, no puede garantizarse que no suceda lo contrario, m√°s a√ļn si ha sido enlazado por terceros.

    Seg√ļn la informaci√≥n facilitada en la Central de B√ļsqueda de Google, ¬ęno utilices un archivo robots.txt como medio para ocultar tus p√°ginas web de los resultados de b√ļsqueda de Google. Si otras p√°ginas apuntan a tu p√°gina con texto descriptivo, Google a√ļn podr√≠a indexar la URL sin visitar la p√°gina¬Ľ. Entonces, ¬Ņc√≥mo evitar la indexaci√≥n de p√°ginas de manera eficaz? Agregando un encabezado ‘noindex’ en la respuesta del Protocolo de Transferencia de Hipertexto (HTTP). Cuando los rastreadores web revisen la p√°gina con este encabezado, bloquear√°n su indexaci√≥n hasta nuevo aviso.

    ¬ŅQu√© otras etiquetas se utilizan en el robots.txt y cu√°l es su funci√≥n?

    ‘Index’ y ‘noindex’

    Estas etiquetas se utilizan para indicar a las ara√Īas de rastreo que deben o no indexar un contenido determinado. En el caso de ‘index’, es la etiqueta predeterminada, por lo que las p√°ginas que no incluyan el atributo ‘noindex’ enviar√°n la directriz de indexar a los motores de b√ļsqueda.

    ‘Follow’ y ‘nofollow’

    Incluso si la p√°gina en cuesti√≥n no debe ser indexada, los rastreadores de Google, Bing, etc√©tera, seguir√°n los enlaces situados en la misma. Para restringir este seguimiento, se utiliza la etiqueta ‘nofollow’, mientras que la etiqueta ‘follow’ emite el mensaje opuesto. Una vez m√°s, en el contenido que no haya sido marcado con etiqueta ‘nofollow’, los rastreadores interpretar√°n que deben seguir todos los enlaces.

    ‘Noimageindex’

    Con esta etiqueta se ordena al buscador que no debe indexar ninguna de las im√°genes publicadas en la p√°gina. Otra soluci√≥n ser√≠a el empleo del atributo ‘disallow’ para el conjunto de rastreadores de Google Im√°genes (Googlebot-Image) y sus hom√≥logos de Bing, Yandex, DuckDuckGo, etc√©tera.

    ‘None’

    Esta etiqueta permite economizar en el uso de dos ya mencionadas, ‘noindex’ y ‘nofollow’. Es decir, indicar√≠a a los rastreadores del buscador que no deben indexar ni seguir los enlaces de una p√°gina determinada.

    ‘All’

    Contrariamente a la anterior, esta etiqueta reitera a los googlebots la directiva de que no hay límites de indexación ni de publicación. Dado que los contenidos son percibidos por defecto de esta manera, es una etiqueta sin utilidad real.

    ‘Nosnippet’

    Mediante esta etiqueta se ordena a las ara√Īas de rastreo que no deben mostrar fragmentos de texto, ni vistas previas de v√≠deo en las SERPs del buscador. Existe un uso generalizado de los rich snippets, lo que se hace evidente en el crecimiento de las b√ļsquedas ‘zero clics’ en tiempos recientes.

    ‘Notranslate’

    Como indica su nombre, esta etiqueta previene que Google y otros motores de b√ļsqueda muestren extractos traducidos en las SERPs. En caso contrario ‚ÄĒque la etiqueta no sea incluida‚ÄĒ, el buscador se tomar√° la libertad de traducir el t√≠tulo y la descripci√≥n para aquellos usuarios que realicen b√ļsquedas en un idioma diferente.

    Otras etiquetas

    Resumidamente, otras etiquetas m√°s o menos habituales en el archivo robots.txt son (1) ‘noarchive’, que se√Īala a los rastreadores que no deben mostrar en las SERPs los enlaces en cach√© de una p√°gina determinada; (2) ‘nocache’, que cumple una funci√≥n similar a ‘noarchive’, con la salvedad de que s√≥lo se emplea en navegadores como Firefox e Internet Explorer, y (3) ‘unavailable_after’, una etiqueta desconocida por la mayor√≠a y que sirve para indicar a los googlebots que debe ignorar un contenido pasada una fecha espec√≠fica.

    Share the Post