¬ŅPor qu√© Google no indexa el 20% del contenido de p√°ginas web?

google no indexa mi web

¬ŅPor qu√© Google no indexa el 20% del contenido de p√°ginas web?

¬ę¬°Google no indexa mi web!¬Ľ. Probablemente esta sea una de las denuncias m√°s extendidas entre webmasters y especialistas en marketing digital. Se estima que alrededor del 20% de las p√°ginas de web no se indexan en el famoso buscador de Internet, una tasa insignificante para webs de peque√Īo tama√Īo, pero que en ecommerces y medios de comunicaci√≥n con miles de p√°ginas supone una ‘p√©rdida’ irreparable.

Antes de aparecer en los resultados de b√ļsqueda, las p√°ginas de una web deben agregarse al √≠ndice del buscador en cuesti√≥n, ya sea Bing, Yahoo! o Google. Este √≠ndice es, por utilizar una analog√≠a de Google, similar a una biblioteca que en lugar de libros y manuscritos, contiene p√°ginas web. No hay biblioteca que contenga todos los libros, del mismo modo que no hay buscador que incluya en su √≠ndice las casi 2 mil millones de webs (y sus respectivas p√°ginas internas) existentes en la esfera digital.

De vuelta a la cuesti√≥n inicial, ¬Ņes normal que un porcentaje tan elevado de p√°ginas sea ignorado por las ‘ara√Īas’ rastreadoras de Google? Para el analista John Mueller, ¬ęes completamente normal que no indexemos todo el sitio web. As√≠ que si miras cualquier p√°gina grande o incluso de tama√Īo mediano o peque√Īo, encontrar√°s fluctuaciones en la indexaci√≥n. Subir√° y bajar√°, y nunca se dar√° el caso de que indexemos el 100% de todo lo que hay en un sitio web. […] Con el tiempo, cuando llegas a unas 200 p√°ginas en tu sitio web y se indexan 180 de ellas, entonces ese porcentaje se reduce un poco. Pero nunca ocurrir√° que indexemos el 100% de todo lo que encontremos¬Ľ.

En una videoentrevista publicada en el canal Google Search Central, Mueller ha profundizado en las causas detr√°s de una tasa de indexaci√≥n inusualmente baja: ¬Ņel problema reside en la calidad del sitio web o en una sobrecarga de sus servidores? ¬ęProbablemente un poco de ambas cosas¬Ľ, aclara el actual Webmaster Trends Analytics del buscador propiedad de Alphabet. ¬ęPor lo general, cuando hablamos de webs de peque√Īo tama√Īo, [su indexaci√≥n] no est√° limitada por la capacidad de rastreo [del buscador], que es el crawl budget asignado. Pero si estamos hablando de un sitio que tiene millones de p√°ginas, entonces es posible que el crawl budget tenga algo que ver. Pero los sitios m√°s peque√Īos probablemente no [tendr√°n esta limitaci√≥n]¬Ľ, contin√ļa Mueller.

La calidad y relevancia del contenido figuran entre los principales factores de posicionamiento en motores de b√ļsqueda y constituyen, en s√≠ mismos, una raz√≥n de peso para omitir la indexaci√≥n de las p√°ginas de una web. Mueller se ha mostrado cauto al respecto, ya que ¬ęsi tienes cinco p√°ginas que no est√°n indexadas en este momento, no es que esas cinco p√°ginas sean las que consideramos de baja calidad. Es s√≥lo que, en general, consideramos que esas p√°ginas pueden ser de menor calidad que el resto. Y por lo tanto, no vamos a indexarlo todo de este sitio web¬Ľ.

Por otra parte, los aspectos t√©cnicos no influyen tanto como pueda parecer, pues ¬ęen su mayor parte, los sitios de hoy en d√≠a son t√©cnicamente razonables. Si se utiliza un CMS com√ļn, es muy dif√≠cil hacer algo realmente malo. Y a menudo es m√°s una cuesti√≥n de calidad general¬Ľ, concluye el analista de Google. No obstante, la presencia de irregularidades en los archivos robot.txt y .htaccess puede interferir en la indexaci√≥n normal de los contenidos, como se desvelar√° en el siguiente punto.

5 problemas de indexación en Google que lastran tu SEO

Un r√°pido vistazo a redes y foros vinculados al marketing demuestra que los problemas de indexaci√≥n no son infrecuentes: ¬ęmi web no sale en el buscador de Google¬Ľ, ¬ęmi p√°gina web no aparece¬Ľ, ¬ębusco mi web en Google y no aparece¬Ľ, etc√©tera. Responsables directos de la dificultad para indexar ciertas p√°ginas en buscadores son los duplicados, las webs de baja calidad e incluso una mala configuraci√≥n de los archivos robot.txt o .htaccess, por citar una peque√Īa parte de los factores causantes.

Baja calidad de la p√°gina

valoración negativa brazo

Garantizar la calidad del contenido en sus resultados de b√ļsqueda es una de las prioridades de Google, cuyos rastreadores pueden ignorar las p√°ginas sin este requisito.

Panda, Colibr√≠, Bert y otros algoritmos de Google velan por la calidad del contenido indexado y ‘condenan’ al ostracismo los resultados que no cumplen con sus est√°ndares. Pero ¬Ņqu√© entiende por calidad el gigante de las b√ļsquedas de Internet? La creaci√≥n de contenido relevante y fidedigno, los enlaces provenientes de fuentes de autoridad, la relevancia de las keywords utilizadas o el enfoque hacia los usuarios (no hacia los robots de b√ļsqueda) ofrecen una idea aproximada del ideal de calidad del buscador de Alphabet.

Seg√ļn inform√≥ Gary Illyes, Standup Trends Analyst de Google Suiza, ¬ętodo el contenido [de Internet] debe pasar controles de calidad¬Ľ y si fracasa, ¬ęes posible que Google no lo indexe, incluso si intentas enviar manualmente la p√°gina a Google Developers para su indexaci√≥n¬Ľ. Por lo tanto, la calidad es un atributo b√°sico para que pueda aparecer una p√°gina web en Google.

‘Crawl budget’ agotado

spider web de google

Los googlebots tienen una ‘agenda’ muy apretada debido al limitado presupuesto de rastreo que Google les asigna con respecto a cada p√°gina web.

El presupuesto de rastreo, o crawl budget, se define como el tiempo asignado a cada p√°gina para su rastreo; por as√≠ decirlo, es el plazo que Google da a sus ¬°ara√Īas’ rastreadoras para analizar cada p√°gina web. Que el crawl budget se agote tempranamente es fuente de problemas de indexaci√≥n en Google, que adem√°s asigna este presupuesto de forma selectiva, no igualitaria. La autoridad, la calidad o la velocidad son cualidades que influyen en un mayor o menor crawl budget, y no hace falta decir que un presupuesto m√≠nimo supone un h√°ndicap para los desarrolladores.

(Los interesados encontrar√°n √ļtil este art√≠culo sobre el presupuesto de rastreo en webs de gran tama√Īo, publicado en el Centro de la B√ļsqueda de Google).

Contenido duplicado

contenido duplicado

Los duplicados constituyen un doble problema, pues además de perjudicar la experiencia de navegación, atraen molestas penalizaciones de Google.

La presencia de duplicados es otra de las razones por las que Google no indexa una web. Un exceso de este tipo de contenido engrosa el n√ļmero de p√°ginas que el famoso buscador desindexa de sus SERPs o resultados org√°nicos de b√ļsqueda. Entre los principales causantes de contenido duplicado, figuran la falta de una URL canonicalizada (‘www.ejemplo.com’ en lugar de ‘ejemplo.com’, o viceversa), las etiquetas y categor√≠as de contenido similar o la presencia de una versi√≥n m√≥vil separada del dominio principal (m.ejemplo.com). La refundici√≥n de p√°ginas de contenido similar, las redirecciones 301 o el uso de etiquetas Hreflang pueden ser una soluci√≥n factible.

Mala configuración en el archivo .htaccess o robot.txt

usuario navegando en google en movil

Cuando la URL enviada tiene un problema de rastreo o Google la rechaza sistemáticamente, la causa podría radicar en irregularidades técnicas, como la presencia de bloqueadores en el robot.txt. Este archivo de texto se instala en la raíz del sitio para regular la actividad de las decenas de bots de rastreo que operan para sus respectivos buscadores (Yandex, DuckDuckGo, Ask, AOL, Daum, Dogpile, etcétera, además de los principales).

Dado que su actividad consume un valioso ancho de banda del servidor y puede llegar a colapsarlo, parece l√≥gico limitar el rastreo a los bots de determinados buscadores. Sin embargo, si este archivo contiene el comando ‘disallow’ referido a Google como user agent, esta ser√° la raz√≥n por las que gran parte de nuestras p√°ginas no son indexadas. Cambiar el comando ‘disallow’ por ‘allow’ es la soluci√≥n.

Por otra parte, el archivo .htaccess o acceso de hipertexto puede incluir por defecto o haber sido alterado para bloquear el rastreo a los googlebots. Enmendar esta situaci√≥n es relativamente f√°cil, pues este documento, que permanece oculto y ha sido dise√Īado para agregar funciones extra a las webs alojadas en servidores Apache, puede modificarse accediendo a Cpanel.

Ausencia de sitemap.xml

sitemaps pagina web

Los archivos sitemap.xml orientan a las ‘ara√Īas’ rastreadoras de Google durante su labor indexadora.

Despu√©s del env√≠o manual de URLs a buscadores y de la optimizaci√≥n on page, la creaci√≥n de archivos sitemap.xml es el principal recurso para forzar la indexaci√≥n en Google de cualquier p√°gina publicada en un sitio web. Se los denomina tambi√©n como ¬ęmapas web¬Ľ y se elaboran con el lenguaje marcado extensible, motivo por el que su extensi√≥n es .XML.

Pese a su indiscutible utilidad, los archivos sitemap.xml est√°n ausentes en multitud de webs, que ven limitado su posicionamiento SEO al dejar el ‘trabajo sucio’ de la indexaci√≥n en manos de los googlebots. A menudo las ara√Īas rastreadoras necesitan un documento orientativo, un mapa para localizar las √ļltimas p√°ginas publicadas y conocer su orden de prioridad, y aqu√≠ es donde intervienen los archivos sitemap.xml.

Por √ļltimo, la correcci√≥n de estos errores no garantiza una indexaci√≥n inmediata de las p√°ginas afectadas, ni que el porcentaje de indexaci√≥n pueda alcanzar el 100%. Con todo, una recomendaci√≥n general para que Google ‘reconsidere’ la indexaci√≥n de contenidos rechazados es la herramienta ‘Inspecci√≥n de URLs’, disponible en el servicio Google Search Console.