Lo que debes saber sobre el rastreo y la indexación de Google
podcast
|
Si te interesa posicionar tu web es importante que sepas cómo trabajan los motores de búsqueda. En Posicionamiento Web Salamanca te explicamos lo que debes saber sobre el rastreo y la indexación de Google. Es relevante para tu sitio y para ayudarte a optimizarlo. Sigue leyendo para saber más.
Tabla de contenidos
¿Cómo funcionan los motores de búsqueda?
Si quieres optimizar tu web para posicionarte debes entender el funcionamiento de los motores de búsqueda. Los utilizamos todos los días, pero no conocemos bien sus procesos.
Básicamente, estos revisan millones de sitios web para dar las respuestas a las búsquedas de las personas. Deciden cómo organizar esa información y cómo presentarla a los usuarios a partir de sus algoritmos.
Primero usan rastreadores web para rastrear las páginas y obtener los datos. Después indexan las páginas que en el futuro aparecerán como resultados en las búsquedas. Y, por último, las posicionan en el índice basados en una serie de factores. Estos factores son parte del algoritmo para determinar qué resultados son relevantes y de calidad.
Todo esto hace que tome tiempo posicionar páginas nuevas. Pero es un trabajo que hace el buscador para ofrecer solo los mejores resultados.
Lo que debes saber sobre el rastreo y la indexación de Google
Los tres pasos básicos de Google para mostrar webs en sus resultados:
- Rastreo: es cuando los rastreadores webs o robots de Google acceden a las webs disponibles públicamente.
- Indexación: en esta parte del proceso Google analiza el contenido de cada página y almacena la información.
- Posicionamiento: cuando un usuario escribe en Google una búsqueda, Google le presenta las mejores respuestas de su índice.
El rastreo es el principio de todo el proceso. Según Google, sus rastreadores usan los enlaces para descubrir páginas, por eso la estructura interna de links es muy importante. Los robots les dan prioridad a los sitios nuevos, a los cambios en los existentes y a los enlaces muertos.
Todo esto es un proceso automatizado. Aunque puede verse afectado por el hosting; si está caído mucho tiempo, por ejemplo, no podrán rastrear tu web.
¿Qué es crawl Budget o presupuesto de rastreo?
Al hablar de crawl Budget nos referimos a una métrica, es el número de páginas que Google asigna a sus robots para rastrear en cierto tiempo. Una vez que se acaba este período los robots dejarán tu sitio y se irán a otro. La idea es hacerlo sin sobrecargar los servidores.
El crawl Budget lo establece Google para cada sitio automáticamente, y es diferente para cada uno. Como en todo lo que hace el buscador, son distintos los factores que toma en cuenta para determinar esto. Entre ellos el tamaño del sitio, el servidor, actualizaciones y los enlaces.
El presupuesto de rastreo puede aumentar o disminuir según el estado de rastreo, los límites que establezcas tu o los de Google.
La frecuencia del rastreo no es un indicador de la calidad o falta de esta de tu sitio. Que lo rastreen más seguido tampoco te ayudará a posicionarte mejor. Porque si los robots entran más a tu web, pero esta no tiene contenido de calidad igual no mejorarás tu posicionamiento web.
Recuerda que el rastreo no es una señal del ranking. Y que Google cada vez toma más en cuenta la experiencia de los usuarios, y, por tanto, la calidad del contenido que le presentas. La mayoría de los dueños de sitios web no debería preocuparse por esta métrica, y si tu web tiene menos de mil URLs probablemente el buscador no tendrá problemas al rastrearla.
En Google Search Console podrás configurar la frecuencia de rastreo en https://www.google.com/webmasters/tools/settings, no para aumentarla, sino para limitarla. Esto está disponible en las Herramientas e Informes antiguos.
Recomiendan que lo uses solo si parece que Google está sobrecargando tu sitio con solicitudes de rastreo.
Por otro lado, si quieres que Google rastree más rápido contenido nuevo puedes usar el Informe del estado de cobertura de la indexación o la Herramienta de inspección de URL de Search Console.
O también puedes enviar el mapa del sitio de nuevo. Así podrás pedirle a Google que vea varias URLs de tu sitio.
No todas las páginas de tu web se indexan
Esta afirmación la da John Mueller de Google, en el canal de YouTube Google Search Central, donde responden varias consultas de los usuarios.
En particular, una usuaria pregunta sobre que el 20 % de sus páginas no aparecen indexadas, son descubiertas, pero no rastreadas; consulta que si esto tiene que ver con su servidor o con la calidad de las páginas.
Mueller dio una respuesta clara, indica como la calidad del sitio es importante para que el bot de Google indexe más páginas de este:
“Probablemente un poco de ambos. Usualmente si hablamos de sitios pequeños, entonces no es siempre el caso de que estamos limitados por la capacidad de rastreo, que es el lado del crawl Budget.
Si hablamos de un sitio que tiene un millón de páginas, entonces si considerase ver el crawl Budget. Pero para los sitios pequeños las probabilidades (de que este los afecte) son menores”.
Mueller explicó cómo la calidad de un sitio afecta su rastreo e indexación, pero que no es algo que se relacione con una URL individual. Es decir, que si tienes cinco páginas que no están indexadas, no es que sean consideradas de mala calidad por Google.
Pero “en general, consideramos que esa web quizás es de menor calidad. Y, por tanto, no indexaremos todo el sitio. Porque si no tenemos una página indexada, no sabemos realmente si es de alta o baja calidad”.
La conclusión es que, si tienes una página pequeña y varias de sus páginas no se están indexando, quizás debas revisar la calidad del sitio y no pensar en que pueda ser por algo técnico. Porque explica que, en cuanto al aspecto técnico, al usar un CMS común es difícil que alguna página tenga problemas con rastreo o indexación.
20 % de tus páginas no se indexarán
Mueller sigue diciendo en el vídeo que es normal que “no indexemos toda una web”. Que sin importar el tamaño de tu web verás fluctuaciones en el índice, “nunca será el caso que indexemos 100 % de una web”.
También concluye que fluctúa cuánto de tu sitio se indexa.
La búsqueda site:url no muestra todas las páginas
En otro vídeo de John Mueller, esta vez en uno parte de la serie Ask Googlebot, alguien pregunta que todas sus URLs están indexadas y cuando va Google a buscarlas individualmente son muchas menos.
La búsqueda site:url le dice a Google que dé los resultados de un dominio específico. Por ejemplo, si quieres ver solo páginas de una web, escribes en Google site:www.misitioweb.com.
Muchas personas las usan para encontrar contenidos en webs específicas si escriben antes una palabra clave.
Para Mueller este comando de búsqueda no se hizo con la intención de conseguir un diagnóstico de una web. Sino que sirve para limitar los resultados a cierta página. “No se hizo con la intención de ser una colección de todas las páginas disponibles de una web”.
Para saber cuántas páginas de tu sitio tiene indexadas Google lo mejor es ir a Google Search Console. En Índice -> Cobertura verás cuáles páginas están indexadas y si algunas tienen algún error que impida su indexación.
En resumen, lo que recomienda el experto de Google para saber si las páginas de tu web están indexadas es el informe de cobertura de Search Console, no la búsqueda site:url.
Indexación centrada en los móviles
Uno de los aspectos que ha cambiado en los últimos años es que Google le da prioridad al contenido móvil. Desde 2018 anunciaron que comenzarían a actualizar su índice y ahora tiene una indexación centrada en los móviles.
Este año debería estar funcionando al máximo la indexación que le da prioridad al Googlebot de móviles. Lo que implica que si quieres posicionarte tu web debe estar optimizada para estos dispositivos.
En la imagen anterior del informe de Search Console puedes ver como el rastreador principal o agente de usuario es Teléfono inteligente.
¿Cómo maximizar la eficiencia de rastreo?
Google recomienda algunas prácticas para que los rastreos de Googlebot sean más eficientes. Si tienes demasiadas URLs y a Google le toma mucho tiempo rastrearlas, puede ir determinando que no vale seguir rastreando tu web. En este caso lo que deberías hacer es:
- Evitar el contenido duplicado. Elimina URLs con contenido duplicado, así Google solo rastrea contenido único.
- Bloquea para el rastreo URLs que no quieres que se indexen. Probablemente en tu web necesitas páginas que, aunque son relevantes en su funcionamiento, no necesitan estar en el índice de Google. Pueden ser las páginas de agradecimiento después de una compra. Bloquéalas a través de robots.txt.
- No se recomienda el noindex para evitar el rastreo porque Google aún así hará la solicitud, solo que cuando vea la etiqueta la descartará. Es decir, igual invertirá tiempo.
- Un error 404 o 410 indicará a Google que no vuelva a rastrear esa URL. Pero si hay una página que da ese error y si la necesitas debes corregirlo.
- Actualiza regularmente el sitemap o mapa del sitio. Si actualizas algún contenido usa <lastmod>.
- Revisa la velocidad de carga de tus páginas.
- Revisa que tu web esté siendo rastreada, que no haya problemas con Googlebot.
Te explicamos lo que debes saber sobre el rastreo y la indexación de Google, es un tema amplio. Y en muchos casos necesitas la asesoría de expertos en SEO técnico para optimizar cómo el buscador ve tu web. Contáctanos si necesitas ayuda con este tema.