AJ Kohn

Optimización del Rastreo

Nov 25, Posted by in SEO

Esta publicación es creación del autor y no necesariamente refleja el punto de vista de Altura Interactive. Puede tener ciertos cambios en la traducción para hacerlo más alcanzable al mercado hispano.

0 Flares Twitter 0 Facebook 0 Google+ 0 LinkedIn 0 Pin It Share 0 Filament.io 0 Flares ×

La optimización del rastreo debería ser una prioridad para cualquier sitio para mejorar sus esfuerzos SEO. Monitoreando y enfocándonos en Googlebot puedes ganar ventaja en contra de tus competidores.

Presupuesto de Rastreo

ceiling-cat

 

Es importante cubrir lo básico antes de empezar a discutir sobre la optimización de rastreo. El presupuesto del rastreo es el tiempo o el número de páginas en que Google asigna para rastrear un sitio. ¿Cómo genera Google tu presupuesto de rastreo? La mejor manera de explicarlo viene de Eric Enge entrevistado por Matt Cutts.

La mejor manera de pensar es que el número de páginas que nosotros rastreamos es aproximadamente proporcional a tu Page Rank. Así que si tienes varios links dirigidos hacia tu página raíz, nosotros definitivamente rastrearemos eso. Después tu página raíz puede tener links hacia otras páginas, esas tendrán Page Rank y a estas también las rastrearemos. A medida de que tu sitio se vaya haciendo cada vez más y más abajo, el PageRank tiende a disminuir.

Otra manera de pensarlo es que las páginas con Page Rank más bajo están compitiendo con un gran número de páginas del mismo o mayor Page Rank. Hay un gran número de páginas en la web con Page Rank muy bajo o cerca del cero. Las páginas que están vinculadas a otras páginas suelen ser descubiertas y rastreadas rápidamente. Las páginas con un Page Rank inferior son susceptibles a no ser rastreadas tan seguido.

En pocas palabras el presupuesto de rastreo se determinar por la autoridad. Esto no parece ser tan impresionante. Esto sólo fue una pre-Cafeína. ¿Ha cambiado algo desde entonces?

Cafeína

Percolator

 

¿Qué es la Cafeína? En este caso no es el estimulante en tu café con leche. Pero al final si es un tipo de estimulante. En Junio del 2010, Google reconstruyó la forma de indexar contenido. Ellos llamaron a este cambio “Cafeína” y tuvo un profundo impacto en la velocidad en la que Google podría rastrear e indexar páginas. El cambio más importante, en mi opinión, fue la indexación gradual.

Nuestro viejo index tenía varias capas, de las cuales algunas se actualizaban más rápido que las demás, la capa principal se actualizaba cada dos semanas. Para actualizar una capa del antiguo índice, tendríamos que analizar toda la web, lo que significaba que había un retraso significativo entre el momento en que encontramos una página y la teníamos a su disposición.

Con Cafeína analizamos la web en porciones pequeñas y actualizamos nuestro índice de búsqueda en una base continua, a nivel mundial. En cuanto encontremos nuevas páginas o nueva información en las páginas existentes, podemos añadirlas directamente al índice. Eso significa que puedes encontrar la información más fresca que nunca, no importa cuándo o dónde se publicó.

Esencialmente, Cafeína elimina el cuello de botella para obtener páginas indexadas. El sistema se construyó para hacer esto también llamado “Percolador”.

Hemos construido un Percolador, un sistema de procesamiento incremental de cambios a un conjunto de datos grande, y desplegado para crear el índice de búsqueda de Google web. Mediante la sustitución de un sistema de indexación basada en lotes con un sistema de indexación basada en el procesamiento incremental usando Percolador, se procesa el mismo número de documentos por día, mientras que se reduce la edad aproximada de los documentos en los resultados de Google a un 50%.

La velocidad en la que Google puede rastrear ahora es igual a la velocidad de indexación. ¿Entonces el rastreo se incrementa como un resultado? Algunos lo hicieron, pero no tanto como se podría sospechar. Y aquí es donde se pone interesante.

Googlebot parece dispuesto a rastrear más páginas posteriores a Cafeína, pero a menudo rastrea las mismas páginas (las páginas importantes) con mayor frecuencia.

Google está buscando asegurar que las páginas más importantes sigan siendo lo “más fresco” en el índice.

Tiempo del último rastreo

googlebot-calendar1

 

Lo que he observado en los últimos años es que las páginas que no se han rastreado recientemente se les da menos autoridad en el índice. Para ser más contundente, si una página no se ha rastreado recientemente, no va a rankear bien.

El año pasado recibí una llamada de un cliente que tenía una tendencia de que iba a la baja en su tráfico. Utilizando segmentos avanzados era fácil de ver que había algo malo con su tráfico de la página del producto.

Mirando en su sitio me encontré sin saberlo, que habían implementado paginación en las páginas de categorías de resultados. En lugar de que todos los productos estén en una sola página, los productos fueron extendidos a lo largo de varias páginas.

Los productos que se encontraban en la primera página de resultados parecían estar bien, pero los demás de las páginas subsiguientes no estaban así. Empecé a buscar en la fecha del caché en las páginas de productos y encontré que aquellos productos  que no se habían rastreado (usé la fecha del caché como sustituto de la fecha de rastreo) en los últimos 7 días les estaba pasando esto.

¡Deshacer!, ¡deshacer!, ¡deshacer!

Sin paginación

Así es, les dije que volviéramos a los resultados de los productos sin paginación. ¿Qué sucedió?

paginate-to-depaginate

 

Adivinaste. El tráfico regresó.

Desde entonces he tenido éxito sin la paginación. El truco aquí es pensar en los términos de un acrecentamiento progresivo y las experiencias de los usuarios móviles.

El auge de los smartphones y tabletas han hecho que el clic en la paginación tenga un poco de anacronismo. Revelando más resultados por desplazamiento es una convención establecida y bien podría convertirse en algo dominante en el futuro próximo.

¿Se pueden cargar todos los resultados en un segundo plano y revelar sólo cuando los usuarios se desplazan a ellos sin perjudicar el tiempo de carga?

No siempre es fácil ya que hay ventajas y desventajas, pero es digno de tener una discusión con tu equipo de trabajo.

Porque no hay otra mejor forma para que estas páginas sean rastreadas por tener vínculos a todos ellos en la primera página de resultados.

CrawlRank

¿Fue algo loco pensar que el tiempo del último rastreo podría ser un factor en los rankings? Resulta que no estaba solo en esto. Adam Audette (un tipo inteligente) mencionó que había visto algo como esto cuando me encontré con él en SMX West. Luego, en SMX Advanced terminé hablando con Mitul Gandhi, que había estado siguiendo esto con más detalle en seoClarity.

seoClarity-days-since-last-

 

Mitul y su equipo fueron capaces de determinar que el contenido no se rastreó en un lapso de 14 días y  recibió materialmente menos tráfico.

En un primer momento Google rastrea usando el PageRank como un proxy. Pero con el tiempo se siente como que está asignando un CrawlRank que es una auto-referencia de las páginas. En esencia si una página no ha sido rastreada dentro de un cierto periodo de tiempo, entonces recibe menos autoridad. Vamos a revisar la descripción del presupuesto de rastreo de Matt de nuevo.

Otra forma de verlo es pensar que las páginas de PageRank de su sitio están compitiendo contra un grupo mayor de páginas con la misma o mayor PageRank. Hay un gran número de páginas web que tienen muy poco o casi cero de Page Rank.

Esas páginas que no son rastreadas a menudo son aquellas con poco PageRank y cero PageRank. Crawlrank es la diferencia en este gran número de páginas.

Tú ganas si haces que las páginas con bajo PageRank sean rastreadas más frecuentemente que la competencia.

Ahora lo que CrawlRank está realmente diciendo es que la edad del documento es un factor de clasificación de material para páginas con poco o nada de PageRank. Aún no estoy del todo convencido de que esto es lo que está pasando, pero estoy viendo que hay éxito con esta filosofía.

Links Internos

Uno podría argumentar que lo que realmente estamos hablando es de la estructura de enlaces internos y densidad. Y estoy de acuerdo contigo.

No sólo la estructura de tus links internos deben soportar las páginas más importantes de tu sitio, debería ser fácil para Google obtener cualquier página de tu sitio en un mínimo número de clics.

Una de las maneras más fáciles de determinar que páginas son demandadas como más importantes (basado en la estructura de links internos) es buscando en el reporte de links internos de Websmaster Tools de Google.

google-internal-links-report

¿Las páginas que se encuentran en la parte superior reflejan las páginas más importantes en tu sitio? Si no es así entonces tienes un problema.

Tengo un cliente que estaba recibiendo 35% de rastreo de Google cada día. (Les daré más información sobre esto más adelante.) Se trata con un blog con 400 posts en medio de un cuerpo de contenido de 2 millones de URLs. Googlebot podría rastrear el contenido del blog 50,000 veces al día. Y aquí no era donde queríamos que Googlebot pasara el tiempo.

¿Cuál era el problema? Tenían enlaces del menú en el blog y cada categoría de blog en casi todas las páginas del sitio. Cuándo fui a checar el reporte de links internos de Google Webmaster Tools ¿sabes qué páginas estaban en el nivel superior? Sí. El blog y las categorías del blog.

Por lo tanto, nos hemos librado de esos enlaces. No sólo cambia la densidad del enlace interno pero cambia la frecuencia con la que Googlebot rastrea el blog. Esa es la optimización de rastreo en acción.

Arquitectura Plana

flat-world

 

Recuerda los consejos para crear una arquitectura de sitio plano. Muchos comenzaron a crear subcarpetas pensando que si la URL no tenía subcarpetas la arquitectura del sitio sería plana. Y no es así.

Estas personas destruyeron la capacidad fácil de análisis, potencialmente eliminando datos valiosos en la evaluación del sitio, y no hizo nada para abordar la cuestión de fondo de conseguir que Google rastré las páginas más rápido.

¿Cuántos clics de la página del home das para llegar a cada pieza de contenido? Eso era y sigue siendo importante. No importa si la URL es domain.com/nombre-del-producto si a Googlebot y a los usuarios les lleva 8 clics llegar ahí.

¿Es ese mega menú en cada página realmente haciéndonos un favor? Una vez que llegue alguien a una página de ese nivel quieres que vean las páginas similares que están en el mismo nivel. Productos relacionados o enlaces de contenido son el alma de cualquier estructura de enlaces internos y son, por desgracia, los que se pasan por alto con frecuencia.

Despaginación es una forma de mantener plana tu arquitectura, pero un simple mapa en HTML, o especificar A-Z los mapas del sitio de manera frecuente puede ser algo muy efectivo y eficaz.

La arquitectura plana acorta la distancia entre las páginas autorizadas y el resto de las páginas, lo que aumenta las posibilidades de que las páginas de bajo PageRank sean rastreadas de forma frecuente.

Rastreo de Googlebot

  “Un millón de dólares no es cool. ¿Sabes que es cool? Un billón de dólares.”

Bueno, Sean Parker probablemente no lo dijo en la vida real, pero es una buena analogía para la diferencia en saber cuántas páginas rastrea Googlebot, con qué frecuencia y cuáles son los resultados.

El gráfico de las estadísticas de rastreo en Google Webmaster Tools sólo muestra cuántas páginas rastreó por día.

google-webmaster-tools-crawl-stats-not-cool

Por cerca de 5 años he trabajado con clientes para construir sus propios reportes de rastreo de Googlebot.

googlebot-crawl-report-cool

 

Eso es cool.

Y no siempre se tiene que ver lindo para verse cool.

googlebot-crawl-report-by-page-status

 

Aquí puedo decir que hay un problema con este tipo de página en específico. Más del 50% del rastreo en ese tipo de páginas si la producción es de un 410. Esto probablemente no es un buen uso del presupuesto de rastreo.

Todo esto se hace mediante el análisis de los archivos log o grepping (donde te muestra el historial de las visitas al sitio) que busca Googlebot. Aquí está un secreto. No es tan difícil principalmente si estás familiarizado con la mitad de los términos usados regularmente.

No voy a entrar en detalles (Este post está suficientemente largo así), pero puedes revisar los mensajes de Ian Lurie y Craig Bradford para obtener más información sobre los archivos grep de registro.

Al final, estoy interesado en ver el rastreo por tipo de página y el código de respuesta.

googlebot-crawl-report-charts

 

Tú determinas el tipo de página usando RegEx. Suena misterioso, pero realmente lo que estamos haciendo es recopilando tipos de páginas basadas en los patrones de coincidencia.

Quiero saber dónde Googlebot está pasando el tiempo en mi sitio. Como Mike King dijo, Googlebot es siempre tu última persona. Así que rastrear a Googlebot es solo otro monitoreo de la experiencia de un usuario.

También puedes colocar los datos en una base de datos de rastreo para que puedas consultar cosas desde el último rastreo, el rastreo total contra el único rastreo o el rastreo por página. Por supuesto podrías también probar seoClarity que tiene muchas cosas de estas y solo basta con sacarlas de la caja.

Si no estás rastreando a Googlebot entonces te estás perdiendo la primera parte del proceso del SEO.

Tú eres lo que Googlebot come

cookie-monster-fruit

 

Lo que empiezas a entender es que estás evaluando en base a lo que Googlebot rastrea. Así que si están rastreando muchos de los parámetros basados ​​en URLs duplicadas o que han dejado el enlace de correo electrónico a un amigo abierto para ser rastreado en cada producto, estás dando a Googlebot muchísimas calorías vacías.

No es que Google te penalice, es el costo por la arquitectura sucia en base a un presupuesto de rastreo finito.

El rastreo gastado en comida chatarra se pudo haber gastado en páginas con bajo PageRank. Por lo tanto la gestión de tus parámetros de URL y el uso de robots.txt sabiamente puede hacer una gran diferencia.

Muchos sitios grandes también tendrán gráficas sólidas de enlaces externos. Puedo aprovechar esos links externos, en donde dependan menos de los links internos para rankear bien, y puedo centrar mi estructura de enlaces internos para asegurarme que las páginas de bajo PageRank están siendo rastreadas con frecuencia.

No hay una respuesta correcta o incorrecta de patentes. Cada sitio es diferente. Pero experimentar con las estrategias de enlaces internos y la medición de los resultados es lo que separa a los grandes de los otros.

Checklist de la optimización de rastreo

Aquí está un rápido checklist para empezar con la optimización del rastreo.

RASTREO Y MONITOREO DE GOOGLEBOT

No me importa como lo hagas, pero necesitas este tipo de visibilidad para hacer avances en la optimización de rastreo. La información es poder. Aprende grep, perfecciona tu expresión regular. Se un socio de colaboración con tu equipo técnico para convertir esto es un proceso diario de automatización.

MANEJAR LOS PARÁMETROS DE URL

Sí lo sé confuso. Probablemente cometerás algunos errores. Pero no deberías detenerte de usar esta función y cambiar la dieta de Googlebot.

USA ROBOTS.TXT SABIAMENTE

Para de alimentar a Googlebot con calorías vacías. Usa robots.txt para mantener a Googlebot enfocado y recuerda hacer uso de la coincidencia de patrones.

NO OLVIDES MAPAS DEL SITIO HTML

En serio. Conozco a usuarios humanos que no están usando esto, pero Googlebot es una tipo diferente de usuario con pocas necesidades.

OPTIMIZA TU ESTRUCTURA DE LINKS INTERNOS

Si intentas la despaginación para aplanar tu arquitectura, re evaluar los menús de navegación, o jugar con los módulos de reticulación, encuentra formas de optimizar tu estructura de enlaces internos para conseguir que las páginas de bajo PageRank sean rastreadas con mayor frecuencia.

About AJ Kohn
AJ Kohn es especialista en marketing de búsqueda, posee una exitosa trayectoria en marketing ejecutivo y tiene gran pasión en el desarrollo de estrategias de productos. Es fundador de la firma Blind Five Year Old y colabora con Marketing Land. Sigue el trabajo de AJ Kohn a través de sus redes sociales Twitter, LinkedIn, Google+ y en su sitio web.

Contáctanos
contact