AJ Kohn

¿Qué dice Hummingbird?

Dic 2, Posted by in SEO

Esta publicación es creación del autor y no necesariamente refleja el punto de vista de Altura Interactive. Puede tener ciertos cambios en la traducción para hacerlo más alcanzable al mercado hispano.

0 Flares Twitter 0 Facebook 0 Google+ 0 LinkedIn 0 Pin It Share 0 Filament.io 0 Flares ×

What-Does-The-Fox-Say

Dog goes woof

Cat goes meow

Bird goes tweet

And mouse goes squeak

 

Cow goes moo

Frog goes croak

And the elephant goes toot

 

Ducks say quack

And fish go blub

And the seal goes ow ow ow ow ow

 

But theres one sound

That no one knows

What does the hummingbird say?

¿Qué dice Hummingbird?

En el último mes la industria de búsqueda ha estado tratando de descubrir la actualización de Hummingbird. ¿Qué es?, ¿cómo trabaja? ¿cómo deberías de reaccionar?

Ha habido un puñado de buenos posts sobre Hummingbird incluidos estos por Danny SullivanBill SlawskiGianluca FiorelliEric Enge (con Danny Sullivan), Ammon Johns y Aaron Bradley. Sugiero que leas todos estos cuando tengas oportunidad.

Comparto muchos de los puntos de vista expresados en estos posts pero con algunas variaciones y adiciones, lo cual es el génesis de este post.

Entidades, entidades, entidades

¿Ya estás harto de escuchar sobre entidades? Probablemente lo estés pero deberías acostumbrarte, porque llegaron para quedarse. Entidades son el corazón de Hummingbird si analizas los estatutos de Amit Singhal.

Ahora entendemos que las palabras en elcuadro de búsqueda son personas reales, lugares y cosas, y no sólo cuerdasmanejadas en una página web.

La versión corta, Google está empezando a comprender el significado de las palabras y no sólo las palabras en sí. En agosto del 2013 Google publicó algo específicamente sobre este tema en relación a un conjunto de herramientas de código abierto llamado word2vec, que es la abreviación de word to vector (de palabra a vector).

Word2vec utiliza representaciones distribuidas de texto para capturar similitudes entre conceptos. Por ejemplo, entiende que París y Francia se relacionan de la misma manera que Berlín y Alemania (capital y país), y no de la misma forma Madrid e Italia. Esta gráfica muestra lo bien que Google aprende el concepto de capitales y ciudades, solo leyendo muchos artículos sin ninguna supervisión humana:

word2vec-example

¿Es bastante cool no lo crees? Y se va tornando aún mejor cuando piensas acerca de cómo estas palabras son lugares que tienen una enorme cantidad de metadatos que les rodea.

Teoría del modelaje

Es mi creencia que el lugar donde Hummingbird ha tenido el mayor impacto es en la forma del modelado de los sitios y documentos. Ya sabemos que Google está analizando agresivamente documentos y extrayendo entidades.

Cuando escribes en una consulta de búsqueda – Platón — ¿estás interesado en la cadena de caracteres que has escrito? o ¿en el concepto de la entidad representada por esta cadena? Pero sabiendo que la cadena representa algo real y significativo sólo te lleva a la lingüística computacional o a la recuperación de la información, lo que realmente necesitas saber es a que se refiere esa cadena. El Knowledge Graph y Freebase son bases de datos de cosas no de cadenas y las referencias a ellos te  permiten operar en el ámbito de los conceptos y las entidades en lugar de sólo cadenas strings.

Leyendo esto pienso en que se vuelve más claro una vez que esas entidades son extraídas Google entonces está realizando una búsqueda en entidades de bases de datos y aprende acerca de lo que significa esta entidad.

Google parece estar muy enfocado en eso si nos fijamos en la página principal de Freebase.

freebase-topics

Temar Yehoshua, VP de Search, también hablo sobre esto durante el evento de los 15 años de Google.

Así que el Knowledge Graph es grandioso ya que permite explorar temas y un conjunto de temas.

Uno de los ejemplos que usó fue la búsqueda de artistas de impresionismo. Google devolvió una lista de artistas y permitió que se navegara en diferentes géneros como cubistas. Está claro que Google está relacionando entidades específicas, artistas, en este caso, a un concepto o un tema como los artistas impresionistas, y además hasta un tema principal sobre arte.

¿Crees que el tener esas entidades en una página puede luego ayudar a Google a entender mejor de lo que  trata el tema del sitio? Pues será mejor que lo creas.

Sobre la base de datos del cliente creo que la actualización Phantom de mayo del 2013 fue la primera aplicación de un modelado de tema combinado (también conocido como Hummingbird, en español “Colobrí”). Dos meses después se devolvió y regreso con algunos ajustes.

Hummingbird refinó el modelado de temas de los sitios y las páginas que son esenciales para la obtención de resultados relevantes.

Cuerdas y cosas

toyota-prius-plug-in

Esto no quiere decir que el análisis basado en texto se ha ido del camino. En primer lugar, Google todavía tiene texto para identificar entidades. Cualquiera que piensa las palabras clave (o también podemos llamarlos sujetos) en el texto no son significativas está equivocado.

En casi todos los casos  no tienes tantos datos etiquetados como realmente te gustaría.

Esta es una cita de una gran entrevista con Jeff Dean y mientras estoy tomando el significado de los datos etiquetados fuera de contexto creo que tiene sentido. Escribir correctamente (usando sustantivos y temas) ayudará a Google a asignar etiquetas a los documentos. En otras palabras, haz más difícil que Google sepa lo que estás hablando.

Google todavía puede inferir mucho acerca de lo que la página se trata y devolverlo para las consultas apropiadas con el procesamiento de lenguaje natural y técnica de aprendizaje automático. Pero ahora que han sido capaces de extraer entidades, entender los temas a los que se refieren y después da una retroalimentación en un modelo de tema. Así que en cierto modo creo que Hummingbird permite un tipo de recursivo de esfuerzo para el modelado del tema.

Si utilizamos la metáfora del motor favorecido por Amit y Danny, Hummingbird es un motor hibrido en lugar de un único motor de combustión o eléctrico.

De Cafeína a Hummingbird

socket-sideways

 

Una de las partes para rascarse la cabeza fue el anuncio sobre la comparación de Humminbird a Cafeína. Este último fue un gran cambio en la forma en que Google rastreó e indexó datos. En gran parte, Cafeína fue sobre la implementación de Percolador (procesamiento incremental), Dremel (análisis de consulta ad-hoc) y Pregel (análisis gráfico). Se trataba de la infraestructura.

Así que deberíamos estar pensando acerca de Hummingbird de la misma manera. Si creemos que Google ahora quiere utilizar el texto y las señales de la entidad con base para determinar la calidad y la relevancia necesitarían una manera de conectar ambas fuentes de datos en el algoritmo.

Imagine un coche hibrido que no tiene manera de cagar batería. Es posible obtener un valor inicial de ese motor híbrido, pero sería limitado. Porque una vez sin energía tendrías que sacar la batería y reemplazarla por una nueva. Eso es un asco.

En cambio, lo que necesita es una manera de recargar la batería de manera continua así el motor hibrido se mantiene trabajando. Así que puedes pensar en Hummingbird como el camino para ofrecer nuevas fuentes de datos (gasolina) al motor de búsqueda.

Ahora la nueva fuente de datos son las entidades, como Danny Sullivan señala, también podría ser usado para llevar los datos al motor. Todavía no creo que eso esté pasando en este momento, pero la infraestructura puede estar ahora para hacerlo.

Los algoritmos no están cambiando realmente, pero la cantidad de datos que Google puede procesar ahora permite tener un proceso con mayor precisión y conocimiento.

 Aprendiendo profundamente

mr-fusion-back-to-the-future

De lo que realmente estamos hablando es de un campo que se refiere a un aprendizaje tan profundo, que se puede considerar como una máquina de aprendizaje en los esteroides.

Esta es una realidad muy fascinante (y a menudo densa) área que examina los datos etiquetados y no etiquetados y el uso de modelos de aprendizaje supervisados y no supervisados. Estos conceptos están algo relacionados y voy a tratar de explicarlos rápidamente, aunque puedo destrozar las definiciones precisas.

La gran mayoría de los datos no están etiquetados, que es una forma elegante de decir que no ha sido clasificada o que no tiene ningún texto. Los datos etiquetados tienen un tipo de clasificación  o identificación desde el principio.

Los datos sin etiqueta podrían ser fotografías de una bañera antigua, mientras que los datos con etiquetas podrían ser la misma bañera pero con los datos de “Navidad 1982”, “Cumpleaños 1983”,´Joe y Kelly´, etc., garabateado en fieltro negro en la parte posterior de cada uno. (Aquí hay otra buena respuesta de la diferencia entre los datos con etiqueta y los datos sin etiqueta.

¿Por qué es esto importante? Volvamos a Jeff Dean (que es una figura muy importante en mi opinión) para decirnos.

 Uno siempre va a tener 100x, tanto 1000x datos no etiquetados, por lo que ser capaz de usarlos es realmente lo importante.

La diferencia entre el aprendizaje supervisado y aprendizaje no supervisado es similar. Aprendizaje supervisado significa que el modelo está tratando de encajar las cosas en una clasificación pre-concebida. Mira estas fotos y dime cuáles de ellos son gatos. Tú ya sabes lo que quieres que se encuentre. El aprendizaje no supervisado por otro lado permite que el modelo encuentre sus propias clasificaciones.

Si tengo que hacerlo bien, el aprendizaje supervisado tiene un entrenamiento de un conjunto de datos etiquetados en que un aprendizaje no tiene este conjunto de datos en el entrenamiento inicial. Todo está envuelto en la fascinante idea de las redes neuronales.

Los diferentes modelos de aprendizaje a través de las redes neuronales, y sus variaciones y refinamientos, son innumerables. Por otra parte, los investigadores no siempre tienen claro por qué ciertas técnicas funcionan mejor que otras. Aún así, los modelos comparten al menos una cosa: mientras más datos estén disponibles para el entrenamiento, mejores serán los métodos de trabajo.

Aquí el énfasis es mío porque creo que es muy relevante. Cafeína y Hummingbird permiten a Google que ambos utilicen más datos y procesar esos datos rápidamente. ¿Quizás Hummingbird es capaz de desplegar capas adicionales de aprendizaje no supervisado a través de un corpus enorme de documentos?

Y esa referencia de los gatos no es sólo porque me gusten los gatos LOL. Un equipo de Google (incluyendo a Jeff Dean) fue capaz de utilizar el aprendizaje sin etiquetas, sin supervisión para identificar gatos (entre otras cosas) en miniaturas de YouTube (PDF).

Entonces, ¿qué significa todo lo que tiene que ver con Hummingbird? Bastante si estoy conectando los puntos de manera correcta. Una vez más me referiré de nuevo a la entrevista de Jeff Dean (que me parece conseguir algo nuevo cada vez que lo leo).

También estamos colaborando con diferentes grupos dentro de Google para ver cómo podemos resolver sus problemas, tanto en el corto y mediano plazo y luego también a pensar en dónde queremos estar dentro de cuatro años, o cinco años. Es bueno tener a corto y mediano plazo que podemos aplicar y ver un cambio real en nuestros productos, perotambién tienen a largo plazo, las metas de 5 a 10 años que estamos trabajando.

¿Recuerda que al final de Volver al Futuro, cuando el Doc aparece e implora Marty ir al futuro con él? El condensador de flujo solía utilizar plutonio para alcanzar la masa crítica, pero esta vez lo que necesita son unas cáscaras de plátano y los restosde algunos Miller Beer en el reactor Sr. Fusión.

Así que no sólo Hummingbird es un motor híbrido sino que está conectado a algo que puede girar relativamente poco por completo.

Computación Cuántica

Así que vamos a llevar esto un poco más lejos y mirar el interés de Google en la computación cuántica. De vuelta en 2009 Hartmut Neven estaba hablando de la utilización de algoritmos cuánticos en el aprendizaje automático.

En los últimos tres años, un equipo de Google ha estudiado cómo los problemas tales como el reconocimiento de un objeto en una imagen o aprender a tomar una decisión óptima en base a datos pueden ser susceptibles de una solución mediante algoritmos cuánticos. Los algoritmos que empleamos son los algoritmos cuánticos adiabáticos descubiertos por Edward Farhi y colaboradores en el MIT. Estos algoritmos se comprometen a buscar soluciones de mayor calidad para problemas de optimización que se pueden obtener con solucionadores clásicos.

Esto parece haber dado resultados positivos, ya en mayo del 2013 Google subió la apuesta y se asoció con una computadora cuántica perteneciente a la NASA. Como parte de ese anuncio tenemos una idea que Google utiliza algoritmos cuánticos.

Ya hemos desarrollado algunos algoritmos de aprendizaje de máquina cuántica. Uno produce, reconocedores eficientes muy compactas, muy útil cuando tienes poco poder, como en un dispositivo móvil. Otra puede manejar datos de entrenamiento altamente contaminados, donde un alto porcentaje de los ejemplos están mal etiquetados, ya que a menudo se encuentran en el mundo real. Y hemos aprendido algunos principios útiles: por ejemplo, a obtener los mejores resultados, no con la computación cuántica pura, pero mezclando cuántica y la computación clásica.

¿Un set altamente contaminado de los datos de entrenamiento donde se etiquetan incorrectamente muchos ejemplos? Hace que te preguntes lo que podría ser ¿no? ¿Enlace de análisis gráfico, tal vez?

¿Son los algoritmos cuánticos parte de Hummingbird? No puedo estar seguro. Pero creo que Hummingbird sienta las bases para este tipo de saltos en la optimización.

¿Qué pasa con la búsqueda conversacional?

hello-yes-this-is-dog

También podemos hablar mucho de la búsqueda conversacional. Creo que se está fusionando Hummingbird con las ganancias en búsqueda conversacional. Eso sí, la base de la voz y la búsqueda de conversación sigue siendo el aprendizaje automático. Pero el enfoque de Google en la búsqueda de conversación es en gran medida un guiño al futuro.

Creemos que la voz será fundamental para la construcción de futuras interacciones con los nuevos dispositivos que estamos viendo.

Y la primera zona en donde se han hecho avances es en la capacidad de resolver los pronombres en las cadenas de consulta.

Google entiende mi contexto. Entendió de lo que estaba hablando. Del mismo modo como si yo estuviera teniendo una conversación contigo y hablando de la Torre Eiffel, que no tendría que  estarlo repitiendo una y otra vez.

¿Esto significa que Google puede resolver los pronombres en los documentos? Están mejorando en eso (hay un enorme cuerpo de investigación en realidad), pero dudo que sea al nivel que vemos en esta distinta búsqueda de microcosmos.

La búsqueda conversacional tiene una sintaxis diferente y exige un modelo de lenguaje ligeramente diferente a mejores resultados de retorno. Así que las apuestas de que la búsqueda conversacional será el método dominante de las búsquedas se está adaptando en caso necesario.

¿Qué hace Hummingbird?

whats-that-mean1

 

Este parece ser el verdadero dilema cuando la gente mira Hummingbird. Si afecta a 90% de las búsquedas en todo el mundo ¿por qué no notamos el cambio?

Hummingbird hace que los resultados sean aún más relevantes y útiles, especialmente cuando se efectúanpreguntas largas y complejas.

Eso es lo que dice Amit de Hummingbird y creo  que esto tiene sentido y puede asignar de nuevo a la idea de sinónimos (que sigue siendo bastante potente). Pero ahora, en vez de mirar una consulta larga y mirando sinónimos de palabras Google también podría estar aplicando sinónimos de entidad.

Comprender el significado de la consulta podría ser más importante que las palabras específicas utilizadas en la consulta. Me recuerda un poco de Aardvark que fue comprada por Google en febrero de 2010.

Aardvark analiza preguntas para determinar de qué se tratan y luego coincide con cada pregunta para las personas con conocimientos e intereses relevantes para darle una respuesta rápida.

Recuerdo estar usando el servicio y ver como las preguntas desordenadas iban siendo interpretadas y luego entregaba una pregunta “fregada” para potencializar la respuesta a los candidatos. Había una buena cantidad de tecnología en el trabajo en el fondo y me siento como que estoy viendo que se magnifica con Hummingbird.

Y resuena con lo que Jeff Dean tiene que decir sobre el análisis de las sentencias.

Creo que vamos a tener una mejor comprensión del texto también. Puedes ver el más mínimo atisbo en los vectores de la palabra, y nos gustaría llegar a donde tenemos mayor nivel de comprensión que sólo palabras. Si pudiéramos llegar al punto en que entendemos las oraciones sería algo muy poderoso. Así que si dos frases significan lo mismo pero se escriben de forma muy diferente y son capaces de decir eso, entonces sería totalmente potente. Porque entonces tendrías la suerte de entender el texto a un nivel, porque se puede parafrasear.

Mi opinión es que el 90% de las búsquedas se vieron afectados porque los documentos que aparecen en los resultados volvieron a ser marcados o refinados a través de la adición de datos de la entidad y la aplicación de la máquina de aprendizaje a través de un conjunto de datos más grande.

No es que esos resultados hayan cambiado, pero tienen el potencial de cambiar sobre la base de la nueva infraestructura en el lugar.

Responde a Hummingbird

cat-and-lobster-by-picasso

 

¿Cómo debes responder a Hummingbird? Honestamente, no hay mucho que hacer, si has estado practicando un cierto tipo de SEO.

A pesar de los consejos de simplemente escribir como si nada, deberías asegurarte de que estás escribiendo estrictamente y que estás utilizando los sujetos que pueden ser identificados por las personas y los motores de búsqueda. “Es una cosa hermosa”, no va a hacer así como “La langosta y el gato de Picasso que es una hermosa pintura”.

Vas a querer asegurarte de que tu contenido sea fácil de leer y recordar, vincularlo a fuentes respetadas, construir autoridad al demostrar tu experiencia en la materia, participar en el tipo de proyección social que produce verdaderos fans y llevar a cabo la construcción y comercialización de la marca más tradicional y construir esfuerzos.

Hummingbird es un cambio de infraestructura que permite a Google aprovechar las fuentes de datos, como las entidades, así como aprovechar los nuevos modelos de aprendizaje en formas profundas que aumentan la precisión de los algoritmos actuales. La primera aplicación de Hummingbird fue el refinamiento del documento del modelado de temas de Google, que es vital para la entrega de resultados de búsqueda relevantes.

0 Flares Twitter 0 Facebook 0 Google+ 0 LinkedIn 0 Pin It Share 0 Filament.io 0 Flares ×

About AJ Kohn
AJ Kohn es especialista en marketing de búsqueda, posee una exitosa trayectoria en marketing ejecutivo y tiene gran pasión en el desarrollo de estrategias de productos. Es fundador de la firma Blind Five Year Old y colabora con Marketing Land. Sigue el trabajo de AJ Kohn a través de sus redes sociales Twitter, LinkedIn, Google+ y en su sitio web.

0 Flares Twitter 0 Facebook 0 Google+ 0 LinkedIn 0 Pin It Share 0 Filament.io 0 Flares ×
Contáctanos
contact