Evolución semántica de Google: de Metaweb a Knowledge Graph, más web semántica

La semana pasada Google lanzaba Knowledge Graph (16 de mayo) con el objetivo de facilitar la labor de entendimiento de una consulta y presentación de información ajustada a la intencionalidad con la que la realizaba el usuario,  es decir, que en el proceso de búsqueda de información por parte de un usuario si éste utiliza el lenguaje natural, que el buscador tenga capacidad de interpretar estos términos y presentar los resultados de información acorde con su motivación de búsqueda.

Hasta ahora el comportamiento de los buscadores era presentar documentos acorde con la concordancia del término de búsqueda, pero la evolución natural por el que quieren pasar todos los buscadores, y en el caso de Google está tomando la delantera (Wolfram Alpha sigue con “vida” si bien la proyección que se le esperaba, no ha despegado como alternativa clara a los grandes buscadores), es presentar resultados en función de la motivación real del usuario.

¿Qué nos aporta Knowledge Graph?

  • Con Knowledge Graph se pretende buscar cosas, personas o lugares sobre las que Google tiene conocimientos y presentar información relevante sobre éstas en el proceso de búsqueda, este actividad se nutre de la inteligencia colectiva de la web acercándose al “mundo de las personas”.
  • Para poder presentar esta información y responder a la intencionalidad de la búsqueda, Google está haciendo uso de Freebase, Wikipedia, CIA World Factbook, así como un análisis constante de lo que busca la gente y su propio proceso de rastreo e identificación de lo que hay en la web.
  • Debido a la ambigüedad del lenguaje y cómo esto puede impactar en un proceso de búsqueda, Knowledge Graph trabaja para entender el contexto/el matiz de la búsqueda cuando un usuario introduce los términos de búsqueda.
  • El ejemplo que se pone es cuando un usuario realiza una búsqueda por Taj Mahal ¿está buscado información sobre el monumento o sobre el músico?, con Knowledg Graph parece que ahora se va a tener capacidad para responder a la intencionalidad del usuario. Por el momento, la presentación de estos resultados, está siendo trabajada dentro de Google.com y hay que estar logado – ejemplo término de búsqueda: “diesel” ¿marca, el músico australiano o material energético? – para ver los resultados en el lateral derecho.
Interpretación semántica de Google para el término de búsqueda "diesel"

Interpretación semántica de Google para el término “diesel”, ver lateral derecho

  • Knowledge Graph va a tener capacidad para entender lo que se está buscado, y por tanto, hacer un resumen de contenidos relevantes sobre el término de búsqueda. La pregunta que se plantea Google (en este caso Amit Singhal) es cómo ellos mismo saben cuales son los aspectos más relevantes de cada elemento, aquí Google vuelve “a tirar” del análisis de consumo de información que realizan los usuarios cuando hacen una búsqueda, para saber qué es relevante y qué no. Un ejemplo de  información agregada de personas con “menor recorrido” histórico – ejemplo: Rick Astley, quién no se acuerda de Never Gonna Give You Up ;) – permite obtener un volumen relevante de información en tiempo real.
comportamiento semántico de Google

Resumen en el lateral derecho de aspectos relevantes de Rick Astley

  • Esta vinculación entre los diferentes elementos de una entidad pueden ser presentados de forma resumida porque están relacionados entre ellos en el Knowledge Graph.
  • La vinculación de los elementos de una entidad permitirán identificar/descubrir aspectos que hasta ahora podían ser desconocidos.
  • Esta funcionalidad (Knowledge Graph) del buscador de momento está siendo implementada en la versión inglesa norteamericana, en smartphones y tablets.

Tienes más información sobre el funcionamiento de Knowledge Graph en el Blog Oficial de Google y en su vídeo de presentación:

De la cadena de caracteres al lenguaje natural

Esta evolución de Google viene siendo trabajada desde antes de la compra de Metaweb (Freebase) -base de datos abierta sobre personas, lugares y cosas, relacionados entre si -  en julio de 2010, en el que ya se hacía mención del esfuerzo que estaba realizando el buscador para entender preguntas más complejas más allá de tener capacidad para responder búsquedas como “tiempo en Madrid” o “presidente de España”.

[Vídeo]: Explicación del funcionamiento de Metaweb

En la presentación que hizo Andrew Hogue en Google Tech Talk “The Structured Search Engine”  ya dejaba entrever la evolución que estaba teniendo en Buscador de Google y sus próximos lanzamientos.

[Vídeo]: Google Tech Talk “The Structured Search Engine, enero 2011″

Un análisis también bastante interesante es el que realiza Justin Briggs en Entity Search Results, a través del cual explica cómo los buscadores (y en concreto Google) están pasado de reconocer las cadenas de caracteres a las Entidades, y  la relación de éstas con sus atributos.

Evolución y actualización del algoritmo

A esto hay que sumarle, la constante evolución que está teniendo el buscador desde el año pasado, en el que las actualizaciones de algoritmo siempre incorporan elementos vinculados al reconocimiento de la autoría de los contenidos, a la sinonimia de los términos y a la frecuencia de actualización de los contenidos. Desde comienzo de año, es relevante destacar las actualizaciones de febrero, marzo y abril de 2012, donde ya hay indicios claros del trabajo que Google está haciendo para poder relacionara contenidos y su vinculación semántica:

  • Actualización de febrero de 2012 realizan actualizaciones sobre las búsquedas relacionadas e incremento de
    trabajo en el reconocimiento de las páginas oficiales.
  • En marzo de 2012 se actualizan aspectos relacionados con mejorar la indexación de las páginas de los perfiles públicos -sitios sociales- (codename “Prof-2″ ), mejorar el reconocimiento de nombres (codename “NameDetector”), señales de personalización (codename “PSearch”), y uno de los más importante, la sinonimia entre los términos (codename “Synonyms”, codename “Gemini”, codename “Synonyms”).
  • En abril de 2012 , centra su actualización en la mejora del reconocimiento de la autoría de las páginas y la predicciones de autocompletados (codename “Autocomplete”).

Otros elementos que han marcado esta evolución han sido el apoyo al sistema de microdata Schema.org (agosto 2011), reconocimiento de la microdata dentro de los resultados naturales a través de los Rich Snippets  -actualmente Google reconoce los fragmentos enriquecidos de los contenidos de opiniones, contactos, productos, empresas y organizaciones, eventos, música y contenido de vídeo-, herramienta de verificación de microdata, el impacto del Social Graph -vinculación, relación y autoría de los perfiles sociales-, autoría de la información, reconocimiento del marcado Authorship o las  insignias de verificación de perfiles y páginas.

¿Cómo puede influir la evolución semántica de los Buscadores en la labor SEO?

Sin duda alguna, la evolución por la que pasará la aplicación de prácticas de optimización SEO estarán más orientadas como mínimo en cuatro aspectos principales:

  • Análisis e investigación de tendencias de consumo de información por parte de los usuarios
  • Comportamientos de búsqueda por parte de los usuarios
  • Trabajar el marcado semántico de los contenidos que se generen (Microdata)
  • Trabajara con un lenguaje de etiquetado reconocido por los principales buscadores: HTML5

Hacia una respuesta más precisa: Los microformatos

Que la búsqueda es y será durante un tiempo una forma rentable de acceder al contenido, es por todos conocido, sin embargo, los resultados de ésta requieren de una evolución por parte de los motores de búsqueda.

Esta evolución tendrá que pasar por un mayor desarrollo por parte de los actuales líderes del mercado (Google, Yahoo! y MSN), así como de los nuevos players (algunos de ellos hoy en versión beta: Haika, Quintera, ChaCha, etc).

Los principales aspectos que requieren una mayor evolución por parte de los buscadores pueden centrarse en: mejorar el entendimiento del lenguaje natural que emplea el usuario cuando realiza una búsqueda, una mayor especialización y segmentación por usuarios, y una mejora en la orientación semántica (microformatos).

Actualmente, a los robots de los principales motores de búsqueda les cuesta distinguir entre los microformatos y el contenido web estándar. Los microformatos se componen de atributos XHTML y etiquetas estándar, por lo que los robots los terminan interpretando como información estándar, perdiendo la especificidad que estos fragmentos de código pueden aportar.

Si, habría que destacar el trabajo que realizan algunos motores de búsqueda como Technorati y Google a través de etiquetas específicas, pero esto no debería ser suficiente para una industria que factura billones de dólares al año y tiene millones de usuarios.

Por ejemplo, el que un usuario busque información sobre un producto y reciba como respuesta una lista de comentarios relacionados con éste, procedentes de sitios web en los que se ha hablado de él; o que se busque por un término, y que se reciba como respuesta un listado de sitios web, fotos, documentos, etc, de personas relacionadas con dicho término; o buscar por una fecha específica, y recibir una lista de eventos asociados a ésta, son ejemplos de resultados que el usuario terminará pidiendo.

Por tanto, esta necesidad hace que los microformatos sean una parte más de la evolución natural por la que deben pasar los motores de búsqueda, ya que éstos alojan datos valiosos en los que pueden estar interesados, tanto los motores de búsqueda como los usuarios, así como facilitar la normalización de la información existente en los billones de páginas web existentes en la World Wide Web.

Artículo publicado en:  Interactiva. Abril, 2008

Seguir

Get every new post delivered to your Inbox.

Únete a otros 166 seguidores