Secretos del algoritmo de Google: Enseñanza de una filtración masiva

Los secretos del algoritmo de Google, expuestos: esto es lo que nos enseña una filtración masiva

Más de 2,500 páginas de documentación API interna de Google han sido filtradas: cerca de 14.000 atributos o funciones del algoritmo de Google.

Revista Digital – Información de Mercados – Compra Pública Latam

Google siempre ha sido muy opaca respecto al funcionamiento de su algoritmo. Aunque ofrece algunas directrices y actualizaciones generales, la compañía evita revelar detalles específicos para prevenir manipulación y asegurar resultados relevantes y de calidad. Esta falta de transparencia puede frustrar a quienes buscan optimizar sus sitios web, pero siempre ha sido vista como algo esencial para mantener la integridad de las búsquedas. La opacidad también permite a Google ajustar continuamente su algoritmo sin alertar a quienes podrían intentar buscar atajos para mejorar su posicionamiento, garantizando en teoría una mejor experiencia de usuario y una competencia más justa en el mercado de búsquedas.

Por eso una filtración masiva como la que hoy hemos conocido es tan importante. Algo que puede cambiar las reglas del juego para siempre.

De dónde procede la filtración: una historia de espías

El domingo 5 de mayo, una persona contactó a Rand Fishkin, un reconocido experto en SEO y marketing digital, fundador de Moz y SparkToro, conocido por su aportación en la industria del marketing digital y por sus análisis sobre las prácticas de optimización de motores de búsqueda. Esa persona afirmaba tener acceso a una gran filtración de documentación API de la búsqueda de Google. El propio Fishkin cuenta toda esta historia, propia de una película de espías, en su blog.

Los documentos filtrados, confirmados como auténticos por ex empleados de Google, contenían información privada sobre las operaciones de búsqueda de la compañía.

Durante una videollamada, el filtrador mostró al investigador más de 2,500 páginas de documentación API interna de Google, subidas a GitHub el 27 de marzo de 2024 y eliminadas el 7 de mayo de 2024. Aunque estos documentos no especificaban el peso de cada elemento en el algoritmo de clasificación, revelaban detalles sobre los datos que Google recopila. De acuerdo con King, incluyen hasta 14.000 atributos o funciones del algoritmo de Google.

Rand Fishkin verificó la autenticidad de los documentos filtrados del API Content Warehouse de Google contactando a ex empleados de Google. Tres ex-Google respondieron: uno no se sintió cómodo revisando la documentación, y los otros dos confirmaron que los documentos parecían legítimos y adheridos a los estándares internos de Google. Luego, Rand solicitó ayuda a Mike King, fundador de iPullRank, para analizar los aspectos técnicos de la documentación. Durante una llamada de 40 minutos, Mike confirmó que los documentos eran legítimos y contenían una gran cantidad de información inédita sobre el funcionamiento interno de Google.

Google search is one of the most secretive, closely-guarded black boxes in the world. Well, maybe not anymore.

In the last quarter century, no leak of this magnitude or detail has ever been reported from Google’s search division. If you're in #SEO, you should probably see this. pic.twitter.com/JxEs55IV21
— Rand Fishkin (follow @randderuiter on Threads) (@randfish) May 28, 2024

Qué nos enseña la filtración

Como comprenderás, ante una filtración tan masiva es complicado resumir todo lo que ahí se encuentra, pero a partir del trabajo de Fishkin y King podemos quedarnos con algunos hallazgos especialmente llamativos. Tratando de buscar un denominador común a todos ellos, Fishkin explica que «Si tuviera un consejo universal para los marketers que buscan mejorar ampliamente sus rankings y tráfico de búsqueda orgánica, sería: «Construye una marca notable, popular y bien reconocida en tu sector, fuera de la búsqueda de Google».

Pero la filtración desvela muchas más cosas.

Los clics sí cuentan para los rankings

La documentación filtrada revela módulos que mencionan características como “goodClicks,” “badClicks,” “lastLongestClicks,” impresiones, y “squashed” y “unsquashed” clicks. Estos están vinculados a Navboost y Glue, que trabajan juntos para clasificar y mostrar los resultados en la página de resultados de búsqueda (SERP). El filtrador anónimo explicó que, en sus primeros años, Google necesitaba datos completos de clics para mejorar la calidad de sus resultados. Un sistema denominado «NavBoost» recopilaba datos de la barra de herramientas de PageRank y motivó la creación del navegador Chrome en 2008 para obtener más datos de clics.

La documentación refleja cómo Google filtra clics no deseados y mide la duración de los clics (tiempo de permanencia del visitante en la página a la que ha llegado tras hacer clics). Además, Google utiliza segmentación geográfica de los datos de Navboost y señales de clics para mejorar la precisión de los resultados. Estos hallazgos destacan la sofisticación de Google en el uso de datos de clics para evaluar y clasificar sitios web, añadiendo más evidencia sobre su funcionamiento interno.

Además, los documentos sugieren que Google calcula diversas métricas utilizando datos de vistas de Chrome para páginas individuales y dominios completos. Así, la documentación indica que Google probablemente utiliza el número de clics en páginas de navegadores Chrome para determinar las URLs más populares e importantes de un sitio, las cuales se incluyen en la función de Sitelinks.

Google EWOK

EWOK es una plataforma de Google utilizada para evaluar la calidad de los sitios web. Creada hace varios años, la reciente filtración sugiere que los datos y puntuaciones generados por los evaluadores de calidad de EWOK se utilizan en los sistemas de búsqueda de Google.

Aunque no está claro cómo de influyentes son estas señales basadas en evaluadores y para qué se utilizan específicamente, se ha evidenciado que algunos elementos evaluados por EWOK se integran directamente en el sistema de búsqueda. Esto significa que las evaluaciones humanas de la calidad de los sitios web podrían influir directamente en los resultados de búsqueda, en lugar de usarse solo como datos de entrenamiento para experimentos.

Calidad y PageRank

Según la fuente anónima que compartió la filtración, Google clasifica sus índices de enlaces en tres categorías: baja, media y alta calidad. Los datos de clics determinan a qué categoría pertenece un documento. Tal y como explica Fishkin:

Si una página de Forbes.com/Cats/ no recibe clics, se clasifica en el índice de baja calidad y su enlace es ignorado.
Si una página de Forbes.com/Dogs/ tiene un alto volumen de clics verificados (basados en datos de Chrome), se clasifica en el índice de alta calidad y el enlace transmite señales de ranking.

Una vez que un enlace se considera «confiable» porque pertenece al índice de alta calidad, puede transmitir PageRank pero también ser filtrado por sistemas de detección de spam de enlaces. Los enlaces del índice de baja calidad no perjudican el ranking de un sitio; simplemente son ignorados.

Site authority

King sostiene que Google afirma no usar el «domain authority» o «autoridad de dominio» para evitar la confusión, pero esto no significa que no midan la autoridad de un sitio. Esta ambigüedad les permite esquivar la pregunta sobre si calculan o utilizan métricas de autoridad general.

Gary Ilyes y John Mueller de Google, dos de sus principales portavoces, han reiterado que no tienen una puntuación de autoridad para sitios web. Sin embargo, documentos filtrados revelan que Google tiene una métrica llamada «siteAuthority» que se usa en el sistema de ranking Q*. Aunque no se sabe exactamente cómo se calcula o utiliza, ahora está claro que Google sí mide la autoridad general de los dominios.

Los links importan

No hay evidencia que refute las afirmaciones recientes de Google de que los enlaces tienen poca importancia en la clasificación de resultados. Un punto clave es el impacto del nivel de indexación en el valor de los enlaces. De hecho, Google estratifica su índice en niveles: el contenido más importante y actualizado se almacena en memoria flash, el contenido menos importante en discos de estado sólido y el contenido menos actualizado en discos duros estándar.

Esto implica que cuanto más alto es el nivel de indexación, más valioso es el enlace. Las páginas «frescas» se consideran de alta calidad, lo que explica por qué obtener enlaces de páginas bien posicionadas o de noticias mejora el rendimiento en los rankings.

De hecho, King explica que a la vista de la filtración, Google se centra mucho en ofrecer resultados recientes y los documentos muestran sus numerosos intentos de asociar fechas con las páginas. Y mucho ojo: incluir fechas en tu URL que se contradigan con las fechas en otros lugares de la página probablemente reducirá el rendimiento del contenido.

La importancia del EEAT

Google almacena explícitamente la información sobre los autores de un documento de texto. También se menciona que Google intenta determinar si una entidad en la página es también el autor de la misma. Los documentos filtrados muestran que Google realiza un mapeo detallado de entidades y embeddings, sugiriendo que hay una medición integral de los autores.

Aquí te explicamos más sobre qué es el EEAT.

Chrome cuenta en los rankings

Uno de los módulos relacionados con las puntuaciones de calidad de página incluye una medida a nivel de sitio de las vistas desde Chrome. Otro módulo, que parece estar relacionado con la generación de sitelinks, también presenta un atributo relacionado con Chrome.

Lo principal, al principio

Tal y como refleja Guillermo Gascón, «Google considera un número máximo de tokens (palabras) por documento, lo que refuerza la necesidad de colocar el contenido más importante al inicio del texto. Trunca el resto para ahorrar».

El tamaño importa

Google rastrea el tamaño promedio ponderado de las fuentes de los términos en los documentos. Google también aplica este seguimiento al texto ancla de los enlaces. Esto va en línea con antiguas prácticas SEO que hablaban de la importancia de resaltar y subrayar el texto o agrandar ciertos pasajes para que parecieran más importantes.

El contenido breve, que sea original

Un parámetro denominado OriginalContentScore sugiere que el contenido breve se puntúa por su originalidad. Esto explica por qué textos cortos y los llamados «thin content» no siempre se evalúan solo por su longitud, sino por lo que cuentan.

Titles

La documentación filtrada revela la existencia de un titlematchScore. Para King, esto indica que Google sigue dando importancia a la coincidencia entre el título de la página y la consulta de búsqueda.

Webs centradas en vídeo

Si más del 50% de las páginas de un sitio contienen vídeo, el sitio se considera «enfocado en vídeo» y recibirá un tratamiento diferente en los algoritmos de Google. Es importante porque cuando un sitio se considera enfocado en vídeos, Google puede aplicar criterios de clasificación y algoritmos específicos para mejorar la relevancia y el posicionamiento de ese tipo de contenido. Esto puede afectar la visibilidad del sitio en los resultados de búsqueda y su capacidad para atraer tráfico.

Sitios pequeños

Google tiene una etiqueta que indica si un sitio es un «pequeño sitio personal». Aunque no hay una definición exacta de estos sitios, King opina que no sería difícil para Google agregar un sistema para tratarlos de forma diferente al resto en los resultados de búsqueda.

Fuente: marketing4ecommerce.net

Última edición

“goodClicks, ” “badClicks, ” “squashed”, ”“lastLongestClicks, API interna de Google, filtracion masiva, Google, Google EWOK, informaciondemercados, La importancia del EEAT, Noticia Edicion, Rand Fishkin, Revista Digital, Site authority