Sabemos que Google penaliza el contenido duplicado, tanto si es interno como si es externo. En el momento en que el robot de Google lo detecta, puede desde limitar su aparición en los resultados de búsqueda, hasta establecer penalizaciones de plagio de forma manual. Sin embargo, el contenido duplicado es algo de lo que muy pocas webs se pueden librar.

Con el fin de explicar cómo es que Google detecta el contenido duplicado y cómo elige cuál de los contenidos duplicados es el que tendrá valor en las SERPs, John Mueller, Martin Splitt, Gary Illyes y Lizzi Harvey, redactora técnica de Google, compartieron un podcast en el que resolvieron estas y otras dudas más en relación con este tipo de contenidos.

Cómo detecta Google el contenido duplicado

Todo comienza cuando Google crea una suma de verificación, también conocida como checksum para cada página de un sitio web, que básicamente es una huella digital única de cada documento basada en las palabras de la página. Su fin principal es detectar errores que puedan haberse introducido durante su transmisión o almacenamiento.

Así, es fácil imaginar que si hay dos páginas con la misma suma de verificación, Google determina que son clones, es decir, que están duplicadas entre sí. Así, por sí mismas, estas sumas de verificación se utilizan para verificar la integridad de los datos pero no son utilizadas para verificar su autenticidad, y es que la detección de contenido duplicado y la canonicalización no son lo mismo.

La canonicalización y la detección de contenido duplicado

Como te hemos comentado anteriormente, una etiqueta canonical permite indicar a los buscadores cuál es la URL original o preferida sobre otras, para que la prioricen y darle relevancia sobre otras a ignorar.

Señales que utiliza Google para encontrar la URL canónica

Tras encontrar el contenido duplicado, se deberá seleccionar cuál es el documento que se mostrará en los resultados de búsqueda. Esto se hace porque “por lo general a los usuarios no les gusta cuando el mismo contenido se repite en muchos resultados de búsqueda, y también porque nuestro espacio de historia en el índice no es infinito” aseguró Gary.

Así, para calcular cuál será la URL canónica, la página que liderará el clúster, Google emplea más de 20 señales: así, Google toma en cuenta si la página está en una URL HTTPS, si está incluida en un mapa del sitio, o si la página se redirige a otra página, ya que esta es una señal muy clara de que otra página debería ser la canónica. Las señales que utiliza Google incluyen:

  • Contenido
  • Page Rank
  • HTTPS
  • Si la página está en el archivo de mapa de sitio
  • Una señal de redireccionamiento del servidor
  • Etiqueta Canonical

Google utiliza su aprendizaje automático para asignar el peso a cada una de estas señales, y un dato importante a tomar en cuenta es que una etiqueta canónica y un redireccionamiento tendrá mayor peso para el algoritmo. Como ves,  la canonicalización es completamente independiente de la clasificación, pero la página que Google elige como canónica terminará en las páginas de resultados de búsqueda y se clasificará.