Saltar al contenido principal

Contenido Duplicado

El término contenido duplicado, o duplicate content proviene de SEO. El contenido duplicado se crea cuando se puede ingresar al mismo contenido con distintos URL y se indexa con distintos URL. La indexación de sitios web con contenido duplicado puede tener un efecto negativo en el Ranking en los SERPs.

Tipos de contenido duplicado

El contenido duplicado puede surgir si:

  • El contenido es sindicado, vendido o copiado ilegalmente, entonces distintos sitios web usan el mismo contenido. Para este caso, el contenido duplicado puede perjudicar al creador.
  • El contenido de un portal web se muestra accidentalmente en distintos dominios o subdominios (por ejemplo, sin «www»).
  • El contenido se usa dos veces en distintos categorías. Esto puede ocurrir si el contenido de una URL se publica en un área de noticias.
  • El sistema de administración de contenidos no puede asignar URLs únicas al contenido.
  • Distintos filtros de atributos en las tiendas online ofrecen las mismas listas de productos.

El contenido casi duplicado es un contenido muy semejante que además podría dar lugar a problemas. Los bloques de texto que se copian muchas veces (como teasers o textos recurrentes en cada página) pueden ser representados como contenido duplicado por los motores de búsqueda.

Antecedentes

Google] ha hecho varios ajustes a sus algoritmos para asegurar que el motor de búsqueda pueda filtrar el contenido duplicado muy bien. Tanto el Brandy Update de 2004 como el Bourbon Update de 2005 mejoraron la capacidad de Google para  detectar contenido duplicado.

Consecuencias del contenido duplicado

El contenido duplicado presenta un obstáculo a los motores de búsqueda. Disponen que elegir cuál de las páginas duplicadas es la más relevante para una consulta de búsqueda. Google subraya que «la duplicación de contenido en un portal web[…] no es una razón para tomar medidas contra este portal web». A pesar de todo, el proveedor del motor de búsqueda se reserva el derecho de imponer sanciones por intenciones manipuladoras: «En los raros casos en que tengamos que asumir que el contenido duplicado se muestra con la intención de manipular el posicionamientp o engañar a nuestros usuarios, hacemos las correcciones apropiadas al índice y ranking de los sitios web en cuestión». Los webmasters no deben dejar que Google decida si el contenido duplicado es involuntario o se ha creado deliberadamente; básicamente deben evitar el contenido duplicado.

600x400-ContenidoDuplicado-es-01.png

Causas técnicas del contenido duplicado

El contenido duplicado puede tener distintos causas, que frecuentemente se basan en la configuración incorrecta de los servidores.

Duplicación de contenido debido a una mala configuración del servidor

Los argumentos para evitar la duplicación de contenido dentro del propio portal web se encuentran en la configuración del servidor. Los siguientes problemas pueden ser resueltos fácilmente:

Contenido duplicado debido a un subdominio Catch-All / Wildcards

Uno de los errores más básicos de SEO de una página surge cuando un dominio responde simultáneamente a todos los subdominios. Esto se puede probar fácilmente básicamente visitando
«h

"http://www.DOMINIO.com” seguido de “http://dominio.com” (i.e, sin “www”)

Si se muestra el mismo contenido en ambos casos (y la barra de direcciones sigue mostrando el dominio ingresado), se debe actuar rápidamente. En el peor de los casos, el servidor responde a todos los subdominios, incluyendo un subdominio como

“http://potatoe.DOMINIO.com”

Estas otras páginas con el mismo contenido se denominan dobles. Para facilitar que los motores de búsqueda decidan qué URL es relevante, se debe configurar el servidor correctamente. Esto se puede hacer, por ejemplo, utilizando el módulo mod-rewrite para el servidor Apache comúnmente usado. Con un archivo.htaccess en el directorio raíz del portal web, se puede enseñar el siguiente código al servidor mediante de una redirección 301 para asegurarse de que el portal web sólo responde al dominio correcto – y redirige automáticamente los subdominios habituales al dominio correcto:

RewriteEngine On
# ! Please remember to replace “DOMAIN2 with the respective domain of your project !
RewriteCond %{HTTP_HOST} !^www.DOMAIN.com$ [NC]
RewriteRule (.*) http://www.DOMAIN.com/$1 [R=301,L]

Como consideración preliminar, uno debería primero elegir cuál debería ser el dominio principal – es decir, con o sin «www»? En el caso de los sitios web internacionales, la identificación del país además debe considerarse un subdominio.

http://en.DOMAIN.com/

Duplicar el contenido debido a la falta de barras

Otra forma generalizada de contenido duplicado surge del uso de  barras oblicuas. Estas son URLs que no contienen nombres de archivos sino que apuntan a directorios. Por ejemplo:

http://www.DOMAIN.com/register_a/register_b/

Esto (normalmente) abre el archivo de índice de la subcarpeta «register_b». Dependiendo de la configuración, la próxima URL además responde de manera semejante:

http://www.DOMAIN.com/register_a/register_b 

En el ejemplo anterior, falta la última barra. El servidor primero intenta hallar el archivo «register_b», que no existe, pero posteriormente se da cuenta de que existe tal carpeta. Ya que el servidor no desea devolver un mensaje de error innecesario («archivo no existe»), se muestra el archivo índice de esta carpeta. En principio, esto es algo bueno pero desafortunadamente resulta en contenido duplicado (tan pronto como un link apunta a una URL «falsa»). Este problema se puede tratar de distintos maneras:

  • 301 Redirigir mediante de .htaccess.
  • Etiqueta canónica que apunta a la URL correcta.
  • Bloqueo por medio de robots.txt.
  • Corrección de todos los enlaces mal escritos (difícil para los enlaces entrantes).

La mejor manera de hacerlo es utilizando un redireccionamiento 301 vía .htaccess así como rectificando enlaces defectuosos. Esto ahorra a Google los problemas innecesarios de crawl que, a su vez, pueden ser de beneficio para el portal web en un punto distinto.

Tratamiento de contenidos duplicados

Las tareas de optimización de una página no sólo consisten en evitar la duplicación de contenidos, sino además en identificarlos y actuar de forma adecuada. El llamado Duplicate Content Checker puede ayudar aquí. Enumera las URLs que muestran contenido semejante. Es concretamente importante que los webmasters y SEOs actúen apropiadamente en el caso de contenido duplicado. Ya que la indexación siempre es más rápida en los robots de los motores de búsqueda, el contenido semejante además llega más rápido a la Web. Esto da como resultado el riesgo de una mala clasificación o inclusive una exclusión acelerada del índice.

Unicidad del texto

Los contenidos duplicados frecuentemente impactan a las tiendas online que se hacen cargo de los textos de los productos 1:1 de los fabricantes y además los usan para los portales de comparación de precios. Matt Cutts ya ha expresado su opinión sobre este tema. [1] De esta manera, debes crear textos distintos para tu propia página de inicio y comparaciones de precios o portales de compras externos. Aún cuando pueda parecer una tarea problemática, los textos individualizados para distintos páginas valen la pena – en primer lugar, tu propia web y tu marca se verán fortalecidos, y en segundo lugar, las comparaciones de precios recibirán textos individualizados y de este modo más interesantes tanto para Google como para el usuario.

Con la finalidad de evitar la duplicación de contenido online en el propio sitio, los webmasters deben revisar su contenido cuidadosamente y potencialmente considerar si algunas categorías pueden ser fusionadas. En algunos casos, además puede ser útil marcar las páginas de filtro con la etiqueta «noindex, follow», por ejemplo. Los motores de búsqueda no indexan estas páginas, sino que siguen los enlaces que aparecen en ellas.

Para crear contenido único, se dispone de herramientas que disponen en cuenta la fórmula TF*IDF.

Contenido THEFT

En caso de que se produzca una duplicación de contenido externa como resultado de un «robo de contenido», deberás ponerte inmediatamente en contacto con el webmaster respectivo y solicitarle que incluya la fuente original del texto o que elimine el texto. En la mayoría de los casos, una simple petición es suficiente. Además puede emitirse una advertencia en casos extremos. Al mismo tiempo, los webmasters disponen la oportunidad de denunciar a Google las páginas que violan los derechos de autor al copiar contenido. Este formulario se puede enviar desde la Consola de Búsqueda de Google.

Redirección 301

Si surge contenido duplicado externo debido a que un webmaster está operando dos sitios web con el mismo contenido en dos o más dominios, un Redireccionamiento 301 es frecuentemente suficiente para prevenir el contenido duplicado.

Otra alternativa es dar a conocer a Google la versión preferida de un portal web mediante de la Consola de Búsqueda de Google, por ejemplo.

Etiqueta canónica, etiqueta noindex y robots.txt

Hay varias alternativas cuando consiste en contenido interno duplicado en el propio portal web. La etiqueta canónica es una herramienta importante en esta circunstancia. Esto hace referencia a la subpágina duplicada a la página original, y el duplicado está exento de la indexación. Si necesitas estar completamente seguro de que una subpágina con contenido duplicado no está indexada, puedes marcarla usando una etiqueta  noindex. Para excluir adicionalmente el contenido duplicado del crawl, las respectivas subpáginas además se pueden guardar en el archivo robots.txt.

Etiquetas hreflang en páginas traducidas

Ahora Google puede identificar bien las páginas traducidas y asignar el contenido a una página original. Con la finalidad de evitar la duplicación de contenido mediante de traducciones o idiomas idénticos para distintos mercados de destino, la etiqueta se puede usar para indicar la región y el idioma de las URL individuales. De este modo, Google reconoce que hay traducciones de una página y que la URL dispone de una cierta orientación.

Un ejemplo: una tienda online alemana además ofrece sus productos en la parte de habla alemana de Suiza y en Austria. Para este caso, el idioma de destino es el alemán. A pesar de todo, la tienda usa el país respectivo que termina en y para los países de destino. Para evitar la duplicación de contenido, se colocará en la cabecera de la versión alemana para referirse a una variante para Suiza.

Rel=alternativo con subdominios móviles=

La optimización smartphone además puede producir contenido duplicado. Esto es fundamentalmente cierto si el portal web smartphone tiene su propio subdominio. El contenido duplicado puede ser evitado utilizando la etiqueta rel=alternativa. La etiqueta se refiere desde la versión de escritorio a la versión smartphone. Los motores de búsqueda reconocerán entonces que el dominio es el mismo y evitarán la doble indexación.

Prevención

Para evitar la duplicación de contenido interno, es aconsejable planificar la jerarquía de páginas de forma adecuada. Esto permite detectar de antemano posibles fuentes de contenido duplicado. Al crear productos en tiendas en línea, además se deben hacer preparativos para la fácil implementación de etiquetas canónicas. Lo siguiente es válido para el nivel de texto: Cuanto más individualizado es el texto, mejor es para Google y el usuario, y más fácil es evitar el contenido duplicado.

Verificador de contenido duplicado

Para el primer análisis está habilitada el llamado Duplicate Content Checker, como por ejemplo desde copyscape o Ryte. Estas herramientas identifican inicialmente contenidos similares o inclusive idénticos en la web. Las tiendas online, en particular, que transmiten los datos de sus productos mediante de archivos CSV a portales de comparación de precios o plataformas de venta como Amazon, suelen verse afectadas por estos problemas. Matt Cutts ya ha expresado su opinión sobre este tema. [2]

Enlaces Web