Passer au contenu principal

Dupliquer du contenu

Le terme contenu en double, ou alors contenu en double vient du référencement. Un contenu en double est créé lorsque le même contenu est accessible avec des URL différentes et est indexé avec des URL différentes. L'indexation des sites Web avec du contenu en double peut avoir un impact effet négatif dans le classement des SERP.

Types de contenu dupliqué

Un contenu en double peut survenir si :

  • Le contenu est syndiqué, vendu ou copié illégalement, de sorte que différents sites Web utilisent le même contenu. Dans ce cas, le contenu dupliqué peut nuire au créateur.
  • Le contenu d'un portail Web est affiché accidentellement sur différents domaines ou sous-domaines (par exemple sans « www »).
  • Le contenu est utilisé deux fois dans des catégories différentes. Cela peut se produire si le contenu d'une URL est publié dans un fil d'actualité.
  • Le système de gestion de contenu ne peut pas attribuer d'URL uniques au contenu.
  • Différents filtres d'attributs dans les boutiques en ligne proposent les mêmes listes de produits.

le contenu presque en double Il s’agit d’un contenu très similaire qui pourrait également entraîner des problèmes. Les blocs de texte copiés plusieurs fois (comme les teasers ou les textes récurrents sur chaque page) peuvent être représentés comme du contenu dupliqué par les moteurs de recherche.

Antécédents

Google] a apporté plusieurs ajustements à ses algorithmes pour garantir que le moteur de recherche puisse très bien filtrer le contenu en double. La mise à jour Brandy de 2004 et la mise à jour Bourbon de 2005 ont toutes deux amélioré la capacité de Google à détecter le contenu en double.

Conséquences du contenu dupliqué

Le contenu dupliqué présente un obstacle pour les moteurs de recherche. Ils doivent choisir laquelle des pages en double est la plus pertinente pour une requête de recherche. Google souligne que "la duplication de contenu sur un portail web[…] n'est pas une raison pour prendre des mesures contre ce portail web". Malgré tout, le fournisseur du moteur de recherche se réserve le droit d'imposer des sanctions en cas d'intentions manipulatrices : « Dans les rares cas où nous devons supposer qu'un contenu dupliqué est affiché dans l'intention de manipuler le positionnement ou d'induire nos utilisateurs en erreur, nous apportons les corrections appropriées à l'index. et le classement des sites Web en question. Les webmasters Ils ne devraient pas laisser Google décider si le contenu dupliqué est créé par inadvertance ou délibérément ; Fondamentalement, ils devraient éviter le contenu en double.

600x400-DuplicateContent-es-01.png

Causes techniques du contenu dupliqué

Le contenu en double peut avoir différentes causes, qui sont souvent basées sur une configuration incorrecte du serveur.

Duplication de contenu due à une mauvaise configuration du serveur

Les arguments pour éviter la duplication de contenu au sein même du portail web se trouvent dans la configuration du serveur. Les problèmes suivants peuvent être facilement résolus :

Contenu en double en raison d'un sous-domaine Catch-All/Wildcards

L'une des erreurs de référencement d'une page les plus élémentaires se produit lorsqu'un domaine répond simultanément à tous les sous-domaines. Cela peut être facilement prouvé en visitant simplement
"h

"http://www.DOMINIO.com" suivi de "http://domain.com" (c'est-à-dire sans "www")

Si le même contenu s'affiche dans les deux cas (et que la barre d'adresse affiche toujours le domaine saisi), vous devez agir rapidement. Dans le pire des cas, le serveur répond à tous les sous-domaines, y compris un sous-domaine comme

« http://pomme de terre.DOMINIO.com »

Ces autres pages ayant le même contenu sont appelées doubles. Pour permettre aux moteurs de recherche de décider plus facilement quelle URL est pertinente, le serveur doit être configuré correctement. Cela peut être fait, par exemple, en utilisant le module mod-rewrite pour le serveur Apache couramment utilisé. Avec un fichier .htaccess dans le répertoire racine du portail Web, le code suivant peut être enseigné au serveur via une redirection 301 pour garantir que le portail Web ne répond qu'au bon domaine – et redirige automatiquement les sous-domaines habituels vers le bon domaine. :

Réécrire le moteur sur # ! N'oubliez pas de remplacer « DOMAIN2 par le domaine respectif de votre projet ! RewriteCond %{HTTP_HOST} !^www.DOMAIN.com$ [NC] RewriteRule (.*) http://www.DOMAIN.com/$1 [R=301,L]

À titre de considération préliminaire, il convient d'abord de choisir ce que domaine principal – c'est-à-dire avec ou sans « www » ? Pour les sites Web internationaux, l’identifiant du pays doit également être considéré comme un sous-domaine.

http://en.DOMAIN.com/

Contenu en double en raison de barres manquantes

Une autre forme répandue de contenu dupliqué résulte de l’utilisation de barres obliques. Ce sont des URL qui ne contiennent pas de noms de fichiers mais pointent plutôt vers des répertoires. Par exemple:

http://www.DOMAIN.com/register_a/register_b/

Cela ouvre (généralement) le fichier d'index du sous-dossier «register_b». Selon la configuration, l'URL suivante répond également de la même manière :

http://www.DOMAIN.com/register_a/register_b 

Dans l'exemple ci-dessus, la dernière barre est manquante. Le serveur essaie d'abord de trouver le fichier "register_b", qui n'existe pas, mais se rend compte plus tard qu'un tel dossier existe. Le serveur ne souhaitant pas renvoyer de message d'erreur inutile (« le fichier n'existe pas »), le fichier d'index de ce dossier s'affiche. En principe, c'est une bonne chose mais cela entraîne malheureusement du contenu dupliqué (dès qu'un lien pointe vers une "fausse" URL). Ce problème peut être traité de différentes manières :

  • Redirection 301 via .htaccess.
  • Balise canonique qui pointe vers la bonne URL.
  • Blocage via robots.txt.
  • Correction de tous les liens mal orthographiés (difficile pour les liens entrants).

La meilleure façon de procéder est d’utiliser une redirection 301 via .htaccess ainsi que de rectifier les mauvais liens. Cela évite à Google des problèmes d'exploration inutiles qui, à leur tour, peuvent être bénéfiques pour le portail Web à un autre moment.

Traitement du contenu dupliqué

Les tâches d'optimisation d'une page consistent non seulement à éviter la duplication du contenu, mais aussi à l'identifier et à agir de manière appropriée. Le soi-disant vérificateur de contenu en double peut vous aider ici. Répertorie les URL qui affichent un contenu similaire. Il est particulièrement important que les webmasters et les référenceurs agissent de manière appropriée en cas de contenu dupliqué. Étant donné que l’indexation est toujours plus rapide dans les robots des moteurs de recherche, un contenu similaire atteint également le Web plus rapidement. Cela entraîne le risque d'un erreur de classification, voire exclusion accélérée de l'index.

Unicité du texte

Le contenu dupliqué a souvent un impact sur les magasins en ligne qui reprennent les textes de produits 1:1 des fabricants et les utilisent également pour des portails de comparaison de prix. Matt Cutts a déjà exprimé son opinion sur ce sujet. [1] De cette façon, vous devez créer différents textes pour votre propre page d'accueil et pour les comparaisons de prix ou les portails d'achat externes. Même si cela peut sembler une tâche fastidieuse, les textes individualisés pour différentes pages en valent la peine – d'une part, votre propre site Web et votre marque seront renforcés, et d'autre part, les comparaisons de prix recevront des textes individualisés et donc plus intéressants. l'utilisateur.

Afin d'éviter de dupliquer le contenu en ligne sur leur propre site, les webmasters doivent examiner attentivement leur contenu et éventuellement envisager si certaines catégories peuvent être fusionnées. Dans certains cas, il peut également être utile de marquer les pages filtrées avec la balise « noindex, follow », par exemple. Les moteurs de recherche n’indexent pas ces pages, mais suivent les liens qui y apparaissent.

Pour créer du contenu unique, des outils sont disponibles prenant en compte la formule TF*IDF.

Contenu VOL

Dans le cas où une duplication de contenu externe se produit à la suite d'un "vol de contenu", vous devez immédiatement contacter le webmaster concerné et lui demander de inclure la source originale du texte ou supprimer le texte. Dans la plupart des cas, une simple demande suffit. De plus, un avertissement peut être émis dans des cas extrêmes. Dans le même temps, les webmasters ont la possibilité de signaler à Google les pages qui violent les droits d'auteur en copiant du contenu. Ce formulaire peut être soumis depuis Google Search Console.

Redirection 301

Si un contenu externe en double apparaît parce qu'un webmaster exploite deux sites Web avec le même contenu sur deux domaines ou plus, une redirection 301 est souvent suffisante pour empêcher le contenu en double.

Une autre alternative consiste à indiquer à Google la version préférée d'un portail Web via Google Search Console, par exemple.

Balise canonique, balise noindex et robots.txt

Il existe plusieurs alternatives lorsqu’il s’agit de contenu interne dupliqué sur le portail web lui-même. La balise canonique est un outil important dans cette circonstance. Cela fait référence au dupliquer la sous-page sur la page d'origine, et le doublon est exempté d'indexation. Si vous devez être absolument sûr qu'une sous-page avec du contenu en double n'est pas indexée, vous pouvez la marquer à l'aide d'une balise noindex. Pour exclure davantage le contenu en double de l'analyse, les sous-pages respectives peuvent en outre être enregistrées dans le fichier robots.txt.

balises hreflang sur les pages traduites

Google peut désormais identifier clairement les pages traduites et attribuer du contenu à une page originale. Afin d'éviter la duplication de contenu à travers des traductions ou des langues identiques pour différents marchés cibles, la balise peut être utilisée pour indiquer la région et la langue des URL individuelles. De cette manière, Google reconnaît qu'il existe des traductions d'une page et que l'URL a une certaine orientation.

Un exemple : une boutique en ligne allemande propose également ses produits en Suisse alémanique et en Autriche. Dans ce cas, la langue cible est l'allemand. Quoi qu'il en soit, le magasin utilise le pays correspondant se terminant par et pour les pays de destination. Afin d'éviter la duplication du contenu, il sera placé dans l'en-tête de la version allemande pour faire référence à une variante pour la Suisse.

Rel=alternative avec les sous-domaines mobiles=

L'optimisation des smartphones peut également produire du contenu en double. Cela est fondamentalement vrai si le portail Web du smartphone possède son propre sous-domaine. Le contenu en double peut être évité en utilisant la balise rel=alternative. L'étiquette fait référence de la version de bureau à la version pour smartphone. Les moteurs de recherche reconnaîtront alors que le domaine est le même et évitera la double indexation.

La prévention

Pour éviter la duplication du contenu interne, il est conseillé de planifier la hiérarchie des pages de manière appropriée. Cela nous permet de détecter à l'avance sources possibles de contenu en double. Lors de la création de produits dans des boutiques en ligne, des préparations doivent également être faites pour une mise en œuvre facile des balises canoniques. Ce qui suit est vrai au niveau du texte : plus le texte est individualisé, mieux c'est pour Google et l'utilisateur, et plus il est facile d'éviter le contenu en double.

Vérificateur de contenu en double

Pour la première analyse, le soi-disant Duplicate Content Checker est activé, comme par exemple depuis Copyscape ou Ryte. Ces outils identifient dans un premier temps des contenus similaires voire identiques sur le web. Les magasins en ligne, en particulier, qui transmettent leurs données produits via des fichiers CSV à des portails de comparaison de prix ou à des plateformes de vente comme Amazon, sont souvent concernés par ces problèmes. Matt Cutts a déjà exprimé son opinion sur ce sujet. [2]

Liens web