duplicate-content-ce-que-vous-devez-savoir

Duplicate content : ce que vous devez savoir

Des contenus trop similaires entre plusieurs sites ou sur plusieurs pages d'un même site peuvent donner à vos lecteurs le sentiment que votre contenu est sans intérêt. Le pire, c'est que des milliers de sites souffrent de ces problèmes de contenu dupliqués sans même le savoir.

Du point de vue du référencement, même si vous avez pris soin de vous assurer que tout le contenu présent sur votre site est 100% d'origine contrôlée, il est toutefois possible que dans certains cas, vos pages soient considérées comme étant du contenu dupliqué par les moteurs de recherche. Pour cette raison, il est nécessaire de vérifier périodiquement l'ensemble de votre site pour être certain qu'il ne contient aucune trace de duplicate content et si tel était le cas, pouvoir y remédier dès que possible.

Les différents types de duplicate content

Vous allez le voir, le contenu dupliqué peut prendre de nombreuses formes très variées. Chacune d'entre elles peut nuire durablement à votre visibilité. Il faut donc être extrêmement vigilant et garder un oeil ouvert quand vous scannez votre site pour y détecter d'éventuels problèmes.

Copie de contenu externe : le plagiat

Lorsque l'on évoque la question du contenu dupliqué, Le plagiat est certainement ce qui vient spontanément à l'esprit de la plupart des gens. Le plagiat se caractérise lorsqu'un site reprend tout ou partie du contenu d'un autre site, et le recopie tel quel. C'est le cas le plus flagrant de duplication de contenu. Cela se produit le plus souvent lorsque les scraper sites utilisent des scripts pour republier automatiquement le contenu des principaux sites de médias.

Contrairement aux idées reçues, il ne faut pas confondre le plagiat avec le fait de parler d'un même sujet qu'un autre site en utilisant vos propres termes.

Manipulation des moteurs de recherche [Duplication de contenus interne au site]

On parle ici de duplication de contenus interne au site. C'est à dire que l'on cherche à manipuler les résultats des moteurs de recherche en reprenant le contenu déjà publié et en dupliquant tout ou partie de ce contenu dans le but de produire plus de contenu sans effort supplémentaire. Le cas le plus fréquent est la duplication des fiches produit sur un site e-commerce.

Balises titre ou description similaires

Avoir des balises titre et/ou les meta description en double est une chose beaucoup plus fréquente, et bien plus pardonnable. Comme ces éléments ne sont pas directement visibles par l'internaute, ils n'interfèrent pas avec son expérience utilisateur sur le site. Pourtant, avoir plusieurs balises titre et meta description similaires peut être très mal perçu par Google. Le moteur de recherche trouvant plusieurs pages avec les mêmes descriptions ne saura laquelle afficher dans les résultats. Dans ce cas, il ignorera purement et simplement ces pages.

Multiples URL pour un même contenu

On parle d’URL canonique pour désigner l’adresse officielle d'une page web, celle qu'il est préférable d'utiliser pour accéder au contenu correspondant. Il arrive parfois d'avoir un contenu qui soit accidentellement associée à deux URL distinctes et qui ne sont donc pas correctement canonisées. Dans cette configuration, Google considérera que vous avez deux pages distinctes mais avec un contenu identique, ce qui pourrait être pénalisé.

Traquer et éliminer le contenu dupliqué

Comme nous allons le voir maintenant, il existe plusieurs solutions pour détecter la présence de contenu dupliqué dans les pages de votre site. Vous avez également plusieurs solutions à votre disposition pour nettoyer vos pages.

Comment identifier le contenu dupliqué ?

Pour détecter la présence de contenu dupliqué sur votre site, vous pouvez commencer par :

  • vérifier le contenu de vos balises titre et description dans Joomla,
  • Vous pouvez également vous servir de Google Search Console pour explorer votre site. Dans la rubrique Apparence dans les résultats de recherche, en cliquant sur Améliorations HTML, vous aurez la liste complète des balises titre et les meta descriptions présentes en double sur votre site. Vous pourrez également télécharger cette liste.

Eliminer les problèmes

Heureusement, Google est plutôt indulgent lorsqu'il s'agit de contenu dupliqué. Si vous avez quelques cas présents sur votre site, le moteur de recherche comprendra probablement que vous n'essayez pas de manipuler votre classement ou de berner vos visiteurs. Vous pouvez éventuellement faire face à une baisse de votre visibilité dans les résultats de recherche mais vous ne disparaitrez pas complètement. Et si vous corrigez les problèmes de duplicate content détectés sur votre site, vous retrouverez rapidement vos positions dans les pages des résultats de recherche.

Sachez que dans le milieu du référencement, on s’accorde sur un ratio autorisé de 30% de duplicate content sur la page. Pour ma part, je serai tenté de vous conseiller de rester en dessous d’un taux de 10%.

Avoir des balises uniques

En fonction des résultats de vous indiquera Google Search Console, il vous faudra reprendre toutes les balises titre et toutes les meta description ayant un contenu identique. Je le rappelle, chaque balise titre doit présenter le cotenu d ela page et chaque meta description doit décrire le contenu de la page correspondante. En aucun cas, vous ne devez avoir deux balises identiques. Pour travailler efficacement, je vous encourage à télécharger la liste des balises titre et description nécessitant une intervention de votre part. Ce fichier se présentant sous la forme d’un tableur, cela vous sera très utile pour suivre votre travail de nettoyage.

Réécrire lorsque cela est possible

C'est sans doute la façon la plus simple de prendre en charge le problème, mais c'est aussi celle qui vous demandera le plus de temps. Malheureusement, comme avec les doublons des meta description, dans de nombreux cas, ce sera la seule façon de résoudre le problème. Sinon, vous devrez supprimer le texte entièrement ou le réécrire totalement pour être certain d'avoir un contenu parfaitement original.

Restructurer vos URL

Les erreurs de duplicate content peuvent aussi être liées au fait que Google voit une page comme étant plusieurs pages. Cela peut être réglé en clarifiant la structure de vos URL. Par exemple, Google voit monsite.fr/ et monsite.com/?sessionid=10 comme deux pages différentes alors que vos utilisateurs n'en voient qu'une seule. Choisissez un format uniforme pour toutes vos URL.

Par ailleurs, votre site est-il accessible avec ou sans les www dans l’URL ? Pour éviter qu’il soit accessible depuis les deux adresses (ce qui est un cas flagrant de duplicate content), je vous invite à lire le tutoriel Le nom de domaine avec ou sans www qui vous donnera la marche à suivre pour régler ce problème.

La page d’accueil de votre site ne doit être accessible qu’avec une seule adresse URL. C’est-à-dire que vous ne pouvez avoir monsite.fr/, monsite.fr monsite.fr/index.html ou encore monsite.fr/index.php ! Pour corriger ce genre de problème, il faut impérativement établir une redirection permanente pour toutes les URL non désirées vers la seule qui soit valide.

Je vous invite à lire l’article Domptez la redirection 301 qui vous sera d’un grand secours en cas de besoin.

Faire réexaminer son site

Une fois que vous avez résolu les différents problèmes, demandez un réexamen de votre site à Google Search Console et Bing Webmaster Tools.

Si vous êtes intervenus sur les URL de votre site, vous devrez obligatoirement resoumettre votre fichier sitemap.xml à Google Search Console et à Bing Webmaster Tools afin que les moteurs de recherche prennent en compte toutes vos modifications.

Conclusion

Ne soyez pas étonné si il faut un certain temps pour retrouver vos positions dans les résultats de recherche. En effet, les moteurs de recherche prennent parfois plusieurs jours voire plusieurs semaines pour ré-analyser votre site. Une fois que votre première analyse sera terminée, je vous recommandé de vérifier votre site régulièrement pour vous assurer qu'aucun autre problème de duplicate content n'ait surgi. Vous devez rester vigilant et prendre immédiatement les mesures pour minimiser les éventuelles conséquences.

N'hésitez surtout pas à intervenir dans les commentaires pour partager votre expérience et pour poser vos questions sur le sujet. A tout de suite !

Des contenus trop similaires entre plusieurs sites ou sur plusieurs pages d'un même site peuvent donner à vos lecteurs le sentiment que votre contenu est sans intérêt. Le pire, c'est que des milliers de sites souffrent de ces problèmes de contenu dupliqués sans même le savoir.

Du point de vue du référencement, même si vous avez pris soin de vous assurer que tout le contenu présent sur votre site est 100% d'origine contrôlée, il est toutefois possible que dans certains cas, vos pages soient considérées comme étant du contenu dupliqué par les moteurs de recherche. Pour cette raison, il est nécessaire de vérifier périodiquement l'ensemble de votre site pour être certain qu'il ne contient aucune trace de duplicate content et si tel était le cas, pouvoir y remédier dès que possible.

Les différents types de duplicate content

Vous allez le voir, le contenu dupliqué peut prendre de nombreuses formes très variées. Chacune d'entre elles peut nuire durablement à votre visibilité. Il faut donc être extrêmement vigilant et garder un oeil ouvert quand vous scannez votre site pour y détecter d'éventuels problèmes.

Copie de contenu externe : le plagiat

Lorsque l'on évoque la question du contenu dupliqué, Le plagiat est certainement ce qui vient spontanément à l'esprit de la plupart des gens. Le plagiat se caractérise lorsqu'un site reprend tout ou partie du contenu d'un autre site, et le recopie tel quel. C'est le cas le plus flagrant de duplication de contenu. Cela se produit le plus souvent lorsque les scraper sites utilisent des scripts pour republier automatiquement le contenu des principaux sites de médias.

Contrairement aux idées reçues, il ne faut pas confondre le plagiat avec le fait de parler d'un même sujet qu'un autre site en utilisant vos propres termes.

Manipulation des moteurs de recherche [Duplication de contenus interne au site]

On parle ici de duplication de contenus interne au site. C'est à dire que l'on cherche à manipuler les résultats des moteurs de recherche en reprenant le contenu déjà publié et en dupliquant tout ou partie de ce contenu dans le but de produire plus de contenu sans effort supplémentaire. Le cas le plus fréquent est la duplication des fiches produit sur un site e-commerce.

Balises titre ou description similaires

Avoir des balises titre et/ou les meta description en double est une chose beaucoup plus fréquente, et bien plus pardonnable. Comme ces éléments ne sont pas directement visibles par l'internaute, ils n'interfèrent pas avec son expérience utilisateur sur le site. Pourtant, avoir plusieurs balises titre et meta description similaires peut être très mal perçu par Google. Le moteur de recherche trouvant plusieurs pages avec les mêmes descriptions ne saura laquelle afficher dans les résultats. Dans ce cas, il ignorera purement et simplement ces pages.

Multiples URL pour un même contenu

On parle d’URL canonique pour désigner l’adresse officielle d'une page web, celle qu'il est préférable d'utiliser pour accéder au contenu correspondant. Il arrive parfois d'avoir un contenu qui soit accidentellement associée à deux URL distinctes et qui ne sont donc pas correctement canonisées. Dans cette configuration, Google considérera que vous avez deux pages distinctes mais avec un contenu identique, ce qui pourrait être pénalisé.

Traquer et éliminer le contenu dupliqué

Comme nous allons le voir maintenant, il existe plusieurs solutions pour détecter la présence de contenu dupliqué dans les pages de votre site. Vous avez également plusieurs solutions à votre disposition pour nettoyer vos pages.

Comment identifier le contenu dupliqué ?

Pour détecter la présence de contenu dupliqué sur votre site, vous pouvez commencer par :

  • vérifier le contenu de vos balises titre et description dans Joomla,
  • Vous pouvez également vous servir de Google Search Console pour explorer votre site. Dans la rubrique Apparence dans les résultats de recherche, en cliquant sur Améliorations HTML, vous aurez la liste complète des balises titre et les meta descriptions présentes en double sur votre site. Vous pourrez également télécharger cette liste.

Eliminer les problèmes

Heureusement, Google est plutôt indulgent lorsqu'il s'agit de contenu dupliqué. Si vous avez quelques cas présents sur votre site, le moteur de recherche comprendra probablement que vous n'essayez pas de manipuler votre classement ou de berner vos visiteurs. Vous pouvez éventuellement faire face à une baisse de votre visibilité dans les résultats de recherche mais vous ne disparaitrez pas complètement. Et si vous corrigez les problèmes de duplicate content détectés sur votre site, vous retrouverez rapidement vos positions dans les pages des résultats de recherche.

Sachez que dans le milieu du référencement, on s’accorde sur un ratio autorisé de 30% de duplicate content sur la page. Pour ma part, je serai tenté de vous conseiller de rester en dessous d’un taux de 10%.

Avoir des balises uniques

En fonction des résultats de vous indiquera Google Search Console, il vous faudra reprendre toutes les balises titre et toutes les meta description ayant un contenu identique. Je le rappelle, chaque balise titre doit présenter le cotenu d ela page et chaque meta description doit décrire le contenu de la page correspondante. En aucun cas, vous ne devez avoir deux balises identiques. Pour travailler efficacement, je vous encourage à télécharger la liste des balises titre et description nécessitant une intervention de votre part. Ce fichier se présentant sous la forme d’un tableur, cela vous sera très utile pour suivre votre travail de nettoyage.

Réécrire lorsque cela est possible

C'est sans doute la façon la plus simple de prendre en charge le problème, mais c'est aussi celle qui vous demandera le plus de temps. Malheureusement, comme avec les doublons des meta description, dans de nombreux cas, ce sera la seule façon de résoudre le problème. Sinon, vous devrez supprimer le texte entièrement ou le réécrire totalement pour être certain d'avoir un contenu parfaitement original.

Restructurer vos URL

Les erreurs de duplicate content peuvent aussi être liées au fait que Google voit une page comme étant plusieurs pages. Cela peut être réglé en clarifiant la structure de vos URL. Par exemple, Google voit monsite.fr/ et monsite.com/?sessionid=10 comme deux pages différentes alors que vos utilisateurs n'en voient qu'une seule. Choisissez un format uniforme pour toutes vos URL.

Par ailleurs, votre site est-il accessible avec ou sans les www dans l’URL ? Pour éviter qu’il soit accessible depuis les deux adresses (ce qui est un cas flagrant de duplicate content), je vous invite à lire le tutoriel Le nom de domaine avec ou sans www qui vous donnera la marche à suivre pour régler ce problème.

La page d’accueil de votre site ne doit être accessible qu’avec une seule adresse URL. C’est-à-dire que vous ne pouvez avoir monsite.fr/, monsite.fr monsite.fr/index.html ou encore monsite.fr/index.php ! Pour corriger ce genre de problème, il faut impérativement établir une redirection permanente pour toutes les URL non désirées vers la seule qui soit valide.

Je vous invite à lire l’article Domptez la redirection 301 qui vous sera d’un grand secours en cas de besoin.

Faire réexaminer son site

Une fois que vous avez résolu les différents problèmes, demandez un réexamen de votre site à Google Search Console et Bing Webmaster Tools.

Si vous êtes intervenus sur les URL de votre site, vous devrez obligatoirement resoumettre votre fichier sitemap.xml à Google Search Console et à Bing Webmaster Tools afin que les moteurs de recherche prennent en compte toutes vos modifications.

Conclusion

Ne soyez pas étonné si il faut un certain temps pour retrouver vos positions dans les résultats de recherche. En effet, les moteurs de recherche prennent parfois plusieurs jours voire plusieurs semaines pour ré-analyser votre site. Une fois que votre première analyse sera terminée, je vous recommandé de vérifier votre site régulièrement pour vous assurer qu'aucun autre problème de duplicate content n'ait surgi. Vous devez rester vigilant et prendre immédiatement les mesures pour minimiser les éventuelles conséquences.

N'hésitez surtout pas à intervenir dans les commentaires pour partager votre expérience et pour poser vos questions sur le sujet. A tout de suite !

Daniel Dubois - auteur à web-eau.net

A propos de Daniel

Passionné par le Web depuis 2007, Daniel défend la veuve et l'orphelin du web en créant des sites respectueux du W3C. Fort de son expérience, il partage ses connaissances dans un état d'esprit open source. Très impliqué en faveur du CMS Joomla depuis 2014, il est également conférencier et fondateur du Joomla User Group Breizh.

web-eau.net

29800 Landerneau

06 74 50 27 99

daniel@web-eau.net