Un discret tueur de sites web, omniprésent, et pourtant peu connu !

Le plagiat et le contenu à fort taux de similarité sont en 2022 l’une des causes principales de déclassement, ou de désindexation de la part de Google.

Voici les quatre cas les plus fréquents qui « tuent » le SEO de certains sites :

  1. Cas d’importation de fiches produits depuis un site centrale de dropshipping (cas endémique en e-commerce)
  2. Cas d’importation de fiches services depuis une centrale de réservation B2B (cas très fréquent dans le tourisme)
  3. Le cas d’importation via flux XML/Webservies depuis des sites d’annonces (cas des annonces immobilières, emplois…)
  4. Cas d’importation via flux RSS depuis des sources d’actualités ce qu’on appelle aussi la syndication de contenus ( cas de blogs et sites d’actualité )

Dans les sites e-commerce, les sites de drop shipping, les sites d’annonces immobilières, les sites de franchisés, le point noir, la carence majeure se situe au niveau du contenu qui n’est pas original, mais partagé par des milliers de sites, et s’apparente pour Google à une soupe populaire réchauffée sans aucun intérêt.

Si votre site a du bon contenu, original, utile, non copié ailleurs; Google vous pardonnera les erreurs et anomalies de code, car votre contenu compense très largement ces faiblesses.

Investir dans du très bon contenu c’est comme investir dans la pierre, c’est un placement sûr et très rentable.

Le travail szr le code, n’est qu’un préalable pour préparer le meilleur écrin qui valorise vos contenus. Si vos contenus sont pauvres ou copiés, alors l’investissement coûteux dans cet écrin ne vous apportera rien du tout. Ce sera une perte sèche car vous auriez fait le quart du chemin ….

Mais avant tout, voici une somme de recommandations officielles de Google contre ce fléau qui appauvrit le web. Preuve que Google prend la problème très au sérieux.

Voici ce que Google entend par contenu dupliqué :

Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques dans la même langue ou sensiblement similaires.

Quelles solutions pour détecter les contenus dupliqués suivez votre guide qui a traduit pour vous un document fort utile

Contenu dupliqué 2022 : Les Solutions recommandées par Google

quel est le meilleur logiciel anti plagiat

 

Mais d’abord, qu’est-ce que le contenu dupliqué ?

Tout contenu qui apparaît à plusieurs endroits sur Internet est considéré comme un contenu dupliqué.

Donc, si vous trouvez le même contenu présent sur deux sites Web ou plus, considérez-le comme un doublon.

Il existe également des cas où le même contenu peut apparaître sur plusieurs pages d’un même site.

Un tel contenu relève également du contenu dupliqué car Google ne sait plus quelle page classer sur les SERP.

Comment trouver du contenu en double sur un site Web ?

Il existe plusieurs outils grâce auxquels vous pouvez détecter le contenu dupliqué.

Nous en avons répertorié quelques-uns ci-dessous :

La solution la plus puissante à ce jour et en plus totalement gratuite :

Texto

meilleur logiciel anti plagiat en ligne

Très précis, il a l’avantage d’être basé sur l’API Google et 100 % gratuit !

Ce logiciel 100% en ligne et gratuit vous permet de vérifier le taux d’originalité d’un texte en deux clics. Tout ce que vous avez à faire est de copier le texte dans la zone et appuyer sur le bouton « Vérifier ».

texto logiciel anti plagiat 100% en ligne

Observations: En vous inscrivant gratuitement, vous bénéficiez des avantages suivants:

  • Vous pouvez vérifier un texte à 2000 mots au lieu de 300
  • Les vérifications journalières sont limitées à 30 au lieu de 3
  • Les vérifications des textes de moins de 500 mots se fait en direct (plus rapide)
  • La vérification des textes de plus de 500 mots se passe en mode différé (ça prend entre 15min et 45 min selon le volume de demandes sur leur serveur).
  • Vous recevez une notification par email dès que la vérification est terminée.
notification de fin d'analyse de texte

Notification reçue sur ma boite email

 

Vous pouvez ensuite consulter le rapport ou le télécharger en format PDF.

rapport logiciel anti plagiat

Très pratique pour consulter les anciens rapports conserver sur mon compte

Siteliner

Siteliner est un outil de référencement freemium qui vous permet d’analyser le contenu dupliqué sur votre site.

La duplication de contenu peut avoir lieu sans le savoir et entraver le classement de votre site.

siteliner page d'accueil

Une situation courante où la duplication de contenu se produit fréquemment est lorsque vous choisissez d’afficher un blog entier sur la page d’accueil de votre blog au lieu de l’extrait.

Cela conduit à la présence du même article de blog sur au moins deux pages différentes du site.

Google ne peut pas faire la différence entre l’article de blog proprement dit et la page de catégorie/tag de votre blog si vous choisissez d’afficher l’intégralité du contenu sur une page de catégorie.

La version gratuite vous permet de vérifier 250 pages tous les 30 jours.

Cependant, la version premium ne comporte aucune limitation.

Sur la page de présentation de l’outil, vous trouverez le pourcentage de contenu dupliqué interne en haut à gauche.

CopyScape

copyscape page d'accueil

CopyScape est un outil populaire pour détecter le contenu en double.

La version gratuite compare le pourcentage total de votre contenu qui correspond au contenu déjà publié ailleurs.

DupliChecker

Cet outil vérifie l’originalité d’un contenu.

Les utilisateurs enregistrés peuvent effectuer jusqu’à 50 recherches par jour.

Petits outils de référencement

Plagiarism Checker de SmallSEOTools vous aide à détecter les doublons dans un contenu.

Grammaire

Grammarly vérifie votre grammaire et votre orthographe en plus de détecter le contenu plagié.

Quel type de contenu est dupliqué?

Il existe différents types de contenu dupliqué, qui peuvent tous ne pas se produire délibérément. Certaines duplications de contenu résultent de certains aspects techniques d’un site Web.

Contenu standard

Le contenu standard est le contenu présent dans différentes pages Web d’un site Web. Par exemple, la page d’accueil de tout site Web se compose de trois éléments principaux : l’en-tête, le pied de page et la barre latérale ou barre de navigation. En plus de ceux-ci, certains sites Web affichent également des publications récentes sur leurs pages d’accueil. Lorsque le bot Google explore ce site Web; il peut trouver ces nouveaux articles de blog présents à plusieurs endroits sur le site Web; ce qui en fait un contenu en double.

Contenu copié/contenu supprimé

Copier le contenu d’un site sans l’autorisation du propriétaire est appelé contenu copié ou du plagiat. Le grattage de contenu consiste à extraire des informations du site Web à l’aide d’une technique logicielle. Il y a encore beaucoup de confusion à propos du scraping de contenu; et Google le pratique également en affichant le contenu sous forme d’extraits en vedette. Cependant, avec la mise à jour Panda, tout type d’activité de scraping est susceptible d’être pénalisé.

Curation contenu

La curation de contenu prend des informations sur le Web et écrit un contenu en utilisant les statistiques et les informations reçues de leur part. Google ne considère pas cela comme du spam ou du plagiat tant que vous réécrivez le contenu dans vos propres mots ou fournissez la source du contenu d’origine d’où il provient.

Syndication de contenu

La syndication de contenu est la méthode permettant de diffuser du contenu sur des sites tiers sous forme d’extraits, de liens ou de contenus complets.

Les sites qui syndiquent le contenu permettent de le publier sur plusieurs sites. Cela signifie que pour une publication syndiquée, plusieurs copies sont disponibles sur le Web. Des sites comme HuffingtonPost et Medium permettent la syndication de contenu.

Le contenu dupliqué affecte-t-il le référencement ?

Pour les moteurs de recherche comme Google et Bing, le contenu dupliqué peut donner lieu à certains problèmes; comme créer de la confusion pour le moteur de recherche quant à la version du contenu à considérer comme originale et à classer pour les requêtes de recherche.

Cela crée également de la confusion parmi les moteurs de recherche lorsqu’il s’agit de déterminer s’il faut diriger les métriques de lien comme l’autorité de confiance, l’équité des liens, etc., vers une page ou les distribuer entre plusieurs versions.

Lorsqu’un site contient du contenu en double, les propriétaires de sites peuvent souffrir d’un mauvais classement en raison de pertes de trafic. Cela se produit principalement parce que les moteurs de recherche sont confus au sujet de plusieurs versions du même contenu et n’en montrent qu’une seule, diluant ainsi la visibilité de chacun des doublons.

Le contenu dupliqué affecte également l’équité du lien, car les autres sites doivent choisir l’une des versions du contenu. Cela conduit à diviser les liens entrants entre plusieurs sites. Les liens entrants étant un facteur de classement, ils peuvent avoir un impact sur la visibilité en ligne du contenu dupliqué pour tous les sites Web où il existe. Le résultat net est l’incapacité du contenu à se classer dans le SERP.

Qu’est-ce qui cause le contenu dupliqué ?

Le contenu dupliqué peut se produire pour de nombreuses raisons, la principale étant technique. Jetons un coup d’œil aux causes courantes ci-dessous :

Mal comprendre le concept d’URL

Dans la base de données CMS qui alimente un site Web, il n’y a probablement qu’un seul article, mais le logiciel du site Web peut permettre de récupérer le même article dans la base de données via plusieurs URL. Pour le CMS, l’article est identifié par un identifiant unique dans la base de données, mais pour les moteurs de recherche, l’URL fait office d’identifiant. Par conséquent, avec plusieurs versions du même contenu présentes dans différentes URL, le problème du contenu en double se pose.

ID de session

Les identifiants de session sont utilisés pour suivre vos visiteurs sur le site et leur permettre de stocker des articles dans leur liste de souhaits ou leur panier. Pour ce faire, vous devez donner à ces utilisateurs des sessions individuelles. Une session est un bref historique des activités que les visiteurs effectuent sur votre site. La manière la plus courante de stocker ces identifiants de session est sous la forme de cookies. Cependant, la plupart des moteurs de recherche ne stockent pas de cookies. Pour cette raison, certains systèmes reviennent à l’utilisation d’ID de session dans l’URL. Cela signifie que chaque lien interne sur le site Web obtient cet ID de session ajouté à son URL. Comme cet ID de session est unique à cette session particulière, il crée une nouvelle URL, ce qui entraîne un contenu en double.

Paramètres d’URL utilisés pour le suivi et le tri

Une autre cause technique de contenu dupliqué est l’utilisation de paramètres d’URL qui ne modifient pas le contenu d’une page. Par exemple, lorsque vous recherchez https://www.example.com/keyword-x/ et https://www.example.com/keyword-x/?source=rss , les deux sont des URL différentes pour la recherche moteur.

Avec cette dernière URL, il vous sera peut-être plus facile de suivre la source à partir de laquelle vos visiteurs sont venus sur le site; mais pour les moteurs de recherche, il s’agit d’un cas de contenu dupliqué.

Scrappers et syndication de contenu

Parfois, les sites Web utilisent le contenu d’un site donné et ne mentionnent pas la source. Dans ce cas, les moteurs de recherche ne savent plus quelle version considérer comme originale et afficher dans les résultats de recherche. Ce type de scraping de contenu peut affecter les deux types de sites : celui qui scrappe le contenu et celui d’où il est scrapé.

Ordre des paramètres

Les CMS n’utilisent pas toujours les URL appropriées, mais les définissent en fonction de la catégorie et de l’ID, tels que /?id=1&cat=2. Pour les autres systèmes de sites Web, si vous entrez /?cat=2&id=1, au lieu de /?id=1&cat=2, ils vous montreront le même résultat, mais pour les moteurs de recherche, ce sont deux URL entièrement différentes. Si votre site diffuse du contenu en double vers différentes URL sans utiliser de paramètres, vous devez définir une distribution canonique plutôt que de bloquer l’exploration pour eux.

Pagination des commentaires

Les CMS, comme WordPress, ont la possibilité de paginer les commentaires. Cela conduit à la duplication du contenu sur une URL d’article et des pages de commentaires.

WWW vs non WWW

C’est l’une des principales causes de contenu dupliqué sur un site Web. Lorsque votre contenu est accessible à la fois dans les versions www et non www, le moteur de recherche le considérera comme un contenu dupliqué. Le même problème se pose également avec le contenu HTTP et HTTPS.

Existe-t-il une pénalité pour contenu dupliqué sur un site Web ?

Le contenu dupliqué est différent du contenu copié (ou du plagiat) en ce qui concerne le contexte. Bien que la copie de contenu soit effectuée consciemment, un contenu en double peut survenir en raison de défauts techniques, comme mentionné ci-dessus. John Mueller de Google a déclaré que le moteur de recherche ne pénalise pas un site pour le contenu dupliqué; mais si vous avez des millions de pages de ce type sur votre site, vous faites appel à des risques.

Google récompense toujours les sites Web avec un contenu original de haute qualité. Si vous essayez de manipuler du contenu existant en le republiant sur votre site, en modifiant quelques phrases ou en utilisant quelques nouveaux mots-clés, cela n’apportera toujours aucune valeur aux utilisateurs.

La chose la plus sûre à faire en tant que propriétaire de site Web pour améliorer votre classement SEO est d’éviter le plagiat en copiant le contenu d’autres sites ou de répéter le contenu de votre propre site Web.

Quelle quantité de contenu dupliqué est acceptable ?

Selon Matt Cutts, 25 à 30 % du Web est constitué de contenu dupliqué. Selon lui, Google ne considère pas le contenu dupliqué comme du spam; et il ne pénalise pas votre site sauf s’il est destiné à manipuler les résultats de recherche.

Le seul problème que vous rencontrez avec le contenu dupliqué est que même si votre site l’a publié initialement, d’autres sites Web qui ont aveuglément fait du plagiat en copiant le contenu peuvent apparaître dans le résultat des requêtes de recherche associées.

Pour empêcher quelqu’un d’utiliser une version copiée de votre contenu, vous pouvez déposer une demande de suppression en vertu du Digital Millennium Copyright Act. Alors que Google essaie de trouver la source d’origine du contenu à afficher dans les résultats de recherche; le blocage de l’accès aux éléments de contenu en double peut entraver la capacité du moteur de recherche à explorer toutes les versions et à filtrer les meilleurs résultats.

Le contenu dupliqué sur une seule page affecte-t-il le référencement ?

Le contenu dupliqué au sein d’une même page n’affecte pas le référencement, à moins qu’il n’entrave l’expérience utilisateur.

Si les utilisateurs reviennent de votre site en raison d’un contenu en double ou ne naviguent pas vers d’autres pages, cela peut être un problème.

Il est préférable de garder un œil sur certaines mesures telles que le temps moyen passé sur le site, le taux de rebond et le taux de sortie.

Ceux-ci peuvent vous aider à analyser si l’expérience utilisateur est affectée en raison de la présence de contenu en double sur une seule page.

Le contenu dupliqué peut-il surpasser l’original ?

Oui. Dans de rares cas, le contenu dupliqué peut surpasser l’original si la page Web ou le site Web a une autorité élevée.

Vous trouverez ci-dessous quelques moyens de corriger le contenu en double.

Comment gérer le contenu dupliqué : les solutions recommandées par Google

Voici quelques moyens pratiques de lutter contre la duplication de contenu sur le Web :

Redirections 301

Si votre site a été restructuré, utilisez des redirections 301 dans vos fichiers .htaccess pour rediriger les utilisateurs, les bots Google et autres spiders. Cela donnera un signal au moteur de recherche concernant l’URL à privilégier par rapport aux autres.

Soyez cohérent et utilisez des domaines de premier niveau

Essayez de garder vos liens internes aussi cohérents que possible. Pour aider Google à proposer la version la plus appropriée d’un élément de contenu, l’utilisation de domaines de premier niveau est fortement recommandée pour gérer le contenu spécifique à un pays.

Syndiquez avec soin

Si vous syndiquez votre contenu sur d’autres sites, Google affichera toujours la version qu’il juge la plus appropriée pour les utilisateurs, qui peut ne pas correspondre à la version que vous préférez personnellement. Il serait utile que votre contenu soit syndiqué sur différents sites avec un lien vers l’article original. Vous pouvez demander à ceux qui utilisent le contenu syndiqué d’utiliser des balises méta noindex pour empêcher les moteurs de recherche comme Google d’indexer leur contenu.

Évitez de publier des talons

Les utilisateurs n’aiment pas voir des pages vierges sans contenu. Cela leur fait perdre du temps et affecte l’expérience utilisateur, ce que Google considère comme très important. Par conséquent, ne publiez pas de pages sur votre site Web sans contenu. Si vous publiez de telles pages, empêchez-les d’être indexées à l’aide de la balise meta noindex.

Comprendre votre CMS

Familiarisez-vous avec votre système de gestion de contenu et comprenez comment le contenu est publié sur votre site. Les blogs et les forums ont souvent tendance à afficher le même contenu dans plusieurs formats. Par exemple, un nouveau billet de blog peut apparaître sur la page d’accueil d’un site Web et également sous la page de catégorie.

Minimiser la similarité du contenu

Si vous avez plusieurs pages similaires, envisagez de rendre chaque élément de contenu unique en ajoutant du contenu précieux ou en les fusionnant en une seule dans la mesure du possible.

Comment résoudre les problèmes de contenu dupliqué sur les pages de produits et de catégories

Les pages de catégorie sont les pages de niveau supérieur qui répertorient tous les produits qui en relèvent sur un site Web.

Les utilisateurs peuvent cliquer sur un lien de produit particulier à partir de la page de catégorie pour visiter la page du produit.

Le problème survient lorsqu’un marchand utilise des descriptions identiques sur les pages de produits et de catégories.

Lorsque quelqu’un recherche quelque chose dans l’extrait de texte identique, vos pages de catégorie et de produit se font concurrence.

Cela pourrait amener Google à diriger davantage de trafic vers la page de catégorie au lieu de la page de produit où vous souhaitez réellement que vos clients atterrissent.

Selon John Mueller, il est toujours judicieux d’utiliser des descriptions uniques dans les pages de catégories et de produits pour aider Google à différencier les deux.

 Votre page de catégorie peut avoir une description générale d’un produit tandis que la page du produit est l’endroit où vous fournirez les détails complets.

Conclusion

Le contenu dupliqué est très répandu sur le Web. Vous devez garder un œil sur votre site Web pour éviter les problèmes de contenu en double sur votre site. Pour le contenu copié de votre site à un autre, vous pouvez toujours intenter une action en justice en vertu de la Loi sur le droit d’auteur. Vous remarquerez une énorme différence dans le classement et les performances de votre site Web simplement en vous débarrassant des problèmes de contenu en double. Alors ne prenez pas de risque mais concentrez-vous sur le développement d’un contenu de qualité pour votre site Web.

Traduction libre depuis l’article original :

https://www.stanventures.com/blog/duplicate-content/

Nouveautés

Freelance IT , les meilleurs moyens pour promouvoir votre activité

Freelance IT , les meilleurs moyens pour promouvoir votre activité

Si secteur IT continue à fortement recruter avec +23 000 créations nettes d’emplois recensés en janvier 2024, les entreprises chercheront des talents IT indépendants pour répondre à leurs besoins spécifiques notamment face à l’IA, la cybersécurité et le cloud...

Le marché IT en 2024 : des bonnes perspectives pour le freelancing

Le marché IT en 2024 : des bonnes perspectives pour le freelancing

Au cours de la dernière décennie, dans sa généralité, le marché du travail a radicalement changé face aux innovations technologiques et informatiques, le besoin des entreprises d’innover sans cesse pour se démarquer, les tendances de travail… Si le freelancing...

Lien externe : Guide 2024 pour les débutants

Lien externe : Guide 2024 pour les débutants

Le lien externe, également connus sous le nom de lien sortant, est essentiel à une structure de liens saine sur votre site web. En l’ajoutant à votre contenu, vous pouvez aider votre site web à obtenir de nombreux avantages, mais de nombreuses entreprises n'aiment pas...

SEO copywriting : Pour une stratégie de référencement efficace

SEO copywriting : Pour une stratégie de référencement efficace

Le copywriting est une partie essentielle du marketing de contenu, mais une nouvelle expression qui gagne en popularité est le SEO copywriting. Qu'est-ce que le SEO copywriting ? En quoi diffère-t-il du copywriting et de la rédaction de contenu ? Si vous êtes un...

SEO et SEA : Comment créer une stratégie parfaite en 2024 ?

SEO et SEA : Comment créer une stratégie parfaite en 2024 ?

Les adeptes du SEO et les professionnels du SEA ont toujours eu tendance à travailler séparément sans tenir compte de l'autre. Pourtant, les techniques de SEO ainsi que du SEA sont complémentaires. Les entreprises peuvent obtenir d'excellents résultats en combinant...

Seo checklist : 45 façons d’augmenter votre trafic de recherche

Seo checklist : 45 façons d’augmenter votre trafic de recherche

Si vous voulez augmenter votre trafic de recherche cette année, soyez attentif. Parce que cette Seo checklist va vous montrer 45 façons différentes que vous pouvez augmenter votre trafic de recherche : Les gens aiment rendre le SEO compliqué, mais il ne se résume qu'à...

SEO On Page : Guide 2024 pour optimiser votre site

SEO On Page : Guide 2024 pour optimiser votre site

Au fil des ans, les pratiques du SEO on page, pour la plupart, sont restées les mêmes. Mais les progrès récents dans le domaine du traitement du langage naturel (NLP) et de l'apprentissage automatique (ML) ont aidé Google à mieux comprendre le contenu des sites web et...

Consultant cybersécurité : Guide complet pour 2024

Consultant cybersécurité : Guide complet pour 2024

S'il est une chose sur laquelle nous pouvons être d'accord en ce qui concerne le secteur de la cybersécurité, c'est qu'il a donné naissance à un éventail vertigineux de metiers et spécialisations professions. En passant par les architectes en cybersécurité,...

SEO off page : Meilleures techniques en 2024

SEO off page : Meilleures techniques en 2024

Commençons par un exemple pour vous faciliter la tâche. Vous avez une voiture flambant neuve avec le moteur le plus raffiné... Vous voulez prendre la route et foncer comme le Ghost Rider... Mais vous appuyez sur la pédale d'accélérateur et vous vous apercevez que...

Concepteur de site web freelance : métier, formation et compétences

Concepteur de site web freelance : métier, formation et compétences

Si vous cherchez des conseils sur le metier concepteur de site web, vous trouverez beaucoup d'informations obsolètes. En passant par des  articles recommandant aux intéressés  d'apprendre des technologies qui ne sont plus des normes industrielles dans le domaine de la...

Lire aussi