Crawl Budget: les problèmes les plus communs et leurs solutions

Le Crawl Budget est un concept SEO très avancé. Google a un temps limité qu’il est prêt à consacrer à l’exploration de votre site web; donc si vous rencontrez des problèmes d’indexation, ou si vous voulez optimiser ce temps pour améliorer votre référencement, c’est un sujet dont vous devriez vous préoccuper à 1000%.

Commençons par la définition de cette notion si importante pour le référencement de votre site web.

Qu’est-ce qu’un Crawl Budget?

Alors, qu’est-ce que le Crawl budget ? Le crawl budget fait référence au temps que Google est prêt à consacrer à l’exploration d’un site web donné.

Bien qu’il semble que Google soit en quelque sorte tout-puissant; ses ressources sont limitées et le Web est vaste. Ils doivent donc établir des priorités d’une manière ou d’une autre et allouer un certain temps ou des ressources pour explorer un site Web donné.

Maintenant, ils priorisent en fonction de la popularité des sites auprès de leurs utilisateurs et en fonction de la fraîcheur du contenu; car Googlebot a en quelque sorte soif de nouvelles URL inédites.

Pourquoi le Crawl Budget est-il si important pour le seo?

pourquoi le crawl budget est important pour le référencement

C’est important car il permet aux robots crawler de trouver les pages d’un site Web et garantit que le nouveau contenu est identifié et indexé rapidement.

Si Google n’indexe pas une page, elle ne sera classée nulle part et pour rien.

Ainsi, si votre nombre de pages dépasse le Crawl budget de votre site, vous allez avoir des pages sur votre site qui ne sont pas indexées.

Il est donc important de s’assurer que les pages de votre site Web sont trouvées par des robots/araignées et ensuite indexées pour lui donner une chance équitable de se classer sur Google.

Comment fonctionne un Crawler ?

Une araignée rampante est beaucoup moins effrayante que son équivalent réel. Les robots d’exploration sont en fait très utiles aux propriétaires de pages Web et aux utilisateurs finaux.

Ils travaillent en parcourant le net, en sautant de lien en lien, à la recherche de contenu mis à jour ou de nouvelles pages Web.

Lorsqu’ils trouvent une nouvelle page, par exemple, ils copient les informations du site et les stockent dans l’index. L’algorithme de Google traite ensuite ces informations.

Les principales causes des problèmes du Crawl Budget

les principales causes de problèmes de Crawl Budget

Alors, comment les problèmes de Crawl Budget surviennent-ils ?

Les facettes ou facets

Le principal type de problèmes sur les sites qui peuvent entraîner des problèmes dans ce concept sont d’abord les facettes.

Imaginez que nous ayons une page d’ordinateurs portables. Nous pourrions peut-être filtrer cela par taille. Vous avez un écran de 15 pouces et 16 gigaoctets de RAM.

Il peut y avoir beaucoup de permutations différentes qui pourraient conduire à un très grand nombre d’URL alors qu’en réalité nous n’avons qu’une seule page ou une seule catégorie en y réfléchissant – la page des ordinateurs portables.

De même, celles-ci pourraient ensuite être réorganisées pour créer d’autres URL qui font exactement la même chose mais doivent être explorées séparément.

De même, ils peuvent être triés différemment. Il pourrait y avoir une pagination et ainsi de suite. Vous pourriez donc avoir une page de catégorie générant un grand nombre d’URL.

Pages de résultats de recherche

Ce qui se produit aussi souvent c’est la génération de multiples pages de résultat suite à une requête de recherche en interne sur un site web. Ces pages de résultats de recherche de site interne peuvent souvent, surtout si elles sont paginées, avoir beaucoup d’URL différentes générées.

Pages d’annonces

Si vous autorisez les utilisateurs à télécharger leurs propres annonces ou contenus, cela peut au fil du temps devenir un nombre énorme d’URL si vous pensez à un site d’emploi ou quelque chose comme eBay et qu’il a probablement un grand nombre de pages.

Comment résoudre les problèmes du Crawl Budget

les solutions adaptées aux problèmes de Crawl Budget

Alors, quels sont certains des outils que vous pouvez utiliser pour résoudre ces problèmes et tirer le meilleur parti de votre Crawl Budget?

Donc, comme base, si nous pensons à la façon dont une URL normale se comporte avec Googlebot; oui, elle peut être explorée, oui, elle peut être indexée, et oui, elle passe PageRank.

Donc, une URL comme celle-ci, avec un lien qui pointe dessus quelque part sur mon site, puis que Google suit ce lien et indexe ces pages, celles-ci ont probablement toujours la navigation supérieure et la navigation à l’échelle du site.

Ainsi, le lien réellement transmis vers ces pages sera en quelque sorte recyclé. Il y aura des pertes dues à la dilution lorsque nous établirons des liens à travers tant de pages différentes et tant de filtres différents. Mais en fin de compte, nous recyclons cela.

Il n’y a aucune sorte de perte de trou noir de PageRank qui fuit.

Robots.txt

Maintenant, à l’extrême opposé, le type de solution le plus extrême pour analyser le budget que vous pouvez utiliser est le fichier robots.txt.

Ainsi, si vous bloquez une page dans robots.txt, elle ne peut pas être explorée. Super, problème résolu. Eh bien, non, car il y a des compromis ici. Techniquement, les sites et pages bloqués dans robots.txt peuvent être indexés.

Vous voyez parfois des sites apparaître ou des pages apparaître dans les SERP avec cette méta description ne peuvent pas être affichées car la page est bloquée dans robots.txt ou ce type de message.

Donc, techniquement, ils peuvent être indexés, mais fonctionnellement, ils ne seront pas classés pour quoi que ce soit ou du moins quoi que ce soit d’efficace. Alors oui, eh bien, en quelque sorte techniquement.

Ils ne passent pas le PageRank. Nous transmettons toujours le PageRank lorsque nous établissons un lien vers une page comme celle-ci. Mais s’il est ensuite bloqué dans robots.txt, le PageRank ne va pas plus loin.

Nous avons donc en quelque sorte créé une fuite et un trou noir. Il s’agit donc d’une solution assez lourde, bien qu’elle soit facile à mettre en œuvre.

Link-level Nofollow

Nofollow au niveau des liens, donc je veux dire par là que si nous prenions nos liens sur la page principale de la catégorie des ordinateurs portables; qui pointaient vers ces facettes, et que nous mettions un attribut nofollow en interne sur ces liens, cela aurait des avantages et des inconvénients.

Un meilleur cas d’utilisation pour cela serait en fait plus dans le cas des listes. Alors imaginez si nous gérons un site Web de voitures d’occasion; où nous avons des millions de listes de produits de voitures d’occasion différentes. Maintenant, nous ne voulons pas vraiment que Google perde son temps sur ces listes individuelles, peut-être en fonction de l’échelle de notre site.

Mais parfois, une célébrité peut télécharger sa voiture ou quelque chose comme ça, ou une voiture très rare peut être téléchargée et cela commencera à obtenir des liens médiatiques.

Nous ne voulons donc pas bloquer cette page dans robots.txt car ce sont des liens externes que nous gaspillerions dans ce cas. Donc, ce que nous pourrions faire, c’est que sur nos liens internes vers cette page, nous pourrions ne pas suivre le lien en interne.

Cela signifierait donc qu’il peut être exploré, mais seulement s’il est trouvé, uniquement si Google le trouve d’une autre manière, donc via un lien externe ou quelque chose comme ça.

Nous avons donc en quelque sorte une maison de transition ici. Maintenant, techniquement, le nofollow de nos jours est un indice. Google n’explorera pas les pages qui ne sont liées que par un nofollow interne.

S’il trouve la page d’une autre manière, il continuera évidemment à l’explorer. Mais d’une manière générale, cela peut être efficace comme moyen de restreindre le budget de crawl ou devrais-je dire plus efficacement en utilisant le budget de crawl. La page peut encore être indexée.

No index nofollow

Noindex et nofollow, c’est donc évidemment une solution très courante pour des pages comme celles-ci sur les sites e-commerce.

Maintenant, dans ce cas, la page peut être explorée. Mais une fois que Google arrive sur cette page, il découvre qu’il s’agit d’un noindex, et il l’explorera beaucoup moins au fil du temps, car il est en quelque sorte moins utile d’explorer une page sans index. Encore une fois, nous avons une sorte de maison de transition ici.

Évidemment, il ne peut pas être indexé. C’est pas d’index. Il ne passe pas PageRank vers l’extérieur. Le PageRank est toujours transmis à cette page, mais comme il y a un nofollow dans la section d’en-tête, il ne transmet pas le PageRank vers l’extérieur.

Ce n’est pas une excellente solution. Nous avons des compromis que nous avons dû réaliser ici pour économiser sur le budget de crawl.

No index, follow

Donc, beaucoup de gens pensaient que la solution à cela serait d’utiliser un suivi sans index comme une sorte de meilleur des deux.

Donc, vous mettez une balise de suivi noindex dans la section d’en-tête de l’une de ces pages, tout le monde est gagnant car nous bénéficions toujours du même type d’avantage en matière d’exploration.

Nous n’indexons toujours pas ce type de nouvelle page en double, que nous ne voulons pas indexer, mais la solution PageRank est corrigée.

Eh bien, il y a quelques années, Google a déclaré : « Oh, nous ne l’avions pas réalisé nous-mêmes, mais en fait, à mesure que nous explorons cette page de moins en moins au fil du temps, nous cesserons de voir le lien, puis il gagnera en quelque sorte » ça compte. » Donc, ils ont en quelque sorte laissé entendre que cela ne fonctionnait plus comme un moyen de continuer à passer le PageRank, et qu’il finirait par être traité comme un noindex et un nofollow. Encore une fois, nous avons là une sorte de solution légèrement compromise.

Canonique

Maintenant, le vrai meilleur de tous les mondes pourrait alors être canonique. Avec la balise canonique, elle sera toujours un peu moins explorée au fil du temps.

Il ne sera toujours pas indexé et il passe toujours PageRank.

Cela semble parfait dans beaucoup de cas. Mais cela ne fonctionne que si les pages sont suffisamment proches des doublons pour que Google soit prêt à les considérer comme des doublons et à respecter le canonique.

S’ils ne sont pas disposés à les considérer comme des doublons, vous devrez peut-être revenir à l’utilisation du noindex.

Ou si vous pensez en fait qu’il n’y a aucune raison pour que cette URL existe; je ne sais pas comment cette mauvaise combinaison d’ordre s’est produite, mais cela semble assez inutile.

301

Je ne ferai plus de lien dessus. Mais au cas où certaines personnes trouveraient encore l’URL d’une manière ou d’une autre, nous pourrions utiliser un 301 comme une sorte d’économie qui finira par fonctionner assez bien pour … Je dirais même mieux que canonique et noindex pour économiser le Crawl Budget.

Cela va résoudre notre problème d’indexation, et ça va passer PageRank. Mais évidemment, le compromis ici est que les utilisateurs ne peuvent pas non plus accéder à cette URL, nous devons donc être d’accord avec cela.

Mise en place de tactiques de Crawl Budget

Donc, pour résumer tout cela, comment utiliserions-nous réellement ces tactiques ?

Alors quelles sont les activités recommandées si vous souhaitez avoir un projet de Crawl Budget ?

L’un des moins intuitifs est la vitesse, Google alloue en quelque sorte une quantité de temps ou de ressources pour explorer un site donné. Donc, si votre site est très rapide, si vous avez de faibles temps de réponse du serveur, si vous avez du HTML léger, ils parcourront simplement plus de pages dans le même laps de temps.

C’est donc contre-intuitif une excellente façon d’aborder cela. L’analyse des journaux, c’est en quelque sorte plus traditionnel. Il est souvent assez peu intuitif de savoir quelles pages de votre site ou quels paramètres sapent réellement tout votre Crawl Budget.

L’analyse des journaux sur les grands sites donne souvent des résultats surprenants, c’est donc quelque chose que vous pourriez envisager. Ensuite, en utilisant certains de ces outils.

Donc, les URL redondantes que nous pensons que les utilisateurs n’ont même pas besoin de regarder, nous pouvons envisager le 301.

Variantes que les utilisateurs doivent regarder, nous pourrions envisager une balise canonique ou noindex.

Mais nous pourrions également vouloir éviter de créer des liens vers eux en premier lieu afin de ne pas perdre en quelque sorte un certain degré de PageRank dans ces variantes canonisées ou sans index par dilution ou par une impasse.

Robots.txt et nofollow, ce sont des tactiques que vous voudriez utiliser avec parcimonie car elles créent ces impasses PageRank.

Lire aussi:

Nouveautés

Campagne netlinking 2023 : Le secret d’une stratégie optimale

Campagne netlinking 2023 : Le secret d’une stratégie optimale

Vous cherchez des conseils pour créer une campagne de création de liens vraiment réussie ? Vous voulez que votre site web soit en tête des classements des moteurs de recherche et qu'il se démarque de la concurrence ? Vous êtes au bon endroit. Dans cet article, nous...

Comment supprimer les spams ? 8 types de liens à éviter en SEO

Comment supprimer les spams ? 8 types de liens à éviter en SEO

Vous êtes-vous déjà demandé pourquoi votre site web n'était pas bien classé malgré la qualité de son contenu ? Il se peut que ce soit à cause des liens que vous avez créés. Comment supprimer les spams en termes de SEO ? Dans cet article, nous vous donnerons des...

Les liens externes bénéfiques pour le SEO ? Le guide 2023

Les liens externes bénéfiques pour le SEO ? Le guide 2023

La création de liens externes est un aspect important du SEO qui peut grandement bénéficier au classement d'un site web dans les moteurs de recherche et à l'expérience utilisateur. En matière d'optimisation des moteurs de recherche (SEO), la création de liens externes...

Business development en 2023 : Stratégie, plan et compétences

Business development en 2023 : Stratégie, plan et compétences

Le Business Development (mot anglais à l’origine) est un domaine très fascinant. Après tout, il s'agit de trouver la meilleure façon de développer une organisation. Il n'y a rien de plus créatif dans le monde des affaires. Il est très gratifiant de rechercher les...

Gestion de projet informatique : Le guide pour réussir sa carrière

Gestion de projet informatique : Le guide pour réussir sa carrière

À la base, les meilleures pratiques en matière de gestion de projet informatique sont identiques à celles des autres secteurs d'activité. Vous devez superviser la portée, les ressources, les délais et le budget d'un projet. Les différences résident principalement dans...

UX Design : Ce qu’il faut savoir, le guide ultime 2023

UX Design : Ce qu’il faut savoir, le guide ultime 2023

L’UX design est partout autour de nous. C'est un secteur en plein essor, les produits numériques occupant une place de plus en plus importante dans la vie des gens. La demande de ce service n'a jamais été aussi forte et ne montre aucun signe de ralentissement. Ce...

Thème WooCommerce WordPress : Top 10 des meilleurs en 2023

Thème WooCommerce WordPress : Top 10 des meilleurs en 2023

WooCommerce est l'une des plateformes de commerce électronique les plus populaires au monde. Lorsque vous utilisez WooCommerce dans WordPress, l'éditeur de blocs facilite la conception de votre boutique en utilisant les blocs natifs de WooCommerce. Parce qu’ils...

Copywriting, voici ce que vous devriez savoir en 2023

Copywriting, voici ce que vous devriez savoir en 2023

Partout où vous reardez, quelqu'un essaie de vous vendre quelque chose - mais vous ne vous en rendez peut-être même pas compte ! À la différence d'un concessionnaire automobile où vous êtes bombardé par un vendeur qui essaie de vous convaincre d'acheter une voiture,...

SEO blog : 11 conseils pour en optimiser le référencement

SEO blog : 11 conseils pour en optimiser le référencement

Optimisez votre contenu pour le SEO, si vous souhaitez que vos articles de blog bénéficient d'un trafic de recherche. Mais cela ne signifie pas qu'il faille y insérer autant de mots-clés que possible. Le bourrage de mots-clés ne fonctionne plus. Comment optimiser...

Consulting marketing digital : Guide 2023 pour devenir expert

Consulting marketing digital : Guide 2023 pour devenir expert

Pour le bon fonctionnement d'une entreprise, il est nécessaire d'avoir un mentor qui puisse montrer la bonne direction. De même, un consultant en marketing digital aide à la promotion, au marketing et à l'analyse des rapports et suggère les meilleures idées pour faire...

Lire aussi