Crawl Budget: les problèmes les plus communs et leurs solutions

Le Crawl Budget est un concept SEO très avancé. Google a un temps limité qu’il est prêt à consacrer à l’exploration de votre site web; donc si vous rencontrez des problèmes d’indexation, ou si vous voulez optimiser ce temps pour améliorer votre référencement, c’est un sujet dont vous devriez vous préoccuper à 1000%.

Commençons par la définition de cette notion si importante pour le référencement de votre site web.

Qu’est-ce qu’un Crawl Budget?

Alors, qu’est-ce que le Crawl budget ? Le crawl budget fait référence au temps que Google est prêt à consacrer à l’exploration d’un site web donné.

Bien qu’il semble que Google soit en quelque sorte tout-puissant; ses ressources sont limitées et le Web est vaste. Ils doivent donc établir des priorités d’une manière ou d’une autre et allouer un certain temps ou des ressources pour explorer un site Web donné.

Maintenant, ils priorisent en fonction de la popularité des sites auprès de leurs utilisateurs et en fonction de la fraîcheur du contenu; car Googlebot a en quelque sorte soif de nouvelles URL inédites.

Pourquoi le Crawl Budget est-il si important pour le seo?

pourquoi le crawl budget est important pour le référencement

C’est important car il permet aux robots crawler de trouver les pages d’un site Web et garantit que le nouveau contenu est identifié et indexé rapidement.

Si Google n’indexe pas une page, elle ne sera classée nulle part et pour rien.

Ainsi, si votre nombre de pages dépasse le Crawl budget de votre site, vous allez avoir des pages sur votre site qui ne sont pas indexées.

Il est donc important de s’assurer que les pages de votre site Web sont trouvées par des robots/araignées et ensuite indexées pour lui donner une chance équitable de se classer sur Google.

Comment fonctionne un Crawler ?

Une araignée rampante est beaucoup moins effrayante que son équivalent réel. Les robots d’exploration sont en fait très utiles aux propriétaires de pages Web et aux utilisateurs finaux.

Ils travaillent en parcourant le net, en sautant de lien en lien, à la recherche de contenu mis à jour ou de nouvelles pages Web.

Lorsqu’ils trouvent une nouvelle page, par exemple, ils copient les informations du site et les stockent dans l’index. L’algorithme de Google traite ensuite ces informations.

Les principales causes des problèmes du Crawl Budget

les principales causes de problèmes de Crawl Budget

Alors, comment les problèmes de Crawl Budget surviennent-ils ?

Les facettes ou facets

Le principal type de problèmes sur les sites qui peuvent entraîner des problèmes dans ce concept sont d’abord les facettes.

Imaginez que nous ayons une page d’ordinateurs portables. Nous pourrions peut-être filtrer cela par taille. Vous avez un écran de 15 pouces et 16 gigaoctets de RAM.

Il peut y avoir beaucoup de permutations différentes qui pourraient conduire à un très grand nombre d’URL alors qu’en réalité nous n’avons qu’une seule page ou une seule catégorie en y réfléchissant – la page des ordinateurs portables.

De même, celles-ci pourraient ensuite être réorganisées pour créer d’autres URL qui font exactement la même chose mais doivent être explorées séparément.

De même, ils peuvent être triés différemment. Il pourrait y avoir une pagination et ainsi de suite. Vous pourriez donc avoir une page de catégorie générant un grand nombre d’URL.

Pages de résultats de recherche

Ce qui se produit aussi souvent c’est la génération de multiples pages de résultat suite à une requête de recherche en interne sur un site web. Ces pages de résultats de recherche de site interne peuvent souvent, surtout si elles sont paginées, avoir beaucoup d’URL différentes générées.

Pages d’annonces

Si vous autorisez les utilisateurs à télécharger leurs propres annonces ou contenus, cela peut au fil du temps devenir un nombre énorme d’URL si vous pensez à un site d’emploi ou quelque chose comme eBay et qu’il a probablement un grand nombre de pages.

Comment résoudre les problèmes du Crawl Budget

les solutions adaptées aux problèmes de Crawl Budget

Alors, quels sont certains des outils que vous pouvez utiliser pour résoudre ces problèmes et tirer le meilleur parti de votre Crawl Budget?

Donc, comme base, si nous pensons à la façon dont une URL normale se comporte avec Googlebot; oui, elle peut être explorée, oui, elle peut être indexée, et oui, elle passe PageRank.

Donc, une URL comme celle-ci, avec un lien qui pointe dessus quelque part sur mon site, puis que Google suit ce lien et indexe ces pages, celles-ci ont probablement toujours la navigation supérieure et la navigation à l’échelle du site.

Ainsi, le lien réellement transmis vers ces pages sera en quelque sorte recyclé. Il y aura des pertes dues à la dilution lorsque nous établirons des liens à travers tant de pages différentes et tant de filtres différents. Mais en fin de compte, nous recyclons cela.

Il n’y a aucune sorte de perte de trou noir de PageRank qui fuit.

Robots.txt

Maintenant, à l’extrême opposé, le type de solution le plus extrême pour analyser le budget que vous pouvez utiliser est le fichier robots.txt.

Ainsi, si vous bloquez une page dans robots.txt, elle ne peut pas être explorée. Super, problème résolu. Eh bien, non, car il y a des compromis ici. Techniquement, les sites et pages bloqués dans robots.txt peuvent être indexés.

Vous voyez parfois des sites apparaître ou des pages apparaître dans les SERP avec cette méta description ne peuvent pas être affichées car la page est bloquée dans robots.txt ou ce type de message.

Donc, techniquement, ils peuvent être indexés, mais fonctionnellement, ils ne seront pas classés pour quoi que ce soit ou du moins quoi que ce soit d’efficace. Alors oui, eh bien, en quelque sorte techniquement.

Ils ne passent pas le PageRank. Nous transmettons toujours le PageRank lorsque nous établissons un lien vers une page comme celle-ci. Mais s’il est ensuite bloqué dans robots.txt, le PageRank ne va pas plus loin.

Nous avons donc en quelque sorte créé une fuite et un trou noir. Il s’agit donc d’une solution assez lourde, bien qu’elle soit facile à mettre en œuvre.

Link-level Nofollow

Nofollow au niveau des liens, donc je veux dire par là que si nous prenions nos liens sur la page principale de la catégorie des ordinateurs portables; qui pointaient vers ces facettes, et que nous mettions un attribut nofollow en interne sur ces liens, cela aurait des avantages et des inconvénients.

Un meilleur cas d’utilisation pour cela serait en fait plus dans le cas des listes. Alors imaginez si nous gérons un site Web de voitures d’occasion; où nous avons des millions de listes de produits de voitures d’occasion différentes. Maintenant, nous ne voulons pas vraiment que Google perde son temps sur ces listes individuelles, peut-être en fonction de l’échelle de notre site.

Mais parfois, une célébrité peut télécharger sa voiture ou quelque chose comme ça, ou une voiture très rare peut être téléchargée et cela commencera à obtenir des liens médiatiques.

Nous ne voulons donc pas bloquer cette page dans robots.txt car ce sont des liens externes que nous gaspillerions dans ce cas. Donc, ce que nous pourrions faire, c’est que sur nos liens internes vers cette page, nous pourrions ne pas suivre le lien en interne.

Cela signifierait donc qu’il peut être exploré, mais seulement s’il est trouvé, uniquement si Google le trouve d’une autre manière, donc via un lien externe ou quelque chose comme ça.

Nous avons donc en quelque sorte une maison de transition ici. Maintenant, techniquement, le nofollow de nos jours est un indice. Google n’explorera pas les pages qui ne sont liées que par un nofollow interne.

S’il trouve la page d’une autre manière, il continuera évidemment à l’explorer. Mais d’une manière générale, cela peut être efficace comme moyen de restreindre le budget de crawl ou devrais-je dire plus efficacement en utilisant le budget de crawl. La page peut encore être indexée.

No index nofollow

Noindex et nofollow, c’est donc évidemment une solution très courante pour des pages comme celles-ci sur les sites e-commerce.

Maintenant, dans ce cas, la page peut être explorée. Mais une fois que Google arrive sur cette page, il découvre qu’il s’agit d’un noindex, et il l’explorera beaucoup moins au fil du temps, car il est en quelque sorte moins utile d’explorer une page sans index. Encore une fois, nous avons une sorte de maison de transition ici.

Évidemment, il ne peut pas être indexé. C’est pas d’index. Il ne passe pas PageRank vers l’extérieur. Le PageRank est toujours transmis à cette page, mais comme il y a un nofollow dans la section d’en-tête, il ne transmet pas le PageRank vers l’extérieur.

Ce n’est pas une excellente solution. Nous avons des compromis que nous avons dû réaliser ici pour économiser sur le budget de crawl.

No index, follow

Donc, beaucoup de gens pensaient que la solution à cela serait d’utiliser un suivi sans index comme une sorte de meilleur des deux.

Donc, vous mettez une balise de suivi noindex dans la section d’en-tête de l’une de ces pages, tout le monde est gagnant car nous bénéficions toujours du même type d’avantage en matière d’exploration.

Nous n’indexons toujours pas ce type de nouvelle page en double, que nous ne voulons pas indexer, mais la solution PageRank est corrigée.

Eh bien, il y a quelques années, Google a déclaré : « Oh, nous ne l’avions pas réalisé nous-mêmes, mais en fait, à mesure que nous explorons cette page de moins en moins au fil du temps, nous cesserons de voir le lien, puis il gagnera en quelque sorte » ça compte. » Donc, ils ont en quelque sorte laissé entendre que cela ne fonctionnait plus comme un moyen de continuer à passer le PageRank, et qu’il finirait par être traité comme un noindex et un nofollow. Encore une fois, nous avons là une sorte de solution légèrement compromise.

Canonique

Maintenant, le vrai meilleur de tous les mondes pourrait alors être canonique. Avec la balise canonique, elle sera toujours un peu moins explorée au fil du temps.

Il ne sera toujours pas indexé et il passe toujours PageRank.

Cela semble parfait dans beaucoup de cas. Mais cela ne fonctionne que si les pages sont suffisamment proches des doublons pour que Google soit prêt à les considérer comme des doublons et à respecter le canonique.

S’ils ne sont pas disposés à les considérer comme des doublons, vous devrez peut-être revenir à l’utilisation du noindex.

Ou si vous pensez en fait qu’il n’y a aucune raison pour que cette URL existe; je ne sais pas comment cette mauvaise combinaison d’ordre s’est produite, mais cela semble assez inutile.

301

Je ne ferai plus de lien dessus. Mais au cas où certaines personnes trouveraient encore l’URL d’une manière ou d’une autre, nous pourrions utiliser un 301 comme une sorte d’économie qui finira par fonctionner assez bien pour … Je dirais même mieux que canonique et noindex pour économiser le Crawl Budget.

Cela va résoudre notre problème d’indexation, et ça va passer PageRank. Mais évidemment, le compromis ici est que les utilisateurs ne peuvent pas non plus accéder à cette URL, nous devons donc être d’accord avec cela.

Mise en place de tactiques de Crawl Budget

Donc, pour résumer tout cela, comment utiliserions-nous réellement ces tactiques ?

Alors quelles sont les activités recommandées si vous souhaitez avoir un projet de Crawl Budget ?

L’un des moins intuitifs est la vitesse, Google alloue en quelque sorte une quantité de temps ou de ressources pour explorer un site donné. Donc, si votre site est très rapide, si vous avez de faibles temps de réponse du serveur, si vous avez du HTML léger, ils parcourront simplement plus de pages dans le même laps de temps.

C’est donc contre-intuitif une excellente façon d’aborder cela. L’analyse des journaux, c’est en quelque sorte plus traditionnel. Il est souvent assez peu intuitif de savoir quelles pages de votre site ou quels paramètres sapent réellement tout votre Crawl Budget.

L’analyse des journaux sur les grands sites donne souvent des résultats surprenants, c’est donc quelque chose que vous pourriez envisager. Ensuite, en utilisant certains de ces outils.

Donc, les URL redondantes que nous pensons que les utilisateurs n’ont même pas besoin de regarder, nous pouvons envisager le 301.

Variantes que les utilisateurs doivent regarder, nous pourrions envisager une balise canonique ou noindex.

Mais nous pourrions également vouloir éviter de créer des liens vers eux en premier lieu afin de ne pas perdre en quelque sorte un certain degré de PageRank dans ces variantes canonisées ou sans index par dilution ou par une impasse.

Robots.txt et nofollow, ce sont des tactiques que vous voudriez utiliser avec parcimonie car elles créent ces impasses PageRank.

Lire aussi:

Nouveautés

Partie 2 : Guide et fiche metiers : pilotage de projets en gestion IT

Partie 2 : Guide et fiche metiers : pilotage de projets en gestion IT

La GEN, grande école du numérique française a classé les professions informatique par familles, afin de montrer les différents domaines métiers dont le besoin en main-d’œuvre est important : communication marketing et gestion digitale, Data et IA, développement test...

Créer une page d’atterrissage : Guide complet 2024

Créer une page d’atterrissage : Guide complet 2024

Créer une page d'atterrissage est un super pouvoir. Maîtrisez-la et vos taux de conversion monteront en flèche, les visiteurs se transformant en clients sous vos yeux. Mais comme toute compétence à effet de levier, elle nécessite de la pratique et les bonnes...

Comment devenir consultant indépendant ? Guide ultime 2024

Comment devenir consultant indépendant ? Guide ultime 2024

Dans l'économie changeante d'aujourd'hui, de nombreuses personnes se sont tournées vers le freelancing pour mieux contrôler leurs finances et vivre la vie qu'elles souhaitent. Devenir consultant indépendant offre un potentiel de rémunération supérieur à la moyenne. Si...

Trouver des missions IT, le Top 5 des stratégies les plus efficaces

Trouver des missions IT, le Top 5 des stratégies les plus efficaces

Si le marché IT est en plein essor comme nous l’avons bien décrit dans notre article : les perspectives du marché IT en 2024 , cette croissance implique aussi une forte concurrence sur le marché du freelancing informatique. La meilleure manière de trouver des missions...

22 choses que nous aurions pu apprendre de la fuite chez Google

22 choses que nous aurions pu apprendre de la fuite chez Google

Avant de commencer, il est important de souligner que le contenu suivant est une traduction adaptée d'un article original en anglais. La source sera indiquée au terme de notre exposé. Cette semaine, des documents ont fait l'objet d'une fuite et sont censés nous donner...

Freelances IT: quels sont les metiers qui recrutent en 2024 ?

Freelances IT: quels sont les metiers qui recrutent en 2024 ?

Les métiers liés au domaine de l’informatique et du numérique sont largement pratiqués par des consultants indépendants. En Europe, c’est près de 25 % d’experts informatiques qui ont choisis de travailler en qualité de freelance IT. Face aux rapides et constantes...

L’architecte d’information, un métier du SEO à part entière

L’architecte d’information, un métier du SEO à part entière

A partir du moment où vous agissez sur la sémantique d’un site, , optimisation du maillage d’un site web ( liens internes) , organisation des menus et tags, vous touchez à l’architecture d’information. Sachez que c’est un métier du SEO à part entière qui comprend les...

Freelancing et collectifs : se regrouper pour être plus fort

Freelancing et collectifs : se regrouper pour être plus fort

Le « solo freelancing est en voie de disparition », c’est un fait, aujourd’hui les indépendants se dirige vers le collectif freelance. C’est une constat réel qui est sortie de l’étude Collective.work et Shine en 2023. Objectifs freelancing collectif Dans leur souhait...

Travailler en freelance IT : Guide de l’indépendant

Travailler en freelance IT : Guide de l’indépendant

Ces dernières années ont ouvert les yeux de nombreuses personnes sur l’option alléchante de travailler en ligne en tant que freelance. L'exercice d'une activité indépendante à partir de n'importe quel endroit disposant d'une connexion Wi-Fi et d'un ordinateur portable...

Lire aussi