Crawl Budget: les problèmes les plus communs et leurs solutions

Le Crawl Budget est un concept SEO très avancé. Google a un temps limité qu’il est prêt à consacrer à l’exploration de votre site web; donc si vous rencontrez des problèmes d’indexation, ou si vous voulez optimiser ce temps pour améliorer votre référencement, c’est un sujet dont vous devriez vous préoccuper à 1000%.

Commençons par la définition de cette notion si importante pour le référencement de votre site web.

Qu’est-ce qu’un Crawl Budget?

Alors, qu’est-ce que le Crawl budget ? Le crawl budget fait référence au temps que Google est prêt à consacrer à l’exploration d’un site web donné.

Bien qu’il semble que Google soit en quelque sorte tout-puissant; ses ressources sont limitées et le Web est vaste. Ils doivent donc établir des priorités d’une manière ou d’une autre et allouer un certain temps ou des ressources pour explorer un site Web donné.

Maintenant, ils priorisent en fonction de la popularité des sites auprès de leurs utilisateurs et en fonction de la fraîcheur du contenu; car Googlebot a en quelque sorte soif de nouvelles URL inédites.

Pourquoi le Crawl Budget est-il si important pour le seo?

pourquoi le crawl budget est important pour le référencement

C’est important car il permet aux robots crawler de trouver les pages d’un site Web et garantit que le nouveau contenu est identifié et indexé rapidement.

Si Google n’indexe pas une page, elle ne sera classée nulle part et pour rien.

Ainsi, si votre nombre de pages dépasse le Crawl budget de votre site, vous allez avoir des pages sur votre site qui ne sont pas indexées.

Il est donc important de s’assurer que les pages de votre site Web sont trouvées par des robots/araignées et ensuite indexées pour lui donner une chance équitable de se classer sur Google.

Comment fonctionne un Crawler ?

Une araignée rampante est beaucoup moins effrayante que son équivalent réel. Les robots d’exploration sont en fait très utiles aux propriétaires de pages Web et aux utilisateurs finaux.

Ils travaillent en parcourant le net, en sautant de lien en lien, à la recherche de contenu mis à jour ou de nouvelles pages Web.

Lorsqu’ils trouvent une nouvelle page, par exemple, ils copient les informations du site et les stockent dans l’index. L’algorithme de Google traite ensuite ces informations.

Les principales causes des problèmes du Crawl Budget

les principales causes de problèmes de Crawl Budget

Alors, comment les problèmes de Crawl Budget surviennent-ils ?

Les facettes ou facets

Le principal type de problèmes sur les sites qui peuvent entraîner des problèmes dans ce concept sont d’abord les facettes.

Imaginez que nous ayons une page d’ordinateurs portables. Nous pourrions peut-être filtrer cela par taille. Vous avez un écran de 15 pouces et 16 gigaoctets de RAM.

Il peut y avoir beaucoup de permutations différentes qui pourraient conduire à un très grand nombre d’URL alors qu’en réalité nous n’avons qu’une seule page ou une seule catégorie en y réfléchissant – la page des ordinateurs portables.

De même, celles-ci pourraient ensuite être réorganisées pour créer d’autres URL qui font exactement la même chose mais doivent être explorées séparément.

De même, ils peuvent être triés différemment. Il pourrait y avoir une pagination et ainsi de suite. Vous pourriez donc avoir une page de catégorie générant un grand nombre d’URL.

Pages de résultats de recherche

Ce qui se produit aussi souvent c’est la génération de multiples pages de résultat suite à une requête de recherche en interne sur un site web. Ces pages de résultats de recherche de site interne peuvent souvent, surtout si elles sont paginées, avoir beaucoup d’URL différentes générées.

Pages d’annonces

Si vous autorisez les utilisateurs à télécharger leurs propres annonces ou contenus, cela peut au fil du temps devenir un nombre énorme d’URL si vous pensez à un site d’emploi ou quelque chose comme eBay et qu’il a probablement un grand nombre de pages.

Comment résoudre les problèmes du Crawl Budget

les solutions adaptées aux problèmes de Crawl Budget

Alors, quels sont certains des outils que vous pouvez utiliser pour résoudre ces problèmes et tirer le meilleur parti de votre Crawl Budget?

Donc, comme base, si nous pensons à la façon dont une URL normale se comporte avec Googlebot; oui, elle peut être explorée, oui, elle peut être indexée, et oui, elle passe PageRank.

Donc, une URL comme celle-ci, avec un lien qui pointe dessus quelque part sur mon site, puis que Google suit ce lien et indexe ces pages, celles-ci ont probablement toujours la navigation supérieure et la navigation à l’échelle du site.

Ainsi, le lien réellement transmis vers ces pages sera en quelque sorte recyclé. Il y aura des pertes dues à la dilution lorsque nous établirons des liens à travers tant de pages différentes et tant de filtres différents. Mais en fin de compte, nous recyclons cela.

Il n’y a aucune sorte de perte de trou noir de PageRank qui fuit.

Robots.txt

Maintenant, à l’extrême opposé, le type de solution le plus extrême pour analyser le budget que vous pouvez utiliser est le fichier robots.txt.

Ainsi, si vous bloquez une page dans robots.txt, elle ne peut pas être explorée. Super, problème résolu. Eh bien, non, car il y a des compromis ici. Techniquement, les sites et pages bloqués dans robots.txt peuvent être indexés.

Vous voyez parfois des sites apparaître ou des pages apparaître dans les SERP avec cette méta description ne peuvent pas être affichées car la page est bloquée dans robots.txt ou ce type de message.

Donc, techniquement, ils peuvent être indexés, mais fonctionnellement, ils ne seront pas classés pour quoi que ce soit ou du moins quoi que ce soit d’efficace. Alors oui, eh bien, en quelque sorte techniquement.

Ils ne passent pas le PageRank. Nous transmettons toujours le PageRank lorsque nous établissons un lien vers une page comme celle-ci. Mais s’il est ensuite bloqué dans robots.txt, le PageRank ne va pas plus loin.

Nous avons donc en quelque sorte créé une fuite et un trou noir. Il s’agit donc d’une solution assez lourde, bien qu’elle soit facile à mettre en œuvre.

Link-level Nofollow

Nofollow au niveau des liens, donc je veux dire par là que si nous prenions nos liens sur la page principale de la catégorie des ordinateurs portables; qui pointaient vers ces facettes, et que nous mettions un attribut nofollow en interne sur ces liens, cela aurait des avantages et des inconvénients.

Un meilleur cas d’utilisation pour cela serait en fait plus dans le cas des listes. Alors imaginez si nous gérons un site Web de voitures d’occasion; où nous avons des millions de listes de produits de voitures d’occasion différentes. Maintenant, nous ne voulons pas vraiment que Google perde son temps sur ces listes individuelles, peut-être en fonction de l’échelle de notre site.

Mais parfois, une célébrité peut télécharger sa voiture ou quelque chose comme ça, ou une voiture très rare peut être téléchargée et cela commencera à obtenir des liens médiatiques.

Nous ne voulons donc pas bloquer cette page dans robots.txt car ce sont des liens externes que nous gaspillerions dans ce cas. Donc, ce que nous pourrions faire, c’est que sur nos liens internes vers cette page, nous pourrions ne pas suivre le lien en interne.

Cela signifierait donc qu’il peut être exploré, mais seulement s’il est trouvé, uniquement si Google le trouve d’une autre manière, donc via un lien externe ou quelque chose comme ça.

Nous avons donc en quelque sorte une maison de transition ici. Maintenant, techniquement, le nofollow de nos jours est un indice. Google n’explorera pas les pages qui ne sont liées que par un nofollow interne.

S’il trouve la page d’une autre manière, il continuera évidemment à l’explorer. Mais d’une manière générale, cela peut être efficace comme moyen de restreindre le budget de crawl ou devrais-je dire plus efficacement en utilisant le budget de crawl. La page peut encore être indexée.

No index nofollow

Noindex et nofollow, c’est donc évidemment une solution très courante pour des pages comme celles-ci sur les sites e-commerce.

Maintenant, dans ce cas, la page peut être explorée. Mais une fois que Google arrive sur cette page, il découvre qu’il s’agit d’un noindex, et il l’explorera beaucoup moins au fil du temps, car il est en quelque sorte moins utile d’explorer une page sans index. Encore une fois, nous avons une sorte de maison de transition ici.

Évidemment, il ne peut pas être indexé. C’est pas d’index. Il ne passe pas PageRank vers l’extérieur. Le PageRank est toujours transmis à cette page, mais comme il y a un nofollow dans la section d’en-tête, il ne transmet pas le PageRank vers l’extérieur.

Ce n’est pas une excellente solution. Nous avons des compromis que nous avons dû réaliser ici pour économiser sur le budget de crawl.

No index, follow

Donc, beaucoup de gens pensaient que la solution à cela serait d’utiliser un suivi sans index comme une sorte de meilleur des deux.

Donc, vous mettez une balise de suivi noindex dans la section d’en-tête de l’une de ces pages, tout le monde est gagnant car nous bénéficions toujours du même type d’avantage en matière d’exploration.

Nous n’indexons toujours pas ce type de nouvelle page en double, que nous ne voulons pas indexer, mais la solution PageRank est corrigée.

Eh bien, il y a quelques années, Google a déclaré : « Oh, nous ne l’avions pas réalisé nous-mêmes, mais en fait, à mesure que nous explorons cette page de moins en moins au fil du temps, nous cesserons de voir le lien, puis il gagnera en quelque sorte » ça compte. » Donc, ils ont en quelque sorte laissé entendre que cela ne fonctionnait plus comme un moyen de continuer à passer le PageRank, et qu’il finirait par être traité comme un noindex et un nofollow. Encore une fois, nous avons là une sorte de solution légèrement compromise.

Canonique

Maintenant, le vrai meilleur de tous les mondes pourrait alors être canonique. Avec la balise canonique, elle sera toujours un peu moins explorée au fil du temps.

Il ne sera toujours pas indexé et il passe toujours PageRank.

Cela semble parfait dans beaucoup de cas. Mais cela ne fonctionne que si les pages sont suffisamment proches des doublons pour que Google soit prêt à les considérer comme des doublons et à respecter le canonique.

S’ils ne sont pas disposés à les considérer comme des doublons, vous devrez peut-être revenir à l’utilisation du noindex.

Ou si vous pensez en fait qu’il n’y a aucune raison pour que cette URL existe; je ne sais pas comment cette mauvaise combinaison d’ordre s’est produite, mais cela semble assez inutile.

301

Je ne ferai plus de lien dessus. Mais au cas où certaines personnes trouveraient encore l’URL d’une manière ou d’une autre, nous pourrions utiliser un 301 comme une sorte d’économie qui finira par fonctionner assez bien pour … Je dirais même mieux que canonique et noindex pour économiser le Crawl Budget.

Cela va résoudre notre problème d’indexation, et ça va passer PageRank. Mais évidemment, le compromis ici est que les utilisateurs ne peuvent pas non plus accéder à cette URL, nous devons donc être d’accord avec cela.

Mise en place de tactiques de Crawl Budget

Donc, pour résumer tout cela, comment utiliserions-nous réellement ces tactiques ?

Alors quelles sont les activités recommandées si vous souhaitez avoir un projet de Crawl Budget ?

L’un des moins intuitifs est la vitesse, Google alloue en quelque sorte une quantité de temps ou de ressources pour explorer un site donné. Donc, si votre site est très rapide, si vous avez de faibles temps de réponse du serveur, si vous avez du HTML léger, ils parcourront simplement plus de pages dans le même laps de temps.

C’est donc contre-intuitif une excellente façon d’aborder cela. L’analyse des journaux, c’est en quelque sorte plus traditionnel. Il est souvent assez peu intuitif de savoir quelles pages de votre site ou quels paramètres sapent réellement tout votre Crawl Budget.

L’analyse des journaux sur les grands sites donne souvent des résultats surprenants, c’est donc quelque chose que vous pourriez envisager. Ensuite, en utilisant certains de ces outils.

Donc, les URL redondantes que nous pensons que les utilisateurs n’ont même pas besoin de regarder, nous pouvons envisager le 301.

Variantes que les utilisateurs doivent regarder, nous pourrions envisager une balise canonique ou noindex.

Mais nous pourrions également vouloir éviter de créer des liens vers eux en premier lieu afin de ne pas perdre en quelque sorte un certain degré de PageRank dans ces variantes canonisées ou sans index par dilution ou par une impasse.

Robots.txt et nofollow, ce sont des tactiques que vous voudriez utiliser avec parcimonie car elles créent ces impasses PageRank.

Lire aussi:

Nouveautés

Freelance IT , les meilleurs moyens pour promouvoir votre activité

Freelance IT , les meilleurs moyens pour promouvoir votre activité

Si secteur IT continue à fortement recruter avec +23 000 créations nettes d’emplois recensés en janvier 2024, les entreprises chercheront des talents IT indépendants pour répondre à leurs besoins spécifiques notamment face à l’IA, la cybersécurité et le cloud...

Le marché IT en 2024 : des bonnes perspectives pour le freelancing

Le marché IT en 2024 : des bonnes perspectives pour le freelancing

Au cours de la dernière décennie, dans sa généralité, le marché du travail a radicalement changé face aux innovations technologiques et informatiques, le besoin des entreprises d’innover sans cesse pour se démarquer, les tendances de travail… Si le freelancing...

Lien externe : Guide 2024 pour les débutants

Lien externe : Guide 2024 pour les débutants

Le lien externe, également connus sous le nom de lien sortant, est essentiel à une structure de liens saine sur votre site web. En l’ajoutant à votre contenu, vous pouvez aider votre site web à obtenir de nombreux avantages, mais de nombreuses entreprises n'aiment pas...

SEO copywriting : Pour une stratégie de référencement efficace

SEO copywriting : Pour une stratégie de référencement efficace

Le copywriting est une partie essentielle du marketing de contenu, mais une nouvelle expression qui gagne en popularité est le SEO copywriting. Qu'est-ce que le SEO copywriting ? En quoi diffère-t-il du copywriting et de la rédaction de contenu ? Si vous êtes un...

SEO et SEA : Comment créer une stratégie parfaite en 2024 ?

SEO et SEA : Comment créer une stratégie parfaite en 2024 ?

Les adeptes du SEO et les professionnels du SEA ont toujours eu tendance à travailler séparément sans tenir compte de l'autre. Pourtant, les techniques de SEO ainsi que du SEA sont complémentaires. Les entreprises peuvent obtenir d'excellents résultats en combinant...

Seo checklist : 45 façons d’augmenter votre trafic de recherche

Seo checklist : 45 façons d’augmenter votre trafic de recherche

Si vous voulez augmenter votre trafic de recherche cette année, soyez attentif. Parce que cette Seo checklist va vous montrer 45 façons différentes que vous pouvez augmenter votre trafic de recherche : Les gens aiment rendre le SEO compliqué, mais il ne se résume qu'à...

SEO On Page : Guide 2024 pour optimiser votre site

SEO On Page : Guide 2024 pour optimiser votre site

Au fil des ans, les pratiques du SEO on page, pour la plupart, sont restées les mêmes. Mais les progrès récents dans le domaine du traitement du langage naturel (NLP) et de l'apprentissage automatique (ML) ont aidé Google à mieux comprendre le contenu des sites web et...

Consultant cybersécurité : Guide complet pour 2024

Consultant cybersécurité : Guide complet pour 2024

S'il est une chose sur laquelle nous pouvons être d'accord en ce qui concerne le secteur de la cybersécurité, c'est qu'il a donné naissance à un éventail vertigineux de metiers et spécialisations professions. En passant par les architectes en cybersécurité,...

SEO off page : Meilleures techniques en 2024

SEO off page : Meilleures techniques en 2024

Commençons par un exemple pour vous faciliter la tâche. Vous avez une voiture flambant neuve avec le moteur le plus raffiné... Vous voulez prendre la route et foncer comme le Ghost Rider... Mais vous appuyez sur la pédale d'accélérateur et vous vous apercevez que...

Concepteur de site web freelance : métier, formation et compétences

Concepteur de site web freelance : métier, formation et compétences

Si vous cherchez des conseils sur le metier concepteur de site web, vous trouverez beaucoup d'informations obsolètes. En passant par des  articles recommandant aux intéressés  d'apprendre des technologies qui ne sont plus des normes industrielles dans le domaine de la...

Lire aussi