Que vous soyez propriétaire d’un site web ou professionnel du référencement, il est essentiel de comprendre le crawling, la manière dont les moteurs de recherche explorent les sites web et les pages web, et comment ils classent (ou décident de ne pas classer) une page pour une certaine requête de recherche.
Le crawling est un processus technique et, pour être honnête, il n’est pas nécessaire d’en comprendre les dessous. Seule la compréhension du concept principal et de ce que vous pouvez faire pour faciliter le crawling de sites Web pour les moteurs de recherche comme Google peut vous aider à rendre votre site Web plus convivial pour les moteurs de recherche, à suivre les meilleures pratiques de référencement et à mieux vous classer dans les pages de résultats des moteurs de recherche (SERP).
Dans cet article, nous aborderons les points suivants :
- Qu’est-ce que le crawling de site web ?
- Les différents types de crawling de sites web
- Quel est l’avenir du crawling de site web en 2043 et au-delà ?
- Comment vous pouvez faciliter le crawling de sites web pour Google.
Sommaire
Qu’est-ce que le crawling ou le web crawling ?
Le crawling est le processus par lequel les moteurs de recherche découvrent des contenus nouveaux et actualisés sur internet. Pour ce faire, les moteurs de recherche envoient des « crawlers » (également appelés « robots » ou « spiders »).
Ces robots « crawling » parcourent internet pour voir s’il existe une nouvelle page qu’ils peuvent indexer dans les SERP. De même, ces robots recherchent également les pages qui ont été récemment mises à jour avec un nouveau contenu.
Le type de « contenu » peut varier : il peut s’agir de pages web, d’images, de vidéos ou de PDF.
Comme vous pouvez l’imaginer, il n’est pas facile de récupérer chaque page web sur internet et de la crawler à la recherche de nouveaux contenus. Cela s’explique par le volume considérable de pages web. En outre, des millions et des millions de nouvelles pages apparaissent chaque jour sur le web.
Cela nécessite beaucoup de ressources informatiques, ce qui peut entraîner des problèmes de durabilité. Nous en reparlerons plus loin dans cet article, de ce que cela signifie pour l’avenir du crawling sur le web, et de l’impact potentiel de cette limitation sur les webmasters et les professionnels du référencement. Pour l’instant, vous devez comprendre comment ces crawlers ou spiders tentent de surmonter ce problème en devenant plus efficaces et comment vous pouvez en tirer parti.
Les robots d’indexation récupèrent généralement quelques pages web et les explorent. Ils suivent ensuite les liens (liens internes et externes) de ces pages web pour trouver de nouvelles URL à explorer et à indexer. Cela permet aux robots d’indexation d’être plus efficaces dans la construction d’une gigantesque base de données d’URL.
C’est pourquoi l’ajout de liens vers les pages de votre site web – en particulier des liens internes contextuels vers d’autres pages – est une pratique recommandée en matière de référencement.
Deux types de crawling du web
Selon Google, il existe deux types de crawling du web :
- La découverte
- Le rafraîchissement
Un travail alternatif des robots Google
« Lorsqu’il s’agit de crawling, nous avons deux types de crawling. L’un est un crawling de découverte où nous essayons de découvrir de nouvelles pages sur votre site web. Et l’autre est un crawling de rafraîchissement où nous mettons à jour les pages existantes que nous connaissons », explique John Mueller de Google.
La fréquence de crawl – outre le type de crawling – dépend également de la fréquence de mise à jour du contenu de votre site ou de votre page web. Par exemple, si la page d’accueil de votre site web est mise à jour plus régulièrement que les autres pages, vous constaterez probablement une activité de crawl plus importante sur cette page.
Et comme nous l’avons expliqué précédemment, les robots de crawling trouveront également des liens sur la page d’accueil et exploreront les pages qu’ils trouvent avec ces liens. Ainsi, un crawling de rafraîchissement (pour la page d’accueil, afin de vérifier s’il y a du nouveau contenu) peut également conduire à un crawling de découverte si un lien vers une nouvelle page est trouvé à cet endroit.
Un dernier point à comprendre à ce sujet est que Googlebot est capable de reconnaître des modèles pour ajuster son refresh crawl en conséquence.
L’importance de la fréquence de la mise à jour
John Mueller, de Google, l’a expliqué à l’aide de l’exemple suivant :
« Par exemple, si vous avez un site web d’actualités et que vous le mettez à jour toutes les heures, alors nous devrions apprendre que nous devons le crawler toutes les heures. Alors que si c’est un site d’actualités qui se met à jour une fois par mois, alors nous devrions apprendre que nous n’avons pas besoin de crawler toutes les heures.
Et ce n’est pas un signe de qualité, ni un signe de classement, ni quoi que ce soit de ce genre. D’un point de vue purement technique, nous avons appris que nous pouvons crawler cette page une fois par jour, une fois par semaine, et c’est très bien. »
Google procède ainsi pour économiser les ressources de crawling. Comme nous l’avons mentionné précédemment, le crawling est un travail difficile et peut prendre beaucoup de ressources de calcul jour après jour. Ce n’est pas une solution durable, d’autant plus qu’Internet ne cesse de croître.
Cela nous amène au point suivant.
L’avenir du crawling du web en 2024 et au-delà
Dans un récent épisode du podcast , l’équipe Search Relations de Google a laissé entendre que Google pourrait réduire le taux de crawling du web afin d’économiser les ressources informatiques et de promouvoir la durabilité. « L’informatique, en général, n’est pas vraiment durable. Nous n’émettons plus de carbone depuis, je ne sais même pas, 2007 ou quelque chose comme ça, mais cela ne veut pas dire que nous ne pouvons pas réduire encore plus notre empreinte sur l’environnement. Et le crawling est l’une des choses pour lesquelles, dès le début, nous avons pu couper quelques fruits à portée de main », a déclaré Gary Illyes, de Google.
Il a expliqué comment Google pourrait atteindre cet objectif de durabilité en réduisant le taux de crawling de rafraîchissement.
« Une chose que nous faisons, et que nous n’aurons peut-être pas besoin de faire autant, ce sont des crawls de rafraîchissement. Cela signifie qu’une fois que nous avons découvert un document, une URL, nous l’explorons, puis, éventuellement, nous allons revenir en arrière et revisiter cette URL. Il s’agit d’un crawling de rafraîchissement. Et chaque fois que nous retournons à cette URL, il s’agit toujours d’un crawl de rafraîchissement. Maintenant, à quelle fréquence devons-nous revenir sur cette URL ? »
Que signifie une réduction du taux de crawling pour les propriétaires de sites web et les spécialistes du référencement ?
La réduction du taux de crawl pour les crawls de rafraîchissement ralentirait probablement l’indexation et les mises à jour des classements pour les pages web mises à jour. Toutefois, cela ne signifie pas nécessairement un moins bon classement dans les moteurs de recherche.
Gary Illyes a confirmé pendant le podcast que « c’est une idée fausse » de penser que « si une page est davantage crawlée, elle sera mieux classée. »
8 conseils pour améliorer le crawling sur votre site web
Maintenant que vous savez ce qu’est le crawling sur le web et quel est son avenir, examinons brièvement quelques conseils que vous pouvez utiliser pour améliorer le crawling sur votre site web.
- Mettez souvent votre contenu à jour. Si vous publiez un article par semaine – sans autre mise à jour de contenu sur votre site web – Google reconnaîtra le schéma et ralentira le crawling d’actualisation de votre site web, comme nous l’avons appris plus tôt.
- Informez Google dès que votre site est mis à jour en soumettant l’URL à la réindexation dans Google Search Console.
- Créez davantage de liens contextuels pertinents à partir de sites web régulièrement crawlés ainsi que de pages web régulièrement crawlées sur votre site.
- Consacrez du temps et des efforts à l’amélioration de la vitesse de chargement de votre site web. Si un site web est trop lent à charger, les robots d’exploration risquent de l’abandonner.
- Ajoutez un plan du site (sitemap) et tenez-le à jour pour aider Google à crawler votre site.
- Réduisez le nombre de pages orphelines sur votre site web. Les pages orphelines sont celles qui n’ont pas de lien pointant vers elles.
- Assurez-vous que votre fichier robots.txt a été configuré correctement et qu’il ne bloque pas l’exploration ou l’indexation de pages ou de répertoires non souhaités.
- Réduisez les chaînes de redirection.
Conclusion
Nous espérons que ce guide du crawling pour débutants vous a été utile. Une chose est sûre : le crawling des sites web est fondamental pour le référencement.
Dans le paysage évolutif du marketing numérique, une compréhension approfondie du crawling et de l’indexation est un outil puissant pour accroître la visibilité et les performances de votre site web. En mettant en œuvre des stratégies de crawling et d’indexation efficaces, vous pouvez améliorer le classement de votre site web dans les moteurs de recherche, offrir une meilleure expérience utilisateur et capitaliser sur le trafic organique. N’oubliez pas que l’optimisation de ces processus nécessite une surveillance et des ajustements constants pour s’aligner sur les mises à jour des algorithmes des moteurs de recherche et les changements de comportement des utilisateurs. Soyez proactif et investissez dans l’amélioration continue des pratiques de crawling et d’indexation de votre site web pour profiter des nombreux avantages qu’elles offrent.