robot.txt

Robots.txt pour le référencement : votre guide complet

Qu’est-ce que robots.txt et pourquoi est-il important pour l’optimisation des moteurs de recherche (SEO) ? Robot.txt est un ensemble de directives facultatives qui indiquent aux robots d’exploration Web à quelles parties de votre site Web ils peuvent accéder. La plupart des moteurs de recherche, y compris Google, Bing, Yahoo et Yandex, prennent en charge et utilisent le robots.txt pour identifier les pages Web à explorer, indexer et afficher dans les résultats de recherche.

Si vous rencontrez des problèmes pour indexer votre site Web par les moteurs de recherche, votre fichier robots.txt peut être à l’origine du problème. Les erreurs sur le fichier Robots.txt font partie des problèmes techniques de référencement les plus courants qui apparaissent dans les rapports d’audit SEO et entraînent une chute massive des classements de recherche. Même les consultants SEO techniques et les développeurs Web expérimentés sont susceptibles de commettre des erreurs robot.txt.

En tant que tel, il est important que vous compreniez trois choses :

  1. Qu’est-ce que le fichier robots.txt ?
  2. A quoi sert le fichier robots.txt ?
  3. Comment utiliser le fichier robots.txt dans WordPress et d’autres systèmes de gestion de contenu (CMS). 

Cela vous aidera à créer un fichier robots.txt optimisé pour le référencement et facilitera l’exploration et l’indexation de vos pages Web par les spider Web.

Plongeons-nous dans les bases de robots.txt. Poursuivez votre lecture et découvrez comment vous pouvez tirer parti du fichier robots.txt pour améliorer l’exploration et l’indexabilité de votre site Web.

Qu’est-ce que le Robots.txt ?

Robots.txt, également appelé norme ou protocole d’exclusion des robots, est un fichier texte situé à la racine ou dans le répertoire principal de votre site Web. Il sert d’instruction aux spider sur les parties de votre site Web qu’elles peuvent et ne peuvent pas explorer.

Chronologie du Robots.txt

Le fichier robots.txt est une norme proposée par le créateur d’Allweb, Martijn Koster, pour réglementer la manière dont les différents robots des moteurs de recherche et les robots d’exploration accèdent au contenu Web. Voici un aperçu du développement du fichier robots.txt au fil des ans :

En 1994, Koster a créé un spider Web qui a provoqué des attaques malveillantes sur ses serveurs. Pour protéger les sites Web des mauvais robots d’indexation SEO, Koster a développé le robot.text pour guider les robots de recherche vers les bonnes pages et les empêcher d’atteindre certaines zones d’un site Web.

En 1997, un brouillon Internet a été créé pour spécifier les méthodes de contrôle des robots Web à l’aide d’un fichier robots.txt. Depuis lors, robot.txt a été utilisé pour restreindre ou canaliser un robot spider pour sélectionner des parties d’un site Web.

Le 1er juillet 2019, Google a annoncé qu’il travaillait à formaliser les spécifications du protocole d’exclusion des robots (REP) et à en faire une norme Web – 25 ans après la création et l’adoption du fichier robots.txt par les moteurs de recherche.

L’objectif était de détailler des scénarios non spécifiés pour l’analyse et la correspondance de robots.txt afin de s’adapter aux normes Web modernes. Ce brouillon Internet indique que :

  1. Tout protocole de transfert basé sur URI (Uniform Resource Identifier), tel que HTTP, Constrained Application Protocol (CoAP) et File Transfer Protocol (FTP), peut utiliser robot.txt.
  2. Les développeurs Web doivent analyser au moins les 500 premiers kibioctets d’un robot.text pour alléger les contraintes inutiles sur les serveurs.
  3. Le contenu SEO Robots.txt est généralement mis en cache jusqu’à 24 heures pour donner aux propriétaires de sites Web et aux développeurs Web suffisamment de temps pour mettre à jour leur fichier robots.txt.
  4. Les pages non autorisées ne sont pas explorées pendant une période raisonnablement longue lorsqu’un fichier robot.txt devient inaccessible en raison de problèmes de serveur.

Plusieurs efforts de l’industrie ont été faits au fil du temps pour étendre les mécanismes d’exclusion des robots. Cependant, tous les robots d’exploration Web ne prennent pas en charge ces nouveaux protocoles robots.txt. Pour bien comprendre le fonctionnement de robots.text, définissons d’abord le robot d’indexation et répondons à une question importante : comment fonctionnent les robots d’indexation ?

Qu’est-ce qu’un robot d’exploration web et comment fonctionne-t-il ?

Un robot d’exploration de site Web, également appelé robot araignée, robot d’exploration de site ou robot de recherche, est un robot Internet généralement exploité par des moteurs de recherche tels que Google et Bing. Un spider parcourt le Web pour analyser les pages Web et s’assurer que les utilisateurs peuvent récupérer les informations chaque fois qu’ils en ont besoin.

Que sont les robots d’exploration Web et quel est leur rôle dans le référencement technique ? Pour définir le robot d’exploration Web, il est essentiel que vous vous familiarisiez avec les différents types de robots d’exploration de site sur le Web. Chaque robot spider a un but différent :

Les robots des moteurs de recherche

Qu’est-ce qu’un spider de moteur de recherche ? Un bot de moteur de recherche spider est l’un des robots d’exploration SEO les plus couramment utilisés par les moteurs de recherche pour explorer et gratter Internet. Les robots des moteurs de recherche utilisent les protocoles de référencement robots.txt pour comprendre vos préférences d’exploration Web. Connaissant la réponse à ce qu’est un spider de moteur de recherche ? vous donne un avantage pour optimiser votre robot.txt et vous assurer qu’il fonctionne.

Spider commercial

Un robot d’exploration de sites commerciaux est un outil développé par des sociétés de solutions logicielles pour aider les propriétaires de sites Web à collecter des données à partir de leurs propres plateformes ou de sites publics. Plusieurs entreprises fournissent des lignes directrices sur la façon de créer un robot d’exploration Web à cette fin. Assurez-vous de vous associer à une société commerciale d’exploration de sites Web qui maximise l’efficacité d’un robot d’exploration SEO pour répondre à vos besoins spécifiques.

Bot crawler

Un robot d’exploration de site Web personnel est conçu pour aider les entreprises et les particuliers à extraire les données des résultats de recherche et/ou à surveiller les performances de leur site Web. Contrairement à un robot de moteur de recherche spider, un robot d’exploration personnel a une évolutivité et des fonctionnalités limitées. Si vous êtes curieux de savoir comment créer un robot d’exploration de site Web qui effectue des tâches spécifiques pour soutenir vos efforts de référencement technique, consultez l’un des nombreux guides sur Internet qui vous montrent comment créer un robot d’exploration Web qui s’exécute à partir de votre appareil local.

Crawler de site desktop

Un robot d’exploration de bureau s’exécute localement à partir de votre ordinateur et est utile pour analyser de petits sites Web. Cependant, les robots d’exploration de site de bureau ne sont pas recommandés si vous analysez des dizaines ou des centaines de milliers de pages Web. En effet, l’exploration de données sur de grands sites nécessite une configuration personnalisée ou des serveurs proxy qu’un bot d’exploration de bureau ne prend pas en charge.

Bot pour le copyright

Un robot d’exploration de site Web sur le droit d’auteur recherche le contenu qui enfreint la loi sur le droit d’auteur. Ce type de robot de recherche peut être exploité par toute entreprise ou personne qui possède du matériel protégé par le droit d’auteur, que vous sachiez ou non comment créer un robot d’exploration Web.

Pourquoi est-il important de savoir : que sont les robots d’exploration Web ?

Les robots de recherche sont généralement programmés pour rechercher robot.text et suivre ses directives. Cependant, certains robots rampants, tels que les spambotsles moissonneurs d’e-mails et les robots malveillants, ignorent souvent le protocole SEO robots.txt et n’ont pas les meilleures intentions lorsqu’ils accèdent au contenu de votre site.

Qu’est-ce qu’un comportement de robot d’indexation si ce n’est une mesure proactive pour améliorer votre présence en ligne et améliorer votre expérience utilisateur ? En faisant un effort pour comprendre la réponse à ce qu’est un spider de moteur de recherche ? et en quoi il diffère des mauvais crawlers de site, vous pouvez vous assurer que l’araignée d’un bon moteur de recherche peut accéder à votre site Web et empêcher les crawlers SEO indésirables de ruiner votre expérience utilisateur (UX) et vos classements de recherche.

Le 8e rapport annuel sur les mauvais bots d’Imperva montre que les mauvais bots d’exploration Web ont généré 25,6 % de tout le trafic du site en 2020, tandis que les bons spiders SEO n’ont généré que 15,2 % du trafic. Avec les nombreuses activités désastreuses dont les bad spider crawl bots sont capables, telles que la fraude au clic, les prises de contrôle de compte, le scraping de contenu et le spam, il est utile de savoir 1) qu’est-ce qu’un robot d’exploration Web qui est bénéfique pour votre site ? et 2) quels bots devez-vous bloquer lorsque vous créez du texte robot ?

Les spécialistes du marketing devraient-ils apprendre à créer un robot d’exploration de site Web ?

Vous n’avez pas nécessairement besoin d’apprendre à créer un robot d’exploration de site Web. Laissez les aspects techniques du développement d’un robot d’exploration SEO aux sociétés de solutions logicielles et concentrez-vous plutôt sur l’optimisation de vos robots SEO txt.

Comment fonctionnent les robots d’exploration Web ?

Dans ce paysage numérique en évolution rapide, il ne suffit pas de savoir ce qu’est un robot d’indexation pour guider l’optimisation txt de vos robots SEO. Outre « que sont les robots d’indexation ? » vous devez également répondre « comment fonctionnent les robots d’indexation ? » pour vous assurer de créer un texte robot contenant les directives appropriées.

Les spiders de recherche sont principalement programmés pour effectuer des recherches automatiques et répétitives sur le Web afin de créer un index. L’index est l’endroit où les moteurs de recherche stockent les informations Web à récupérer et à afficher sur les résultats de recherche pertinents lors de la requête de l’utilisateur.

Un robot d’exploration Internet suit certains processus et politiques pour améliorer son processus d’exploration de site Web et atteindre sa cible de toile d’araignée.

Alors, comment fonctionne exactement un robot d’indexation ? Nous allons jeter un coup d’œil.

Découvrir les URLLes spider Web commencent à explorer le Web à partir d’une liste d’URL, puis passent entre les liens de page pour explorer les sites Web. Pour améliorer l’exploration et l’indexabilité de votre site, assurez-vous de donner la priorité à la navigabilité de votre site Web, créez un plan de site robots.txt clair et envoyez robot.txt à Google.
Explorer une liste de grainesLes moteurs de recherche fournissent à leurs moteurs de recherche une liste de graines ou d’URL à consulter. Les spider des moteurs de recherche visitent ensuite chaque URL de la liste, identifient tous les liens sur chaque page et les ajoutent à la liste des graines à visiter. Les spider Web utilisent des plans de site et des bases de données d’URL précédemment explorées pour explorer davantage de pages Web sur le Web.
Ajouter à l’indexUne fois que le spider d’un moteur de recherche visite les URL de la liste, elle localise et affiche le contenu, y compris le texte, les fichiers, les vidéos et les images, sur chaque page Web et l’ajoute à l’index.
Mettre à jour l’indexLes spiders des moteurs de recherche tiennent compte des signaux clés, tels que les mots-clés et la pertinence et la fraîcheur du contenu, lors de l’analyse d’une page Web. Une fois qu’un robot d’exploration Internet localise des modifications sur votre site Web, il met à jour son index de recherche en conséquence pour s’assurer qu’il reflète la dernière version de la page Web.

Selon Google, les programmes informatiques déterminent comment explorer un site Web. Ils examinent l’importance et la pertinence perçue, la demande d’exploration et le niveau d’intérêt que les moteurs de recherche et les utilisateurs en ligne ont pour votre site Web. Ces facteurs ont un impact sur la fréquence à laquelle un spider Internet explore vos pages Web.

Comment un robot d’exploration Web fonctionne-t-il et s’assure-t-il que toutes les règles d’exploration Web de Google et les requêtes d’exploration Web sont respectées ?

Pour mieux communiquer avec un spider des moteurs de recherche sur la manière d’explorer un site Web, les fournisseurs de services techniques de référencement et les experts en conception de sites Web WordPress vous conseillent de créer un fichier robots.txt qui indique clairement vos préférences d’exploration de données. Le SEO robots.txt est l’un des protocoles que les spider Web utilisent pour guider leur processus d’exploration du Web Google et d’exploration des données sur Internet.

Comment optimiser un robots.txt pour le SEO ?

Voici à quoi ressemble un Robots.txt SEO par défaut :

robots.txt par défaut

User-agent

La directive user-agent  se rapporte au nom du crawler SEO auquel la commande était destinée. Il s’agit de la première ligne de tout format robots.txt ou groupe de règles.

La commande user-agent utilise un caractère générique ou le symbole *. Cela signifie que la directive s’applique à tous les robots de recherche. Les directives peuvent également s’appliquer à des agents utilisateurs spécifiques.

Chaque crawler SEO a un nom différent. Les robots d’exploration Web de Google sont appelés Googlebot, le robot d’exploration SEO de Bing est identifié comme BingBot et le spider Internet de Yahoo s’appelle Slurp.

# Exemple 1
Agent utilisateur : *
Disallow : /wp-admin/

Dans cet exemple, puisque * a été utilisé, cela signifie que robot.txt empêche tous les agents utilisateurs d’accéder à l’URL.

# Exemple 2
User-agent : Googlebot
Disallow : /wp-admin/

Googlebot a été spécifié en tant qu’agent utilisateur. Cela signifie que tous les moteurs de recherche peuvent accéder à l’URL, à l’exception des robots d’exploration de Google.

# Exemple 3
User-agent : Googlebot
User-agent : Slurp
Disallow : /wp-admin/

L’exemple 3 indique que tous les agents utilisateurs, à l’exception du robot d’exploration Google et de le spider Internet de Yahoo, sont autorisés à accéder à l’URL.

Allow

La commande robots.txt allow indique quel contenu est accessible à l’agent utilisateur. La directive d’autorisation Robots.txt est prise en charge par Google et Bing.

Gardez à l’esprit que le protocole d’ autorisation robots.txt doit être suivi du chemin auquel peuvent accéder les robots d’exploration Google et les autres moteurs de recherche SEO. Si aucun chemin n’est indiqué, les robots d’exploration Google ignoreront la directive d’autorisation robots.txt.

# Exemple 1
Agent utilisateur : *
Autoriser : /wp-admin/admin-ajax.php
Interdire : /wp-admin/

Pour cet exemple, la directive robots.txt allow s’applique à tous les agents utilisateurs. Cela signifie que les robots.txt empêchent tous les moteurs de recherche spider d’accéder au répertoire /wp-admin/ à l’exception de la page /wp-admin/admin-ajax.php 

# Exemple 2 : évitez les directives conflictuelles comme celle
-ci User-agent : *
Allow : /example
Disallow : *.php

Lorsque vous créez une directive robots.txt comme celle-ci, les robots d’exploration Google et les spider de recherche ne savent pas quoi faire avec l’URL http://www.yourwebsite.com/example.php On ne sait pas quel protocole suivre.

Pour éviter les problèmes d’exploration Web de Google, assurez-vous d’éviter d’utiliser des caractères génériques lorsque vous utilisez les directives robot.txt allow et robots disallow ensemble.

Disallow

La commande robots.txt disallow est utilisée pour spécifier les URL qui ne doivent pas être accessibles par les robots d’exploration de Google et les spider d’exploration de sites Web. Comme la commande robots.txt allow, la directive robot.txt disallow doit également être suivie du chemin auquel vous ne voulez pas que les robots d’exploration Google accèdent.

# Exemple 1
Agent utilisateur : *
Disallow : /wp-admin/

Pour cet exemple, la commande robots disallow all empêche tous les agents utilisateurs d’accéder au répertoire /wp-admin/.
La commande robots.txt disallow est utilisée pour spécifier les URL qui ne doivent pas être accessibles par les robots d’exploration de Google et les spider d’exploration de sites Web. Comme la commande robots.txt allow, la directive robots.txt disallow doit également être suivie du chemin auquel vous ne voulez pas que les robots d’exploration Google accèdent.

# Exemple 2
User-agent : *
Disallow :

Cette commande d’interdiction de robots.txt indique à un robot d’exploration Google et à d’autres robots de recherche d’explorer les pages Google du site Web – l’intégralité du site Web – car rien n’est interdit.

Remarque : Même si cette directive d’interdiction des robots ne contient que deux lignes, assurez-vous de respecter le bon format robots.txt. N’écrivez pas user-agent : * Disallow : sur une seule ligne car c’est faux. Lorsque vous créez robots.txt, chaque directive doit figurer sur une ligne distincte.

# Exemple 3
User-agent : *
Disallow : /

Le symbole / représente la racine dans la hiérarchie d’un site Web. Pour cet exemple, la directive robots.txt disallow est équivalente à la commande robots disallow all. En termes simples, vous cachez l’intégralité de votre site Web aux spider de Google et autres robots de recherche.

Remarque : Semblable à l’exemple ci-dessus ( user-agent : * Disallow : ), évitez d’utiliser une syntaxe robots.txt sur une ligne ( user-agent : * Disallow : / ) pour interdire l’accès à votre site Web.

Un format robots.txt comme cet agent utilisateur : * Disallow : / confondrait un robot d’exploration Google et pourrait causer des problèmes d’analyse du robots.txt WordPress.

Plan du site

La commande sitemap robots.txt est utilisée pour diriger les robots d’indexation et les robots d’indexation Google vers le sitemap XML. Le sitemap robots.txt est pris en charge par Bing, Yahoo, Google et Ask.

Quant à savoir comment ajouter un sitemap à robots.txt ? Connaître la réponse à ces questions est utile, surtout si vous voulez qu’un maximum de moteurs de recherche accèdent à votre sitemap.

# Exemple
d’agent utilisateur : *
Interdire : /wp-admin/
Sitemap : https://yourwebsite.com/sitemap1.xml
Sitemap : https://yourwebsite.com/sitemap2.xml

Dans cet exemple, la commande robots disallow indique à tous les robots de recherche de ne pas accéder au /wp-admin/. La syntaxe robots.txt indique également qu’il existe deux plans de site qui peuvent être trouvés sur le site Web. Lorsque vous savez comment ajouter un sitemap à robots.txt, vous pouvez placer plusieurs sitemaps XML dans votre fichier robots.txt.

Délai d’exploration

La directive de délai d’exploration robots.txt est prise en charge par les principaux robots spider. Il empêche un robot d’exploration Google et d’autres moteurs de recherche de surcharger un serveur. La commande robots.txt crawl delay permet aux administrateurs de spécifier la durée d’attente des robots d’indexation et des robots d’exploration Google entre chaque demande d’exploration Google, en millisecondes.

# Exemple
d’agent utilisateur : *
 Disallow : /wp-admin/
Disallow : /calendar/
Disallow : /events/ Agent utilisateur : BingBot
Disallow : /calendar/
Disallow : /events/
Crawl-delay : 10 Plan du site : https://votresiteweb.com/sitemap.xml

Dans cet exemple, la directive de délai d’exploration robots.txt indique aux robots de recherche d’attendre au moins 10 secondes avant de demander une autre URL.

Certaines spider Web, telles que Google Web Crawler, ne prennent pas en charge les commandes de délai d’exploration robots.txt. Assurez-vous d’exécuter votre syntaxe robots.txt sur un vérificateur de robots.txt avant de soumettre robots.txt à Google et à d’autres moteurs de recherche pour éviter les problèmes d’analyse.

Baidu, pour sa part, ne prend pas en charge les directives de délai d’exploration txt des robots, mais vous pouvez utiliser les outils pour les webmasters de Baidu pour contrôler la fréquence d’exploration de votre site Web. Vous pouvez également utiliser Google Search Console (GSC) pour définir le taux d’exploration du robot d’indexation.

Héberger

La directive host indique aux robots de recherche votre domaine miroir préféré ou la réplique de votre site Web hébergé sur un autre serveur. Le domaine miroir est utilisé pour répartir la charge de trafic et éviter la latence et la charge du serveur sur votre site Web.

# Exemple
d’agent utilisateur : *
Interdire : /wp-admin/ Hébergeur : votresiteweb.com

La directive hôte WordPress robots.txt vous permet de décider si vous souhaitez que les moteurs de recherche affichent yourwebsite.com ou www.yourwebsite.com.

Opérateur de fin de chaîne

Le signe $ est utilisé pour indiquer la fin d’une URL et diriger un robot d’exploration Google sur la façon d’explorer un site Web avec des paramètres. Il est placé au bout du chemin.

# Exemple
d’agent utilisateur : *
Disallow : *.html$

Dans cet exemple, la directive robots.txt nofollow indique à un robot d’exploration Google et à d’autres agents utilisateurs de ne pas explorer les URL Google de sites Web qui se terminent par .html

Cela signifie des URL avec des paramètres comme celui-ci https://yourwebsite.com/page. html ?lang=en serait toujours inclus dans la demande d’exploration Google puisque l’URL ne se termine pas après .html 

Commentaires

Les commentaires servent de guide aux spécialistes de la conception et du développement Web et sont précédés du signe #. Ils peuvent être placés au début d’une ligne WordPress robots.txt ou après une commande. Si vous placez des commentaires après une directive, assurez-vous qu’ils sont sur la même ligne.

Tout ce qui suit le # sera ignoré par les robots d’exploration et les spider de recherche de Google.

# Exemple 1 : Bloquer l’accès au répertoire /wp-admin/ pour tous les robots de recherche.
Agent utilisateur : *
Interdire : /wp-admin/
# Exemple 2
User-agent : *#S’applique à tous les spiders de recherche.
Interdire : /wp-admin/#Bloquer l’accès au répertoire /wp-admin/.

A quoi sert le Robots.Txt ?

La syntaxe Robots.txt est utilisée pour gérer le trafic de spider crawl vers votre site Web. Il joue un rôle crucial pour rendre votre site Web plus accessible aux moteurs de recherche et aux visiteurs en ligne.

Vous voulez apprendre à utiliser robots.txt et créer des robots.txt pour votre site Web ? Voici les meilleures façons d’améliorer vos performances SEO avec robots.txt pour WordPress et d’autres CMS :

  1. Évitez de surcharger votre site Web avec l’exploration Web de Google et les requêtes des robots de recherche.
  2. Empêchez les robots d’exploration de Google et les spider de recherche d’explorer les sections privées de votre site Web à l’aide des directives robots.txt nofollow.
  3. Protégez votre site Web contre les mauvais robots.
  4. Maximisez votre budget d’exploration – le nombre de pages que les robots d’exploration peuvent explorer et indexer sur votre site Web dans un délai donné.
  5. Augmentez l’exploration et l’indexabilité de votre site Web.
  6. Évitez le contenu en double dans les résultats de recherche.
  7. Masquez les pages inachevées des robots d’exploration Web et des moteurs de recherche de Google avant qu’elles ne soient prêtes à être publiées.
  8. Améliorez votre expérience utilisateur.
  9. Transmettez l’équité des liens ou le jus des liens vers les bonnes pages.

Le gaspillage de votre budget d’exploration et de vos ressources sur des pages avec des URL de faible valeur peut avoir un impact négatif sur votre capacité d’exploration et votre indexabilité. N’attendez pas que votre site connaisse plusieurs problèmes techniques de référencement et une baisse significative du classement avant de finalement donner la priorité à l’apprentissage de la création de robots.txt pour le référencement.

Maîtrisez l’optimisation Google robots.txt et vous protégerez votre site Web contre les mauvais robots et les menaces en ligne.

Tous les sites Web doivent-ils créer du texte robot ?

Tous les sites Web n’ont pas besoin de créer un fichier robots.txt. Les moteurs de recherche comme Google ont mis en place des systèmes sur la façon d’explorer les pages Google du site Web, et ils ignorent automatiquement les versions en double ou sans importance d’une page.

Cependant, les spécialistes SEO recommandent de créer un fichier robots.txt et de mettre en œuvre les meilleures pratiques robots.txt pour permettre une exploration et une indexation Web plus rapides et meilleures par les robots d’exploration et les moteurs de recherche de Google.

Comme mentionné ci-dessus, savoir comment éditer robots.txt pour le référencement vous donne un avantage significatif. Plus important encore, cela vous donne la tranquillité d’esprit que votre site Web est protégé contre les attaques malveillantes par de mauvais robots.

Emplacement du robots.txt dans WordPress

Prêt à créer robots.txt ? La première étape pour atteindre votre budget cible de toile d’araignée est d’apprendre à trouver robots.txt sur votre site Web. Vous pouvez trouver l’emplacement WordPress robots.txt en accédant à l’URL de votre site et en ajoutant le paramètre /robots.txt 

Par exemple : https://alexandre-flament.fr/robots.txt

Ceci est un exemple de moteur de recherche optimisé et de fichier txt de robots Google. La syntaxe du robots.txt contient le répertoire d’interdiction robots.txt et les commandes robots.txt allow pour guider les robots d’exploration Web de Google et les spider de recherche sur les pages à explorer et à indexer.

Outre les directives robots.txt d’interdiction et d’autorisation, le répertoire robots.txt de Google et des robots de recherche comprend également un plan de site robots.txt pour diriger les robots d’exploration Web vers le plan de site XML et éviter de gaspiller le budget d’exploration de la cible de la toile d’araignée.

Où est le Robots.txt dans WordPress ?

WordPress est considéré comme le CMS le plus populaire et le plus utilisé au monde, alimentant environ 40 % de tous les sites Web sur le Web. Il n’est pas étonnant que de nombreux propriétaires de sites Web souhaitent apprendre à modifier le fichier robots.txt de WordPress. Certains font même appel à des professionnels de la conception Web WordPress pour obtenir de l’aide pour optimiser robots.txt pour WordPress.

Où est robots.txt dans WordPress ? Suivez ces étapes pour accéder à votre fichier WordPress robots.txt :

  1. Connectez-vous à votre tableau de bord WordPress en tant qu’administrateur.
  2. Accédez à « SEO ». 
  3. Cliquez sur « Yoast ». Il s’agit d’un plugin WordPress que vous devez installer sur votre site Web pour modifier WordPress robots.txt et créer des mises à jour robots.txt à tout moment.
  4. Cliquez sur « Éditeur de fichiers ». Cet outil vous permet d’apporter des modifications rapides à vos directives Google robots.txt.
  5. Vous pouvez maintenant afficher votre fichier WordPress robots.txt et modifier le répertoire WordPress robots.txt.

Quant à savoir comment accéder à robots.txt dans WordPress et mettre à jour vos directives d’interdiction de robots.txt pour afficher l’URL restreint par robots.txt ? Suivez simplement le même processus que vous avez utilisé pour déterminer où se trouve robots.txt dans WordPress.

N’oubliez pas de sauvegarder toutes les modifications que vous apportez à votre robots.txt pour WordPress afin de vous assurer que vos commandes robots.txt no index et robots.txt allow sont à jour.

Comment trouver le Robots.txt dans Magento

Outre la question courante de savoir comment accéder à robots.txt dans WordPress, de nombreux propriétaires de sites Web souhaitent également apprendre à accéder, modifier et optimiser Magento robots.txt afin de mieux communiquer aux spider de recherche l’URL restreint par robots.txt.

Magento est une plate-forme de commerce électronique avec PHP intégré conçue pour aider les développeurs Web à créer des sites Web de commerce électronique optimisés pour le référencement. Et comment trouver Magento robots.txt ?

  1. Connectez-vous à votre tableau de bord Magento.
  2. Accédez au « Panneau d’administration », puis cliquez sur « Magasins ».
  3. Allez dans les « Paramètres », puis sélectionnez « Configuration ».
  4. Ouvrez la section « Robots des moteurs de recherche ». Vous pouvez maintenant afficher et modifier votre fichier robots.txt pour déterminer l’URL restreint par robots.txt.
  5. Lorsque vous avez terminé, cliquez sur le bouton « Enregistrer la configuration ».

Qu’en est-il de la création de robots.txt dans Magento ? Le même processus s’applique lorsque vous créez un fichier robots.txt pour Magento. Vous pouvez également cliquer sur le bouton  » Reset to Default  » si vous avez besoin de restaurer les instructions par défaut.

Meilleures pratiques du Robots.txt

Apprendre à accéder à robots.txt dans WordPress et à modifier robots.txt sur diverses plates-formes ne sont que les premières étapes de l’optimisation de vos directives robots.txt no index et robots.txt allow.

Pour guider votre processus d’optimisation du fichier robots.txt, procédez comme suit :

  1. Exécutez des audits réguliers à l’aide d’un vérificateur de robots.txt. Google propose un vérificateur de robots.txt gratuit pour vous aider pour déterminer les problèmes de robots.txt sur votre site Web.
  2. Découvrez comment ajouter un sitemap à robots.txt et l’appliquer à votre fichier robots.txt
  3. Tirez parti du robots.txt bloque toutes les directives pour empêcher les robots de recherche d’accéder à des fichiers privés ou à des pages inachevées sur votre site Web.
  4. Vérifiez les journaux de votre serveur.
  5. Surveillez votre rapport d’exploration sur Google Search Console (GSC) pour identifier le nombre de spider de recherche qui explorent votre site Web. Le rapport GSC affiche le nombre total de demandes d’exploration par réponse, type de fichier, objectif et type de Googlebot.
  6. Vérifiez si votre site Web génère du trafic et des demandes de mauvais bots. Si tel est le cas, vous devez les bloquer à l’aide de robots.txt pour bloquer toutes les directives.
  7. Si votre site Web comporte de nombreuses erreurs 404 et 500 et qu’elles causent des problèmes d’exploration Web, vous pouvez implémenter des redirections 301. Si les erreurs s’aggravent rapidement et atteignent des millions de pages 404 et 500 erreurs, vous pouvez utiliser robots.txt block all directives pour empêcher certains agents utilisateurs d’accéder à vos pages Web et à vos fichiers. Veillez à optimiser votre fichier robots.txt pour résoudre les problèmes d’exploration Web récurrents.
  8. Faites appel à des services techniques professionnels de référencement et à des solutions de développement Web pour implémenter correctement les robots.txt block all, robots.txt allow et d’autres directives sur la syntaxe de votre robots.txt.

Erreurs courantes de Robots.txt que vous devez éviter

Prenez note de ces erreurs courantes lors de la création du fichier robots.txt et assurez-vous de les éviter pour améliorer l’exploration et les performances en ligne de votre site :

❌ Placer les directives robots.txt sur une seule ligne. Chaque directive robots.txt doit toujours figurer sur une ligne distincte pour fournir des instructions claires aux robots d’exploration sur la manière d’explorer un site Web.
Incorrect : User-agent : * Interdire : /
 Incorrect : User-agent : * Interdire :

Échec de l’envoi du fichier robots.txt à Google. Soumettez toujours votre fichier robots.txt mis à jour à Google. Que vous ayez apporté de petites modifications, telles que l’ajout de robots.txt pour refuser toutes les commandes à des agents utilisateurs spécifiques ou que les robots supprimés n’autorisent pas toutes les directives, assurez-vous de cliquer sur le bouton Soumettre. De cette façon, Google sera informé de toutes les modifications que vous avez apportées à votre fichier robots.txt.

Placer les mauvaises directives robots.txt sans index. Cela expose votre site Web au risque de ne pas être exploré par les robots de recherche, de perdre un trafic précieux et, pire, de subir une baisse soudaine du classement de recherche.

Ne pas placer le fichier texte du robot dans le répertoire racine. Placer votre fichier robots.txt dans des sous-répertoires pourrait le rendre introuvable par les robots d’exploration Web.
Incorrect : https://www.votresiteweb.com/assets/robots.txt
Correct : https://www.votresiteweb.com/robots.txt

Une mauvaise utilisation de robots.txt refuse toutes les commandes, caractères génériques, barres obliques finales et autres directives. Exécutez toujours votre fichier robots.txt sur un validateur robots.txt avant de l’enregistrer et de le soumettre à Google et à d’autres moteurs de recherche, afin de ne pas générer d’erreurs robots.txt.

S’appuyer sur le générateur de fichiers robots.txt pour générer le fichier robots.txt. Bien qu’un générateur de fichier robots.txt soit un outil utile, s’appuyer uniquement sur lui sans effectuer de vérifications manuelles sur le robots.txt refuse toutes les directives, robots.txt autorise les commandes et les agents utilisateurs sur votre fichier robots.txt est une mauvaise pratique.Si vous avoir un petit site Web, l’utilisation d’un générateur de fichier robots.txt pour générer robots.txt est acceptable. Mais si vous possédez un site Web de commerce électronique ou offrez de nombreux services, assurez-vous d’obtenir l’aide d’un expert pour créer et optimiser votre fichier robots.txt.

Ignorer les rapports du validateur robots.txt. Un validateur robots.txt est là pour une raison. Alors, optimisez votre vérificateur robots.txt et d’autres outils pour vous assurer que vos efforts d’optimisation de robots.txt pour le référencement sont sur la bonne voie.

Prenez le contrôle de votre budget de crawl

Faire face à l’optimisation de robots.txt et à d’autres problèmes techniques de référencement peut être éprouvant, surtout si vous ne disposez pas des ressources, de la main-d’œuvre et des capacités nécessaires pour effectuer les tâches nécessaires. Ne vous stressez pas en traitant des problèmes de site Web que des professionnels pourraient résoudre rapidement.

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt indique aux robots des moteurs de recherche à quelles URL ils peuvent accéder sur votre site. Son objectif principal est d'éviter de surcharger votre site de requêtes. Il n'est pas utilisé pour empêcher les pages Web d'apparaître dans les résultats de recherche Google.
 

Comment trouver le fichier robots.txt de mon site ?

Le fichier robots.txt doit être placé dans le répertoire racine de l'hébergeur du site Web auquel il fait référence. Par exemple, pour contrôler l'exploration de toutes les URL sous https://alexandre-flament.fr/, robots.txt se trouve à https://alexandre-flament.fr/robots.txt
 

Où trouver le fichier robots.txt ?

Le fichier robots.txt se trouve à la racine de votre site. Par exemple, pour ce site, vous pouvez retrouver ce fichier en suivant ce lien : https://alexandre-flament.fr/robots.txt

1 Comments

Ecrire un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *