Améliorez votre référencement en désindexant votre contenu inutile

comment désindexer des pages de votre site Il y a une règle d’or en référencement : Plus vous facilitez le travail de Google, plus il vous aimera ! ;)

 

Et quel est l’objectif d’un moteur de recherche ?

Explorer votre site afin de proposer le meilleur contenu à ses utilisateurs ! Alors, si vous lui mâchez le travail, en lui indiquant clairement le contenu que vous jugez utile pour les internautes et celui qui ne l’est pas, il vous en sera reconnaissant !

 

 

Alors comment faire ?

Il y a plusieurs méthodes :

le robots.txt : une méthode radicale mais qui fera appel à votre côté geek !
la balise « noindex » : une méthode nettement plus simple mais un peu un moins radicale…

 

1. Le fichier Robots.txt : Définition et mode d’emploi

 

Qu’est ce qu’un fichier robots.txt et à quoi sert-il ?

 

Le fichier robots.txt ne vous dira sans doute rien si vous êtes débutant en webmarketing. Pourtant, ce fichier a 2 graaandes utilités pour votre site !

– La fonction première d’un fichier robots.txt est d’indiquer aux robots des moteurs de recherche (d’où son nom !) ce qu’ils doivent et ce qu’ils ne doivent pas indexer dans votre site.

Les robots des moteurs de recherche sont ces petits robots qui vont explorer votre site, pour ensuite pouvoir le présenter dans leurs pages de résultats. Ces robots consulteront donc votre fichier robots.txt avant d’indexer votre site. Et vous êtes en mesure de leur dire : « Je veux que telle page appraisse dans les moteurs de recherche et telle autre non ! ».

– Deuxièmement, il améliorera votre référencement dans les pages de résultats de Google, et des moteurs de recherche en général, en facilitant son travail d’exploration !

 

Comment savoir si vous avez déjà un fichier robots.txt et comment le visualiser ?

 

Bonne nouvelle ! Normalement, vous n’avez rien à faire pour le mettre en place, il est généré automatiquement à la création de votre site (pour info, il est situé à la racine de votre serveur).

Pour être certain de son existence et le visualiser, vous pouvez vous rendre sur la page d’accueil de votre site, puis tapez : /robots.txt à la fin de l’adresse (URL) de votre site et affichez la page. Par exemple, dans notre cas, ce serait : www.beinweb.fr/robots.txt

 

NB : Si vous ne le trouvez pas, vous pourrez toujours créer votre fichier robots.txt, à l’aide de votre meilleur ami en termes de référencement : Google Webmaster Tools.
> Regardez notre petit tuto ici.
Dans votre compte, allez dans l’onglet « Exploration » puis « outil de test du fichier robots.txt ».

ASTUCE : Toujours sur cette même page (dans la zone du bas), vous pourrez tester les urls de votre site pour savoir si elles sont bien indexées par Google, dans le cas où vous ne les trouvez pas sur les pages de résultats !

 

Comment se présente votre fichier robots.txt ?

 

Par défaut, le fichier robots.txt contient ces 3 informations :

– User-agent : cette ligne indique quel robot (quel moteur de recherche) est concerné.
Le caractère * signifie que cela concerne tous les robots.

– Allow : cette ligne signifie « autorisation ».
Le caractère / signifie que l’on peut accéder à toutes les URLs de votre site.

Vous avez compris, si vous souhaitez que tout le contenu de votre site soit indexé dans les moteurs de recherche, modifier le fichier robots.txt est inutile ! Si vous laissez votre fichier tel quel, vous indiquerez aux robots des moteurs de recherche que vous souhaitez que tout votre contenu soit systématiquement indexé.

 

Mais vous pourriez avoir besoin d’exclure une URL de votre site (ou un répertoire entier) de l’indexation. Dans ce cas, vous aurez une nouvelle ligne « Disallow » :

– Disallow : Cette ligne concerne donc le contenu que vous voulez exclure des moteurs de recherche !

NB : Pour exclure une url, renseignez le le chemin de la page depuis la racine du site, c’est à dire tout ce qui se trouve derrière l’extension (.com, .fr, etc). Pour l’adresse de cette page par exemple : http://www.beinweb.fr/comment-desindexer-du-contenu-sur-google, il faudrait donc renseigner :
Disallow: /comment-desindexer-du-contenu-sur-google

Si vous avez besoin d’exclure plusieurs URLs, ajoutez autant de lignes Disallow: que besoin !

Si vous souhaitez enfin que Google n’indexe pas un répertoire entier de votre site (par exemple, le répertoire wp-admin), il faudrait modifier le fichier comme ceci :
Disallow: /wp-admin

Tout cela vous semble un peu barbare ?

Un conseil : Ne le modifiez pas sans maîtriser le sujet. Ayez bien conscience qu’une erreur d’écriture pourrait avoir un effet non désiré sur votre référencement !

Nous allons donc voir comment indiquer à Google de ne pas indexer tel ou tel contenu, sans rentrer dans la technique !

 

 

2. Une alternative au fichier robots.txt : la balise « noindex »

 

Comme toujours, nous allons vous donner une solution plus simple, si vous avez un côté geek très peu développé ! :)

Pour donner l’ordre aux moteurs de recherche d’indexer certains de vos contenus et d’en ignorer d’autres, vous pouvez passer par LE plugin indispensable pour votre référencement : WordPress SEO. Nous vous avions dit que c’était le plugin qui faciliterait tout votre référencement !

Une fois le plugin installé, en bas de chacune de vos pages, dans la rubrique « WordPress SEO par Yoast« , allez dans l’onglet « Avancé » (comme dans l’image ci-dessous) :

Dans la première ligne « Méta Robots Index »,  vous pouvez choisir l’option « noindex » du menu déroulant pour ne pas indexer cette page :

 

fonctions-avancees-plugin-wordpress-seo

 

En activant cette option, vous allez insérer une balise (ou petite étiquette) « NoIndex » dans votre fichier robot.txt. Cette balise désactivera l’indexation de la page en question par les moteurs de recherche.

La différence entre cette pratique et le fichier robots.txt, c’est que la balise « NoIndex » ordonne au robot de suivre les URL sans en indexer le contenu, alors que la mention « Disallow » du fichier robots.txt ordonne au robot de complètement les ignorer. Vous l’aurez donc compris, passer par le fichier robots.txt est donc plus sûr en termes de résultats mais plus laborieux !

 

NB : Si vous n’avez pas installé le plugin WordPress SEO, vous pouvez également passer par Google Webmaster Tools
Dans le menu de gauche « Index Google » puis dans l’onglet « urls à supprimer« , vous pouvez demander à Google d’arrêter d’indexer une page en question.
> Regardez notre petit tuto ici.

 

3. Quel contenu désindexer dans les moteurs de recherche ?

 

Posez-vous donc les questions suivantes : Il y a t il des pages de votre site dont vous aimeriez bloquer l’accès et qu’elles n’apparraissent pas dans Google ?

– Il y a t il des pages confidentielles ? Par exemple, la page d’un ebook gratuit à laquelle vous ne voulez pas que les internautes accèdent sans passer par l’inscription sur votre site.
– Il y a t il des pages en maintenance ? Par exemple, lors de la refonte d’un site, des pages qui ne sont pas finalisées et que vous ne voulez pas encore présenter dans les moteurs de recherche.
– Il y a t il des pages en double qui pourraient être considérées comme du « contenu dupliqué » et pénalisées par Google ? Dans ces cas là, choisissez quelle page de référence vous voulez indexer dans Google.
– Il y a t il des pages qui n’ont pas d’importance réelle pour vos utilisateurs ? Par exemple, la page de « mentions légales ». A la création de votre site, c’est souvent l’une des pages les plus rapidement indexées par Google. Or il serait dommage que votre internaute entre sur votre site par la « petite porte » non ? ;)

 

Vous avez donc compris, autant la balise « noindex » que le robots.txt sont un moyen de filtrer le contenu visible pour les internautes. Vous allez pouvoir définir les éléments que vous allez envoyer à Google et les éléments vous allez garder pour vous.

Allez, hop, au travail ! :)

 

 

 








Concernant l'auteur

Passionnée par le web et l'entrepreunariat, j'aide les entrepreneurs à rendre leur activité visible sur Internet ! Avec mon équipe, nous accompagnons au quotidien des professionnels passionnés dans la réussite de leur activité...grâce au web :) >> Mon profil Linkedin - Nos offres - Votre diagnostic offert

Il y a 3 commentaire(s).

  1. Posté par Tutoriel WordPress SEO: LE meilleur plugin WordPress ! Répondre

    […] Pour en savoir plus sur quelles pages de votre site vous devriez désindexer, lisez notre billet : Améliorez votre référencement en désindexant votre contenu inutile […]

  2. Posté par Netshore Répondre

    bonjour,
    en utilisant robots.txt, je veux bien bloquer l’accès à une catégorie mais pas ces sous-catégories, si je fait :
    Agent: *
    Disallow: /cat/

    cela bloquera t il automatiquement l’accès à /cat/subcat1, /cat/subcat2/ etc.. ?

    PS: j’utilise wordpress

    • Posté par Anaïs Villelongue Répondre

      Oui ! Et je ne comprends pas bien l’intérêt de bloquer l’accès à une catégorie mais pas ses sous-catégories…

Un avis ? Un doute ? Un commentaire ? Ne soyez pas timide, on adooore vous lire !