Formation Logo Joomla Joomla!


Comprendre et parler aux robots


Définitions

Avant de commencer à apprendre à discuter avec les robots, il est important de comprendre la différence qui existe entre l'exploration et l'indexation.

  • Explorer (crawling, en anglais) est le processus automatique qui suit simplement un lien et récupère le contenu d'un site web.
  • Indexer (indexing, en anglais) est le processus qui répertorie et donne un sens aux pages d'un site qui ont été explorées.


Le fichier robots.txt

C'est grâce au fichier robots.txt que vous pouvez contrôler quelle(s) partie(s) de votre site les robots peuvent suivre. Ce fichier est stocké dans le répertoire racine de votre site Joomla!
Voici à quoi ressemble son contenu :

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Par défaut, cette syntaxe empêche les moteurs de recherche d'indexer le répertoire contenant les images de votre site. Si vous souhaitez que votre site soit également présent dans la recherche de "Google Image", vous devez autoriser l'accès au dossier images (c'est à dire, là où Joomla stocke les images de votre site).
Pour ce faire, vous allez remplacer la ligne :

Disallow: /images/

par :

Allow: /images/


Il est fortement conseillé de nommer vos images contenues dans ce dossier avec des titres descriptifs.

Encore une fois, cela indique simplement aux robots quels liens doivent être suivis ou non. Pour qu'une page ne soit plus indéxée, vous devez appliquer une directive "noindex". Cela peut être facilement mis en oeuvre depuis la page de l'article dans l'onglet "Publication" :


Comprendre les robots dans Joomla!


Explications :

  • Index : indique aux robots indexeurs d'indéxer cette page,
  • Noindex : indique aux robots indexeurs que cette page ne doit pas être indexé,
  • Follow : indique aux robots que les liens sur la page doivent être suivis,
  • Nofollow : indique aux robots que les liens de la page ne doivent pas être suivis.


Le fichier index.php

Google traite également le fichier index.php séparément de votre page d'accueil, ce qui signifie qu'une page test.fr et la page test.fr/index.php pourraient être considérées comme étant du contenu dupliqué (même si elles sont la même chose). Si vous avez activé la réécriture des URL (SEF) dans les paramètres SEO de la configuration globale de Joomla, vous pouvez remédier à cela en interdisant l'indexation d'une page s'appellant index.php. Pour ce faire, insérez la ligne suivante dans votre fichier robots.txt :

Disallow: /index.php


Quizz

Dans le prochain article, vous allez traquer et éliminer les erreurs sur votre site. Mais avant cela, je vous invite à répondre à quelques questions portant sur l'ensemble du chapitre que vous venez de lire.


Elle n'est pas une balise métadonnées, c'est :





Please answer the question.


Elle n'est pas une balise métadonnées, c'est :





Please answer the question.


Pour qu'une page ne soit plus indéxée, on doit :





Please answer the question.


Et ensuite...

 

web-eau.net is not affiliated with or endorsed by the Joomla! Project or Open Source Matters. The Joomla! name and logo is
used under a limited license granted by Open Source Matters the trademark holder in the United States and other countries.