Robots.txt

  limiter certains référencements


L’éthique du Web a défini un Protocole d’exclusion des robots pour filtrer les robots de référencement, leur éviter d’explorer les arcanes cachées de votre serveur : voyons l’utilisation de ce fichier ./robots.txt avec SPIP.

 
 
 
 
 
 
 
 
 
 

Le but de ce fichier texte est seulement de proposer aux robots d’indexation automatique, une liste de sous-répertoires à omettre quand ils viendront indexer les pages de votre site.
Attention,ce fichier n’apporte aucune sécurisation ni confidentialité de vos informations !

Indépendamment des accès externes contrôlés par les droits /répertoires du serveur, voici le squelette de base proposé par Squelettes de la "dist" :

#HTTP_HEADER{Content-Type: text/plain; charset=#CHARSET}

# robots.txt
# @url: #URL_SITE_SPIP
# @generator: SPIP #SPIP_VERSION
# @template: #SQUELETTE

User-agent: *
Disallow: /local/
Disallow: /ecrire/
Disallow: /plugins-dist/
Disallow: /lib/
Disallow: /plugins/
Disallow: /prive/
Disallow: /squelettes-dist/
Disallow: /squelettes/

Sitemap: #URL_SITE_SPIP/sitemap.xml

User-agent: *
Crawl-delay: 1

Malheureusement [1], il s’agit d’un squelette (c’est donc un fichier robots.txt.html) accessible dans Squelettes de la "dist", mais qui nécessite de mettre en place .htaccess pour être opérationnel [2].

Par mesure de sécurisation complémentaire, vous pourrez vouloir masquer les indications de version de SPIP : supprimer la balise #SPIP_VERSION plus haut, et le fichier svn.revision à la racine de SPIP..


Merci de nous signaler les coquilles ou erreurs qui figureraient dans cette page.

[1Sans .htaccess, ce squelette de robots.txt n’est pas naturellement activé..

[2Sinon l’accès à la page #URL_SITE_SPIP/robots.txt ne provoquera pas de calcul par SPIP !


Liens visibles seulement pour les inscrits.

Article publié le 12 mars 2014, et actualisé en mars 2017 .

Répondre à cet article