Imprimer cette page

webalizer

Voici comment j'analyse mes logs apache perso.

Configuration des logs

LogFormat "%h %l %u %t \"%r\" %>s %b \"%Referer\" \"%User-Agenti\"" combined CustomLog logs/access_log combined

Filtrage des logs

On filtre les logs afin de supprimer tous les appels issus de robots :

cat access_log | awk -vn=1 -f robots.awk > all-robots.log

puis on garde les pages qui ne génèrent pas d'erreur 404

awk -F \" '}' all-robots.log | sed "s/index.php?page=//g" | sed "s/index.php?mact=//g" > all.log

bien sûr, au passage, comme on utilise CMSMadeSimple, on considère que les paramètres page et mact de index.php sont les noms de pages à suivre grâce à des sed. On remarque que l'expression passée est très mnémonique : "s/index.php?page=//g"

  • rechercher (search) : s/
  • le texte : "index.php?page="
  • et le remplacer par rien : //
  • de manière globale : g


Webalizer

Puis on invoque webalizer

/usr/local/bin/webalizer -c perso.conf all.log

Il faut parfois aider un peu en chargeant avant le LD_LIBRARY_PATH LD_LIBRARY_PATH="/usr/local/lib/:$LD_LIBRARY_PATH"

export LD_LIBRARY_PATH

De plus, pour avoir une belle liste de mots-clés, on complète le fichier de configuration de webalizer en ajoutant une liste de SearchEngine personnalisée.


Page précédente: Maligorn-tux
Page suivante: robots.awk