webalizer
Voici comment j'analyse mes logs apache perso.
Configuration des logs
Filtrage des logs
On filtre les logs afin de supprimer tous les appels issus de robots :
cat access_log | awk -vn=1 -f robots.awk > all-robots.log
puis on garde les pages qui ne génèrent pas d'erreur 404
awk -F \" '}' all-robots.log | sed "s/index.php?page=//g" | sed "s/index.php?mact=//g" > all.log
bien sûr, au passage, comme on utilise CMSMadeSimple, on considère que les paramètres page et mact de index.php sont les noms de pages à suivre grâce à des sed. On remarque que l'expression passée est très mnémonique : "s/index.php?page=//g"
-
rechercher (search) : s/
-
le texte : "index.php?page="
-
et le remplacer par rien : //
-
de manière globale : g
Webalizer
Puis on invoque webalizer
/usr/local/bin/webalizer -c perso.conf all.log
Il faut parfois aider un peu en chargeant avant le LD_LIBRARY_PATH LD_LIBRARY_PATH="/usr/local/lib/:$LD_LIBRARY_PATH"
export LD_LIBRARY_PATH
De plus, pour avoir une belle liste de mots-clés, on complète le fichier de configuration de webalizer en ajoutant une liste de SearchEngine personnalisée.
Page précédente: Maligorn-tux
Page suivante: robots.awk
