Ultimamente mi sono imbattuto nella elaborazione di dati statistici. Il problema principale è stato quello di riuscire a estrarre dai files di log di diverse applicazioni solo le informazioni che mi interessavano. Avevo due scelte: scrivere del codice specifico per ogni singola applicazione oppure scrivere del codice generico che utilizza le espressioni regolari per estrarre le informazioni.
Un esercizio molto bello è stato quello di riuscire a estrarre le informazioni contenute nel più famoso dei log, l'access.log di apache che generalmente usa il formato NSCA Log Format.
Un esempio è questo:
125.125.125.125 - dsmith [10/Oct/1999:21:15:05 +0500] "GET /index.html HTTP/1.0" 200 1043Ho trovato questo documento dell'IBM che descrive i singoli componenti del log.