使用Python解析nginx日志文件_程序人生

使用Python解析nginx日志文件

admin

2023-07-31 00:40:12

0次

项目的一个需求是解析nginx的日志文件。
简单的整理如下：

日志规则描述

首先要明确自己的Nginx的日志格式，这里采用默认Nginx日志格式：

123	log_format main \’$remote_addr – $remote_user [$time_local] \”$request\” \’ \’$status $body_bytes_sent \”$http_referer\” \’ \’\”$http_user_agent\” \”$http_x_forwarded_for\”\’;

其中一条真实记录样例如下：

1	172.22.8.207 – – [16/Dec/2014:17:57:35 +0800] \”GET /report?DOmjjuS6keWJp+WculSQAgdUkAIPODExMzAwMDJDN0FC HTTP/1.1\” 200 0 \”-\” \”XXXXXXX/1.0.16; iPhone/iOS 8.1.2; ; 8DA77E2F91D0\”

其中，客户端型号信息用XXXXXXX代替。

项目中已经按照业务规则对Nginx日志文件进行了处理命名规则如下：

1	ID–ID–YYMMDD–hhmmss

并且所有的日志文件存放在统一路径下。

解决思路

获取所有日志文件`path`

这里使用Python的glob模块来获取日志文件path

123	import globdef readfile(path): return glob.glob(path + \’---\’)

获取日志文件中每一行的内容

使用Python的linecache模块来获取文件行的内容

123	import linecachedef readline(path): return linecache.getlines(path)

注意：linecache模块使用了缓存，所以存在以下问题：

在使用linecache模块读取文件内容以后，如果文件发生了变化，那么需要使用linecache.updatecache(filename)来更新缓存，以获取最新变化。
linecache模块使用缓存，所以会耗费内存，耗费量与要解析的文件相关。最好在使用完毕后执行linecache.clearcache()清空一下缓存。

当然，作为优化，这里可以利用生成器来进行优化。暂且按下不表。

处理日志条目

一条日志信息就是一个特定格式的字符串，因此使用正则表达式来解析，这里使用Python的re模块。
下面，一条一条建立规则：

规则

123456789101112131415

ip = r\”?P[d.]*\” date = r\”?Pd+\” month = r\”?Pw+\” year = r\”?Pd+\” log_time = r\”?PS+\” method = r\”?PS+\” request = r\”?PS+\” status = r\”?Pd+\” bodyBytesSent = r\”?Pd+\” refer = r\”\”\”?P [^\”]* \”\”\” userAgent=r\”\”\”?P .* \”\”\”

解析

12	p = re.compile(r\”(%s) – – [(%s)/(%s)/(%s):(%s) [S]+] \”(%s)?[s]?(%s)?.?\” (%s) (%s) \”(%s)\” \”(%s).?\”\” %( ip, date, month, year, log_time, method, request, status, bodyBytesSent, refer, userAgent ), re.VERBOSE)m = re.findall(p, logline)

这样，就可以得到日志条目中各个要素的原始数据。

格式及内容转化

得到日志原始数据之后，需要根据业务要求，对原始数据进行格式及内容转化。
这里需要处理的内容包括：时间，request，userAgent

时间格式转化

在日志信息原始数据中存在Dec这样的信息，利用Python的time模块可以方便的进行解析

获取日志文件中每一行的内容

使用Python的linecache模块来获取文件行的内容

123	import linecachedef readline(path): return linecache.getlines(path)

注意：linecache模块使用了缓存，所以存在以下问题：

在使用linecache模块读取文件内容以后，如果文件发生了变化，那么需要使用linecache.updatecache(filename)来更新缓存，以获取最新变化。
linecache模块使用缓存，所以会耗费内存，耗费量与要解析的文件相关。最好在使用完毕后执行linecache.clearcache()清空一下缓存。

当然，作为优化，这里可以利用生成器来进行优化。暂且按下不表。

处理日志条目

一条日志信息就是一个特定格式的字符串，因此使用正则表达式来解析，这里使用Python的re模块。
下面，一条一条建立规则：

规则

123456789101112131415

解析

12	p = re.compile(r\”(%s) – – [(%s)/(%s)/(%s):(%s) [S]+] \”(%s)?[s]?(%s)?.?\” (%s) (%s) \”(%s)\” \”(%s).?\”\” %( ip, date, month, year, log_time, method, request, status, bodyBytesSent, refer, userAgent ), re.VERBOSE)m = re.findall(p, logline)

这样，就可以得到日志条目中各个要素的原始数据。

格式及内容转化

得到日志原始数据之后，需要根据业务要求，对原始数据进行格式及内容转化。
这里需要处理的内容包括：时间，request，userAgent

时间格式转化

在日志信息原始数据中存在Dec这样的信息，利用Python的time模块可以方便的进行解析

12345

import time def parsetime(date, month, year, log_time): time_str = \’%s%s%s %s\’ %(year, month, date, log_time) return time.strptime(time_str, \’%Y%b%d %H:%M:%S\’)

解析request

在日志信息原始数据中得到的request的内容格式为：

上一篇：用Python和OpenCV来测量相机到目标的距离

下一篇：使用flask开发RESTful架构的api服务器端(4)–flask操作数据库

使用Python解析nginx日志文件

日志规则描述

解决思路

获取所有日志文件`path`

获取日志文件中每一行的内容

处理日志条目

规则

解析

格式及内容转化

时间格式转化

获取日志文件中每一行的内容

处理日志条目

规则

解析

格式及内容转化

时间格式转化

解析request

相关内容

热门资讯

使用Python解析nginx日志文件

日志规则描述

解决思路

获取所有日志文件path

获取日志文件中每一行的内容

处理日志条目

规则

解析

格式及内容转化

时间格式转化

获取日志文件中每一行的内容

处理日志条目

规则

解析

格式及内容转化

时间格式转化

解析request

相关内容

热门资讯

获取所有日志文件`path`