广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python 正则分析nginx日志
  • 528
分享到

python 正则分析nginx日志

正则日志python 2023-01-31 07:01:15 528人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

  有个需求要分析Nginx日志,也懒得去研究logstach之类的开源工具,干脆直接写一个脚本,自己根据需求来实现:先看日志格式:我们跟别人的不太一样,所以没办法了:12.195.166.35 [10/May/2015:14:38:09

  有个需求要分析Nginx日志,也懒得去研究logstach之类的开源工具,干脆直接写一个脚本,自己根据需求来实现:

先看日志格式:我们跟别人的不太一样,所以没办法了:

12.195.166.35 [10/May/2015:14:38:09 +0800] "list.xxxx.com" "GET /new/10:00/9.html?cat=0,0&sort=price_asc Http/1.0" 200 42164 "http://list.zhonghuasuan.com/new/10:00/8.html?cat=0,0&sort=price_asc" "Mozilla/5.0 (linux; U; Android 4.4.2; zh-CN; H60-L02 Build/HDH60-L02) AppleWEBKit/534.30 (KHTML, like Gecko) Version/4.0 UCBrowser/10.4.0.558 U3/0.8.0 Mobile Safari/534.30"


上面是我的日志格式:

脚本如下:

#!/usr/bin/env python
#-*- coding:utf-8 –*-
#Author:xiaoluo
#QQ:942729042
#date:2015:05:12
import re
import sys
log = sys.argv[1]
ip = r"?P<ip>[\d.]*"
date = r"?P<date>\d+"
month = r"?P<month>\w+"
year = r"?P<year>\d+"
log_time = r"?P<time>\S+"
timezone = r"""?P<timezone>
                 [^\"]*
         """
name = r"""?P<name>\"
            [^\"]*\"     
        """
method = r"?P<method>\S+"
request = r"?P<request>\S+"
protocol = r"?P<protocol>\S+"
status = r"?P<status>\d+"
bodyBytesSent = r"?P<bodyBytesSent>\d+"
refer = r"""?P<refer>\"
             [^\"]*\"
             """
userAgent=r"""?P<userAgent>
                .*
               """
#f = open('access1.log','r')
#for logline in f.readlines():
p = re.compile(r"(%s)\ \[(%s)/(%s)/(%s)\:(%s)\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)" %(ip, date, month, year, log_time,timezone,name,method,request,protocol,status,bodyBytesSent,refer,userAgent), re.VERBOSE)
def getcode():
    codedic={}
    f = open(log,'r')
    for logline in f.readlines():
         matchs = p.match(logline)
         if matchs !=None:
             allGroups =matchs.groups()
             status= allGroups[10]
             codedic[status]=codedic.get(status,0) +1
    return codedic
    f.close()
def getIP():
    f = open(log,'r') 
    IPdic={}
    for logline in f.readlines():
        matchs = p.match(logline)
        if matchs !=None:
            allGroups =matchs.groups()
            IP=allGroups[0] 
            IPdic[IP] = IPdic.get(IP,0) +1
    IPdic=sorted(IPdic.iteritems(),key=lambda c:c[1],reverse=True)
    IPdic=IPdic[0:21:1]
    return IPdic
    f.close()
def getURL():
    f = open(log,'r')
    URLdic={}
    for logline in f.readlines():
        matchs = p.match(logline)
        if matchs !=None:
            allGroups =matchs.groups()
            urlname = allGroups[6] 
            URLdic[urlname] = URLdic.get(urlname,0) +1
    URLdic=sorted(URLdic.iteritems(),key=lambda c:c[1],reverse=True)
    URLdic=URLdic[0:21:1]           
    return URLdic
def getpv():
    f = open(log,'r')
    pvdic={}
    for logline in f.readlines():
        matchs = p.match(logline)
        if matchs !=None:
           allGroups =matchs.groups()
           timezone=allGroups[4]
           time = timezone.split(':')
           minute = time[0]+":"+time[1]
           pvdic[minute]=pvdic.get(minute,0) +1
    pvdic=sorted(pvdic.iteritems(),key=lambda c:c[1],reverse=True)
    pvdic=pvdic[0:21:1]
    return pvdic
if __name__=='__main__':
    print "网站监控状况检查状态码"
    print getcode() 
    print "网站访问量最高的20个IP地址"
    print getIP()
    print "网站访问最多的20个站点名"
    print getURL()
    print getpv()

这里要指出的是。我当初是给正则匹配的时候单独封装一个函数的,这样就省去了下面每个函数要打开之前都要单独打开一遍文件,但是我return的时候只能用列表的形式返回,结果列表太大把我的内存耗光了,我的是32G的内存,15G的日志。

效果:

wKioL1VTFI2jFdrgAAMgZdOMGos474.jpg

最后一个函数是统计每分钟,访问的数量

--结束END--

本文标题: python 正则分析nginx日志

本文链接: https://www.lsjlt.com/news/191964.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python 正则分析nginx日志
      有个需求要分析nginx日志,也懒得去研究logstach之类的开源工具,干脆直接写一个脚本,自己根据需求来实现:先看日志格式:我们跟别人的不太一样,所以没办法了:12.195.166.35 [10/May/2015:14:38:09 ...
    99+
    2023-01-31
    正则 日志 python
  • python正则分析nginx的访问日志
    前言 本文的脚本是分析nginx的访问日志, 主要为了检查站点uri的访问次数的,检查的结果会提供给研发人员做参考,因为谈到分析嘛,那肯定要用到正则表达式了,所以请没有接触过正则的小伙伴自行补脑,因为涉及正...
    99+
    2022-06-04
    正则 日志 python
  • python分析nginx日志
    利用python脚本分析nginx日志内容,默认统计ip、访问url、状态,可以通过修改脚本统计分析其他字段。一、脚本运行方式python count_log.py -f med.xxxx.com.access.log二、脚本内容#!/us...
    99+
    2023-01-31
    日志 python nginx
  • python分析nginx访问日志
    Web服务器的各种系统管理工作包括了多Nginx/Apache 日志的统计,python使这个任务变得极其简单,下面分享两个小脚本。一、统计Nginx的客户端缓存的命中率需要检查你的Nginx服务器拒绝客户请求的频率,服务器拒绝的原因是因为...
    99+
    2023-01-31
    日志 python nginx
  • python分析nginx日志的ip(来
    #!/usr/bin/env python #_*_coding:utf-8 _*_ __author__ = 'gaogd' import datetime,threading import sys, os, urllib2, json...
    99+
    2023-01-31
    日志 python nginx
  • python正则捕获日志解析实例
       去年工作中的一个实例,觉得较有意思,由于实例需求较繁琐也不太典型,我只能稍作整理和修改后,和大家分享整个案例的需求以及我写脚本的思路和想法,希望对大家有参考的价值。      大概需求:主站有个js文件记录用户设备和IP信息以及在...
    99+
    2023-01-31
    正则 实例 日志
  • python分析nginx日志的ip(来源)
    #!/usr/bin/env python #_*_coding:utf-8 _*_ __author__ = 'gaogd' import dateti...
    99+
    2022-10-18
  • python分析nginx日志的ip,url,status
    Python 脚本如下:#!/usr/bin/env python #_*_coding:utf-8 _*_ __author__ = 'lvnian' #!/us...
    99+
    2022-10-18
  • python 3.x 分析日志的模块(正
    #导入正则模块 import re auth="no_shutdown_" ''' 分析日志的模块,查找日志中标志性信息产生的次数 ''' #定义你需要查找的对象的正则表达式wordcheck #需要分析的日志的路径filesource d...
    99+
    2023-01-31
    模块 日志 python
  • 如何使用goaccess分析nginx日志
    这篇文章主要介绍了如何使用goaccess分析nginx日志,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。最近想用goaccess来分析下nginx日志,但是苦于nginx日...
    99+
    2023-06-20
  • ELK 5.0.1+Filebeat5.0.1实时监控MongoDB日志并使用正则解析mongodb日志的示例分析
    ELK 5.0.1+Filebeat5.0.1实时监控MongoDB日志并使用正则解析mongodb日志的示例分析,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴...
    99+
    2022-10-18
  • Python的正则规则举例分析
    这篇文章主要讲解了“Python的正则规则举例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python的正则规则举例分析”吧!问题复现我们都知道,Python有个正则规则\w,几乎所有...
    99+
    2023-06-02
  • Nginx日志及性能排查举例分析
    这篇文章主要讲解了“Nginx日志及性能排查举例分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Nginx日志及性能排查举例分析”吧!导读最近一直在做性能排查,思路就是根据分析nginx日...
    99+
    2023-06-03
  • Python正则re.compile实例分析
    今天小编给大家分享一下Python正则re.compile实例分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。1、re.c...
    99+
    2023-07-02
  • 使用goaccess分析nginx日志的详细方法
    最近想用goaccess来分析下nginx日志,但是苦于nginx日志配置格式不是按照正常格式来的,完全是我们按照自己的需求来写的,所以导致goaccess分析不了,需要自己重新定义...
    99+
    2022-11-12
  • nginx日志格式分析以及修改详解
    目录一. 打开终端,登录服务器并输入服务器密码二. 切换到nginx目录三. 查看nginx日志四. 修改nginx日志格式五. 其他日志参数说明总结修改nginx日志打印格式 一....
    99+
    2022-11-13
  • Python 关于日志的分析
    项目情况介绍:基于Python 3.6.6 ,实现对nginx访问的日志分析代码,实现了对日志中code的占比统计和浏览器类型和访问情况统计实现的代码段有:1.编写窗户函数,实现在一定的时间内对数据进行分析2.通过正则表达式对日志进行匹配,...
    99+
    2023-01-31
    日志 Python
  • Python正则简单实例分析
    本文实例讲述了Python正则简单用法。分享给大家供大家参考,具体如下: 悄悄打入公司内部UED的一个Python爱好者小众群,前两天一位牛人发了条消息: 小的测试题: re.split('(W+)',...
    99+
    2022-06-04
    正则 实例 简单
  • python切割nginx日志脚本
    #!/usr/bin/env python#-*-coding:utf-8-*-#Python nginx cut log 1import subprocessdef mkdir():        subprocess.call('mkd...
    99+
    2023-01-31
    脚本 日志 python
  • nginx切割日志脚本(python)
    因为以前没有做nginx日志分割,有时候想看日志的时候总是发现有十几G的甚至上百G的日志文件,于是就想使用python写个nginx日志分割(当然你也可以使用shell来完成都是很简单) 需求:1.按照日分割nginx所有日志2.由于日志不...
    99+
    2023-01-31
    脚本 日志 nginx
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作