首页 > 资讯 > 精选 >如何使用nginx lua实现网站统计中的数据收集

141

分享到

如何使用nginx lua实现网站统计中的数据收集

2023-06-28 15:06:07 141人浏览泡泡鱼

摘要

今天给大家介绍一下如何使用Nginx lua实现网站统计中的数据收集。文章的内容小编觉得不错，现在给大家分享一下，觉得有需要的朋友可以了解一下，希望对大家有所帮助，下面跟着小编的思路一起来阅读吧。各网站站长和运营人员经常使用网站数据分析工具

今天给大家介绍一下如何使用Nginx lua实现网站统计中的数据收集。文章的内容小编觉得不错，现在给大家分享一下，觉得有需要的朋友可以了解一下，希望对大家有所帮助，下面跟着小编的思路一起来阅读吧。

各网站站长和运营人员经常使用网站数据分析工具，谷歌分析、百度统计、腾讯分析等被广泛使用，要想统计数据先要收集数据，下面和大家分析数据收集的原理，并搭建一个数据收集系统。

数据收集原理分析

简单来说，网站统计分析工具需要收集到用户浏览目标网站的行为（如打开某网页、点击某按钮、将商品加入购物车等）及行为附加数据（如某下单行为产生的订单金额等）。早期的网站统计往往只收集一种用户行为：页面的打开。而后用户在页面中的行为均无法收集。这种收集策略能满足基本的流量分析、来源分析、内容分析及访客属性等常用分析视角，但是，随着ajax技术的广泛使用及电子商务网站对于电子商务目标的统计分析的需求越来越强烈，这种传统的收集策略已经显得力不能及。
后来，Google在其产品谷歌分析中创新性的引入了可定制的数据收集脚本，用户通过谷歌分析定义好的可扩展接口，只需编写少量的javascript代码就可以实现自定义事件和自定义指标的跟踪和分析。目前百度统计、搜狗分析等产品均照搬了谷歌分析的模式。
其实说起来两种数据收集模式的基本原理和流程是一致的，只是后一种通过javascript收集到了更多的信息。下面看一下现在各种网站统计工具的数据收集基本原理。

流程概览

首先，用户的行为会触发浏览器对被统计页面的一个Http请求，这里姑且先认为行为就是打开网页。当网页被打开，页面中的埋点javascript片段会被执行，用过相关工具的朋友应该知道，一般网站统计工具都会要求用户在网页中加入一小段javascript代码，这个代码片段一般会动态创建一个script标签，并将src指向一个单独的js文件，此时这个单独的js文件（图1中绿色节点）会被浏览器请求到并执行，这个js往往就是真正的数据收集脚本。数据收集完成后，js会请求一个后端的数据收集脚本（图1中的backend），这个脚本一般是一个伪装成图片的动态脚本程序，可能由PHP、python或其它服务端语言编写，js会将收集到的数据通过http参数的方式传递给后端脚本，后端脚本解析参数并按固定格式记录到访问日志，同时可能会在http响应中给客户端种植一些用于追踪的cookie。
上面是一个数据收集的大概流程，下面以谷歌分析为例，对每一个阶段进行一个相对详细的分析。

埋点脚本执行阶段

若要使用谷歌分析（以下简称GA），需要在页面中插入一段它提供的javascript片段，这个片段往往被称为埋点代码。

其中_gaq是GA的的全局数组，用于放置各种配置，其中每一条配置的格式为：

_gaq.push([‘Action’, ‘param1’, ‘param2’, …]);

Action指定配置动作，后面是相关的参数列表。GA给的默认埋点代码会给出两条预置配置，_setAccount用于设置网站标识ID，这个标识ID是在注册GA时分配的。_trackPageview告诉GA跟踪一次页面访问。更多配置请参考：https://developers.google.com/analytics/devguides/collection/gajs/。实际上，这个_gaq是被当做一个FIFO队列来用的，配置代码不必出现在埋点代码之前，具体请参考上述链接的说明。
就本文来说，_gaq的机制不是重点，重点是后面匿名函数的代码，这才是埋点代码真正要做的。这段代码的主要目的就是引入一个外部的js文件（ga.js），方式是通过document.createElement方法创建一个script并根据协议（http或https）将src指向对应的ga.js，最后将这个element插入页面的dom树上。
注意ga.async = true的意思是异步调用外部js文件，即不阻塞浏览器的解析，待外部js下载完成后异步执行。这个属性是HTML5新引入的。

数据收集脚本执行阶段

数据收集脚本（ga.js）被请求后会被执行，这个脚本一般要做如下几件事：
1、通过浏览器内置javascript对象收集信息，如页面title（通过document.title）、referrer（上一跳url，通过document.referrer）、用户显示器分辨率（通过windows.screen）、cookie信息（通过document.cookie）等等一些信息。
2、解析_gaq收集配置信息。这里面可能会包括用户自定义的事件跟踪、业务数据（如电子商务网站的商品编号等）等。
3、将上面两步收集的数据按预定义格式解析并拼接。
4、请求一个后端脚本，将信息放在http request参数中携带给后端脚本。
这里唯一的问题是步骤4，javascript请求后端脚本常用的方法是ajax，但是ajax是不能跨域请求的。这里ga.js在被统计网站的域内执行，而后端脚本在另外的域（GA的后端统计脚本是https://file.lsjlt.com/upload/202306/27/ecyuamxw2mj.gif），ajax行不通。一种通用的方法是js脚本创建一个Image对象，将Image对象的src属性指向后端脚本并携带参数，此时即实现了跨域请求后端。这也是后端脚本为什么通常伪装成gif文件的原因。通过http抓包可以看到ga.js对__utm.gif的请求。

可以看到ga.js在请求__utm.gif时带了很多信息，例如utmsr=1280×1024是屏幕分辨率，utMac=UA-35712773-1是_gaq中解析出的我的GA标识ID等等。
值得注意的是，__utm.gif未必只会在埋点代码执行时被请求，如果用_trackEvent配置了事件跟踪，则在事件发生时也会请求这个脚本。
由于ga.js经过了压缩和混淆，可读性很差，我们就不分析了，具体后面实现阶段我会实现一个功能类似的脚本。

后端脚本执行阶段

GA的__utm.gif是一个伪装成gif的脚本。这种后端脚本一般要完成以下几件事情：
1、解析http请求参数的到信息。
2、从服务器（WEBServer）中获取一些客户端无法获取的信息，如访客ip等。
3、将信息按格式写入log。
4、生成一副1×1的空gif图片作为响应内容并将响应头的Content-type设为image/gif。
5、在响应头中通过Set-cookie设置一些需要的cookie信息。
之所以要设置cookie是因为如果要跟踪唯一访客，通常做法是如果在请求时发现客户端没有指定的跟踪cookie，则根据规则生成一个全局唯一的cookie并种植给用户，否则Set-cookie中放置获取到的跟踪cookie以保持同一用户cookie不变（见图4）。

这种做法虽然不是完美的（例如用户清掉cookie或更换浏览器会被认为是两个用户），但是是目前被广泛使用的手段。注意，如果没有跨站跟踪同一用户的需求，可以通过js将cookie种植在被统计站点的域下（GA是这么做的），如果要全网统一定位，则通过后端脚本种植在服务端域下（我们待会的实现会这么做）。

系统的设计实现

根据上述原理，我自己搭建了一个访问日志收集系统。
我将这个系统叫做MyAnalytics。

确定收集的信息

为了简单起见，我不打算实现GA的完整数据收集模型，而是收集信息。

埋点代码

埋点代码我将借鉴GA的模式，但是目前不会将配置对象作为一个FIFO队列用。

我启用了二级域名analytics.codinglabs.org，统计脚本的名称为ma.js。当然这里有一点小问题，因为我并没有https的服务器，所以如果一个https站点部署了代码会有问题，不过这里我们先忽略吧。

前端统计脚本

我写了一个不是很完善但能完成基本工作的统计脚本ma.js：

    (function () {    var params = {};    //Document对象数据    if(document) {    params.domain = document.domain || '';    params.url = document.URL || '';    params.title = document.title || '';    params.referrer = document.referrer || '';    }    //Window对象数据    if(window && window.screen) {    params.sh = window.screen.height || 0;    params.sw = window.screen.width || 0;    params.cd = window.screen.colorDepth || 0;    }    //navigator对象数据    if(navigator) {    params.lang = navigator.language || '';    }    //解析_maq配置    if(_maq) {    for(var i in _maq) {    switch(_maq[i][0]) {    case '_setAccount':    params.account = _maq[i][1];    break;    default:    break;    }    }    }    //拼接参数串    var args = '';    for(var i in params) {    if(args != '') {    args += '&';    }    args += i + '=' + encodeURIComponent(params[i]);    }    //通过Image对象请求后端脚本    var img = new Image(1, 1);    img.src = 'https://file.lsjlt.com/upload/202306/27/kwhs5ljvcri.gif?' + args;    })();

整个脚本放在匿名函数里，确保不会污染全局环境。功能在原理一节已经说明，不再赘述。其中1.gif是后端脚本。

日志格式

日志采用每行一条记录的方式，采用不可见字符^A（ascii码0x01，linux下可通过ctrl + v ctrl + a输入，下文均用“^A”表示不可见字符0x01），具体格式如下：
时间^AIP^A域名^AURL^A页面标题^AReferrer^A分辨率高^A分辨率宽^A颜色深度^A语言^A客户端信息^A用户标识^A网站标识

后端脚本

为了简单和效率考虑，我打算直接使用nginx的access_log做日志收集，不过有个问题就是nginx配置本身的逻辑表达能力有限，所以我选用了OpenResty做这个事情。OpenResty是一个基于Nginx扩展出的高性能应用开发平台，内部集成了诸多有用的模块，其中的核心是通过ngx_lua模块集成了Lua，从而在nginx配置文件中可以通过Lua来表述业务。关于这个平台我这里不做过多介绍，感兴趣的同学可以参考其官方网站http://openresty.org/，或者这里有其作者章亦春（agentzh）做的一个非常有爱的介绍OpenResty的slide：http://agentzh.org/misc/slides/ngx-openresty-ecosystem/，关于ngx_lua可以参考：https://GitHub.com/chaoslawful/lua-nginx-module。
首先，需要在nginx的配置文件中定义日志格式：
log_fORMat tick “$msec^A$remote_addr^A$u_domain^A$u_url^A$u_title^A$u_referrer^A$u_sh^A$u_sw^A$u_cd^A$u_lang^A$http_user_agent^A$u_utrace^A$u_account”;
注意这里以u_开头的是我们待会会自己定义的变量，其它的是nginx内置变量。
然后是核心的两个location：

    location /1.gif {    #伪装成gif文件    default_type image/gif;    #本身关闭access_log，通过subrequest记录log    access_log off;    access_by_lua "    -- 用户跟踪cookie名为__utrace    local uid = ngx.var.cookie___utrace    if not uid then    -- 如果没有则生成一个跟踪cookie，算法为md5(时间戳+IP+客户端信息)    uid = ngx.md5(ngx.now() .. ngx.var.remote_addr .. ngx.var.http_user_agent)    end    ngx.header['Set-Cookie'] = {'__utrace=' .. uid .. '; path=/'}    if ngx.var.arg_domain then    -- 通过subrequest到/i-log记录日志，将参数和用户跟踪cookie带过去    ngx.location.capture('/i-log?' .. ngx.var.args .. '&utrace=' .. uid)    end    ";    #此请求不缓存    add_header Expires "Fri, 01 Jan 1980 00:00:00 GMT";    add_header Pragma "no-cache";    add_header Cache-Control "no-cache, max-age=0, must-revalidate";    #返回一个1&times;1的空gif图片    empty_gif;    }    location /i-log {    #内部location，不允许外部直接访问    internal;    #设置变量，注意需要unescape    set_unescape_uri $u_domain $arg_domain;    set_unescape_uri $u_url $arg_url;    set_unescape_uri $u_title $arg_title;    set_unescape_uri $u_referrer $arg_referrer;    set_unescape_uri $u_sh $arg_sh;    set_unescape_uri $u_sw $arg_sw;    set_unescape_uri $u_cd $arg_cd;    set_unescape_uri $u_lang $arg_lang;    set_unescape_uri $u_utrace $arg_utrace;    set_unescape_uri $u_account $arg_account;    #打开日志    log_subrequest on;    #记录日志到ma.log，实际应用中最好加buffer，格式为tick    access_log /path/to/logs/directory/ma.log tick;    #输出空字符串    echo '';    }

要完全解释这段脚本的每一个细节有点超出本文的范围，而且用到了诸多第三方ngxin模块（全都包含在OpenResty中了），重点的地方我都用注释标出来了，可以不用完全理解每一行的意义，只要大约知道这个配置完成了我们在原理一节提到的后端逻辑就可以了。

日志轮转

真正的日志收集系统访问日志会非常多，时间一长文件变得很大，而且日志放在一个文件不便于管理。所以通常要按时间段将日志切分，例如每天或每小时切分一个日志。我这里为了效果明显，每一小时切分一个日志。我是通过crontab定时调用一个shell脚本实现的，shell脚本如下：

    _prefix="/path/to/nginx"    time=`date +%Y%m%d%H`    mv ${_prefix}/logs/ma.log ${_prefix}/logs/ma/ma-${time}.log    kill -USR1 `cat ${_prefix}/logs/nginx.pid`

这个脚本将ma.log移动到指定文件夹并重命名为ma-{yyyymmddhh}.log，然后向nginx发送USR1信号令其重新打开日志文件。
然后再/etc/crontab里加入一行：

59 * * * * root /path/to/directory/rotatelog.sh

在每个小时的59分启动这个脚本进行日志轮转操作。

测试

下面可以测试这个系统是否能正常运行了。我昨天就在我的博客中埋了相关的点，通过http抓包可以看到ma.js和1.gif已经被正确请求。
同时可以看一下1.gif的请求参数。
相关信息确实也放在了请求参数中。
然后我tail打开日志文件，然后刷新一下页面，因为没有设access log buffer，我立即得到了一条新日志：
1351060731.360^A0.0.0.0^Awww.codinglabs.org^Ahttp://www.codinglabs.org/^ACodingLabs^A^A1024^A1280^A24^Azh-CN^AMozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.4 (Khtml, like Gecko) Chrome/22.0.1229.94 Safari/537.4^A4d612be64366768d32e623D594e82678^AU-1-1
注意实际上原日志中的^A是不可见的，这里我用可见的^A替换为方便阅读，另外IP由于涉及隐私我替换为了0.0.0.0。

关于分析

通过上面的分析和开发可以大致理解一个网站统计的日志收集系统是如何工作的。有了这些日志，就可以进行后续的分析了。本文只注重日志收集，所以不会写太多关于分析的东西。
注意，原始日志最好尽量多的保留信息而不要做过多过滤和处理。例如上面的MyAnalytics保留了毫秒级时间戳而不是格式化后的时间，时间的格式化是后面的系统做的事而不是日志收集系统的责任。后面的系统根据原始日志可以分析出很多东西，例如通过IP库可以定位访问者的地域、user agent中可以得到访问者的操作系统、浏览器等信息，再结合复杂的分析模型，就可以做流量、来源、访客、地域、路径等分析了。当然，一般不会直接对原始日志分析，而是会将其清洗格式化后转存到其它地方，如MySQL或HBase中再做分析。
分析部分的工作有很多开源的基础设施可以使用，例如实时分析可以使用Storm，而离线分析可以使用hadoop。当然，在日志比较小的情况下，也可以通过shell命令做一些简单的分析，例如，下面三条命令可以分别得出我的博客在今天上午8点到9点的访问量（PV），访客数（UV）和独立IP数（IP）：

    awk -F^A '{print $1}' ma-2012102409.log | wc -l    awk -F^A '{print $12}' ma-2012102409.log | uniq | wc -l    awk -F^A '{print $2}' ma-2012102409.log | uniq | wc -l

以上就是如何使用nginx lua实现网站统计中的数据收集的全部内容了，更多与如何使用nginx lua实现网站统计中的数据收集相关的内容可以搜索编程网之前的文章或者浏览下面的文章进行学习哈！相信小编会给大家增添更多知识,希望大家能够支持一下编程网！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 如何使用nginx lua实现网站统计中的数据收集

本文链接: https://www.lsjlt.com/news/320483.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

如何使用nginx lua实现网站统计中的数据收集

今天给大家介绍一下如何使用nginx lua实现网站统计中的数据收集。文章的内容小编觉得不错，现在给大家分享一下，觉得有需要的朋友可以了解一下，希望对大家有所帮助，下面跟着小编的思路一起来阅读吧。各网站站长和运营人员经常使用网站数据分析工具...

99+

2023-06-28
网站统计中的数据收集原理及实现

网站数据统计分析工具是网站站长和运营人员经常使用的一种工具，比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基...

99+

2022-11-15

数据收集
如何使用servlet实现统计网页访问次数

这篇文章主要介绍如何使用servlet实现统计网页访问次数，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！一、基础知识（1）ServletContext和ServletConfig的区别ServletContext作为...

99+

2023-06-29
PHP中使用Redis实现统计数据的分析

随着互联网应用的不断发展，数据分析和统计成为了应用开发中的重要一环。在Web应用开发中，为获取实时的统计数据，往往需要从众多的数据来源和不同的应用系统中读取数据，然后进行分析、汇总和展示。此时，Redis作为一个持久化的内存数据库，为数据...

99+

2023-05-15

PHP redis 统计数据分析
如何使用Redis+Lua脚本实现计数器接口防刷功能

这篇文章主要介绍如何使用Redis+Lua脚本实现计数器接口防刷功能，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！【实现过程】一、问题分析如果set命令设置上，但是在设置失效时间时由于网络抖动等原因导致没...

99+

2023-06-29
java如何统计集合中相同数据的个数

可以使用HashMap来统计集合中相同数据的个数。具体的步骤如下：1. 使用HashMap来创建一个空的映射表，其中key表示集合中...

99+

2023-09-26

java
一文带你了解MySQL之InnoDB统计数据是如何收集的

目录一、两种不同的统计数据存储方式二、基于磁盘的永久性统计数据2.1 innodb_table_stats2.1.1 n_rows 统计项的收集2.1.2 clustered_index_size 和 sum_of_ot...

99+

2023-05-25

MySQL InnoDB统计数据收集 MySQL InnoDB统计数据 MySQL InnoDB
如何使用Redis+Bitmap实现亿级海量数据统计

这篇文章给大家分享的是有关如何使用Redis+Bitmap实现亿级海量数据统计的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。寄语多分享多付出，前期多给别人创造价值并且不计回报，从...

99+

2024-04-02
数据库中如何修改自动收集统计信息任务的执行时间

小编给大家分享一下数据库中如何修改自动收集统计信息任务的执行时间，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！一般情况，oracle11G数据库自动收集统计信...

99+

2024-04-02
如何使用shell脚本分析网站日志统计PV、404、500等数据

本篇内容介绍了“如何使用shell脚本分析网站日志统计PV、404、500等数据”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！下面的脚本能统...

99+

2023-06-09
如何利用Redis实现数据统计功能

Redis是一种高效的内存数据库，可以被广泛应用于数据统计功能的实现中。本文将介绍如何使用Redis来实现数据统计功能，并提供具体实现的代码示例。统计计数器在很多场景下，需要对某个事件或对象的数量进行统计。这时候可以使用Redis的计数器功...

99+

2023-11-07

数据聚合实时统计 Redis 数据统计 Redis 统计实现
教你如何使用C++统计地铁中站名出现的字的个数

最近网上看到一个话题，也很有意思的，就写到这里来了。上海地铁的站名中，出现频率最高的字是什么？正好，练习自己的C++代码能力，给定一些站名，计算一下。首先是一个文件，记录了所有...

99+

2024-04-02
Pandas数据查询的集中如何实现

今天小编给大家分享一下Pandas数据查询的集中如何实现的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。Pandas查询数据的...

99+

2023-07-05
如何利用C++实现一个简单的网站访问统计程序？

随着互联网的迅速发展，越来越多的网站开始关注网站访问数据的统计，并将这些数据用于网站的优化和改进。因此，开发一个简单的网站访问统计程序对于网站管理者来说非常有用。而其中一个实现这一目标的可能性是通过使用C++，该语言可以帮助您以更高效的方式...

99+

2023-11-04

网站统计访问
如何使用Prometheus进行监控数据的收集和存储

要使用Prometheus进行监控数据的收集和存储，需要按照以下步骤进行操作：安装Prometheus：首先需要在服务器上安装...

99+

2024-04-09

Prometheus
Qt数据库应用中如何实现通用数据库采集

小编给大家分享一下Qt数据库应用中如何实现通用数据库采集，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！一、前言数据库采集对应的就是上一篇文章的数据库同步，数据库同...

99+

2023-06-29
如何使用HTML5实现网站在windows8中贴靠

这篇文章主要为大家展示了“如何使用HTML5实现网站在windows8中贴靠”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“如何使用HTML5实现网站在windo...

99+

2024-04-02
如何在MongoDB中实现数据的统计和分析功能

如何在MongoDB中实现数据的统计和分析功能MongoDB是一个开源的NoSQL数据库，具有高性能、可扩展、灵活的特点，被广泛应用于大数据处理和分析领域。在实际应用中，我们经常需要对数据进行统计和分析，以帮助我们更好地理解数据和做出决策。...

99+

2023-10-22

MongoDB 统计分析
如何用PHP实现微信公众号数据统计

随着微信公众号逐渐成为企业营销的重要工具之一，对公众号数据的统计分析也变得越来越重要。通过数据分析，可以了解公众号的粉丝数量、活跃度、用户转化率等指标，从而优化运营策略和提高营销效果。本文将介绍如何用PHP实现微信公众号数据统计。一、获取微...

99+

2023-05-14

PHP 微信公众号数据统计
如何在java中实现统计中文的字数

这篇文章给大家介绍如何在java中实现统计中文的字数，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。具体如下：public class TongJiHanZi { public static int count(St...

99+

2023-05-31

java 统计 ava