leo-zeng

网站统计中的数据收集原理及实现(openResty篇）

引言:
网站数据统计分析工具是网站站长和运营人员经常使用的一种工具，比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理，并一步一步实际搭建一个实际的数据收集系统。

1.数据收集原理分析
简单来说，网站统计分析工具需要收集到用户浏览目标网站的行为（如打开某网页、点击某按钮、将商品加入购物车等）及行为附加数据（如某下单行为产生的订单金额等）。早期的网站统计往往只收集一种用户行为：页面的打开。而后用户在页面中的行为均无法收集。这种收集策略能满足基本的流量分析、来源分析、内容分析及访客属性等常用分析视角，但是，随着ajax技术的广泛使用及电子商务网站对于电子商务目标的统计分析的需求越来越强烈，这种传统的收集策略已经显得力不能及。

后来，Google在其产品谷歌分析中创新性的引入了可定制的数据收集脚本，用户通过谷歌分析定义好的可扩展接口，只需编写少量的javascript代码就可以实现自定义事件和自定义指标的跟踪和分析。目前百度统计、搜狗分析等产品均照搬了谷歌分析的模式。

其实说起来两种数据收集模式的基本原理和流程是一致的，只是后一种通过javascript收集到了更多的信息。下面看一下现在各种网站统计工具的数据收集基本原理。

2.流程概览

首先通过一幅图总体看一下数据收集的基本流程。

首先，用户的行为会触发浏览器对被统计页面的一个http请求，这里姑且先认为行为就是打开网页。当网页被打开，页面中的埋点javascript片段会被执行，用过相关工具的朋友应该知道，一般网站统计工具都会要求用户在网页中加入一小段javascript代码，这个代码片段一般会动态创建一个script标签，并将src指向一个单独的js文件，此时这个单独的js文件（图1中绿色节点）会被浏览器请求到并执行，这个js往往就是真正的数据收集脚本。数据收集完成后，js会请求一个后端的数据收集脚本（图1中的backend），这个脚本一般是一个伪装成图片的动态脚本程序，可能由php、python或其它服务端语言编写，js会将收集到的数据通过http参数的方式传递给后端脚本，后端脚本解析参数并按固定格式记录到访问日志，同时可能会在http响应中给客户端种植一些用于追踪的cookie。

上面是一个数据收集的大概流程，下面以谷歌分析为例，对每一个阶段进行一个相对详细的分析。
2.1埋点脚本执行阶段
若要使用谷歌分析（以下简称GA），需要在页面中插入一段它提供的javascript片段，这个片段往往被称为埋点代码。下面是我的博客中所放置的谷歌分析埋点代码截图：

其中_gaq是GA的的全局数组，用于放置各种配置，其中每一条配置的格式为：

_gaq.push(['Action', 'param1', 'param2', ...]);

Action指定配置动作，后面是相关的参数列表。GA给的默认埋点代码会给出两条预置配置，_setAccount用于设置网站标识ID，这个标识ID是在注册GA时分配的。_trackPageview告诉GA跟踪一次页面访问。更多配置请参考：https://developers.google.com/analytics/devguides/collection/gajs/。实际上，这个_gaq是被当做一个FIFO队列来用的，配置代码不必出现在埋点代码之前，具体请参考上述链接的说明。
就本文来说，_gaq的机制不是重点，重点是后面匿名函数的代码，这才是埋点代码真正要做的。这段代码的主要目的就是引入一个外部的js文件（ga.js），方式是通过document.createElement方法创建一个script并根据协议（http或https）将src指向对应的ga.js，最后将这个element插入页面的dom树上。

注意ga.async = true的意思是异步调用外部js文件，即不阻塞浏览器的解析，待外部js下载完成后异步执行。这个属性是HTML5新引入的。

3.数据收集脚本执行阶段
数据收集脚本（ga.js）被请求后会被执行，这个脚本一般要做如下几件事：

(1)、通过浏览器内置javascript对象收集信息，如页面title（通过document.title）、referrer（上一跳url，通过document.referrer）、用户显示器分辨率（通过windows.screen）、cookie信息（通过document.cookie）等等一些信息。

(2)、解析_gaq收集配置信息。这里面可能会包括用户自定义的事件跟踪、业务数据（如电子商务网站的商品编号等）等。

(3)、将上面两步收集的数据按预定义格式解析并拼接。

(4)、请求一个后端脚本，将信息放在http request参数中携带给后端脚本。

这里唯一的问题是步骤(4)，javascript请求后端脚本常用的方法是ajax，但是ajax是不能跨域请求的。这里ga.js在被统计网站的域内执行，而后端脚本在另外的域（GA的后端统计脚本是http://www.google-analytics.com/__utm.gif），ajax行不通。一种通用的方法是js脚本创建一个Image对象，将Image对象的src属性指向后端脚本并携带参数，此时即实现了跨域请求后端。这也是后端脚本为什么通常伪装成gif文件的原因。通过http抓包可以看到ga.js对__utm.gif的请求：

可以看到ga.js在请求__utm.gif时带了很多信息，例如utmsr=1280×1024是屏幕分辨率，utmac=UA-35712773-1是_gaq中解析出的我的GA标识ID等等。

值得注意的是，__utm.gif未必只会在埋点代码执行时被请求，如果用_trackEvent配置了事件跟踪，则在事件发生时也会请求这个脚本。

由于ga.js经过了压缩和混淆，可读性很差，我们就不分析了，具体后面实现阶段我会实现一个功能类似的脚本。

4.后端脚本执行阶段
GA的__utm.gif是一个伪装成gif的脚本。这种后端脚本一般要完成以下几件事情：

1、解析http请求参数的到信息。

2、从服务器（WebServer）中获取一些客户端无法获取的信息，如访客ip等。

3、将信息按格式写入log。

5、生成一副1×1的空gif图片作为响应内容并将响应头的Content-type设为image/gif。

5、在响应头中通过Set-cookie设置一些需要的cookie信息。

之所以要设置cookie是因为如果要跟踪唯一访客，通常做法是如果在请求时发现客户端没有指定的跟踪cookie，则根据规则生成一个全局唯一的cookie并种植给用户，否则Set-cookie中放置获取到的跟踪cookie以保持同一用户cookie不变（见下图）。

这种做法虽然不是完美的（例如用户清掉cookie或更换浏览器会被认为是两个用户），但是是目前被广泛使用的手段。注意，如果没有跨站跟踪同一用户的需求，可以通过js将cookie种植在被统计站点的域下（GA是这么做的），如果要全网统一定位，则通过后端脚本种植在服务端域下（我们待会的实现会这么做）。

5.系统的设计实现
[注]:这里的例子是leo-zeng 自己线下完成的一个demo；
根据上述原理，我自己搭建了一个访问日志收集系统。总体来说，搭建这个系统要做如下的事：

下面详述每一步的实现。我将这个系统叫做XX官网日志收集CLT的一个前期demo (XX 是我当前的公司）。

确定收集的信息

为了简单起见，我不打算实现GA的完整数据收集模型，而是收集以下信息。

5.1埋点代码

埋点代码我将借鉴GA的模式，但是目前不会将配置对象作为一个FIFO队列用。一个埋点代码的模板如下：

var _maq = _maq || [];
    _maq.push(['_setAccount', '网站标识']);

    (function() {
        var ma = document.createElement('script'); ma.type = 'text/javascript'; ma.async = true;
        ma.src = ('https:' == document.location.protocol ? 'https://192.168.1.128' : 'http:/192.168.1.128') + ':8009/ma.js';
        var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ma, s);
    })();

我这里nginx 中配置的域名是192.168.1.128 ；统计脚本的名称为ma.js。当然这里有一点小问题，因为我并没有https的服务器，所以如果一个https站点部署了代码会有问题，不过这里我们先忽略吧。

5.2 前端统计脚本
一个统计的js 脚本：

(function () {
    var params = {};
    //Document对象数据
    if(document) {
        params.domain = document.domain || ''; 
        params.url = document.URL || ''; 
        params.title = document.title || ''; 
        params.referrer = document.referrer || ''; 
    }   
    //Window对象数据
    if(window && window.screen) {
        params.sh = window.screen.height || 0;
        params.sw = window.screen.width || 0;
        params.cd = window.screen.colorDepth || 0;
    }   
    //navigator对象数据
    if(navigator) {
        params.lang = navigator.language || ''; 
    }   
    //解析_maq配置
    if(_maq) {
        for(var i in _maq) {
            switch(_maq[i][0]) {
                case '_setAccount':
                    params.account = _maq[i][1];
                    break;
                default:
                    break;
            }   
        }   
    }   
    //拼接参数串
    var args = ''; 
    for(var i in params) {
        if(args != '') {
            args += '&';
        }   
        args += i + '=' + encodeURIComponent(params[i]);
    }   

    //通过Image对象请求后端脚本
    var img = new Image(1, 1); 
    img.src = 'http://192.168.1.128:8009/1.gif?' + args;
})();

整个脚本放在匿名函数里，确保不会污染全局环境。功能在原理一节已经说明，不再赘述。其中1.gif是后端脚本。

5.3日志格式

5.3.1日志采用每行一条记录的方式，采用不可见字符^A^，具体格式如下：

时间^A^IP^A^域名^A^URL^A^页面标题^A^Referrer^A^分辨率高^A^分辨率宽^A^颜色深度^A^语言^A^客户端信息^A^用户标识^A^网站标识

5.4 后端脚本
为了简单和效率考虑，我打算直接使用nginx的access_log做日志收集，不过有个问题就是nginx配置本身的逻辑表达能力有限，所以我选用了OpenResty做这个事情。OpenResty是一个基于Nginx扩展出的高性能应用开发平台，内部集成了诸多有用的模块，其中的核心是通过ngx_lua模块集成了Lua，从而在nginx配置文件中可以通过Lua来表述业务。关于openresty的网站可以看下：https://moonbingbing.gitbooks.io/openresty-best-practices/content/lua/build_env.html

首先要配置nginx.conf 中的配置（主要是要定义日志格式）：

user  nginx;
worker_processes  4;
pid                     /opt/logs/nginx/nginx.pid;
error_log               /opt/logs/nginx/error.log;

events {
    use epoll;
    worker_connections  10240;
}
http {
        include       mime.types;
        #default_type           'text/html';
        #定义日志格式
        #default_type           'application/octet-stream';
        #指定lua_mongol 初始化默认路径
        default_type            'text/plain';
        lua_package_path        '/opt/opentresty/lualib/?/init.lua;;';
        charset                         utf-8;
        error_log               /opt/logs/nginx/error.log;
        #关闭默认的日志接收
        access_log              off;
        #log_format  main  '$remote_addr\t$uid_got$uid_set\t$http_host\t$time_iso8601\t$request\t$status\t$body_bytes_sent\t$http_referer\t$request_time\t$http_user_agent';
        log_format tick '$msec ^A^ $remote_addr ^A^ $u_domain ^A^ $u_url ^A^ $u_title ^A^ $u_referrer ^A^ $u_sh ^A^ $u_sw ^A^ $u_cd ^A^ $u_lang ^A^ $http_user_agent ^A^ $u_utrace ^A^ $u_account';

        client_max_body_size 100m;
        sendfile        on;
        keepalive_timeout  60;
        fastcgi_intercept_errors on;
        proxy_connect_timeout 60;
        proxy_send_timeout 90;
        proxy_read_timeout 1800;
        large_client_header_buffers 4 128k;
        proxy_ignore_client_abort on;

        gzip on;
        gzip_min_length 10k;
        gzip_buffers 4 16k;
        gzip_comp_level 2;
        gzip_types text/plain text/javascript application/javascript application/x-javascript text/css  application/xml application/octet-stream;
        gzip_vary on;
        #userid
        userid                          on;
        userid_name                     UUID;
        userid_path                     /;
        userid_expires                  max;

        include _ext.conf;
        include apps/*.conf;
}

接下来是要配置自己 location中的内容（我这里location 发到apps 文件下中的logColl.conf中）：

server{
        #监听 8009 端i口
        listen 8009;
        #服务名称
        server_name 192.168.1.128;
        location /1.gif {
                #伪装成 gif文件
                default_type image/gif;
                access_log off;
                access_by_lua "
                        --用户跟踪cookie名为__utrace
                        local uid =ngx.var.cookie__utrace 
                        if not uid then 
                                --如果没有生成一个跟踪cookie，算法为md5（时间戳+ip+客户端信息）
                                uid = ngx.md5(ngx.now()..ngx.var.remote_addr..ngx.var.http_user_agent)
                        end
                        ngx.header['Set-Cookie']={'__utrace='..uid..';path=/'}

                        if ngx.var.arg_domain then 
                                --通过subrequest 到 i-log 记录日志，讲参数和用户跟踪cookie带过去
                                ngx.location.capture('/i-log?'..ngx.var.args..'&utrace='..uid)
                        end
                ";
                #此请求不缓存
                add_header Expires "Fri,01 Jan 1980 00:00:00 GMT";
                add_header Pragma "no-cache";
                add_header Cache-Control "no-cache,max-age=0,must-revalidate";
                #返回一个1*1的空gif图片
                empty_gif;
        }
        location /i-log {
                #内部location，不允许外部直接访问
                internal;

                #设置变量，注意需要unescape
                set_unescape_uri $u_domain $arg_domain;
                set_unescape_uri $u_url $arg_url;
                set_unescape_uri $u_title $arg_title;
                set_unescape_uri $u_referrer $arg_referrer;
                set_unescape_uri $u_sh $arg_sh;
                set_unescape_uri $u_sw $arg_sw;
                set_unescape_uri $u_cd $arg_cd;
                set_unescape_uri $u_lang $arg_lang;
                set_unescape_uri $u_utrace &arg_utrace;
                set_unescape_uri $u_account $arg_account;

                #打开日志记录
                log_subrequest on;

                #记录日志到ma.log 格式为tick
                access_log /opt/logs/nginx/ma.log tick;

                #输出空字符串 
                echo '';
        }
        location ~ .*\.(jpeg|png|bmp|swf|css|js)$ {
                #静态文件，
                root /opt/data/static;
                expires 30d;
        }

}

要完全解释这段脚本的每一个细节有点超出本文的范围，而且用到了诸多第三方ngxin模块（全都包含在OpenResty中了），重点的地方我都用注释标出来了，可以不用完全理解每一行的意义，只要大约知道这个配置完成了我们在原理一节提到的后端逻辑就可以了。
6.日志轮转
真正的日志收集系统访问日志会非常多，时间一长文件变得很大，而且日志放在一个文件不便于管理。所以通常要按时间段将日志切分，例如每天或每小时切分一个日志。我这里为了效果明显，每一小时切分一个日志。我是通过crontab定时调用一个shell脚本实现的，shell脚本如下：

_prefix="/path/to/nginx"
time=`date +%Y%m%d%H`

mv ${_prefix}/logs/ma.log ${_prefix}/logs/ma/ma-${time}.log
kill -USR1 `cat ${_prefix}/logs/nginx.pid`

这个脚本将ma.log移动到指定文件夹并重命名为ma-{yyyymmddhh}.log，然后向nginx发送USR1信号令其重新打开日志文件。

然后再/etc/crontab里加入一行：

59  *  *  *  * root /path/to/directory/rotatelog.sh

在每个小时的59分启动这个脚本进行日志轮转操作。

7.关于分析
通过上面的分析和开发可以大致理解一个网站统计的日志收集系统是如何工作的。有了这些日志，就可以进行后续的分析了。本文只注重日志收集，所以不会写太多关于分析的东西。

注意，原始日志最好尽量多的保留信息而不要做过多过滤和处理。例如上面的MyAnalytics保留了毫秒级时间戳而不是格式化后的时间，时间的格式化是后面的系统做的事而不是日志收集系统的责任。后面的系统根据原始日志可以分析出很多东西，例如通过IP库可以定位访问者的地域、user agent中可以得到访问者的操作系统、浏览器等信息，再结合复杂的分析模型，就可以做流量、来源、访客、地域、路径等分析了。当然，一般不会直接对原始日志分析，而是会将其清洗格式化后转存到其它地方，如MySQL或HBase中再做分析。

分析部分的工作有很多开源的基础设施可以使用，例如实时分析可以使用Storm，而离线分析可以使用Hadoop。当然，在日志比较小的情况下，也可以通过shell命令做一些简单的分析，例如，下面三条命令可以分别得出我的博客在今天上午8点到9点的访问量（PV），访客数（UV）和独立IP数（IP）
其它好玩的东西朋友们可以慢慢挖掘。

本文转自于：http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html

【数据治理】数据治理框架概述野老杂谈数据治理数据治理框架 DAMA-DMBOK COBIT 企业数据治理数据管理
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
自动驾驶中的虚实迁移学习:降低对真实世界数据的依赖 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,迁移学习,虚实环境,数据效率,深度学习,强化学习1.背景介绍自动驾驶技术作为人工智能领域的重要应用之一，其发展离不开海量真实世界驾驶数据。然而，收集和标注真实世界驾驶数据成本高昂，且存在安全隐患。因此，如何降低对真实世界数据的依赖，提高自动驾驶系统的训练效率和安全性，成为一个亟待解决的关键问题。虚实迁移学习(Virtual-to-RealTransferLearning)作为一种新兴的机
基于.net的新闻发布系统的设计与实现糖果_0812 .net asp.net 数据库 internet c#语言
摘要：随着网络技术的发展和Internet应用的普及，互联网已成为人们获取信息的一个重要途径。而越来越多的企业和单位拥有了自己的新闻发布系统。本文主要运用ASP.NET技术框架基于C#语言制作的一个动态网站，数据库采用SQLServer。实现网站新闻的动态管理，使得对信息的管理更加及时、高效，提高了工作效率。关键词：ASP.NET；C#；新闻发布系统中图分类号：TP311.13文献标识码：A文章编
python数据处理的全流程若木胡 tools python 开发语言
Python数据处理全流程一、数据收集（一）从文件中读取数据读取文本文件CSV文件（逗号分隔值）CSV文件是一种常见的简单数据存储格式，使用逗号来分隔数据值。Python中的csv模块可以方便地读取和写入CSV文件。例如，读取一个简单的CSV文件，其中包含姓名和年龄两列数据：importcsvdata=[]withopen('example.csv','r')asfile:reader=csv.r
linux环境下 xampp mysql 启动失败问题排查日志文件过大占用存储空间导致网站瘫痪... weixin_34166847 数据库操作系统 java
问题现象网站莫名其妙的连接不上mysql了，导致网站瘫痪；没有改任何程序，怎么回事呢？马上用xshell和xftp工具连接linux服务器来排查问题启动xamppmysql/opt/lampp/lamppstartmysql启动xamppmysql![/opt/lampp/bin/mysql.server:line260:kill:(11145)-Nosuchprocess](https://up
android 地铁地图api,利用高德地图api绘制公交+地铁的等时圈中本姜 android 地铁地图api
等时圈是指从某点出发，以某种交通方式在特定时间内能到达的距离覆盖的范围，在可达性分析中十分常见。原本我们需要将地图栅格化不停地调用路径规划api来获得等时圈，现在已经有网站为我们做好了这些工作，比如https://docs.mapbox.com/playground/isochrone/。我们只需要选择交通方式(步行、骑行和驾车)，和需要绘制的时间即可，但是比较遗憾的是无法获取公交(地铁/地铁+公
高级红色西餐美食企业网站模板酸甜草莓二侠
本文还有配套的精品资源，点击获取简介：这是一个专为西餐美食企业设计的网站模板，以红色为主色调，通过专业且美观的设计吸引顾客。模板包含多个页面布局，如首页、菜单页、关于我们、联系我们等，以展示企业品牌和菜品信息。具有响应式设计，兼容多种设备。模板附带安装和使用指南，用户可根据需求进行定制。1.西餐美食企业网站模板概述简介在当今数字化时代，企业官网是品牌身份的重要展现形式，对于西餐美食企业尤为如此。一
Avada 使用教程：从基础到进阶的全面指南专业WP网站开发-Joyous Wordpress php
概述在WordPress世界中，选择一个合适的主题对网站的成功至关重要。Avada是其中最受欢迎的选项之一，不仅因为其销售量，更因其功能强大、定制性强和用户友好性。无论你是初学者还是专业的网页开发者，Avada都提供了你所需的工具来构建你心中的网站。本文将详细介绍如何从基础到进阶地使用Avada，为你提供一个超过5000字的全方位指南。第一步：购买与安装购买Avada选择平台:Avada可以在Th
元戎启行周光：智能驾驶的竞争，靠VLA模型决出胜负量子位
智能驾驶行业，有黑马杀出。据中国电动汽车百人会最新数据统计，自2024年9月至2024年12月，短短4个月时间，元戎启行凭借两款量产车，冲击行业第一梯队，在城区高阶智能驾驶供应商市场中拿下近10%的市场份额。对元戎启行来说，10%，只是一个开始。2025年1月22日，在第17届日本国际汽车工业技术展上，元戎启行再次亮出技术杀手锏——VLA模型（VisionLanguageActionModel，视
在K8S中，如何使用EFK实现日志的统一管理？ Dusk_橙子 K8S kubernetes 容器云原生
在Kubernetes中，EFK是一种常见的日志统一管理方案。EFK堆栈允许你收集、存储、搜素、分析和可视化容器应用程序的日志。下面是如何在Kubernetes中使用EFK实现日志统一管理的详细步骤：部署Elasticsearchelasticsearch是一个分布式、RESTful风格的搜索和分析引擎，能够解决越来越多用例的查询语言，它通常用于日志和事件数据分析。首先，你需要再kubernete
Git的下载与安装及常用命令小宝哥Code Unity引擎 git
Git的下载与安装指南Git是目前广泛使用的分布式版本控制系统，适用于代码管理和团队协作。以下是Git的下载与安装步骤。一、Git下载1.官方网站下载访问Git官方网站下载页面：GitDownloads，选择适合您操作系统的版本。2.选择操作系统Windows：点击下载Windows版本。MacOS：点击下载MacOS版本。Linux/Unix：根据发行版选择包管理器安装。二、Git安装1.Win
华为HCIE-Security认证考试流程、考试内容 GZ_TOGOGO 华为服务器运维
【HCIE-Security认证介绍】HCIE-Security（华为认证安全专家）是华为认证体系中的专家级安全认证，专注于培养和认证具备企业信息安全解决方案整体的设计、部署和运维综合能力的专家级人才。【HCIE-Security认证考试流程】①注册华为账号:如果考生没有华为账号，需要先在华为官网注册。②预约考试:通过华为官方“人才在线”网站进行考试预约，并补充完整的个人信息。③支付考试费用:考生
大模型GUI系列论文阅读 DAY3：《GPT-4V(ision) is a Generalist Web Agent, if Grounded》 feifeikon 论文阅读
摘要近年来，大型多模态模型（LMMs）的发展，特别是GPT-4V(ision)和Gemini，迅速扩展了多模态模型的能力边界，不再局限于传统任务如图像描述和视觉问答。在本研究中，我们探讨了LMMs（如GPT-4V）作为通用网页代理的潜力，这类代理能够根据自然语言指令完成任意网站上的任务。我们提出了SEEACT，这是一种通用网页代理，利用LMMs的视觉理解能力，实现网页上的操作。我们在最新的MIND
Linux 使用 docker 安装 Nginx 代理服务器 liupeng_blog docker docker linux nginx
文章目录个人知识库Nginx简介环境要求一.新建文件目录1.1.新建docker-compose.yml1.2.编写docker-compose.yml二.文件赋权限三、新建nginx.conf四.启动容器4.1.启动并下载镜像4.2.停止并删除容器五.访问Nginx六.DockerHub官网更多知识平台个人知识库云网站：http://www.liupeng.cloud语雀：https://www
2025年1月有什么好用的便宜性价比高的的语音卡、流量卡推荐？北纬文公子好物推荐好物推荐
之前，因为自己网站变现的问题，找了很多变现渠道，有了解到流量卡这个业务，并花了很长时间研究。最近，因为一些工作的原因，需要打的电话比较多，加上之前有了解过流量卡这一块，所以就在想，有没有语音卡呢？找了一堆，发现都是流量卡产品，可用的语音卡比较少，资费最低都是0.1元/分钟或者接近0.1元/分钟这样的一些产品。因为需要用的比较急，于是我又去营业厅问了几家，比较好的都是那种什么139/1000分钟这样
selenium通过cookie实现自动登录 Zds丶小顺顺 python 开发语言
原理很简单，首先手动完成登录后，把cookies保存到本地，下次再把cookies注入到浏览器里面，就自动实现了登录最近在学习写python的自动化脚本,但是发现测试工具打开之后的网页是没有用户自己打开浏览器时记录的cookie,简单来说也就是打开的网站不会自己登录,所以想要简单的实现下如何用cookie来登录总的来说分两步目录第一步，把cookies保存到本地第二步，把保存到本地的cookies
XML外部实体注入--漏洞利用索然无味io 网络安全 xml 前端网络安全 php 笔记学习 web安全
一.基本概念1.XXE漏洞原理介绍：XXE漏洞在应用程序解析XML输入时触发，若未限制外部实体加载，攻击者便能掌控外部加载文件，进而引发漏洞。其常见于可上传xml文件之处，如上传点未对xml文件过滤，恶意xml文件就可上传。2.漏洞危害文件读取：能读取服务器任意文件，如利用]>&xxe;可获取敏感信息。命令执行：在特定条件下，可执行系统命令，危害系统安全。内网探测与攻击：探测内网端口、攻击内网网站
爬取优美图库壁纸-python -chu_kuang- python mysql 数据库
爬取216页分块区所有图片，爬的内容有点抽象。说实在的这网站壁纸挺檫边的.....importrequestsfrombs4importBeautifulSoupimportos#创建目录directory='pictures'url=''ifnotos.path.exists(directory):os.makedirs(directory)foriinrange(216):ifi==0:url
MySQL 分库分表方案数据库mysql
前言公司最近在搞服务分离，数据切分方面的东西，因为单张包裹表的数据量实在是太大，并且还在以每天60W的量增长。之前了解过数据库的分库分表，读过几篇博文，但就只知道个模糊概念，而且现在回想起来什么都是模模糊糊的。今天看了一下午的数据库分库分表，看了很多文章，现在做个总结，“摘抄”下来。（但更期待后期的实操）会从以下几个方面说起：第一部分：实际网站发展过程中面临的问题。第二部分：有哪几种切分方式，垂直
《Prometheus+Grafana 实践派》专栏介绍阿提说说实践派 prometheus grafana 云原生监控
专栏名称Prometheus+Grafana实践派专栏介绍本专栏根据本公司统一监控落地实践编写。在该专栏您将学到企业级监控的选型Prometheus的基础知识Grafana的基础知识快速搭建Prometheus+Grafana监控各类指标的收集和可视化企业级统一监控实现博主介绍一年太久，只争朝夕，这是博主的座右铭，预示时间宝贵，博主拥有10年以上工作经验，阿里云专家博主，华为云享专家，Spring
VS Code中JavaFX 项目环境配置「已注销」 java vscode ui
1.获取JavaFX1.1JavaFX下载JavaFX网站打开后应如图1.1.1所示：图1.1.1单击左下角Download按钮，进入如图1.1.2所示页面：图1.1.2JavaFXversion：选择你要使用的JavaFX版本，通常建议使用最新版本。为了稳定性考虑，不建议选择测试版，即后缀有[EarlyAccess]的版本。OperatingSystem：选择你用来进行JavaFX开发时所使用的
GeoTrust True BusinessID Wildcard Gworg ssl
GeoTrust由DigiCert提供支持，是最受信任和尊重的品牌之一，以提供高保证的网站安全而闻名。GeoTrustTrueBusinessID通配符证书–以低成本保护多个主机名。即使将其用于您的公司主页或电子邮件服务器主机名，保护所有敏感信息也是您的目标，也是我们的目标。这就是我们提供GeoTrust®TrueBusinessID通配符SSL证书的原因。使用TrueBusinessID通配符证
https证书申请的流程 Gworg https 网络协议 http
如果你希望自己的网站打开显示HTTPS地址，浏览器可以显示安全标识，这种情况下就需要申请https证书。申请过程需要你拥有网站的一些权限，主要是域名管理权限，如果是自助建站有后台可以直接管理SSL证书或者安装的，自己提供后台登录信息，如果有主机或者独立服务器那么就需要提供相应的远程信息，除非你上传HTTPS证书只要配合域名解析就完事了。HTTPS证书不是申请好，网站打开HTTPS的，而是申请好拿到
2025年SSL证书申请攻略 Gworg ssl https 网络协议
都知道SSL是一种加密技术，可在Web服务器和Internet浏览器之间建立加密连接。此外，SSL证书可验证网站的身份并启用加密连接。在地址栏中，如果您看到挂锁图标，则表示SSL保护了您正在访问的网站。那么2025年应该怎么申请SSL证书才可以闭坑？想必大家都了解过，SSL证书不像别的东西可以替代，原因是这种SSL证书要被浏览器信任可不简单，首先公司成立的早，另外就是根证书早早的就加到了某年发布的
网站的ssl证书快过期了，怎么重新续费？ Gworg ssl https 网络协议
网站SSL证书到期是必然发生的事情，因为SSL证书最长的期限13个月，我们通常申请的SSL证书一般都是1年的有效期，即使你申请了很多年也如此，但有的机构是不支持一次性订购很多年的，所以申请SSL证书也要问清楚，因为毕竟订单厂家承认才是最重要的。SSL证书快到期应该怎么做？【步骤很简单，新手也可以操作，但必须有域名管理权限】续费SSL证书，主要要有域名的管理权限，因为续费过程会认证这个域名身份才可以
2025年申请SSL证书方法 Gworg ssl 网络协议网络
2025年申请SSL证书流程如下：1、打开Gworg网站右上角进入控制面板，选择SSL证书。2、完成支付流程后，填写域名或者直接让客服认证。3、配合域名解析，也可以获得解析教程。4、完成解析后等待1-15分钟左右。5、邮箱会收到SSL证书邮件附件是SSL证书文件。SSL证书会包括各种常见的服务器环境需要的SSL证书，所以安装过程直接选择对应文件夹的证书就可以使用。2025年申请SSL证书类型：1、
SSL证书申请终极指南 Gworg ssl https 网络协议
SSL验证是确认网站或服务器提供的SSL证书的真实性和有效性的过程。SSL证书验证是确认网站或服务器提供的SSL证书的真实性和有效性的过程。SSL证书是用于在客户端（例如Web浏览器）和服务器之间建立安全连接的数字证书。它们对于确保通过互联网传输的数据的机密性、完整性和真实性至关重要。在SSL证书验证过程中，客户端会检查证书的数字签名，以确保该证书是由受信任的证书颁发机构(CA)颁发的。客户端还会
网站HTTP改成HTTPS Gworg http https 网络协议
您不仅需要知道如何将HTTP转换为HTTPS，还必须在不妨碍您的网站自成立以来建立的任何搜索排名权限的情况下进行切换。为什么应该从HTTP转换为HTTPS？与非安全HTTP于不同，安全域使用SSL（安全套接字层）服务器上的加密代码来加密从用户计算机发送到他们正在访问的网站的信息。因此，外部来源无法解密此语言。安全URL可让您的客户的个人和付款信息保持安全，免受黑客窃取其身份的侵害。因此，安全域已成
Linux---LNMP动态网站平台 WillianmsLee linux nginx
1.部署LNMP环境:1.1–原理目前的网站一般都会有动态和静态数据，默认nginx仅可以处理静态数据，用户访问任何数据都是直接返回对应的文件，如果如果访问的是一个脚本的话，就会导致直接返回一个脚本给用户，而用户没有脚本解释器，也看不懂脚本源代码！因此需要整合LNMP（Linux、Nginx、MySQL、PHP）实现动态网站效果。1.2–一些介绍LNMP在CentOS系统中，源码安装Nginx，使
LNMP(动态网站） weixin_34406061 运维 php 开发工具
LNMP(动态网站）nginx（静态网站）案例1：部署LNMP环境步骤一：安装软件yum-yinstallmariadbmariadb-serveryum-yinstallmariadb-develyum-yinstallphpphp-mysqlcdlnmp_softrpm-ivhphp-fpm-5.4.16-36.el7_1.x86_64.rpm启动服务nginxsystemctlstartph
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

网站统计中的数据收集原理及实现(openResty篇）

你可能感兴趣的:(网站数据统计收集)