zhibin07

网站统计中的数据收集原理及实现

http://www.admin10000.com/document/1089.html

网站数据统计分析工具是网站站长和运营人员经常使用的一种工具，比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理，并一步一步实际搭建一个实际的数据收集系统。

　　数据收集原理分析

　　简单来说，网站统计分析工具需要收集到用户浏览目标网站的行为（如打开某网页、点击某按钮、将商品加入购物车等）及行为附加数据（如某下单行为产生的订单金额等）。早期的网站统计往往只收集一种用户行为：页面的打开。而后用户在页面中的行为均无法收集。这种收集策略能满足基本的流量分析、来源分析、内容分析及访客属性等常用分析视角，但是，随着ajax技术的广泛使用及电子商务网站对于电子商务目标的统计分析的需求越来越强烈，这种传统的收集策略已经显得力不能及。

　　后来，Google在其产品谷歌分析中创新性的引入了可定制的数据收集脚本，用户通过谷歌分析定义好的可扩展接口，只需编写少量的javascript代码就可以实现自定义事件和自定义指标的跟踪和分析。目前百度统计、搜狗分析等产品均照搬了谷歌分析的模式。

　　其实说起来两种数据收集模式的基本原理和流程是一致的，只是后一种通过javascript收集到了更多的信息。下面看一下现在各种网站统计工具的数据收集基本原理。

　　流程概览

　　首先通过一幅图总体看一下数据收集的基本流程。

图1. 网站统计数据收集基本流程

　　首先，用户的行为会触发浏览器对被统计页面的一个http请求，这里姑且先认为行为就是打开网页。当网页被打开，页面中的埋点javascript片段会被执行，用过相关工具的朋友应该知道，一般网站统计工具都会要求用户在网页中加入一小段javascript代码，这个代码片段一般会动态创建一个script标签，并将src指向一个单独的js文件，此时这个单独的js文件（图1中绿色节点）会被浏览器请求到并执行，这个js往往就是真正的数据收集脚本。数据收集完成后，js会请求一个后端的数据收集脚本（图1中的backend），这个脚本一般是一个伪装成图片的动态脚本程序，可能由php、python或其它服务端语言编写，js会将收集到的数据通过http参数的方式传递给后端脚本，后端脚本解析参数并按固定格式记录到访问日志，同时可能会在http响应中给客户端种植一些用于追踪的cookie。

　　上面是一个数据收集的大概流程，下面以谷歌分析为例，对每一个阶段进行一个相对详细的分析。

　　埋点脚本执行阶段

　　若要使用谷歌分析（以下简称GA），需要在页面中插入一段它提供的javascript片段，这个片段往往被称为埋点代码。下面是我的博客中所放置的谷歌分析埋点代码截图：

图2. 谷歌分析埋点代码

　　其中_gaq是GA的的全局数组，用于放置各种配置，其中每一条配置的格式为：

 
        _gaq.push([ 
        'Action' 
        ,  
        'param1' 
        ,  
        'param2' 
        , ...]);

　　Action指定配置动作，后面是相关的参数列表。GA给的默认埋点代码会给出两条预置配置，_setAccount用于设置网站标识ID，这个标识ID是在注册GA时分配的。_trackPageview告诉GA跟踪一次页面访问。更多配置请参考：https://developers.google.com/analytics/devguides/collection/gajs/。实际上，这个_gaq是被当做一个FIFO队列来用的，配置代码不必出现在埋点代码之前，具体请参考上述链接的说明。

　　就本文来说，_gaq的机制不是重点，重点是后面匿名函数的代码，这才是埋点代码真正要做的。这段代码的主要目的就是引入一个外部的js文件（ga.js），方式是通过document.createElement方法创建一个script并根据协议（http或https）将src指向对应的ga.js，最后将这个element插入页面的dom树上。

　　注意ga.async = true的意思是异步调用外部js文件，即不阻塞浏览器的解析，待外部js下载完成后异步执行。这个属性是HTML5新引入的。

　　数据收集脚本执行阶段

　　数据收集脚本（ga.js）被请求后会被执行，这个脚本一般要做如下几件事：

　　1、通过浏览器内置javascript对象收集信息，如页面title（通过document.title）、referrer（上一跳url，通过document.referrer）、用户显示器分辨率（通过windows.screen）、cookie信息（通过document.cookie）等等一些信息。

　　2、解析_gaq收集配置信息。这里面可能会包括用户自定义的事件跟踪、业务数据（如电子商务网站的商品编号等）等。

　　3、将上面两步收集的数据按预定义格式解析并拼接。

　　4、请求一个后端脚本，将信息放在http request参数中携带给后端脚本。

　　这里唯一的问题是步骤4，javascript请求后端脚本常用的方法是ajax，但是ajax是不能跨域请求的。这里ga.js在被统计网站的域内执行，而后端脚本在另外的域（GA的后端统计脚本是http://www.google-analytics.com/__utm.gif），ajax行不通。一种通用的方法是js脚本创建一个Image对象，将Image对象的src属性指向后端脚本并携带参数，此时即实现了跨域请求后端。这也是后端脚本为什么通常伪装成gif文件的原因。通过http抓包可以看到ga.js对__utm.gif的请求：

图3. 后端脚本请求的http包

　　可以看到ga.js在请求__utm.gif时带了很多信息，例如utmsr=1280×1024是屏幕分辨率，utmac=UA-35712773-1是_gaq中解析出的我的GA标识ID等等。

　　值得注意的是，__utm.gif未必只会在埋点代码执行时被请求，如果用_trackEvent配置了事件跟踪，则在事件发生时也会请求这个脚本。

　　由于ga.js经过了压缩和混淆，可读性很差，我们就不分析了，具体后面实现阶段我会实现一个功能类似的脚本。

　　后端脚本执行阶段

　　GA的__utm.gif是一个伪装成gif的脚本。这种后端脚本一般要完成以下几件事情：

　　1、解析http请求参数的到信息。

　　2、从服务器（WebServer）中获取一些客户端无法获取的信息，如访客ip等。

　　3、将信息按格式写入log。

　　4、生成一副1×1的空gif图片作为响应内容并将响应头的Content-type设为image/gif。

　　5、在响应头中通过Set-cookie设置一些需要的cookie信息。

　　之所以要设置cookie是因为如果要跟踪唯一访客，通常做法是如果在请求时发现客户端没有指定的跟踪cookie，则根据规则生成一个全局唯一的cookie并种植给用户，否则Set-cookie中放置获取到的跟踪cookie以保持同一用户cookie不变（见图4）。

图4. 通过cookie跟踪唯一用户的原理

　　这种做法虽然不是完美的（例如用户清掉cookie或更换浏览器会被认为是两个用户），但是是目前被广泛使用的手段。注意，如果没有跨站跟踪同一用户的需求，可以通过js将cookie种植在被统计站点的域下（GA是这么做的），如果要全网统一定位，则通过后端脚本种植在服务端域下（我们待会的实现会这么做）。

　　系统的设计实现

　　根据上述原理，我自己搭建了一个访问日志收集系统。总体来说，搭建这个系统要做如下的事：

图5. 访问数据收集系统工作分解

　　下面详述每一步的实现。我将这个系统叫做MyAnalytics。

　　确定收集的信息

　　为了简单起见，我不打算实现GA的完整数据收集模型，而是收集以下信息。

名称	途径	备注
访问时间	web server	Nginx $msec
IP	web server	Nginx $remote_addr
域名	javascript	document.domain
URL	javascript	document.URL
页面标题	javascript	document.title
分辨率	javascript	window.screen.height & width
颜色深度	javascript	window.screen.colorDepth
Referrer	javascript	document.referrer
浏览客户端	web server	Nginx $http_user_agent
客户端语言	javascript	navigator.language
访客标识	cookie
网站标识	javascript	自定义对象

　　埋点代码

　　埋点代码我将借鉴GA的模式，但是目前不会将配置对象作为一个FIFO队列用。一个埋点代码的模板如下：

 
        <script type= 
        "text/javascript" 
        > 
       
 
        var 
        _maq = _maq || []; 
       
 
        _maq.push([ 
        '_setAccount' 
        ,  
        '网站标识' 
        ]); 
       
 
           
       
 
        ( 
        function 
        () { 
       
 
             
        var 
        ma = document.createElement( 
        'script' 
        ); ma.type =  
        'text/javascript' 
        ; ma.async =  
        true 
        ; 
       
 
             
        ma.src = ( 
        'https:' 
        == document.location.protocol ?  
        'https://analytics' 
        :  
        'http://analytics' 
        ) +  
        '.codinglabs.org/ma.js' 
        ; 
       
 
             
        var 
        s = document.getElementsByTagName( 
        'script' 
        )[0]; s.parentNode.insertBefore(ma, s); 
       
 
        })(); 
       
 
        </script> 
       

　　这里我启用了二级域名analytics.codinglabs.org，统计脚本的名称为ma.js。当然这里有一点小问题，因为我并没有https的服务器，所以如果一个https站点部署了代码会有问题，不过这里我们先忽略吧。

　　前端统计脚本

　　我写了一个不是很完善但能完成基本工作的统计脚本ma.js：

 
        ( 
        function 
        () { 
       
        var 
        params = {}; 
       
        //Document对象数据 
       
        if 
        (document) { 
       
        params.domain = document.domain ||  
        '' 
        ;  
       
        params.url = document.URL ||  
        '' 
        ;  
       
        params.title = document.title ||  
        '' 
        ;  
       
        params.referrer = document.referrer ||  
        '' 
        ;  
       
        }    
       
        //Window对象数据 
       
        if 
        (window && window.screen) { 
       
        params.sh = window.screen.height || 0; 
       
        params.sw = window.screen.width || 0; 
       
        params.cd = window.screen.colorDepth || 0; 
       
        }    
       
        //navigator对象数据 
       
        if 
        (navigator) { 
       
        params.lang = navigator.language ||  
        '' 
        ;  
       
        }    
       
        //解析_maq配置 
       
        if 
        (_maq) { 
       
        for 
        ( 
        var 
        i  
        in 
        _maq) { 
       
        switch 
        (_maq[i][0]) { 
       
        case 
        '_setAccount' 
        : 
       
        params.account = _maq[i][1]; 
       
        break 
        ; 
       
        default 
        : 
       
        break 
        ; 
       
        }    
       
        }    
       
        }    
       
        //拼接参数串 
       
        var 
        args =  
        '' 
        ;  
       
        for 
        ( 
        var 
        i  
        in 
        params) { 
       
        if 
        (args !=  
        '' 
        ) { 
       
        args +=  
        '&' 
        ; 
       
        }    
       
        args += i +  
        '=' 
        + encodeURIComponent(params[i]); 
       
        }    
       
        //通过Image对象请求后端脚本 
       
        var 
        img =  
        new 
        Image(1, 1);  
       
        img.src =  
        'http://analytics.codinglabs.org/1.gif?' 
        + args; 
       
        })();

　　整个脚本放在匿名函数里，确保不会污染全局环境。功能在原理一节已经说明，不再赘述。其中1.gif是后端脚本。

　　日志格式

　　日志采用每行一条记录的方式，采用不可见字符^A（ascii码0×01，Linux下可通过ctrl + v ctrl + a输入，下文均用“^A”表示不可见字符0×01），具体格式如下：

　　时间^AIP^A域名^AURL^A页面标题^AReferrer^A分辨率高^A分辨率宽^A颜色深度^A语言^A客户端信息^A用户标识^A网站标识

　　后端脚本

　　为了简单和效率考虑，我打算直接使用nginx的access_log做日志收集，不过有个问题就是nginx配置本身的逻辑表达能力有限，所以我选用了OpenResty做这个事情。OpenResty是一个基于Nginx扩展出的高性能应用开发平台，内部集成了诸多有用的模块，其中的核心是通过ngx_lua模块集成了Lua，从而在nginx配置文件中可以通过Lua来表述业务。关于这个平台我这里不做过多介绍，感兴趣的同学可以参考其官方网站http://openresty.org/，或者这里有其作者章亦春（agentzh）做的一个非常有爱的介绍OpenResty的slide：http://agentzh.org/misc/slides/ngx-openresty-ecosystem/，关于ngx_lua可以参考：https://github.com/chaoslawful/lua-nginx-module。

　　首先，需要在nginx的配置文件中定义日志格式：

 
        log_format tick  
        "$msec^A$remote_addr^A$u_domain^A$u_url^A$u_title^A$u_referrer^A$u_sh^A$u_sw^A$u_cd^A$u_lang^A$http_user_agent^A$u_utrace^A$u_account" 
        ;

　　注意这里以u_开头的是我们待会会自己定义的变量，其它的是nginx内置变量。

　　然后是核心的两个location：

 
        location  
        /1 
        .gif { 
       
        #伪装成gif文件 
       
        default_type image 
        /gif 
        ;     
       
        #本身关闭access_log，通过subrequest记录log 
       
        access_log off; 
       
        access_by_lua " 
       
        -- 用户跟踪cookie名为__utrace 
       
        local 
        uid = ngx.var.cookie___utrace         
       
        if 
        not uid  
        then 
       
        -- 如果没有则生成一个跟踪cookie，算法为md5(时间戳+IP+客户端信息) 
       
        uid = ngx.md5(ngx.now() .. ngx.var.remote_addr .. ngx.var.http_user_agent) 
       
        end  
       
        ngx.header[ 
        'Set-Cookie' 
        ] = { 
        '__utrace=' 
        .. uid ..  
        '; path=/' 
        } 
       
        if 
        ngx.var.arg_domain  
        then 
       
        -- 通过subrequest到 
        /i-log 
        记录日志，将参数和用户跟踪cookie带过去 
       
        ngx.location.capture( 
        '/i-log?' 
        .. ngx.var.args ..  
        '&utrace=' 
        .. uid) 
       
        end  
       
        ";   
       
        #此请求不缓存 
       
        add_header Expires  
        "Fri, 01 Jan 1980 00:00:00 GMT" 
        ; 
       
        add_header Pragma  
        "no-cache" 
        ; 
       
        add_header Cache-Control  
        "no-cache, max-age=0, must-revalidate" 
        ; 
       
        #返回一个1×1的空gif图片 
       
        empty_gif; 
       
        }    
       
        location  
        /i-log 
        { 
       
        #内部location，不允许外部直接访问 
       
        internal; 
       
        #设置变量，注意需要unescape 
       
        set_unescape_uri $u_domain $arg_domain; 
       
        set_unescape_uri $u_url $arg_url; 
       
        set_unescape_uri $u_title $arg_title; 
       
        set_unescape_uri $u_referrer $arg_referrer; 
       
        set_unescape_uri $u_sh $arg_sh; 
       
        set_unescape_uri $u_sw $arg_sw; 
       
        set_unescape_uri $u_cd $arg_cd; 
       
        set_unescape_uri $u_lang $arg_lang; 
       
        set_unescape_uri $u_utrace $arg_utrace; 
       
        set_unescape_uri $u_account $arg_account; 
       
        #打开日志 
       
        log_subrequest on; 
       
        #记录日志到ma.log，实际应用中最好加buffer，格式为tick 
       
        access_log  
        /path/to/logs/directory/ma 
        .log tick; 
       
        #输出空字符串 
       
        echo 
        '' 
        ; 
       
        }

　　要完全解释这段脚本的每一个细节有点超出本文的范围，而且用到了诸多第三方ngxin模块（全都包含在OpenResty中了），重点的地方我都用注释标出来了，可以不用完全理解每一行的意义，只要大约知道这个配置完成了我们在原理一节提到的后端逻辑就可以了。

　　日志轮转

　　真正的日志收集系统访问日志会非常多，时间一长文件变得很大，而且日志放在一个文件不便于管理。所以通常要按时间段将日志切分，例如每天或每小时切分一个日志。我这里为了效果明显，每一小时切分一个日志。我是通过crontab定时调用一个shell脚本实现的，shell脚本如下：

 
        _prefix= 
        "/path/to/nginx" 
       
        time 
        =` 
        date 
        +%Y%m%d%H` 
       
        mv 
        ${_prefix} 
        /logs/ma 
        .log ${_prefix} 
        /logs/ma/ma- 
        ${ 
        time 
        }.log 
       
        kill 
        -USR1 ` 
        cat 
        ${_prefix} 
        /logs/nginx 
        .pid`

　　这个脚本将ma.log移动到指定文件夹并重命名为ma-{yyyymmddhh}.log，然后向nginx发送USR1信号令其重新打开日志文件。

　　然后再/etc/crontab里加入一行：

 
        59  *  *  *  * root  
        /path/to/directory/rotatelog 
        .sh

　　在每个小时的59分启动这个脚本进行日志轮转操作。

　　测试

　　下面可以测试这个系统是否能正常运行了。我昨天就在我的博客中埋了相关的点，通过http抓包可以看到ma.js和1.gif已经被正确请求：

图6. http包分析ma.js和1.gif的请求

　　同时可以看一下1.gif的请求参数：

图7. 1.gif的请求参数

　　相关信息确实也放在了请求参数中。

　　然后我tail打开日志文件，然后刷新一下页面，因为没有设access log buffer，我立即得到了一条新日志：

 
        1351060731.360^A0.0.0.0^Awww.codinglabs.org^Ahttp: 
        //www 
        .codinglabs.org/^ACodingLabs^A^A1024^A1280^A24^Azh-CN^AMozilla 
        /5 
        .0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit 
        /537 
        .4 (KHTML, like Gecko) Chrome 
        /22 
        .0.1229.94 Safari 
        /537 
        .4^A4d612be64366768d32e623d594e82678^AU-1-1

　　注意实际上原日志中的^A是不可见的，这里我用可见的^A替换为方便阅读，另外IP由于涉及隐私我替换为了0.0.0.0。

　　看一眼日志轮转目录，由于我之前已经埋了点，所以已经生成了很多轮转文件：

图8. 轮转日志

　　关于分析

　　通过上面的分析和开发可以大致理解一个网站统计的日志收集系统是如何工作的。有了这些日志，就可以进行后续的分析了。本文只注重日志收集，所以不会写太多关于分析的东西。

　　注意，原始日志最好尽量多的保留信息而不要做过多过滤和处理。例如上面的MyAnalytics保留了毫秒级时间戳而不是格式化后的时间，时间的格式化是后面的系统做的事而不是日志收集系统的责任。后面的系统根据原始日志可以分析出很多东西，例如通过IP库可以定位访问者的地域、user agent中可以得到访问者的操作系统、浏览器等信息，再结合复杂的分析模型，就可以做流量、来源、访客、地域、路径等分析了。当然，一般不会直接对原始日志分析，而是会将其清洗格式化后转存到其它地方，如MySQL或HBase中再做分析。

　　分析部分的工作有很多开源的基础设施可以使用，例如实时分析可以使用Storm，而离线分析可以使用Hadoop。当然，在日志比较小的情况下，也可以通过shell命令做一些简单的分析，例如，下面三条命令可以分别得出我的博客在今天上午8点到9点的访问量（PV），访客数（UV）和独立IP数（IP）：

 
   
    
      
      
        awk 
        -F^A  
        '{print $1}' 
        ma-2012102409.log |  
        wc 
        -l 
       
 
        awk 
        -F^A  
        '{print $12}' 
        ma-2012102409.log |  
        uniq 
        |  
        wc 
        -l 
       
 
        awk 
        -F^A  
        '{print $2}' 
        ma-2012102409.log |  
        uniq 
        |  
        wc 
        -l 
       
 
    
 
   
 

　　其它好玩的东西朋友们可以慢慢挖掘。

　　参考

　　GA的开发者文档：https://developers.google.com/analytics/devguides/collection/gajs/

　　一篇关于实现nginx收日志的文章：http://blog.linezing.com/2011/11/%E4%BD%BF%E7%94%A8nginx%E8%AE%B0%E6%97%A5%E5%BF%97

　　关于Nginx可以参考：http://wiki.nginx.org/Main

　　OpenResty的官方网站为：http://openresty.org

　　ngx_lua模块可参考：https://github.com/chaoslawful/lua-nginx-module

　　本文http抓包使用Chrome浏览器开发者工具，绘制思维导图使用Xmind，流程和结构图使用Tikz PGF

你可能感兴趣的:(数据)

人大金仓 vs MySQL 窗口函数：三大核心差异与实战对比
一、窗口函数的演进与挑战窗口函数（WindowFunctions）自MySQL8.0引入以来，已成为数据分析和业务报表开发的核心工具。然而，随着国产数据库如人大金仓（KingbaseES）对MySQL语法的兼容性增强，开发者在迁移或选型时面临一个关键问题：如何选择支持更强大窗口函数功能的数据库？本文将从语法设计、功能特性、性能表现三个维度，结合代码实战，深度剖析人大金仓与MySQL窗口函数的核心差
前端WebSocket协议压缩优化前端视界前端艺匠馆前端 websocket 网络协议 ai
前端WebSocket协议压缩优化关键词：前端、WebSocket协议、压缩优化、数据传输、性能提升摘要：本文围绕前端WebSocket协议的压缩优化展开，详细介绍了WebSocket协议的基本概念，分析了进行压缩优化的原因和好处。通过生动的比喻和通俗易懂的语言解释了相关核心概念，阐述了核心概念之间的关系，并给出了核心概念原理和架构的文本示意图与Mermaid流程图。同时，详细讲解了压缩优化的核心
12、jvm运行期优化很小心的小新 jvm java 笔记开发语言
运行期优化：jvm将执行状态分成五个层次（1）0层，解释执行（Inrerpreter）（2）1层，使用c1即时编译器编译执行（不带profiling）2层，使用c1即时编译器编译执行（带基本的prodiling）3层，使用c1即时编译器编译执行（带完全的profiling）4层，使用c2即时编译器编译执行profiling是指在运行过程中收集一些程序执行状态的数据，例如：方法调用次数，循环的回边次
大数据(1)-hdfs&hbase viperrrrrrr 大数据 hdfs hbase
hbase&hdfs一、体系结构HDFS是一个标准的主从(Master/Slave)体系结构的分布式系统；HDFS集群包含一个或多个NameNode(NameNodeHA会有多个NameNode)和多个DataNode(根据节点情况规划),用户可以通过HDFS客户端同NameNode和DataNode进行交互以访问文件系统。HDFS公开文件系统名称空间，并允许将用户数据存储在文件中。在内部，一个文
Redis常见性能问题和解决方案有哪些？
Redis作为高性能的内存数据库，在实际使用中可能会遇到性能问题。以下是常见的性能问题及其解决方案，用中文总结如下：1.高延迟问题问题描述：客户端请求响应时间过长，可能由于网络、命令复杂度或服务器负载导致。解决方案：优化网络：检查客户端与Redis服务器之间的网络延迟，使用本地或低延迟的网络连接。避免慢命令：避免使用高复杂度的命令，如KEYS（O(N)复杂度），改用SCAN进行增量迭代。使用管道（
Python 操作 Redis 全指南：从入门到实战贾修行 python python redis bootstrap
Redis作为一款高性能的内存数据库，在缓存、会话存储、实时分析等场景中应用广泛。本文将详细介绍如何在Python中操作Redis，涵盖环境搭建、基础数据类型操作、高级功能及最佳实践，适合Redis初学者和Python开发者参考。一、环境准备1.安装Redis服务器Windows：从Redis官方仓库下载安装包，或使用WSL2安装Linux版本Linux：通过包管理器安装sudoaptinstal
AD7606过采样模式零度随想嵌入式硬件 fpga开发
AD7606的过采样模式（OversamplingMode）是其重要特性之一，它可提升信噪比（SNR）、有效分辨率、降低系统噪声。✅一、什么是过采样（Oversampling）过采样是指ADC内部将每个通道采样多次，然后进行数字平均滤波，以减少随机噪声、提升信号质量。在AD7606中，过采样是由芯片内部硬件自动完成的：每次外部采样触发→芯片在内部进行多次转换→平均值输出对外仍只输出1个16位数据→
软件测试（功能、工具、接口、性能、自动化、测开）详解程序员老V 自动化运维
一、软件测试功能测试测试用例编写是软件测试的基本技能；也有很多人认为测试用例是软件测试的核心；软件测试中最重要的是设计和生成有效的测试用例；测试用例是测试工作的指导，是软件测试的必须遵守的准则。黑盒测试常见测试用例编写方法1、等价类选取少数有代表性的数据，这一类数据等价于这一类的其它值；找出最小的子集，可以发现最多的错误；特性：必须设计的用例；涵盖了大部分情况；2、边界值所谓边界条件，是指输入和输
黑客 vs. 网安：谁才是数字世界的主宰？ 2024年信息安全人员应该重点学什么？网安导师小李程序员编程网络安全 linux 运维服务器 excel web安全 python java
在当今数字化飞速发展的时代，信息安全问题日益严峻。黑客攻击、数据泄露、网络病毒等威胁不断涌现，企业和个人的隐私安全岌岌可危。随着人工智能、物联网、云计算、区块链等新技术的兴起，信息安全行业正面临着新的挑战和机遇。2024年信息安全行业面临的挑战和机遇**1.人工智能（AI）：**AI技术的广泛应用使得攻击者能够利用机器学习和自动化技术进行更具针对性的攻击。例如，恶意软件可以通过AI算法不断自我进化
Python和OpenCV实现车牌识别的毕业设计案例媛源啊
本文还有配套的精品资源，点击获取简介：本项目通过Python和OpenCV库，实现了一个实用的车牌识别系统，包含图像捕获、预处理、车牌定位、车牌分割和字符识别等步骤。系统提供了一键运行的完整代码，使学生能够快速掌握计算机视觉和深度学习应用。遇到的挑战和解决方案也进行了讨论，比如光照变化、车牌角度不一致和污损的处理，以及数据增强技术和模型参数优化。1.车牌识别系统的基本理论和应用1.1车牌识别的背景
2025.07.04【转录组】| RNA-seq 组装“瘦身术”——BBNorm 归一化处理穆易青组装 RNA-seq 二代大数据
作者：穆易青|CSDN原创当你的RNA-seq原始读长文件动辄数百GB，组装器张口就要500GB+内存时，该怎么办？一种最经济、又几乎不丢掉有用信息的做法就是——数字归一化（DigitalNormalization）。本文将带你认识BBTools套件中的利器BBNorm，并手把手完成一次上百TB级别数据的“瘦身”实践。文章目录1.什么是数字归一化？2.BBNorm：BBTools家族中的“减肥大师
【redis使用场景——缓存——数据淘汰策略】
redis使用场景——缓存——数据淘汰策略数据淘汰策略8种淘汰策略对比数据淘汰策略当内存达到maxmemory限制时，Redis会根据配置的策略自动淘汰数据，策略通过maxmemory-policy参数指定：#redis.conf示例maxmemory2GBmaxmemory-policyvolatile-lru8种淘汰策略对比策略规则适用场景noeviction不淘汰数据，拒绝所有写入请求（默认
Day44
1.预训练概念：在大规模数据上训练模型学习通用知识，再迁移到下游任务微调2.常见模型：图像有AlexNet、ResNet、ViT；NLP有BERT、GPT3.图像模型发展：从手工特征到深度学习，从CNN到Transformer、多模态4.预训练策略：数据增强、自监督/监督训练、模型微调、多模态学习作业1.importtorchimporttorch.nnasnnimporttorch.optima
当AI邂逅新能源：Java如何重构能源未来
当AI邂逅新能源：Java如何重构能源未来在阿联酋阿布扎比的沙漠深处，一座由AI驱动的“全景式数字指挥中心”正实时监控着2000公里外的海上油田。通过深度学习算法预测设备故障、优化钻井路径，这座由阿布扎比国家石油公司打造的智能中枢，每年减少100万吨碳排放，创造价值5亿美元。而在中国南方，全球首个大规模抽水蓄能AI数据分析平台，正让百年历史的电站群焕发新生——7座电站、34台机组实现90%人工巡检
Python, Rust 开发机关事业单位公文写作助手APP
#机关事业单位公文写作助手应用设计基于Python和Rust开发机关事业单位公文写作APP的方案如下：##系统架构设计```桌面端/Web应用(Tauri/Vue.js)|RESTAPI/WebSocket|Rust核心服务(Actix-web/Axum)←───PythonNLP服务(FastAPI)|公文要素提取/模板生成/智能校对PostgreSQL数据库|Redis缓存(模板缓存/会话管理
重构企业智能服务：大模型部署背后的战略与落地实践慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：从“能用”到“可用”的时代跃迁过去一年中，大语言模型（LLMs）实现了从实验室“黑科技”到企业场景“生产力”的巨大跃迁。无论是通用问答、客户支持、文本生成、知识库问询，还是代码辅助、财报分析，大模型的边界已快速渗透到各行各业。然而，许多企业在试图将ChatGPT或DeepSeek等模型引入自己的业务系统时却发现：在线服务存在数据泄露风险；响
Redis 实现消息队列先睡 redis 数据库缓存
Redis提供了多种数据结构来实现消息队列，主要包括List和Stream。以下是两种实现方式的详细说明：1.基于List实现消息队列实现方式：生产者：使用LPUSH或RPUSH命令将消息推入队列。消费者：使用RPOP或LPOP命令从队列中获取消息。为了提高可靠性，可以使用BRPOPLPUSH或BLMOVE命令，这些命令可以在获取消息的同时将其移动到另一个队列（如Pending队列），以确保消息在
springboot整合lua脚本在Redis实现商品库存扣减一头生产的驴 Redis spring boot lua redis java
1、目的使用lua脚本，可以保证多条命令的操作原子性；同时可以减少操作IO（比如说判断redis对应数据是否小于0，小于0就重置为100，这个场景一般是取出来再判断，再存放进行，就至少存在2次IO,用lua脚本一条命令1次IO就解决了,在批量扣减情况存在多次IO，lua脚本1次也可以解决），提高速度，降低IO.2、使用案列根据传入的产品标识及数量扣减该产品数量；此处为单个产品扣减，可优化为批量产品
【C++】机试刷题总结day11——二、枚举和模拟（下）map非线性数据结构钰汐◇ 机试刷题总结 c++开发语言
机试课一、枚举和模拟（下）模拟问题——非线性数据结构mapmap词典本质是集合，内容是键值对分类构建：增：删：查：1、遍历2、查找改：例题1、手机键盘※※（完全没思考）思路：关键点：用map把关键信息组织起来易错点：代码：模拟解题关键：判断用什么数据结构存储信息一、枚举和模拟（下）模拟问题——非线性数据结构mapmap词典对比vector、set学习可以通过下标访问元素，下标可以是任意类型，元素也
类加载生命周期与内存区域详解
类加载生命周期与内存区域详解Java类加载的生命周期包括加载、验证、准备、解析、初始化五个阶段，每个阶段在内存中的存储区域和赋值机制各有不同。以下是详细解析：一、类加载生命周期阶段1.加载（Loading）内存区域：方法区：存储类的元数据（如类结构、字段、方法信息）堆：生成对应的java.lang.Class对象赋值机制：通过类加载器读取字节码文件（如.class）将字节码转换为方法区的二进制数据
解决MySQL “Lock wait timeout exceeded； try restarting transaction“ 错误一勺菠萝丶 #MySQL mysql android 数据库
在处理MySQL数据库时，我们偶尔会遇到一个棘手的错误消息：“Lockwaittimeoutexceeded;tryrestartingtransaction”。这通常表明我们的一个事务在尝试获取资源时被阻塞了太长时间。在并发环境中，多个事务同时竞争相同的资源可能会导致这种情况发生。锁等待超时问题的原因锁等待超时是因为另一个事务持有了需要的锁，并且没有在配置的超时期限内释放。这可能是因为该事务非常
【Python小工具】使用 OpenCV 获取视频时长的详细指南
【Python小工具】使用OpenCV获取视频时长的详细指南在处理视频数据时，获取视频的时长是一项常见且基础的需求。无论是进行视频分析、编辑，还是在视频处理项目中进行预处理，了解视频的时长都是不可或缺的一步。在Python中，借助强大的OpenCV库，我们可以轻松实现这一功能。本文将详细介绍如何使用Python和OpenCV获取视频时长，并对每一行代码进行深入解析。一、代码实现importcv2d
OracleSync2MySQL 数据同步问题bad connection、创建表异常、数据映射异常 aspirant-complete 运维开发
1、mysql数据库连接badconnection、invalidconnection等异常检查数据库连接空闲时间MySQL服务器等待一个连接所允许的空闲时间。如果达到此时间，MySQL服务器将自动关闭该连接，除非该连接正在活动状态```sqlSHOWVARIABLESLIKE'wait_timeout';![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/
计算两个数的平方和泽慕 C语言 c语言
3.计算两个数的平方和从键盘读入两个实数，编程计算并输出它们的平方和，要求使用数学函数pow(x,y)计算平方值，输出结果保留2位小数。程序中所有浮点数的数据类型均为float。#include#include#includeintmain(){doublea,b;doublec;scanf("%lf%lf",&a,&b);c=pow(a,2)+pow(b,2);printf("%lf",c);r
异地跨网怎么远程访问应用系统？几种常见的进销存软件远程管理方式搬码临时工服务器运维
在当今数字化时代，远程访问进销存的主要方法包括使用云端软件、nat123内外网映射、VPN、远程桌面连接和移动应用。其中使用云端软件是直接使用系统本身自带的功能，因为它不仅方便，还能提供实时数据更新。类似nat123网址转换方式也能快速让用户可以随时随地通过互联网网络访问进销存系统，无需担心数据同步问题。通过远程管理访问你可以远程管理库存、订单和销售数据，确保业务的高效运转。一、使用云端软件（部署
本地服务器搭建部署后，需要配置外网访问，要怎么操作呢？内网设置开放到互联网使用搬码临时工服务器运维
常见的如异地远程办公，移动办公是企业在工作中常常会选择的办公形式。而企业往往是会通过内网来进行办公，这样也是为了能保障数据信息安全，而异地办公要实现外网访问，通常也是会采取服务器配置外网访问的方式。这样一来，在企业办公中就能进行远程访问，远程文件以及远程办公，那么，服务器配置外网访问，要怎么操作呢？下面我们便一起来看看无公网IP网络环境，如何通过简单的nat123内网映射方式，将本地服务器提供互联
阿里云SelectDB：开启实时数仓新时代云资源服务商阿里云云计算数据库云原生
一、引言在当今大数据时代，数据如同企业的“石油”，蕴含着巨大的价值。随着数据量呈指数级增长，企业对于实时数据分析的需求愈发迫切。实时数据分析能够帮助企业及时捕捉市场动态，快速做出决策，从而在激烈的市场竞争中占据优势。无论是电商企业需要实时分析用户购买行为以进行精准营销，还是金融机构需要实时监测风险以保障资金安全，实时数据分析都发挥着关键作用。阿里云SelectDB作为一款专为实时数据分析打造的云原
解锁阿里云日志服务SLS：云时代的日志管理利器云资源服务商阿里云云计算服务器
引言：开启日志管理新篇在云计算时代，数据如同企业的血液，源源不断地产生并流动。从用户的每一次点击，到系统后台的每一个操作，数据都在记录着企业运营的轨迹。而在这些海量的数据中，日志数据占据着至关重要的地位，它不仅记录了系统的运行状态、用户的行为信息，还为企业的运维、安全、业务分析等提供了宝贵的依据。如何高效地处理这些日志数据，成为了企业在数字化转型过程中面临的关键挑战之一。阿里云日志服务SLS（Si
探秘阿里云Tablestore：大数据存储与查询的神器云资源服务商阿里云大数据云计算
一、引言在大数据时代，数据量呈爆炸式增长，数据类型也日益丰富多样，这对数据库技术提出了前所未有的挑战。传统的关系型数据库在应对海量数据存储、高并发读写以及复杂数据分析时，往往显得力不从心，难以满足企业日益增长的业务需求。为了解决这些问题，各种新型数据库技术应运而生，阿里云Tablestore便是其中的佼佼者。阿里云Tablestore是一款构建在阿里云飞天分布式系统之上的分布式NoSQL数据存储服
探秘阿里云HDR：为你的业务筑牢容灾防线云资源服务商数据库安全阿里云云计算
一、阿里云HDR是什么阿里云HDR，即混合云容灾服务（HybridDisasterRecovery），是阿里云推出的一项旨在保障企业业务连续性和数据安全的重要服务。在数字化时代，企业的业务越来越依赖于信息技术系统，任何系统故障、数据丢失或业务中断都可能给企业带来巨大的经济损失和声誉影响。阿里云HDR正是为了解决这些问题而诞生，它利用先进的技术手段，为企业提供了一种高效、可靠的容灾解决方案。阿里云H
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st