zhibin07

网站统计中的数据收集原理及实现

[url]http://www.admin10000.com/document/1089.html[/url] 网站统计中的数据收集原理及实现

网站数据统计分析工具是网站站长和运营人员经常使用的一种工具，比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理，并一步一步实际搭建一个实际的数据收集系统。

　　数据收集原理分析

　　简单来说，网站统计分析工具需要收集到用户浏览目标网站的行为（如打开某网页、点击某按钮、将商品加入购物车等）及行为附加数据（如某下单行为产生的订单金额等）。早期的网站统计往往只收集一种用户行为：页面的打开。而后用户在页面中的行为均无法收集。这种收集策略能满足基本的流量分析、来源分析、内容分析及访客属性等常用分析视角，但是，随着ajax技术的广泛使用及电子商务网站对于电子商务目标的统计分析的需求越来越强烈，这种传统的收集策略已经显得力不能及。

　　后来，Google在其产品谷歌分析中创新性的引入了可定制的数据收集脚本，用户通过谷歌分析定义好的可扩展接口，只需编写少量的javascript代码就可以实现自定义事件和自定义指标的跟踪和分析。目前百度统计、搜狗分析等产品均照搬了谷歌分析的模式。

　　其实说起来两种数据收集模式的基本原理和流程是一致的，只是后一种通过javascript收集到了更多的信息。下面看一下现在各种网站统计工具的数据收集基本原理。

　　流程概览

　　首先通过一幅图总体看一下数据收集的基本流程。

图1. 网站统计数据收集基本流程

　　首先，用户的行为会触发浏览器对被统计页面的一个http请求，这里姑且先认为行为就是打开网页。当网页被打开，页面中的埋点javascript片段会被执行，用过相关工具的朋友应该知道，一般网站统计工具都会要求用户在网页中加入一小段javascript代码，这个代码片段一般会动态创建一个script标签，并将src指向一个单独的js文件，此时这个单独的js文件（图1中绿色节点）会被浏览器请求到并执行，这个js往往就是真正的数据收集脚本。数据收集完成后，js会请求一个后端的数据收集脚本（图1中的backend），这个脚本一般是一个伪装成图片的动态脚本程序，可能由php、python或其它服务端语言编写，js会将收集到的数据通过http参数的方式传递给后端脚本，后端脚本解析参数并按固定格式记录到访问日志，同时可能会在http响应中给客户端种植一些用于追踪的cookie。

　　上面是一个数据收集的大概流程，下面以谷歌分析为例，对每一个阶段进行一个相对详细的分析。

　　埋点脚本执行阶段

　　若要使用谷歌分析（以下简称GA），需要在页面中插入一段它提供的javascript片段，这个片段往往被称为埋点代码。下面是我的博客中所放置的谷歌分析埋点代码截图：

图2. 谷歌分析埋点代码

　　其中_gaq是GA的的全局数组，用于放置各种配置，其中每一条配置的格式为：

 
        _gaq.push([ 
        'Action' 
        ,  
        'param1' 
        ,  
        'param2' 
        , ...]);

　　Action指定配置动作，后面是相关的参数列表。GA给的默认埋点代码会给出两条预置配置，_setAccount用于设置网站标识ID，这个标识ID是在注册GA时分配的。_trackPageview告诉GA跟踪一次页面访问。更多配置请参考：https://developers.google.com/analytics/devguides/collection/gajs/。实际上，这个_gaq是被当做一个FIFO队列来用的，配置代码不必出现在埋点代码之前，具体请参考上述链接的说明。

　　就本文来说，_gaq的机制不是重点，重点是后面匿名函数的代码，这才是埋点代码真正要做的。这段代码的主要目的就是引入一个外部的js文件（ga.js），方式是通过document.createElement方法创建一个script并根据协议（http或https）将src指向对应的ga.js，最后将这个element插入页面的dom树上。

　　注意ga.async = true的意思是异步调用外部js文件，即不阻塞浏览器的解析，待外部js下载完成后异步执行。这个属性是HTML5新引入的。

　　数据收集脚本执行阶段

　　数据收集脚本（ga.js）被请求后会被执行，这个脚本一般要做如下几件事：

　　1、通过浏览器内置javascript对象收集信息，如页面title（通过document.title）、referrer（上一跳url，通过document.referrer）、用户显示器分辨率（通过windows.screen）、cookie信息（通过document.cookie）等等一些信息。

　　2、解析_gaq收集配置信息。这里面可能会包括用户自定义的事件跟踪、业务数据（如电子商务网站的商品编号等）等。

　　3、将上面两步收集的数据按预定义格式解析并拼接。

　　4、请求一个后端脚本，将信息放在http request参数中携带给后端脚本。

　　这里唯一的问题是步骤4，javascript请求后端脚本常用的方法是ajax，但是ajax是不能跨域请求的。这里ga.js在被统计网站的域内执行，而后端脚本在另外的域（GA的后端统计脚本是http://www.google-analytics.com/__utm.gif），ajax行不通。一种通用的方法是js脚本创建一个Image对象，将Image对象的src属性指向后端脚本并携带参数，此时即实现了跨域请求后端。这也是后端脚本为什么通常伪装成gif文件的原因。通过http抓包可以看到ga.js对__utm.gif的请求：

图3. 后端脚本请求的http包

　　可以看到ga.js在请求__utm.gif时带了很多信息，例如utmsr=1280×1024是屏幕分辨率，utmac=UA-35712773-1是_gaq中解析出的我的GA标识ID等等。

　　值得注意的是，__utm.gif未必只会在埋点代码执行时被请求，如果用_trackEvent配置了事件跟踪，则在事件发生时也会请求这个脚本。

　　由于ga.js经过了压缩和混淆，可读性很差，我们就不分析了，具体后面实现阶段我会实现一个功能类似的脚本。

　　后端脚本执行阶段

　　GA的__utm.gif是一个伪装成gif的脚本。这种后端脚本一般要完成以下几件事情：

　　1、解析http请求参数的到信息。

　　2、从服务器（WebServer）中获取一些客户端无法获取的信息，如访客ip等。

　　3、将信息按格式写入log。

　　4、生成一副1×1的空gif图片作为响应内容并将响应头的Content-type设为image/gif。

　　5、在响应头中通过Set-cookie设置一些需要的cookie信息。

　　之所以要设置cookie是因为如果要跟踪唯一访客，通常做法是如果在请求时发现客户端没有指定的跟踪cookie，则根据规则生成一个全局唯一的cookie并种植给用户，否则Set-cookie中放置获取到的跟踪cookie以保持同一用户cookie不变（见图4）。

图4. 通过cookie跟踪唯一用户的原理

　　这种做法虽然不是完美的（例如用户清掉cookie或更换浏览器会被认为是两个用户），但是是目前被广泛使用的手段。注意，如果没有跨站跟踪同一用户的需求，可以通过js将cookie种植在被统计站点的域下（GA是这么做的），如果要全网统一定位，则通过后端脚本种植在服务端域下（我们待会的实现会这么做）。

　　系统的设计实现

　　根据上述原理，我自己搭建了一个访问日志收集系统。总体来说，搭建这个系统要做如下的事：

图5. 访问数据收集系统工作分解

　　下面详述每一步的实现。我将这个系统叫做MyAnalytics。

　　确定收集的信息

　　为了简单起见，我不打算实现GA的完整数据收集模型，而是收集以下信息。

名称	途径	备注
访问时间	web server	Nginx $msec
IP	web server	Nginx $remote_addr
域名	javascript	document.domain
URL	javascript	document.URL
页面标题	javascript	document.title
分辨率	javascript	window.screen.height & width
颜色深度	javascript	window.screen.colorDepth
Referrer	javascript	document.referrer
浏览客户端	web server	Nginx $http_user_agent
客户端语言	javascript	navigator.language
访客标识	cookie
网站标识	javascript	自定义对象

　　埋点代码

　　埋点代码我将借鉴GA的模式，但是目前不会将配置对象作为一个FIFO队列用。一个埋点代码的模板如下：

 
        <script type= 
        "text/javascript" 
        > 
       
 
        var 
        _maq = _maq || []; 
       
 
        _maq.push([ 
        '_setAccount' 
        ,  
        '网站标识' 
        ]); 
       
 
           
       
 
        ( 
        function 
        () { 
       
 
             
        var 
        ma = document.createElement( 
        'script' 
        ); ma.type =  
        'text/javascript' 
        ; ma.async =  
        true 
        ; 
       
 
             
        ma.src = ( 
        'https:' 
        == document.location.protocol ?  
        'https://analytics' 
        :  
        'http://analytics' 
        ) +  
        '.codinglabs.org/ma.js' 
        ; 
       
 
             
        var 
        s = document.getElementsByTagName( 
        'script' 
        )[0]; s.parentNode.insertBefore(ma, s); 
       
 
        })(); 
       
 
        </script> 
       

　　这里我启用了二级域名analytics.codinglabs.org，统计脚本的名称为ma.js。当然这里有一点小问题，因为我并没有https的服务器，所以如果一个https站点部署了代码会有问题，不过这里我们先忽略吧。

　　前端统计脚本

　　我写了一个不是很完善但能完成基本工作的统计脚本ma.js：

 
        ( 
        function 
        () { 
       
        var 
        params = {}; 
       
        //Document对象数据 
       
        if 
        (document) { 
       
        params.domain = document.domain ||  
        '' 
        ;  
       
        params.url = document.URL ||  
        '' 
        ;  
       
        params.title = document.title ||  
        '' 
        ;  
       
        params.referrer = document.referrer ||  
        '' 
        ;  
       
        }    
       
        //Window对象数据 
       
        if 
        (window && window.screen) { 
       
        params.sh = window.screen.height || 0; 
       
        params.sw = window.screen.width || 0; 
       
        params.cd = window.screen.colorDepth || 0; 
       
        }    
       
        //navigator对象数据 
       
        if 
        (navigator) { 
       
        params.lang = navigator.language ||  
        '' 
        ;  
       
        }    
       
        //解析_maq配置 
       
        if 
        (_maq) { 
       
        for 
        ( 
        var 
        i  
        in 
        _maq) { 
       
        switch 
        (_maq[i][0]) { 
       
        case 
        '_setAccount' 
        : 
       
        params.account = _maq[i][1]; 
       
        break 
        ; 
       
        default 
        : 
       
        break 
        ; 
       
        }    
       
        }    
       
        }    
       
        //拼接参数串 
       
        var 
        args =  
        '' 
        ;  
       
        for 
        ( 
        var 
        i  
        in 
        params) { 
       
        if 
        (args !=  
        '' 
        ) { 
       
        args +=  
        '&' 
        ; 
       
        }    
       
        args += i +  
        '=' 
        + encodeURIComponent(params[i]); 
       
        }    
       
        //通过Image对象请求后端脚本 
       
        var 
        img =  
        new 
        Image(1, 1);  
       
        img.src =  
        'http://analytics.codinglabs.org/1.gif?' 
        + args; 
       
        })();

　　整个脚本放在匿名函数里，确保不会污染全局环境。功能在原理一节已经说明，不再赘述。其中1.gif是后端脚本。

　　日志格式

　　日志采用每行一条记录的方式，采用不可见字符^A（ascii码0×01，Linux下可通过ctrl + v ctrl + a输入，下文均用“^A”表示不可见字符0×01），具体格式如下：

　　时间^AIP^A域名^AURL^A页面标题^AReferrer^A分辨率高^A分辨率宽^A颜色深度^A语言^A客户端信息^A用户标识^A网站标识

　　后端脚本

　　为了简单和效率考虑，我打算直接使用nginx的access_log做日志收集，不过有个问题就是nginx配置本身的逻辑表达能力有限，所以我选用了OpenResty做这个事情。OpenResty是一个基于Nginx扩展出的高性能应用开发平台，内部集成了诸多有用的模块，其中的核心是通过ngx_lua模块集成了Lua，从而在nginx配置文件中可以通过Lua来表述业务。关于这个平台我这里不做过多介绍，感兴趣的同学可以参考其官方网站http://openresty.org/，或者这里有其作者章亦春（agentzh）做的一个非常有爱的介绍OpenResty的slide：http://agentzh.org/misc/slides/ngx-openresty-ecosystem/，关于ngx_lua可以参考：https://github.com/chaoslawful/lua-nginx-module。

　　首先，需要在nginx的配置文件中定义日志格式：

 
        log_format tick  
        "$msec^A$remote_addr^A$u_domain^A$u_url^A$u_title^A$u_referrer^A$u_sh^A$u_sw^A$u_cd^A$u_lang^A$http_user_agent^A$u_utrace^A$u_account" 
        ;

　　注意这里以u_开头的是我们待会会自己定义的变量，其它的是nginx内置变量。

　　然后是核心的两个location：

 
        location  
        /1 
        .gif { 
       
        #伪装成gif文件 
       
        default_type image 
        /gif 
        ;     
       
        #本身关闭access_log，通过subrequest记录log 
       
        access_log off; 
       
        access_by_lua " 
       
        -- 用户跟踪cookie名为__utrace 
       
        local 
        uid = ngx.var.cookie___utrace         
       
        if 
        not uid  
        then 
       
        -- 如果没有则生成一个跟踪cookie，算法为md5(时间戳+IP+客户端信息) 
       
        uid = ngx.md5(ngx.now() .. ngx.var.remote_addr .. ngx.var.http_user_agent) 
       
        end  
       
        ngx.header[ 
        'Set-Cookie' 
        ] = { 
        '__utrace=' 
        .. uid ..  
        '; path=/' 
        } 
       
        if 
        ngx.var.arg_domain  
        then 
       
        -- 通过subrequest到 
        /i-log 
        记录日志，将参数和用户跟踪cookie带过去 
       
        ngx.location.capture( 
        '/i-log?' 
        .. ngx.var.args ..  
        '&utrace=' 
        .. uid) 
       
        end  
       
        ";   
       
        #此请求不缓存 
       
        add_header Expires  
        "Fri, 01 Jan 1980 00:00:00 GMT" 
        ; 
       
        add_header Pragma  
        "no-cache" 
        ; 
       
        add_header Cache-Control  
        "no-cache, max-age=0, must-revalidate" 
        ; 
       
        #返回一个1×1的空gif图片 
       
        empty_gif; 
       
        }    
       
        location  
        /i-log 
        { 
       
        #内部location，不允许外部直接访问 
       
        internal; 
       
        #设置变量，注意需要unescape 
       
        set_unescape_uri $u_domain $arg_domain; 
       
        set_unescape_uri $u_url $arg_url; 
       
        set_unescape_uri $u_title $arg_title; 
       
        set_unescape_uri $u_referrer $arg_referrer; 
       
        set_unescape_uri $u_sh $arg_sh; 
       
        set_unescape_uri $u_sw $arg_sw; 
       
        set_unescape_uri $u_cd $arg_cd; 
       
        set_unescape_uri $u_lang $arg_lang; 
       
        set_unescape_uri $u_utrace $arg_utrace; 
       
        set_unescape_uri $u_account $arg_account; 
       
        #打开日志 
       
        log_subrequest on; 
       
        #记录日志到ma.log，实际应用中最好加buffer，格式为tick 
       
        access_log  
        /path/to/logs/directory/ma 
        .log tick; 
       
        #输出空字符串 
       
        echo 
        '' 
        ; 
       
        }

　　要完全解释这段脚本的每一个细节有点超出本文的范围，而且用到了诸多第三方ngxin模块（全都包含在OpenResty中了），重点的地方我都用注释标出来了，可以不用完全理解每一行的意义，只要大约知道这个配置完成了我们在原理一节提到的后端逻辑就可以了。

　　日志轮转

　　真正的日志收集系统访问日志会非常多，时间一长文件变得很大，而且日志放在一个文件不便于管理。所以通常要按时间段将日志切分，例如每天或每小时切分一个日志。我这里为了效果明显，每一小时切分一个日志。我是通过crontab定时调用一个shell脚本实现的，shell脚本如下：

 
        _prefix= 
        "/path/to/nginx" 
       
        time 
        =` 
        date 
        +%Y%m%d%H` 
       
        mv 
        ${_prefix} 
        /logs/ma 
        .log ${_prefix} 
        /logs/ma/ma- 
        ${ 
        time 
        }.log 
       
        kill 
        -USR1 ` 
        cat 
        ${_prefix} 
        /logs/nginx 
        .pid`

　　这个脚本将ma.log移动到指定文件夹并重命名为ma-{yyyymmddhh}.log，然后向nginx发送USR1信号令其重新打开日志文件。

　　然后再/etc/crontab里加入一行：

 
        59  *  *  *  * root  
        /path/to/directory/rotatelog 
        .sh

　　在每个小时的59分启动这个脚本进行日志轮转操作。

　　测试

　　下面可以测试这个系统是否能正常运行了。我昨天就在我的博客中埋了相关的点，通过http抓包可以看到ma.js和1.gif已经被正确请求：

图6. http包分析ma.js和1.gif的请求

　　同时可以看一下1.gif的请求参数：

图7. 1.gif的请求参数

　　相关信息确实也放在了请求参数中。

　　然后我tail打开日志文件，然后刷新一下页面，因为没有设access log buffer，我立即得到了一条新日志：

 
        1351060731.360^A0.0.0.0^Awww.codinglabs.org^Ahttp: 
        //www 
        .codinglabs.org/^ACodingLabs^A^A1024^A1280^A24^Azh-CN^AMozilla 
        /5 
        .0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit 
        /537 
        .4 (KHTML, like Gecko) Chrome 
        /22 
        .0.1229.94 Safari 
        /537 
        .4^A4d612be64366768d32e623d594e82678^AU-1-1

　　注意实际上原日志中的^A是不可见的，这里我用可见的^A替换为方便阅读，另外IP由于涉及隐私我替换为了0.0.0.0。

　　看一眼日志轮转目录，由于我之前已经埋了点，所以已经生成了很多轮转文件：

图8. 轮转日志

　　关于分析

　　通过上面的分析和开发可以大致理解一个网站统计的日志收集系统是如何工作的。有了这些日志，就可以进行后续的分析了。本文只注重日志收集，所以不会写太多关于分析的东西。

　　注意，原始日志最好尽量多的保留信息而不要做过多过滤和处理。例如上面的MyAnalytics保留了毫秒级时间戳而不是格式化后的时间，时间的格式化是后面的系统做的事而不是日志收集系统的责任。后面的系统根据原始日志可以分析出很多东西，例如通过IP库可以定位访问者的地域、user agent中可以得到访问者的操作系统、浏览器等信息，再结合复杂的分析模型，就可以做流量、来源、访客、地域、路径等分析了。当然，一般不会直接对原始日志分析，而是会将其清洗格式化后转存到其它地方，如MySQL或HBase中再做分析。

　　分析部分的工作有很多开源的基础设施可以使用，例如实时分析可以使用Storm，而离线分析可以使用Hadoop。当然，在日志比较小的情况下，也可以通过shell命令做一些简单的分析，例如，下面三条命令可以分别得出我的博客在今天上午8点到9点的访问量（PV），访客数（UV）和独立IP数（IP）：

 
   
    
      
      
        awk 
        -F^A  
        '{print $1}' 
        ma-2012102409.log |  
        wc 
        -l 
       
 
        awk 
        -F^A  
        '{print $12}' 
        ma-2012102409.log |  
        uniq 
        |  
        wc 
        -l 
       
 
        awk 
        -F^A  
        '{print $2}' 
        ma-2012102409.log |  
        uniq 
        |  
        wc 
        -l 
       
 
    
 
   
 

　　其它好玩的东西朋友们可以慢慢挖掘。

　　参考

　　GA的开发者文档：https://developers.google.com/analytics/devguides/collection/gajs/

　　一篇关于实现nginx收日志的文章：http://blog.linezing.com/2011/11/%E4%BD%BF%E7%94%A8nginx%E8%AE%B0%E6%97%A5%E5%BF%97

　　关于Nginx可以参考：http://wiki.nginx.org/Main

　　OpenResty的官方网站为：http://openresty.org

　　ngx_lua模块可参考：https://github.com/chaoslawful/lua-nginx-module

　　本文http抓包使用Chrome浏览器开发者工具，绘制思维导图使用Xmind，流程和结构图使用Tikz PGF

你可能感兴趣的:(数据)

人大金仓 vs MySQL 窗口函数：三大核心差异与实战对比
一、窗口函数的演进与挑战窗口函数（WindowFunctions）自MySQL8.0引入以来，已成为数据分析和业务报表开发的核心工具。然而，随着国产数据库如人大金仓（KingbaseES）对MySQL语法的兼容性增强，开发者在迁移或选型时面临一个关键问题：如何选择支持更强大窗口函数功能的数据库？本文将从语法设计、功能特性、性能表现三个维度，结合代码实战，深度剖析人大金仓与MySQL窗口函数的核心差
前端WebSocket协议压缩优化前端视界前端艺匠馆前端 websocket 网络协议 ai
前端WebSocket协议压缩优化关键词：前端、WebSocket协议、压缩优化、数据传输、性能提升摘要：本文围绕前端WebSocket协议的压缩优化展开，详细介绍了WebSocket协议的基本概念，分析了进行压缩优化的原因和好处。通过生动的比喻和通俗易懂的语言解释了相关核心概念，阐述了核心概念之间的关系，并给出了核心概念原理和架构的文本示意图与Mermaid流程图。同时，详细讲解了压缩优化的核心
12、jvm运行期优化很小心的小新 jvm java 笔记开发语言
运行期优化：jvm将执行状态分成五个层次（1）0层，解释执行（Inrerpreter）（2）1层，使用c1即时编译器编译执行（不带profiling）2层，使用c1即时编译器编译执行（带基本的prodiling）3层，使用c1即时编译器编译执行（带完全的profiling）4层，使用c2即时编译器编译执行profiling是指在运行过程中收集一些程序执行状态的数据，例如：方法调用次数，循环的回边次
大数据(1)-hdfs&hbase viperrrrrrr 大数据 hdfs hbase
hbase&hdfs一、体系结构HDFS是一个标准的主从(Master/Slave)体系结构的分布式系统；HDFS集群包含一个或多个NameNode(NameNodeHA会有多个NameNode)和多个DataNode(根据节点情况规划),用户可以通过HDFS客户端同NameNode和DataNode进行交互以访问文件系统。HDFS公开文件系统名称空间，并允许将用户数据存储在文件中。在内部，一个文
Redis常见性能问题和解决方案有哪些？
Redis作为高性能的内存数据库，在实际使用中可能会遇到性能问题。以下是常见的性能问题及其解决方案，用中文总结如下：1.高延迟问题问题描述：客户端请求响应时间过长，可能由于网络、命令复杂度或服务器负载导致。解决方案：优化网络：检查客户端与Redis服务器之间的网络延迟，使用本地或低延迟的网络连接。避免慢命令：避免使用高复杂度的命令，如KEYS（O(N)复杂度），改用SCAN进行增量迭代。使用管道（
Python 操作 Redis 全指南：从入门到实战贾修行 python python redis bootstrap
Redis作为一款高性能的内存数据库，在缓存、会话存储、实时分析等场景中应用广泛。本文将详细介绍如何在Python中操作Redis，涵盖环境搭建、基础数据类型操作、高级功能及最佳实践，适合Redis初学者和Python开发者参考。一、环境准备1.安装Redis服务器Windows：从Redis官方仓库下载安装包，或使用WSL2安装Linux版本Linux：通过包管理器安装sudoaptinstal
AD7606过采样模式零度随想嵌入式硬件 fpga开发
AD7606的过采样模式（OversamplingMode）是其重要特性之一，它可提升信噪比（SNR）、有效分辨率、降低系统噪声。✅一、什么是过采样（Oversampling）过采样是指ADC内部将每个通道采样多次，然后进行数字平均滤波，以减少随机噪声、提升信号质量。在AD7606中，过采样是由芯片内部硬件自动完成的：每次外部采样触发→芯片在内部进行多次转换→平均值输出对外仍只输出1个16位数据→
软件测试（功能、工具、接口、性能、自动化、测开）详解程序员老V 自动化运维
一、软件测试功能测试测试用例编写是软件测试的基本技能；也有很多人认为测试用例是软件测试的核心；软件测试中最重要的是设计和生成有效的测试用例；测试用例是测试工作的指导，是软件测试的必须遵守的准则。黑盒测试常见测试用例编写方法1、等价类选取少数有代表性的数据，这一类数据等价于这一类的其它值；找出最小的子集，可以发现最多的错误；特性：必须设计的用例；涵盖了大部分情况；2、边界值所谓边界条件，是指输入和输
黑客 vs. 网安：谁才是数字世界的主宰？ 2024年信息安全人员应该重点学什么？网安导师小李程序员编程网络安全 linux 运维服务器 excel web安全 python java
在当今数字化飞速发展的时代，信息安全问题日益严峻。黑客攻击、数据泄露、网络病毒等威胁不断涌现，企业和个人的隐私安全岌岌可危。随着人工智能、物联网、云计算、区块链等新技术的兴起，信息安全行业正面临着新的挑战和机遇。2024年信息安全行业面临的挑战和机遇**1.人工智能（AI）：**AI技术的广泛应用使得攻击者能够利用机器学习和自动化技术进行更具针对性的攻击。例如，恶意软件可以通过AI算法不断自我进化
Python和OpenCV实现车牌识别的毕业设计案例媛源啊
本文还有配套的精品资源，点击获取简介：本项目通过Python和OpenCV库，实现了一个实用的车牌识别系统，包含图像捕获、预处理、车牌定位、车牌分割和字符识别等步骤。系统提供了一键运行的完整代码，使学生能够快速掌握计算机视觉和深度学习应用。遇到的挑战和解决方案也进行了讨论，比如光照变化、车牌角度不一致和污损的处理，以及数据增强技术和模型参数优化。1.车牌识别系统的基本理论和应用1.1车牌识别的背景
2025.07.04【转录组】| RNA-seq 组装“瘦身术”——BBNorm 归一化处理穆易青组装 RNA-seq 二代大数据
作者：穆易青|CSDN原创当你的RNA-seq原始读长文件动辄数百GB，组装器张口就要500GB+内存时，该怎么办？一种最经济、又几乎不丢掉有用信息的做法就是——数字归一化（DigitalNormalization）。本文将带你认识BBTools套件中的利器BBNorm，并手把手完成一次上百TB级别数据的“瘦身”实践。文章目录1.什么是数字归一化？2.BBNorm：BBTools家族中的“减肥大师
【redis使用场景——缓存——数据淘汰策略】
redis使用场景——缓存——数据淘汰策略数据淘汰策略8种淘汰策略对比数据淘汰策略当内存达到maxmemory限制时，Redis会根据配置的策略自动淘汰数据，策略通过maxmemory-policy参数指定：#redis.conf示例maxmemory2GBmaxmemory-policyvolatile-lru8种淘汰策略对比策略规则适用场景noeviction不淘汰数据，拒绝所有写入请求（默认
Day44
1.预训练概念：在大规模数据上训练模型学习通用知识，再迁移到下游任务微调2.常见模型：图像有AlexNet、ResNet、ViT；NLP有BERT、GPT3.图像模型发展：从手工特征到深度学习，从CNN到Transformer、多模态4.预训练策略：数据增强、自监督/监督训练、模型微调、多模态学习作业1.importtorchimporttorch.nnasnnimporttorch.optima
当AI邂逅新能源：Java如何重构能源未来
当AI邂逅新能源：Java如何重构能源未来在阿联酋阿布扎比的沙漠深处，一座由AI驱动的“全景式数字指挥中心”正实时监控着2000公里外的海上油田。通过深度学习算法预测设备故障、优化钻井路径，这座由阿布扎比国家石油公司打造的智能中枢，每年减少100万吨碳排放，创造价值5亿美元。而在中国南方，全球首个大规模抽水蓄能AI数据分析平台，正让百年历史的电站群焕发新生——7座电站、34台机组实现90%人工巡检
Python, Rust 开发机关事业单位公文写作助手APP
#机关事业单位公文写作助手应用设计基于Python和Rust开发机关事业单位公文写作APP的方案如下：##系统架构设计```桌面端/Web应用(Tauri/Vue.js)|RESTAPI/WebSocket|Rust核心服务(Actix-web/Axum)←───PythonNLP服务(FastAPI)|公文要素提取/模板生成/智能校对PostgreSQL数据库|Redis缓存(模板缓存/会话管理
重构企业智能服务：大模型部署背后的战略与落地实践慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：从“能用”到“可用”的时代跃迁过去一年中，大语言模型（LLMs）实现了从实验室“黑科技”到企业场景“生产力”的巨大跃迁。无论是通用问答、客户支持、文本生成、知识库问询，还是代码辅助、财报分析，大模型的边界已快速渗透到各行各业。然而，许多企业在试图将ChatGPT或DeepSeek等模型引入自己的业务系统时却发现：在线服务存在数据泄露风险；响
Redis 实现消息队列先睡 redis 数据库缓存
Redis提供了多种数据结构来实现消息队列，主要包括List和Stream。以下是两种实现方式的详细说明：1.基于List实现消息队列实现方式：生产者：使用LPUSH或RPUSH命令将消息推入队列。消费者：使用RPOP或LPOP命令从队列中获取消息。为了提高可靠性，可以使用BRPOPLPUSH或BLMOVE命令，这些命令可以在获取消息的同时将其移动到另一个队列（如Pending队列），以确保消息在
springboot整合lua脚本在Redis实现商品库存扣减一头生产的驴 Redis spring boot lua redis java
1、目的使用lua脚本，可以保证多条命令的操作原子性；同时可以减少操作IO（比如说判断redis对应数据是否小于0，小于0就重置为100，这个场景一般是取出来再判断，再存放进行，就至少存在2次IO,用lua脚本一条命令1次IO就解决了,在批量扣减情况存在多次IO，lua脚本1次也可以解决），提高速度，降低IO.2、使用案列根据传入的产品标识及数量扣减该产品数量；此处为单个产品扣减，可优化为批量产品
【C++】机试刷题总结day11——二、枚举和模拟（下）map非线性数据结构钰汐◇ 机试刷题总结 c++开发语言
机试课一、枚举和模拟（下）模拟问题——非线性数据结构mapmap词典本质是集合，内容是键值对分类构建：增：删：查：1、遍历2、查找改：例题1、手机键盘※※（完全没思考）思路：关键点：用map把关键信息组织起来易错点：代码：模拟解题关键：判断用什么数据结构存储信息一、枚举和模拟（下）模拟问题——非线性数据结构mapmap词典对比vector、set学习可以通过下标访问元素，下标可以是任意类型，元素也
类加载生命周期与内存区域详解
类加载生命周期与内存区域详解Java类加载的生命周期包括加载、验证、准备、解析、初始化五个阶段，每个阶段在内存中的存储区域和赋值机制各有不同。以下是详细解析：一、类加载生命周期阶段1.加载（Loading）内存区域：方法区：存储类的元数据（如类结构、字段、方法信息）堆：生成对应的java.lang.Class对象赋值机制：通过类加载器读取字节码文件（如.class）将字节码转换为方法区的二进制数据
解决MySQL “Lock wait timeout exceeded； try restarting transaction“ 错误一勺菠萝丶 #MySQL mysql android 数据库
在处理MySQL数据库时，我们偶尔会遇到一个棘手的错误消息：“Lockwaittimeoutexceeded;tryrestartingtransaction”。这通常表明我们的一个事务在尝试获取资源时被阻塞了太长时间。在并发环境中，多个事务同时竞争相同的资源可能会导致这种情况发生。锁等待超时问题的原因锁等待超时是因为另一个事务持有了需要的锁，并且没有在配置的超时期限内释放。这可能是因为该事务非常
【Python小工具】使用 OpenCV 获取视频时长的详细指南
【Python小工具】使用OpenCV获取视频时长的详细指南在处理视频数据时，获取视频的时长是一项常见且基础的需求。无论是进行视频分析、编辑，还是在视频处理项目中进行预处理，了解视频的时长都是不可或缺的一步。在Python中，借助强大的OpenCV库，我们可以轻松实现这一功能。本文将详细介绍如何使用Python和OpenCV获取视频时长，并对每一行代码进行深入解析。一、代码实现importcv2d
OracleSync2MySQL 数据同步问题bad connection、创建表异常、数据映射异常 aspirant-complete 运维开发
1、mysql数据库连接badconnection、invalidconnection等异常检查数据库连接空闲时间MySQL服务器等待一个连接所允许的空闲时间。如果达到此时间，MySQL服务器将自动关闭该连接，除非该连接正在活动状态```sqlSHOWVARIABLESLIKE'wait_timeout';![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/
计算两个数的平方和泽慕 C语言 c语言
3.计算两个数的平方和从键盘读入两个实数，编程计算并输出它们的平方和，要求使用数学函数pow(x,y)计算平方值，输出结果保留2位小数。程序中所有浮点数的数据类型均为float。#include#include#includeintmain(){doublea,b;doublec;scanf("%lf%lf",&a,&b);c=pow(a,2)+pow(b,2);printf("%lf",c);r
异地跨网怎么远程访问应用系统？几种常见的进销存软件远程管理方式搬码临时工服务器运维
在当今数字化时代，远程访问进销存的主要方法包括使用云端软件、nat123内外网映射、VPN、远程桌面连接和移动应用。其中使用云端软件是直接使用系统本身自带的功能，因为它不仅方便，还能提供实时数据更新。类似nat123网址转换方式也能快速让用户可以随时随地通过互联网网络访问进销存系统，无需担心数据同步问题。通过远程管理访问你可以远程管理库存、订单和销售数据，确保业务的高效运转。一、使用云端软件（部署
本地服务器搭建部署后，需要配置外网访问，要怎么操作呢？内网设置开放到互联网使用搬码临时工服务器运维
常见的如异地远程办公，移动办公是企业在工作中常常会选择的办公形式。而企业往往是会通过内网来进行办公，这样也是为了能保障数据信息安全，而异地办公要实现外网访问，通常也是会采取服务器配置外网访问的方式。这样一来，在企业办公中就能进行远程访问，远程文件以及远程办公，那么，服务器配置外网访问，要怎么操作呢？下面我们便一起来看看无公网IP网络环境，如何通过简单的nat123内网映射方式，将本地服务器提供互联
阿里云SelectDB：开启实时数仓新时代云资源服务商阿里云云计算数据库云原生
一、引言在当今大数据时代，数据如同企业的“石油”，蕴含着巨大的价值。随着数据量呈指数级增长，企业对于实时数据分析的需求愈发迫切。实时数据分析能够帮助企业及时捕捉市场动态，快速做出决策，从而在激烈的市场竞争中占据优势。无论是电商企业需要实时分析用户购买行为以进行精准营销，还是金融机构需要实时监测风险以保障资金安全，实时数据分析都发挥着关键作用。阿里云SelectDB作为一款专为实时数据分析打造的云原
解锁阿里云日志服务SLS：云时代的日志管理利器云资源服务商阿里云云计算服务器
引言：开启日志管理新篇在云计算时代，数据如同企业的血液，源源不断地产生并流动。从用户的每一次点击，到系统后台的每一个操作，数据都在记录着企业运营的轨迹。而在这些海量的数据中，日志数据占据着至关重要的地位，它不仅记录了系统的运行状态、用户的行为信息，还为企业的运维、安全、业务分析等提供了宝贵的依据。如何高效地处理这些日志数据，成为了企业在数字化转型过程中面临的关键挑战之一。阿里云日志服务SLS（Si
探秘阿里云Tablestore：大数据存储与查询的神器云资源服务商阿里云大数据云计算
一、引言在大数据时代，数据量呈爆炸式增长，数据类型也日益丰富多样，这对数据库技术提出了前所未有的挑战。传统的关系型数据库在应对海量数据存储、高并发读写以及复杂数据分析时，往往显得力不从心，难以满足企业日益增长的业务需求。为了解决这些问题，各种新型数据库技术应运而生，阿里云Tablestore便是其中的佼佼者。阿里云Tablestore是一款构建在阿里云飞天分布式系统之上的分布式NoSQL数据存储服
探秘阿里云HDR：为你的业务筑牢容灾防线云资源服务商数据库安全阿里云云计算
一、阿里云HDR是什么阿里云HDR，即混合云容灾服务（HybridDisasterRecovery），是阿里云推出的一项旨在保障企业业务连续性和数据安全的重要服务。在数字化时代，企业的业务越来越依赖于信息技术系统，任何系统故障、数据丢失或业务中断都可能给企业带来巨大的经济损失和声誉影响。阿里云HDR正是为了解决这些问题而诞生，它利用先进的技术手段，为企业提供了一种高效、可靠的容灾解决方案。阿里云H
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出