Python中文社区

Python开源项目介绍：网站日志分析工具

CodingGo技术社区自由的编程学习平台

日志分析

日志分析在web系统中故障排查、性能分析方面有着非常重要的作用。该工具的侧重点不是通常的PV，UV等展示，而是在指定时间段内提供细粒度（最小分钟级别，即一分钟内的日志做抽象和汇总）的异常定位和性能分析。

环境安装

Python 3.4+
pymongo 3.4.0+
MongoDB server

先明确几个术语

uri指请求中不包含参数的部分； request_uri指原始的请求，包含参数或者无参数； args指请求中的参数部分。（参照nginx中的定义）
uri_abs和 args_abs是指对uri和args进行抽象处理后的字符串（以便分类），例如：
"/sub/0/100414/4070?channel=ios&version=1.4.5"经抽象处理转换为 uri_abs: "/sub/*/*/*"， args_abs:"channel=*&version=*"

特点

提供一个日志分析的总入口：经由此入口，可查看某站点所有 server 产生日志的汇总分析；亦可根据 时间段和 server两个维度进行过滤
支持对 requesturi，IP 和 responsecode 进行分析，基于 请求数、 响应大小、 响应时间三个大维度进行分析；另外不同子项又各有特点
（核心思想）以某一类 uri 或其对应的各类 args 为维度进行分析，即对 requesturi 进行抽象处理将其分为 uriabs 和 args_abs 两部分
3中提到的抽象归类思想，默认抽象方法可满足大部分需求；另外也提供了定制抽象规则的选项，基于此可灵活指定请求中的任何部分是否要抽象处理
requesturi 分析能直观展示哪类请求数量多、哪类请求耗时多、哪类请求占流量；另外可展示某一类请求在不同粒度里(minute, tenmin, hour, day)各指标随时间的分布变化；也可以针对某一 uriabs 分析其不同 argsabs 各指标的分布
IP 分析将所有请求分为3种来源(fromcdn/proxy, fromreverseproxy, fromclientdirectly)，三种来源各自展示其访问量前 N 的 IP 地址；并且可展示某一 IP 访问的各指标随时间的分布；也可针对某一 IP 分析其产生的不同 uriabs 各指标的分布
通过4分位数概念以实现对 响应时间和 响应大小更准确的描述，因为对于日志中的响应时间，算数平均值的参考意义不大
高性能：本着谁产生的日志谁处理的思想，日志分析脚本loganalyse要在web服务器上定时运行，因而loganalyse的高效率低资源也是重中之重。经测试，在笔者的服务器上（磁盘：3*7200rpm组RAID5，千兆局域网），对于不同的日志文件，处理速度在20000行/s~30000行/s之间

实现思路

分析脚本（ log_analyse.py）部署到各台 web server，并通过 crontab 设置定时运行。 log_analyse.py利用python的re模块通过正则表达式对日志进行分析处理，取得 uri、 args、 时间当前、 状态码、 响应大小、 响应时间、 server name 等信息并进行初步加工然后存储进MongoDB。查看脚本（ log_show.py）作为入口即可对所有web server的日志进行分析查看，至于实时性，取决于web server上 log_analyse.py脚本的执行频率。

前提规范

各台server的日志文件按统一路径存放
日志格式、日志命名规则保持一致(代码中规定格式为xxx.access.log)
每天的0点日志切割

日志格式决定了代码中的正则表达式，是可根据自己情况参考 analyse_config.py中的正则定义进行定制的)。项目中预定义的日志格式对应如下：

    
    
    
    
     
     
     
     log_format  access  '$remote_addr - [$time_local] "$request" '
     
     
     
                  '$status $body_bytes_sent $request_time "$http_referer" '
     
     
     
                  '"$http_user_agent" - $http_x_forwarded_for';

对于其他格式的 nginx 日志或者 Apache 日志，按照如上原则，稍作就可以使用该工具分析处理。

对于异常日志的处理

如果想靠空格或双引号来分割各段的话，主要问题是面对各种不规范的记录时(原因不一而足，而且也是样式繁多)，无法做到将各种异常都考虑在内，所以项目中采用了 re模块而不是简单的 split()函数的原因。代码里对一些“可以容忍”的异常记录通过一些判断逻辑予以处理；对于“无法容忍”的异常记录则返回空字符串并将日志记录于文件。
其实对于上述的这些不规范的请求，最好的办法是在nginx中定义日志格式时，用一个特殊字符作为分隔符，例如“|”。这样就不需要re模块，直接字符串分割就能正确的获取到各段(性能会好些)。

log_show.py使用说明：

帮助信息

    
    
    
    
     
     
     
     [ljk@demo ~]$ log_show --help
     
     
     
     Usage:
     
     
     
       log_show  [options] request [distribution [<request>]|detail ]
     
     
     
       log_show  [options] ip [distribution |detail ]
     
     
     
       log_show  [options] error [distribution |detail ]
     
     
     
     
     
     
     
     Options:
     
     
     
       -h --help                   Show this screen.
     
     
     
       -f --from       Start time. Format: %y%m%d[%H[%M]], %H and %M is optional
     
     
     
       -t --to           End time. Format is same as --from
     
     
     
       -l --limit             Number of lines in output, 0 means no limit. [default: 5]
     
     
     
       -s --server         Web server hostname
     
     
     
       -g --group_by     Group by every minute, every ten minutes, every hour or every day,
     
     
     
                                   valid values: "minute", "ten_min", "hour", "day". [default: hour]
     
     
     
     
     
     
     
       distribution                Show distribution(about hits,bytes,time,etc) of:
     
     
     
                                   all or specific 'request', the specific 'ip', the specific 'error_code' in every period.
     
     
     
                                   Period is specific by --group_by
     
     
     
       detail                      Show details of:
     
     
     
                                   detail 'args' analyse of the specific 'uri'(if it has args);
     
     
     
                                   detail 'uri' analyse of the specific 'ip' or 'error_code'
     
     
     
     
     
     
     
       Notice: it's best to put 'request_uri', 'uri' and 'ip' in quotation marks.

所有示例均可通过 -f， -t， -s参数对 起始时间和 指定server进行过滤

request子命令

对指定站点今日已入库的数据进行分析

    
    
    
    
     
     
     
     [ljk@demo ~]$ log_show api request -l 3
     
     
     
     ====================
     
     
     
     Total_hits:999205 invalid_hits:581
     
     
     
     ====================
     
     
     
           hits  percent           time_distribution(s)                     bytes_distribution(B)              uri_abs
     
     
     
         430210   43.06%  %25<0.01 %50<0.03 %75<0.06 %100<2.82   %25<42 %50<61 %75<63 %100<155                 /api/record/getR
     
     
     
         183367   18.35%  %25<0.02 %50<0.03 %75<0.06 %100<1.73   %25<34 %50<196 %75<221 %100<344               /api/getR/com/*/*/*
     
     
     
         102299   10.24%  %25<0.02 %50<0.02 %75<0.05 %100<1.77   %25<3263 %50<3862 %75<3982 %100<4512          /view/*/*/*/*.js
     
     
     
     ====================
     
     
     
     Total_bytes:1.91 GB
     
     
     
     ====================
     
     
     
          bytes  percent           time_distribution(s)                     bytes_distribution(B)              uri_abs
     
     
     
        1.23 GB   64.61%  %25<0.03 %50<0.04 %75<0.1 %100<1.96    %25<2549 %50<17296 %75<31054 %100<691666      /api/NewCom/list
     
     
     
      319.05 MB   16.32%  %25<0.02 %50<0.02 %75<0.05 %100<1.77   %25<3263 %50<3862 %75<3982 %100<4512          /view/*/*/*/*.js
     
     
     
      167.12 MB    8.55%  %25<0.15 %50<0.19 %75<0.55 %100<2.93   %25<2791 %50<3078 %75<3213 %100<11327         /api/getR/com/*/*
     
     
     
     ====================
     
     
     
     Total_time:117048s
     
     
     
     ====================
     
     
     
      cum. time  percent           time_distribution(s)                     bytes_distribution(B)              uri_abs
     
     
     
          38747   33.10%  %25<0.01 %50<0.03 %75<0.06 %100<2.82   %25<42 %50<61 %75<63 %100<155                 /api/record/getR
     
     
     
          22092   18.87%  %25<0.02 %50<0.03 %75<0.06 %100<1.73   %25<34 %50<196 %75<221 %100<344               /api/getR/com/*/*/*
     
     
     
          17959   15.34%  %25<0.15 %50<0.19 %75<0.55 %100<2.93   %25<2791 %50<3078 %75<3213 %100<11327         /api/getRInfo/com/*/*

通过上例可观察指定时间内（默认当天0时至当前时间）hits/bytes/time三个维度的排名以及响应时间和响应大小的分布情况。例如，看到某个uriabs只有比较少的hits确产生了比较大的bytes或耗费了较多的time，那么该uriabs是否值得关注一下呢。

ip子命令

显示基于ip地址的分析结果

    
    
    
    
     
     
     
     [ljk@demo ~]$ log_show.py api ip -l 2
     
     
     
     ====================
     
     
     
     From_cdn/Proxy:              hits  hits(%)       bytes  bytes(%)  time(%)
     
     
     
     ====================       199870    99.94   570.51 MB    99.99    99.99
     
     
     
               Last_cdn_ip
     
     
     
            xxx.57.xxx.189        1914     0.96   696.18 KB     0.12     0.68
     
     
     
           xxx.206.xxx.154        1741     0.87     1.56 MB     0.27     0.98
     
     
     
           User_ip_via_cdn
     
     
     
            xxx.249.xxx.56         787     0.39   154.82 KB     0.03     0.23
     
     
     
             xxx.60.xxx.86         183     0.09     1.05 MB     0.18     0.13
     
     
     
     ====================
     
     
     
     From_reverse_proxy:          hits  hits(%)       bytes  bytes(%)  time(%)
     
     
     
     ====================           66     0.03    68.83 KB     0.01     0.01
     
     
     
         User_ip_via_proxy
     
     
     
            xxx.188.xxx.21           2     0.00     1.53 KB     0.00     0.00
     
     
     
               xxx.5.xxx.4           2     0.00    324.00 B     0.00     0.00
     
     
     
     ====================
     
     
     
     From_client_directly:        hits  hits(%)       bytes  bytes(%)  time(%)
     
     
     
     ====================           64     0.03     8.32 KB     0.00     0.00
     
     
     
               Remote_addr
     
     
     
             192.168.1.202          29     0.01     58.00 B     0.00     0.00
     
     
     
             192.168.1.200          29     0.01     58.00 B     0.00     0.00

IP分析的思想是将请求按来源归为三大类：Fromcdn/Proxy，Fromreverseproxy，Fromclient_directly，然后各自分类内按请求次数对IP地址进行排序

distribution 子命令

对 “所有request” 或 “指定uri/request_uri” 按 “分/十分/时/天” 为粒度进行聚合统计
对 “指定IP” 按 “分/十分/时/天” 为粒度进行聚合统计

适用场景：查看request/IP随时间在各聚合粒度内各项指标的变化情况，例如针对某个uri发现其请求数（或带宽）变大，则可通过 distribution子命令观察是某一段时间突然变大呢，还是比较平稳的变大

    
    
    
    
     
     
     
     # 示例1: 分析指定request的分布情况, 指定按minute进行分组聚合, 默认显示5行
     
     
     
     [ljk@demo ~]$ python log_show.py api request distribution "/view/*/*.json" -g minute                
     
     
     
     ====================
     
     
     
     uri_abs: /view/*/*.json
     
     
     
     Total_hits: 17130    Total_bytes: 23.92 MB
     
     
     
     ====================
     
     
     
         minute        hits  hits(%)       bytes  bytes(%)           time_distribution(s)                     bytes_distribution(B)            
     
     
     
     1803091654        1543    9.01%     2.15 MB     8.98%  %25<0.03 %50<0.03 %75<0.05 %100<1.07   %25<1532 %50<1593 %75<1645 %100<1982        
     
     
     
     1803091655        1527    8.91%     2.13 MB     8.88%  %25<0.03 %50<0.04 %75<0.05 %100<1.04   %25<1538 %50<1592 %75<1642 %100<2143        
     
     
     
     1803091656        1464    8.55%     2.05 MB     8.57%  %25<0.03 %50<0.04 %75<0.05 %100<1.03   %25<1536 %50<1592 %75<1642 %100<1952        
     
     
     
     1803091657        1551    9.05%     2.15 MB     8.97%  %25<0.02 %50<0.03 %75<0.04 %100<0.89   %25<1534 %50<1594 %75<1639 %100<1977        
     
     
     
     1803091658        1458    8.51%     2.06 MB     8.61%  %25<0.02 %50<0.03 %75<0.04 %100<2.35   %25<1540 %50<1596 %75<1644 %100<2146

通过上例，可展示"/view/*/*.json"在指定时间段内的分布情况，包括hits/bytes/time总量以及每个粒度内个指标相对于总量的占比；该子命令亦能展示各指标随时间的“趋势”。

说明： minute字段为指定的聚合（group）粒度，1803091654 表示“18年03月09日16时54分”
可通过 -g参数指定聚合的粒度（minute/tenmin/hour/day）
distribution子命令后可以跟具体的uri/requesturi（显示该uri/request_uri以指定粒度随时间的分布）或不跟uri（显示所有请求以指定粒度随时间的分布）

    
    
    
    
     
     
     
     # 示例2: 分析指定IP产生的请求数/带宽随时间分布情况, 默认聚合粒度为hour
     
     
     
     [ljk@demo ~]$ python log_show.py api ip -t 180314 distribution "140.206.109.174" -l 0
     
     
     
     ====================
     
     
     
     IP: 140.206.109.174
     
     
     
     Total_hits: 10999    Total_bytes: 4.83 MB
     
     
     
     ====================
     
     
     
           hour        hits  hits(%)       bytes  bytes(%)
     
     
     
       18031306        1273   11.57%   765.40 KB    15.47%
     
     
     
       18031307        2133   19.39%  1004.74 KB    20.31%
     
     
     
       18031308        2211   20.10%     1.00 MB    20.74%
     
     
     
       18031309        2334   21.22%     1.05 MB    21.72%
     
     
     
       18031310        2421   22.01%   850.79 KB    17.20%
     
     
     
       18031311         627    5.70%   226.30 KB     4.57%

说明： hour字段表示默认的聚合粒度，18031306表示“18年03月13日06时”
-l 0 表示不限制输出行数（即输出所有结果）

detail 子命令：

对某一uri进行详细分析，查看其不同参数（args）的各项指标分布
对某一IP进行详细分析，查看其产生的请求在不同uri_abs间的分布情

适用场景：比如定位到某一类型的uriabs在某方面（hits/bytes/time）有异常，就可以通过detail子命令对该类uriabs进行更近一步的分析，精确定位到是哪种参数（args_abs）导致的异常；或者观察到某个IP访问异常，可以再深入一下该IP是泛泛的访问呢，还是只对某些uri感兴趣。

    
    
    
    
     
     
     
     # 示例1:
     
     
     
     [ljk@demo ~]$ python log_show.py api -f 180201 request detail "/recommend/update" -l 3
     
     
     
     ====================
     
     
     
     uri_abs: /recommend/batchUpdate
     
     
     
     Total_hits: 10069    Total_bytes: 7.62 MB
     
     
     
     ====================
     
     
     
         hits  hits(%)      bytes  bytes(%)  time(%)           time_distribution(s)                   bytes_distribution(B)            args_abs
     
     
     
         4568   45.37%    3.46 MB    45.44%   47.96%  %25<0.04 %50<0.06 %75<0.07 %100<0.47   %25<755 %50<795 %75<845 %100<1484         uid=*&category_id=*&channel=*&version=*
     
     
     
         4333   43.03%    3.25 MB    42.64%   42.30%  %25<0.03 %50<0.05 %75<0.07 %100<0.48   %25<752 %50<791 %75<840 %100<1447         category_id=*&channel=*&uid=*&version=*
     
     
     
          389    3.86%  314.15 KB     4.03%    0.88%  %25<0.02 %50<0.03 %75<0.04 %100<0.06   %25<766 %50<802 %75<850 %100<1203         category_id=*&channel=*&version=*

通过上例可观察到"/recommend/update"这个uri所对应的不同参数各个指标的情况。另外还有一个附带的发现：开发在书写参数时相同的参数组合没有按同一个顺序书写，虽不影响功能，但在精准的进行应用性能监控的时候会造成一定困扰。

说明： detail子命令后跟随uri（不含参数，含参数的话将忽略参数）

    
    
    
    
     
     
     
     # 示例2: 观察某个IP分别产生了多少种请求, 每种请求的(hits/bytes/time)指标
     
     
     
     [ljk@demo ~]$ python log_show.py m -t 180314 ip detail "1.2.3.4"
     
     
     
     ====================
     
     
     
     IP: 140.206.109.174
     
     
     
     Total_hits: 10999    Total_bytes: 4.83 MB
     
     
     
     ====================
     
     
     
         hits  hits(%)      bytes  bytes(%)  time(%)  uri_abs
     
     
     
        10536   95.79%  405.47 KB     8.19%   92.01%  /introduction/watch
     
     
     
          147    1.34%    1.90 MB    39.31%    1.93%  /view/*/*.html
     
     
     
          138    1.25%  407.42 KB     8.23%    2.41%  /chapinfo/*/*.html
     
     
     
           42    0.38%  644.88 KB    13.03%    1.38%  /info/*.html
     
     
     
           30    0.27%  229.98 KB     4.65%    1.14%  /classify/*.json

loganalyse.py部署说明：该脚本的设计目标是将其放到web server的的计划任务里，定时（例如每30分钟或10分钟，自定义）执行，在需要时通过logshow.py进行分析即可。

    
    
    
    
     
     
     
     */15 * * * * export LANG=zh_CN.UTF-8;python3 /home/ljk/log_analyse.py &> /tmp/log_analyse.log

Note

其中 uri_abs和 args_abs是对uri和args进行抽象化（抽象出特定的请求模式，即将请求分类看待）处理之后的结果，默认规则如下
uri：将request_uri以"/"和"."分割为几段，若某一段全部由数字组成则将其抽象为一个"*"
args：将所有的value替换成"*"
common/common.py中还有一些其他有趣的函数

本文作者

jkklee，6年运维老司机一枚，擅长复杂场景下的故障排查，性能优化。目前比较侧重于将自己这些年的运维积累转化成通用易用的各种工具，希望能帮到更多的运维同胞。

本文项目GitHub地址，欢迎star和fork：

https://github.com/jkklee/web_log_analyse

点击下方阅读原文，加入编程互助学习社区

你可能感兴趣的:(Python开源项目介绍：网站日志分析工具)

minimind2学习：（1）训练溯源006 minimind学习学习深度学习生成模型
1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6训练过程：LLM总参数量：25.830百万Epoch:[1/6](0/11040)loss:8.940lr:0.000550000000epoch_Time:106.0min:Epoch
使用Seaborn库中的`violinplot`函数绘制水平小提琴图（Violin Plot）是一种常见的数据可视化方法 code_welike 信息可视化数据分析数据挖掘 Python
使用Seaborn库中的violinplot函数绘制水平小提琴图（ViolinPlot）是一种常见的数据可视化方法。水平小提琴图可以展示数据的分布特征，并可以对比不同组别之间的差异。本文将介绍如何使用Python和Seaborn库绘制水平小提琴图，并提供相应的源代码示例。首先，我们需要确保已经安装了Seaborn库。可以使用以下命令在Python中安装Seaborn：pipinstallseabo
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
使用Seaborn绘制水平小提琴图 YOUFDJ python 开发语言 Python
使用Seaborn绘制水平小提琴图水平小提琴图是一种常用的数据可视化工具，可以用于展示不同类别之间的分布情况。在Python中，我们可以使用Seaborn库的catplot函数来轻松地绘制水平小提琴图。本文将介绍如何使用Seaborn绘制水平小提琴图，并附带相应的源代码示例。首先，确保你已经安装了Seaborn库。如果没有安装，可以使用以下命令在命令行中安装：pipinstallseaborn安装
Python文件与格式化：编程世界的“读写之道“（技术深挖版）被窝妄想家 python进阶指南 python 数据库开发语言
一、文件操作：Python的"读写之眼"1.1文件基础哲学在计算机世界中，文件就像一本本等待翻阅的典籍。Python的open()函数如同手持放大镜，让我们能精确控制阅读和书写：#经典打开模式组合withopen("data.txt","r+",encoding="utf-8")asf:#r+模式：可读可写，文件指针初始位置在开头content=f.read(10)#读取前10个字节f.seek(
使用Seaborn绘制小提琴图 CodeWG python 开发语言
使用Seaborn绘制小提琴图在数据分析与可视化中，小提琴图是一种常用的图表类型。它能够展示数据的分布情况，同时还能显示中位数、四分位数和异常值等统计指标。在Python中，我们可以使用Seaborn库来轻松地绘制小提琴图。下面就来详细介绍一下如何使用Seaborn来创建小提琴图。首先，我们需要导入必要的库和数据集。这里我们使用Seaborn自带的数据集tips作为例子。importseaborn
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
python实际应用场景代码 yzx991013 python 前端服务器
1.自动化文件整理importosimportshutildeforganize_downloads_folder():download_path="/Users/YourName/Downloads"#修改为你的下载路径file_types={"Images":[".jpg",".png",".gif"],"Documents":[".pdf",".docx",".txt"],"Videos":
【业务场景实战】JWT实现用户登录仰望-星空~~ java
在我们平时登录注册的过程中，我们的信息都会由浏览器发送给后端进行处理，然后再插入到数据库中，下次我们进行登录的时候，只需要输入用户名和密码就可以登录成功进入网站进行操作了。但个人信息暴露在大众面前这是极其不安全的，对于我们的隐私，我们并不希望被别人知道。所以我们在登录的时候，浏览器中进行传递的数据有些是会脱敏、有些是需要进行加密之后才能进行传递的。一、JWT简介JWT（全称JSONWEBToken
【业务场景实战】数据增量同步仰望-星空~~ android
时间过得真快，又是一年求职季，再过几个月我也要找暑假实习了，最近比较忙加上自身状态也不是很好，导致我的博客断更了很长时间。之后我尽量每周一更，好了，今天我们来讲讲关于数据增量同步。在一些比较大、用户量比较多、实时性要求比较高的的系统中，我们通常需要进行数据同步。这不只是为了提高系统的并发量，降低数据库访问的压力，提升用户的体验。同时也是为了让系统能够稳定运行，满足特定的场景需求。对于一些购物网站实
关于 2＞/dev/null 的作用以及机理深耕半夜 java 开发语言
每个进程都有三个标准文件描述符：stdin（标准输入）、stdout（标准输出）和stderr（标准错误）。默认情况下，stderr会输出到终端。使用2>可以将stderr重定向到其他地方，比如文件或者设备文件。/dev/null作为一个字符设备，所有写入它的数据都会被丢弃，不会保存在任何地方，因此执行命令时产生的错误信息就不会显示出来，也不会保存在日志文件中。重定向符号功能典型示例>覆盖式写入文
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
wooyun知识库爬虫（自动整理保存为pdf）大囚长编程人生黑客帝国 spider python
#!C:\Python27\python.exe#coding=utf8importosimportpdfkitimporturllib2frombs4importBeautifulSoupfrommultiprocessingimportPoolimportsocketsocket.setdefaulttimeout(60)importsysreload(sys)sys.setdefaulten
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
ESP32 智能猫喂水开发日志（RICE/MoSCoW/Kano三种产品路线规划）天瑜创客猫喂水项目单片机 c++c语言数据结构 visual studio code harmonyos
RICE/MoSCoW/Kano三种产品路线的差异分析一、核心定位与适用场景差异1.RICE模型-核心逻辑：通过量化指标（Reach接触量、Impact影响程度、Confidence信心指数、Effort投入精力）计算需求优先级，聚焦资源投入与收益最大化。-适用场景：适用于需要平衡开发成本与预期收益的项目，例如新产品功能迭代或市场推广策略优化。2.MoSCoW模型-核心逻辑：将需求分为四类——Mu
python画画加粗_Matplotlib'粗体'字体 - python weixin_39569747 python画画加粗
跟随thisexample：importnumpyasnpimportmatplotlib.pyplotaspltfig=plt.figure()fori,labelinenumerate(('A','B','C','D')):ax=fig.add_subplot(2,2,i+1)ax.text(0.05,0.95,label,transform=ax.transAxes,fontsize=16,
matplotlib使用大字体，粗线 weixin_34254823 python
2019独角兽企业重金招聘Python工程师标准>>>matplotlib在绘图时缺省的字体和线条都有些细，所以需要加粗一下importmatplotlib.pyplotaspltdefuseLargeSize(axis,marker_lines=None,fontsize='xx-large',fontproperties=None):'''将X,Y坐标轴的标签、刻度以及legend都使用大字体
六种方法教你将Python源代码打包成exe xuefeng_210 python 开发语言 linux
将Python源代码打包成可执行文件（exe）是一种常见的需求，它可以使我们的程序在没有安装Python解释器的环境中运行。在本文中，我们将介绍六种常用的方法来实现这个目标，并详细说明每种方法的使用过程。cx_Freezecx_Freeze是一个用于将Python脚本打包成可执行文件的工具。它可以将Python代码和依赖的库文件一起打包，并生成一个独立的可执行文件。使用cx_Freeze的步骤如下
Python Excel操作新玩法：从零到高手掌握openpyxl xuefeng_210 python 自动化 java
openpyxl是Python中一个强大的第三方库，用于操作Excel文件，它可以读取、写入和修改Excel文件，并且支持Excel文件中的样式、图表等元素。openpyxl使得在Python中处理Excel文件变得非常简单和高效。本文将从入门到精通地介绍openpyxl的使用方法，带你掌握在Python中处理Excel文件的技巧。目录安装和导入创建和保存Excel文件读取Excel文件写入Exc
CentOS7下安装python3.8 讓丄帝愛伱 Linux 编程语言
查看系统版本#查看系统版本cat/etc/centos-release>CentOSLinuxrelease7.2.1511(Core)uname-a>Linuxlocalhost.localdomain3.10.0-327.el7.x86_64#1SMPThuNov1922:10:57UTC2015x86_64x86_64x86_64GNU/Linux#查看python版本python-V>Py
Ubuntu18.04切换python3.8版本波波维琦 python linux ubuntu
安装python3.8sudoaptinstallpython3.8赋予python优先级sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python3.82切换python默认版本sudoupdate-alternatives--configpython选择python3.8的编号，回车赋予python3优先级sudou
IPv6网络的可操作安全考虑——RFC9099解析（四）黑带架构湿 IPv6安全网络安全安全
2.6记录和监控为了在发生安全事件或检测到异常行为的情况下进行取证（forensic）研究，网络运营商应记录多个信息片段。在某些情况下，这需要通过网络管理站对设备进行频繁的轮询。日志包括但不限于：在可用时，使用网络的所有应用程序（包括用户空间和内核空间）的日志(例如，网络运营商管理的web服务器；IPFIX数据【RFC7011】；SNMPMIBs或来自RESTCONF/NETCONF的YANG数据
Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
DJANGO 中间件的白名单配置换个网名有点难 django python
在处理白名单内的多个Apps的URL链接时，可以采用以下几种方法来简化白名单的配置：1.使用reverse动态获取URL如果你在urls.py中为每个App的URL定义了名称（name参数），可以使用reverse函数动态获取这些URL，而不是硬编码路径。这样可以避免手动维护大量的路径字符串。Python复制fromdjango.urlsimportreverseclassLoginRequire
MySQL Connector / Python weixin_30369087
MySQLConnector/Python允许Python程序使用符合Python数据库API规范v2.0（PEP249）的API访问MySQL数据库。MySQLConnector/Python包括对以下内容的支持：几乎所有MySQLServer提供的功能都包括MySQLServer版本5.7。Connector/Python8.0也支持XDevAPI。有关使用XDevAPI的MySQLConne
基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Matlab代码实现）创新优化代码学习 matlab 前端算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码、数据、文章下载1概述上一次介绍的是用Python代码编程的，这次用Matlab代码实现。回顾见：基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Python代码实现）摘要本文研究了峰值平均功率比(
网络安全-信息收集 One_Blanks 网络安全网络安全
声明学习视频来自B站UP主泷羽sec，如涉及侵权马上删除文章。笔记的只是方便各位师傅学习知识，以下网站只涉及学习内容，其他的都与本人无关，切莫逾越法律红线，否则后果自负。目录X一、Whois信息1.思路2.工具3.社工库二、搜索1.Google、bing、baidu三、Github四、搜索引擎FOFA：[https://fofa.info/](https://fofa.info/)360网络空间测
Python 3 介绍（二十二）--mysql-connector-python 小蘑菇二号零基础学 Python--快速入门 Python 快速入门 adb
目录安装mysql-connector-python基本使用示例1.连接到数据库2.插入数据3.更新数据4.删除数据进阶功能1.使用事务2.批量插入数据3.使用字典游标错误处理总结mysql-connector-python是一个用于Python的MySQL数据库驱动程序，它允许Python应用程序与MySQL数据库进行交互。这个驱动程序提供了高级别的API，支持多种Python版本，并且兼容多种
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p