梦想画家

ClickHouse实现大数据探索性分析

分析数据一般会从探索性分析开始，即尝试理解数据本身的概况。通常包括中位数、平均值或分布情况，Python Numpy/Pandas很容易实现，但如果数据量为Tb级，不能简单依赖RAM工具实现。ClickHouse提供的强大的工具来挖掘数据，不仅局限于min/max/avg分析。

测试数据

下面在clickhouse中创建示例表，并生成测试数据：

CREATE TABLE test (
  `time` DateTime, `a` UInt64, `b` Float64,
  `c` UInt32, `d` UInt32, `e` UInt32
) 
ENGINE = MergeTree
ORDER BY time

新版ClickHouse可以不指定ENGINE，为了兼容之前版本，这里显示指定表引擎，下面生成10亿测试数据：

INSERT INTO test
SELECT now() - number, rand64()/1000000000,
       round(rand32()/1000000)/100,
       rand32()/1000000, rand32()/10000, rand32()/100
FROM numbers(1000000000);

探索性分析

Min, Max, Avg, Median

首先通过基本的聚集函数实现：

SELECT min(a), max(a), avg(a), median(a) FROM test

可以a列的总体情况：

返回结果：


SELECT
    min(a),
    max(a),
    avg(a),
    median(a)
FROM test

Query id: ba893a8e-1c1e-4ae0-93d1-b966a370c841

┌─min(a)─┬──────max(a)─┬────────────avg(a)─┬────median(a)─┐
│     27 │ 18446744043 │ 9223167195.242725 │ 9269412176.5 │
└────────┴─────────────┴───────────────────┴──────────────┘

注意：median函数是近似实现（为了性能考虑），如果需要准确结果实用medianExact()。

对于相同类型列，可以实用ForEach合并器展示所有列的聚集结果：

WITH [a, c, d, e] AS col
SELECT maxForEach(col), minForEach(col),
       avgForEach(col), medianForEach(col)
FROM test

注意，这里跳过b列，因为b为Float类型，不是Int类型。结果返回多个数组值，顺序于with子句保持一致：

查看结果：


WITH [a, c, d, e] AS col
SELECT
    maxForEach(col),
    minForEach(col),
    avgForEach(col),
    medianForEach(col)
FROM test

Query id: e0da1a1d-0dd7-4ac1-8061-13e5b1d32637

┌─maxForEach(col)────────────────────┬─minForEach(col)─┬─avgForEach(col)────────────────────────────────────────────────────────┬─medianForEach(col)────────────────────┐
│ [18446744043,4294,429496,42949672] │ [27,0,0,0]      │ [9223167195.242725,2147.084726271,214757.971990777,21475846.697796952] │ [9094439831,2158,215857.5,21585783.5] │
└────────────────────────────────────┴─────────────────┴────────────────────────────────────────────────────────────────────────┴───────────────────────────────────────┘

加权平均

有时需要计算加权平均，一列为业务度量（假设为a列）、一列为权重（这里假设为c列）：

SELECT avgWeighted(a, c) FROM test

结果与标准平均有差异，因为c列表示每行的权重：


SELECT avgWeighted(a, c)
FROM test

Query id: b5af5a0f-2b15-4410-a4b9-2432673b43e1

┌─avgWeighted(a, c)─┐
│ 4500282.012782601 │
└───────────────────┘

分位数

数据值分布分析用于理解大多数样本值的分布情况，可以使用quantile函数，下面展示a列的值分布情况：

SELECT quantile(0.01)(a), quantile(0.05)(a), quantile(0.1)(a),
       quantile(0.5)(a),  quantile(0.9)(a),  quantile(0.95)(a),
       quantile(0.99)(a)
FROM test

结果如下：


SELECT
    quantile(0.01)(a),
    quantile(0.05)(a),
    quantile(0.1)(a),
    quantile(0.5)(a),
    quantile(0.9)(a),
    quantile(0.95)(a),
    quantile(0.99)(a)
FROM test

Query id: 3085d3ef-387a-4e01-a6b0-42ce33393839

┌─quantile(0.01)(a)─┬─quantile(0.05)(a)─┬─quantile(0.1)(a)─┬─quantile(0.5)(a)─┬───quantile(0.9)(a)─┬──quantile(0.95)(a)─┬─quantile(0.99)(a)─┐
│      177601178.51 │       896692543.5 │     1874314795.8 │       9045538672 │ 16552719369.300003 │ 17504816857.949997 │    18283462553.02 │
└───────────────────┴───────────────────┴──────────────────┴──────────────────┴────────────────────┴────────────────────┴───────────────────┘

quantile函数参数表示需要计算的百分位数，范围：0~1之间。

0.01 表 1% 百分位 (表示：a列值中仅1%小于计算结果),
0.99 表示 99% 百分位,
0.5 表示 50% 百分位 (或中位数).

我们可以使用箱线图展示列数据的分布情况。通常用于展示数据分布及异常值。

直方图

histogram函数计算数据直方图，参数为分组数量：

SELECT histogram(10)(a) FROM test

结果如下：

Query id: 12671173-07b6-4626-88cf-1c1e0b06b311

┌─hist_a─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│ [(27,1778599749.8154733,96220818.875),(1778599749.8154733,3567318758.13501,96866341.75),(3567318758.13501,5383282603.941727,98348320.75),(5383282603.941727,7229037840.827569,100085775.125),(7229037840.827569,9098282038.82383,101508675.125),(9098282038.82383,10979523217.501022,102238136.25),(10979523217.501022,12860395774.905602,102171698.875),(12860395774.905602,14731643787.83552,101508574.5),(14731643787.83552,16590229016.271152,100691124.875),(16590229016.271152,18446744043,100360533.875)] │
└────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘

1 rows in set. Elapsed: 21.144 sec. Processed 1.00 billion rows, 8.00 GB (47.29 million rows/s., 378.36 MB/s.)

返回10元组数组，每个tuple包括起始值、截止值和频数。上面结果不够直观，下面使用bar函数进行展示：

WITH    count(*) AS m, histogram(10)(a) AS h
SELECT  m, arrayJoin(h).3 AS v, bar(v, 0, m / 10, 50) hist
FROM    test

这里计算a列直方图，分为10个组，用频次作为高度:获取元组的第三个值：arrayJoin(h).3 。bar中几个参数意义分别为：当前值，最小值，最大值，最大宽度（bar的最大宽度），结果如下：


WITH
    count(*) AS m,
    histogram(10)(a) AS h
SELECT
    m,
    arrayJoin(h).3 AS v,
    bar(v, 0, m / 10, 50) AS hist
FROM test

Query id: 84d73ecf-4ad6-436a-b007-d4028a8703b5

┌──────────m─┬─────────────v─┬─hist───────────────────────────────────────────────┐
│ 1000000000 │      96191900 │ ████████████████████████████████████████████████   │
│ 1000000000 │   96848619.75 │ ████████████████████████████████████████████████▍  │
│ 1000000000 │  98342270.625 │ █████████████████████████████████████████████████▏ │
│ 1000000000 │   100073373.5 │ ██████████████████████████████████████████████████ │
│ 1000000000 │ 101491254.375 │ ██████████████████████████████████████████████████ │
│ 1000000000 │  102252583.25 │ ██████████████████████████████████████████████████ │
│ 1000000000 │ 102199888.125 │ ██████████████████████████████████████████████████ │
│ 1000000000 │  101529766.75 │ ██████████████████████████████████████████████████ │
│ 1000000000 │ 100703527.125 │ ██████████████████████████████████████████████████ │
│ 1000000000 │   100366816.5 │ ██████████████████████████████████████████████████ │
└────────────┴───────────────┴────────────────────────────────────────────────────┘

10 rows in set. Elapsed: 20.589 sec. Processed 1.00 billion rows, 8.00 GB (48.57 million rows/s., 388.56 MB/s.)

偏度(skewness)和峰度(kurtosis) 偏度

SELECT skewPop(a), skewPop(b), skewPop(c), skewPop(d) FROM test

可以看到完美的对称数据，如果偏度范围是 -0.5~0.5，则为对称。


SELECT
    skewPop(a),
    skewPop(b),
    skewPop(c),
    skewPop(d)
FROM test

Query id: 3d8f142e-540a-45cf-b29b-92ebcb680655

┌─────────────skewPop(a)─┬──────────────skewPop(b)─┬──────────────skewPop(c)─┬──────────────skewPop(d)─┐
│ 0.00008286246282390312 │ -0.00009044879302832024 │ -0.00009040144066574894 │ -0.00009043134876494848 │
└────────────────────────┴─────────────────────────┴─────────────────────────┴─────────────────────────┘

下面检查峰度情况，峰度包括正态分布（峰度值=3），厚尾（峰度值>3），瘦尾（峰度值<3）。

SELECT kurtPop(a), kurtPop(b), kurtPop(c), kurtPop(d) FROM test

结果如下：


SELECT
    kurtPop(a),
    kurtPop(b),
    kurtPop(c),
    kurtPop(d)
FROM test

Query id: bfa86913-a7ec-46d2-b568-4337cd36c8f1

┌─────────kurtPop(a)─┬─────────kurtPop(b)─┬────────kurtPop(c)─┬─────────kurtPop(d)─┐
│ 1.7999958442027149 │ 1.8000103475159206 │ 1.800009989793573 │ 1.8000101052993867 │
└────────────────────┴────────────────────┴───────────────────┴────────────────────┘

唯一值

ClickHouse使用高效内存近似计算唯一值算法，通常用在探索性分析阶段：

SELECT uniq(a), uniq(b), uniq(c), uniq(d), uniq(e) FROM test

如果需要准确计算，采用count(distinct s) 。uniq采用HLL（HyperLogLog，默认精度为17），可以通过uniqCombined()指定精度，精度越高准确度越高，占用内存越大。


SELECT
    uniq(a),
    uniq(b),
    uniq(c),
    uniq(d),
    uniq(e)
FROM test

Query id: dff853d6-b2b6-4d60-8a7f-8769feb91a68

┌───uniq(a)─┬─uniq(b)─┬─uniq(c)─┬─uniq(d)─┬──uniq(e)─┐
│ 976951893 │    4296 │    4295 │  431282 │ 42794211 │
└───────────┴─────────┴─────────┴─────────┴──────────┘

最受欢迎值

计算数据集中最受欢迎值

SELECT a, count(*) AS total FROM test
GROUP BY a ORDER BY total DESC LIMIT 5

该语句等价于：

SELECT topK(5)(a) FROM test

结果如下：


SELECT topK(5)(a)
FROM test

Query id: a97a98fa-1ce5-42cf-a201-2094f6cd999f

┌─topK(5)(a)─────────────────────────────────────────────────┐
│ [5887434584,5400923505,14324499147,1971311740,12559436788] │
└────────────────────────────────────────────────────────────┘

topK比传统写法效率更高、更简洁，建议使用topK.

标准差

标准差可以理解数据的分散程度，varPop函数可以计算标准差：

SELECT varPop(a), varPop(c), varPop(d) FROM test

结果如下：

SELECT
    varPop(a),
    varPop(c),
    varPop(d)
FROM test

Query id: 47696a42-dd17-47fa-a937-00e49bc6d11b

┌────────────varPop(a)─┬─────────varPop(c)─┬─────────varPop(d)─┐
│ 28357107720360067000 │ 1537149.986743688 │ 15371500762.27394 │
└──────────────────────┴───────────────────┴───────────────────┘

计算公式：

总结

ClickHouse提供数学函数、聚集函数用于对大数据量进行探索性分析。一些函数采用近似算法进行优化，如：unique,quantile，效率更高，通常用于数据分析的初始阶段。下面列举探索性阶段常用的函数：

min(), max(), avg() and median() 最常用的几个聚集函数
avgWeighted(col, weights) 计算加权平均
quantile(level)(col) 计算分位数
histogram(bins)(col) and bar() 计算并画直方图
skewPop(col) 计算偏度，判断数据是否对称
uniq(col) 近似唯一值计算
topK(N)(col) 计算最受欢迎的N个值
varPop(col) 计算标准差

【计算机毕业设计】基于SSM+Vue的游戏攻略网站系统【源码+lw+部署文档+讲解】
目录1绪论1.1研究背景1.2目的和意义1.3论文结构安排2相关技术2.1SSM框架介绍2.2B/S结构介绍2.3Mysql数据库介绍3系统分析3.1系统可行性分析3.1.1技术可行性分析3.1.2经济可行性分析3.1.3运行可行性分析3.2系统性能分析3.2.1易用性指标3.2.2可扩展性指标3.2.3健壮性指标3.2.4安全性指标3.3系统流程分析3.3.1操作流程分析3.3.2登录流程分析3
Linux 0.01源码深入解析羊迪
本文还有配套的精品资源，点击获取简介：Linux0.01源码代表了Linux操作系统的起点，揭示了其基本架构和内核设计原理。通过源码分析，开发者可以了解早期的进程管理、内存管理、文件系统、设备驱动、中断处理、系统调用等关键概念。此外，源码还展现了如何进行编译和构建，为想要深入理解操作系统和开源精神的开发者提供了一份宝贵的学习资源。1.Linux0.01源码概述Linux操作系统的核心是其内核，而L
可信数据空间（Trusted Data Space）核心能力及行业赋能分析小赖同学啊 test Technology Precious 算法
可信数据空间（TrustedDataSpace）作为新一代数据共享基础设施，通过技术创新和治理框架的结合，为多行业提供安全、可控的数据流通能力。以下是其核心能力及行业赋能分析：一、可信数据空间的六大核心能力能力维度技术实现关键价值数据主权保障基于区块链的分布式身份（DID）属性基加密（ABE）数据所有者保持控制权，实现"数据可用不可见"安全共享计算联邦学习（FL）多方安全计算（MPC）可信执行环境
新手小白写作的误区罗兰rose
在自媒体盛行的时代，基础差的新手小白也想开始写作，不知道能不能写，迟迟不敢动笔，你有这样的顾虑吗？误区弘丹老师在《精进写作》这本书中分享了小白不敢动笔，对写作认知存在误区。认为只有纠正了这些，新手也能轻松开始写作，爱上写作。新手小白的写作误区究竟有哪些呢？弘丹老师仔细分析有以下四大误区：1缺乏写作自信心，不敢尝试写作最常听的一个问题是：“我写不好，怎么办？”信心许多人缺乏的不是写作技巧，而是自信心
工业物联网中的时序数据库应用
1.引言工业物联网（IndustrialInternetofThings,IIoT）通过传感器、边缘计算和云计算等技术，实现设备数据的实时采集、存储与分析，以提高生产效率、预测设备故障并优化资源管理。然而，IIoT环境通常涉及高频、海量、多源异构的时序数据，传统数据库（如MySQL、Oracle）难以满足其高吞吐写入、低延迟查询和高效存储的需求。时序数据库（Time-SeriesDatabase,
网络安全-动态风险评估工作原理、详细过程和架构及案例 hao_wujing web安全架构安全
大家读完觉得有帮助记得关注和点赞！！！动态风险评估（DynamicRiskAssessment,DRA）是一种通过实时数据采集、AI分析和闭环反馈实现风险持续演算的主动防御技术。以下从工作原理、详细过程、架构设计及行业案例展开系统性解析：一、核心工作原理1.多源数据融合与实时感知异构数据采集：整合网络流量、端点行为、环境变量（如设备指纹、地理位置）、业务日志等多维数据，构建动态基线15。环境感知驱
任推邦是正规平台吗是真的吗？任推邦怎么赚钱任推邦官方账号
任推邦是否是正规平台？其地推网推是否合法且可靠？作为拉新推广副业领域的龙头产品，任推邦已经广为人知。不过，对于初次接触这个行业的人来说，可能会有一些疑虑和困惑。本文将从行业逻辑和任推邦平台的具体情况出发，帮助大家了解任推邦是否真的安全可靠，以及为什么它能如此火爆和广受好评。一、行业逻辑分析：地推网推领域的拉新推广是否真实可靠？首先，我们先来分析地推网推行业的盈利逻辑，这与我们如何通过操作获得佣金密
时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
飞算JavaAI：力臻开发之本真，破 AI 代码之繁琐，传统项目一键生成微学AI 人工智能 java javaAI
飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成文章目录飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成一、前言二、飞算JavaAI是什么？2.1背景与实力2.2飞算JavaAI的“独门绝技”三、飞算JavaAI实战体验3.1IDEA插件安装配置3.2Main中写一个简单的梯度下降算法3.3main函数搭建一个卷积神经网络网络3.4飞算JavaAI：需求分析
MySQL 多表关联执行计划全面解析：从 N-LJ 到子查询优化
在实际企业开发中，多表关联查询更为常见，也是导致SQL执行效率低下的重要原因之一。今天，我们将系统性地解析MySQL多表关联查询的执行机制，重点包括：多表关联底层执行机制（N-LJ嵌套循环连接）为什么多表查询容易性能差，以及驱动表的选择有多重要多表查询执行计划分析与优化技巧（附实际案例）一、MySQL多表关联的执行机制：N-LJ嵌套循环连接在MySQL中，多表连接最常见的执行策略就是NestedL
软件工程：软件开发之需求分析云纳星辰怀自在软件工程软件工程需求分析 ASPICE 功能安全软件需求分析原则软件需求分析属性需求开发策略模板
物有本末，事有终始。知所先后，则近道矣。对软件开发而言，软件需求乃重中之重。必先之事重千钧，不可或缺如日辰。汽车行业由于有方法论和各种标准约束，对软件开发有严苛的要求。ASPICE指导如何审核软件开发，虽然没有明确定义如何去开发，但是ASPICE的Guideline和Essential文件中给出很多参考。本文则详细阐述如何编写软件需求，同时介绍软件需求的必要属性。本文用SRS(SoftwareRe
如何清除 npm 缓存 BIBI2049 前端开发 Windows npm 缓存前端 node.js
清除npm缓存：利弊分析与操作指南在使用Node.js和npm进行项目开发时，我们经常会与npminstall命令打交道。这个过程中，npm会在本地建立一个缓存机制，用以存储已下载的包，从而显著提升后续安装的速度。然而，有时这个缓存也可能成为问题的根源。本文将探讨清除npm缓存的利弊，并提供清晰的操作指引。清除npm缓存的好处清除npm缓存主要能带来以下几点好处：解决依赖安装失败问题：当缓存中的包
lua分析文件 henreash lua
functionstartwith(str,substr)ifstr==nilorsubstr==nilthenreturnnil,"thestringorthesub-stirngparameterisnil"endifstring.find(str,substr)~=1thenreturnfalseelsereturntrueendendfunctionendwith(str,substr)i
短剧业务产业链涉及的技术系统-TKano模型百态老人大数据
短剧业务产业链涉及的技术系统中，TKano模型的应用主要集中在用户需求分析方面。TKano模型是一种用于识别和分类用户需求的方法，通过将用户需求分为基础型需求、期望型需求和兴奋型需求，帮助短剧业务更好地理解用户需求并优化产品。在短剧业务中，TKano模型的应用可以帮助企业识别出哪些是基础型需求（如内容的连贯性和完整性），哪些是期望型需求（如快速观看和推荐功能），以及哪些是兴奋型需求（如附加资源和福
短剧小程序的「技术革命」：从「粗放生长」到「精准运营」 weixin_lynhgworld 小程序
随着短剧行业进入「存量竞争」阶段，技术能力正成为小程序的核心竞争力。从内容推荐到用户留存，从广告变现到IP开发，每一环节都需要数据驱动和算法优化。一、智能推荐：让「用户找到剧」变成「剧找到用户」传统短剧平台依赖标签匹配，而小程序通过多维度数据实现精准推荐：「情绪图谱」分析：记录用户观看时的快进、暂停、重复播放等行为，构建情绪波动曲线；「场景化推荐」：根据时间（如深夜）、地点（如地铁）、设备（如手机
读《关于在全党大兴调查研究的工作方案》有感王家遥3
本周我们晨读阅读了中共中央办公厅印发的《关于在全党大兴调查研究的工作方案》我深有感触，调查研究能力本质上是发现问题、分析问题、解决问题的能力，是体现出干部是否善于思考、主动作为，是否坚持群众路线，善于向群众学习、向实践学习的表现，组工干部要怎样开展调查呢，我认为可以从一下几个方面入手。第一是选题要精准，选择什么问题开展调研。是调研开展的首要问题，调查研究要求要做到“顶天立地”，所谓“顶天”就是要符
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
2022-09-24 机器人胃癌手术带来更好的结果吗？朗月斋主
胃癌机器人胃切除术(RG)的初步经验证明了良好的短期结果，表明RG是腹腔镜胃切除术(LG)的有效替代方案。然而，关于胃癌RG术后长期生存和复发的数据尚未见报道。本研究的目的是评估RG与LG后的长期结果。方法：回顾性评估了2005年7月至2009年12月期间分别接受RG或LG的313名和524名胃癌患者。比较了长期结果使用整个队列和倾向评分匹配队列。结果：整个队列分析显示5年总生存期(OS)或无复发
今日小语：不要急于下结论梦飞鱼
今天想到的一个感悟就是：对于一些事，一些人不要急于下结论，最好能够弄清楚前因后果，这样得出的结论就不至于片面武断。周围有的人，总是习惯把表面的问题当结论，不去分析问题后面可能存在的原因，结果只会引起不必要的误会和矛盾。我能做的便是：安静地翻出相关数据，查找问题后面可能存在的纰漏，大多数时候都能找到症结所在，如果深度排查依然存在问题，这时再下结论也不迟。无论对人还是对事，不要急于下结论，也许我们恰恰
中山司法亲子鉴定中心地址查询-13家(附2024年最新版) 国权基因
中山司法亲子鉴定中心地址在哪里?中山司法亲子鉴定咨询中心地址在中山市东区兴中道新兴花园翠园街(中山亲鉴生物)。中山亲子鉴定中心就是利用法医学、生物学和遗传学的理论和技术，从子代和亲代的形态构造或生理机能方面的相似特点，分析遗传特征，判断父母与子女之间是否是亲生关系，是法医物证鉴定的主要组成部分。很多人认为正规亲子鉴定需要在医院办理，这其实是一个误区，今天小编就来说说中山司法亲子鉴定中心地址在哪，供
基于Python的Twitter Card数据爬取与分析实战：从入门到精通 Python爬虫项目 python twitter dreamweaver 自动化开发语言宽度优先爬虫
摘要本文详细介绍了如何使用Python最新技术栈构建一个高效的TwitterCard数据爬虫系统。我们将从TwitterCard的基本概念讲起，逐步深入到爬虫架构设计、反爬策略应对、数据解析与存储等核心环节。文章包含完整的代码实现，使用Playwright+Asyncio的高性能爬取方案，以及数据分析与可视化的实战案例。通过本文，读者将掌握大规模社交媒体数据采集的关键技术，并能够将这些技术应用于实
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
matlab dft变换_傅里叶变换篇（一）——从时域到频域腿毛拆床垫 matlab dft变换
这次直接进入正题哈！啥是傅里叶变换？傅里叶变换可以将时域信号转变成频域，通过分析频谱了解信号的组成。网上有大量介绍傅里叶变换的好文章，感兴趣的小伙伴可以自行查阅！什么是时域和频域呢？简单的理解是：时域的横轴为时间，反映信号随时间的变化，频域的横轴为频率，反映信号组成的不同频率分量。现实生活中因为时间和采样的原因，得到的信号大多是有限长度序列的离散时间序列的傅里叶变换(DFT)。傅里叶变换的计算机实
clickhouse字符串函数鸭梨山大哎 clickhouse clickhouse 字符串
长度以及大小写SELECT--11length('helloworld')asstr_length,--判断字符串是否为空，空为1，非空为0--0empty('helloworld'),--1notEmpty('helloworld'),--11lengthUTF8('helloworld'),--11char_length('helloworld'),--同lengthUTF8()--11cha
[学习] Hilbert变换：从数学原理到物理意义的深度解析与仿真实验（完整实验代码）极客不孤独学习概率论信号处理 python 数学建模
Hilbert变换：从数学原理到物理意义的深度解析与仿真实验文章目录Hilbert变换：从数学原理到物理意义的深度解析与仿真实验一、数学原理二、作用与物理意义1.构造解析信号2.相位移动特性3.应用场景三、仿真实验实验1：正弦信号的Hilbert变换实验2：调幅信号的Hilbert变换四、结论Hilbert变换是信号处理领域中一项经典而强大的工具，广泛应用于瞬时频率分析、调制解调、相位提取等场景。
Python 单例模式几种实现方式 @MMiL PyBuild python matplotlib numpy pandas
文章目录1基础实现方式1.1模块导入法（推荐）1.2重写`__new__`方法2进阶实现方式2.1元类（Metaclass）控制2.2线程安全单例2.3单例装饰器3关键问题分析4实践建议各位老板好,单例模式确保一个类只有一个实例，并提供全局访问点。适用于日志记录、配置管理、数据库连接池等场景。以下是Python单例模式的5种实现方式：1基础实现方式1.1模块导入法（推荐）Python模块天然支持单
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

ClickHouse实现大数据探索性分析

测试数据

探索性分析

Min, Max, Avg, Median

加权平均

分位数

直方图

偏度(skewness)和峰度(kurtosis) 偏度

唯一值

最受欢迎值

标准差

相关性

总结

你可能感兴趣的:(ClickHouse,clickhouse,数据分析,探索性分析)