noobiee

(业务向) 数据分析知识 + 产品

数据分析方法

趋势分析法、对比分析法、多维分解法、用户细查、漏斗分析、留存分析、AB测试法、4P理论、PESTEL理论、SWOT分析、5W2H理论、逻辑树理论、用户使用行为理论、AARRR模型

数据指标体系

1. 概述

指标，是反映某种事物或现象，描述在一定时间和条件下的规模、程度、比例、结构等概念，通常由指标名称和指标数值组成.

简单计数型指标: 指可通过重复加1这一数学行为而获得数值的指标，如UV（Unique Visit , 独立访客数）、PV（Page View，页面浏览量）
复合型指标: 由简单计数型指标经四则运算后得到的，如跳出率、购买转化率, MAU月活跃用户数，CTR=点击UV/曝光UV, 用户留存率=继续的用户/新增用户数，ARPU每用户平均收入

（1）按场景拆分成多个子指标的和

如：DAU日活跃用户 ≈ 日新增用户+留存用户+回流用户；

（2）按一定的关系拆分成多个子指标的积

1）依靠逻辑关系进行指标拆分。如：

GMV （总消费额，Gross Merchandise Volume）≈ 用户数 x 购买频次 x 客单价；
销售额 ≈ 用户总量 x 付费率 x 客单价；
LTV（生命周期总价值，life time value ）=LT（生命周期，life time）x ARPU（每个用户的平均花费，Average Revenue Per Use）
投资回报率（ROI）=年利润或年均利润/投资总额×100%

2）依靠时间先后进行指标拆分。

如：渠道推荐效果 ≈ 展现次数 x 点击率 x 转化率

2. 各行业指标

2.1 广告收费指标：

CPC：广告单次点击计费
CPA：按行动（广告实际效果）付费
CPM (Cost Per Mile)千次曝光成本：总消费/曝光量*1000

三者比较：

CPM在第一步收取广告费用，即只需要将广告对受众进行了展示，广告主就要付费。
CPC收取第二步费用，即当用户看到广告后并发生点击行为后，广告主就要付费。
CPA收取第三步费用，即用户广告后点击了广告，通过进一步了解活动情况后完成某些特定行为，如填表、注册、下载、购买等，广告主就要付费。

2.2 游戏行业指标

ARPPU (Average Revenue Per Paying User) 每付费用户平均收益:

某时间段内平均每个付费用户为应用创造的收入

2.3 零售行业

动销率= 动销品种数 /仓库总品种数

客单价（per customer transaction）= 销售额 /成交顾客数

连带率= 销售总数量 ÷ 销售小票数量 = 平均单次消费的产品数量

售罄率 = 累计销售 ÷ 总进货

3. 指标标度

Santy的1-9标度方法：两两判断相对重要性

4. 建立指标体系的方法

5. 制作报表

6. 数据报告

明确分析目的
拆解指标发现问题
拆解问题
拓展维度探究指标差异
撰写报告及美化

用户画像的指标分析

建立的用户标签按标签类型可以分为统计类、规则类和机器学习挖掘类。从建立的标签维度来看，可以将其分为用户属性类、用户行为类、用户消费类和风险控制类等常见类型。

RFM模型

R：最近一次消费（recency）代表用户距离当前最后一次消费的时间反向值 R越大用户价值越低
F：消费频次（frequency）用户在一段时间内，在产品内的消费频次，重点是我们对一段时间的定义正向值 F越大用户价值越高
M：消费金额（monetary）代表用户的价值贡献正向值 M越大用户价值越高

留存分析

留存分析模型 =“留存规则”+“筛选条件”+“表格数据展示”+“可视化数据展示”+“操作”

目标拆解方法——把业务目标变成设计目标

1.行为路径分析法——研究用户行为数据

基于用户的行为路径（用户行为路径即将用户点击浏览的数据可视化而成）来拆解目标，找到设计可发力的环节从而达到目标。

这个方法的难点在于要对业务非常熟悉，需要详细的了解用户所有的路径，通常也可以采用“抓大放小”的方式，整理出用户主路径，对主路径进行研究，暂时放弃子路径。例如用户完成目标G可能需要经历A-B-C-D-E-F这些，整理出每个页面的UV，从而找到中间的漏损最严重的点进行优化。

2.公式分析法——较为开放式的方法

3.数据分层法——较为发散式的方法

用户路径数据

用户画像数据

产品数据

业务分析模型

1. 4P理论模型

Product（产品），Price（价格），Place（渠道）和Promotion（促销）

第一个P表示产品，就是说我们要注重产品的功能，要求产品有独特的卖点，把产品的功能诉求放在第一位；
第二个P表示价格，我们要根据不同的市场定位制定不同的价格策略，而产品的定价依据是企业的品牌；
第三个P表示渠道，强调企业并不直接面对消费者，而是注重经销商的培育和销售网络的建立；
第四个P表示宣传，宣传就是指促销活动，比如打折、买一送一等。

2. 波士顿矩阵（市场增长率-相对市场份额矩阵）

通过销售增长率（反应市场吸引力的指标）和市场占有率（反应企业实力的指标）来分析决定企业的产品结构

企业运营模式

大客户模式、直销模式、分销模式、免费模式、会议营销模式、社群模式、体验营销模式，场景化营销模式，社区模式

分析模型

1. 漏斗分析

漏斗，简单来讲，就是抽象网站或APP中的某个流程，观察流程中每一步的转化与流失。

漏斗的三元素：

时间：
漏斗的转化周期，即为完成每一层漏斗所需时间的集合。通常来讲，一个漏斗的转化周期越短越好，尤其是在某些转化周期较长的行业，比如：在线教育行业，B2B电商行业。此外，单独查看每一层漏斗的时间，也能发现一些问题。举例来说，如果发现从某个渠道导入的流量，在某层漏斗的消耗时间惊人的一致，这说明该渠道的流量很可能有异常。
节点：
每一层漏斗，就是一个节点。而对于节点来说，最核心的指标就是转化率，公式如下： 转化率 = 通过该层的流量/到达该层的流量
整个漏斗的转化率以及每一层的转化率，可以帮助我们明确优化的方向：找到转化率低的节点，想办法提升它。
流量：
流量，也就是人群。不同人群在同一个漏斗下的表现情况一定是不一样的，比如淘宝的购物漏斗，男人和女人的转化率不一样，年轻人和老人的转化率也不一样。
通过人群分类，我们可以快速查看特定人群的转化率，更能清晰定位问题。

1.1 AARRR流量漏斗又称海盗模型

指的是用户在使用产品前后的整个生命周期中的5个环节。

获取用户（Acquisition）
提高用户活跃度（Activation）
提高用户留存率（Retention）
获取收入（Revenue）
自传播（Refer）

不同阶段主要的关注指标：

日新增用户数
注册人数，新手教程完成量，至少用过一次产品的人数，订阅量
用户参与度，距上次登录的时间，日/月活跃使用量，流失率
客单价（ARPU），付费率（PR或PUR），活跃付费用户数（APA），平均每用户收入（ARPU），平均每付费用户收入（ARPPU）、产品生命周期价值（LTV）
k因子 K=（每个用户向他的朋友们发出的邀请的数量）×（接收到邀请的人转化为新用户的转化率）

2. 归因模型

准确的描述其实是一种既定的规则，我们需要根据产品的实际需求，将达成目标（形成转化）之前的功劳根据设定的权重分配给每一个转化节点。产品形成一次转化，用户可能要经历很多个转化节点（转化并不一定只完成销售。一次注册也可以看作一次转化，一次访问也可以看作一次转化，要根据业务实际需求制定）。

首次归因：适用于品牌没有知名度的公司，关注能够带来客户的最初渠道，对于拓展市场很有帮助；
末次归因：适用于转化路径少，周期短的业务，末次归因和首次归因都属于单渠道归因模型；
线性归因：将回溯期内所有触点的功劳平均分配，优点是不用考虑不同渠道的权重，各个渠道一视同仁，缺点是有些质量高的渠道可能会被平均；适用于期望在整个销售周期内保持与客户的联系，并维持品牌认知度的公司，这种归因方式，使得各个渠道在顾客的考虑过程中都起到相同的促进作用；
时间衰减归因模型：对于统计时间点内的所有触点，距离转化越近的触点贡献越大，适用于客户决策周期短销售周期短的情况；
位置归因：该模型重视最初带来线索和最终促成成交的渠道，如果一个公司比较看重这两点，可选择此模型，综合了首次归因、末次归因、线性归因，将第一次和最后一次触点各记贡献40%，中间的所有触点平均剩下的20%贡献；

3. Cohort分析（同期群分析）

Cohort Analysis又叫队列分析，群组分析，是数据分析中常用的一种方法。一般分析过程是将数据分成相同权重，连续的几个部分，然后对每部分数据做相同分析，最后做连续性讨论并得到结果。

举例子来说，分析70后、80后、90后在20岁、30岁、40岁、50岁的收入各是多少；分析每一天的新注册用户在之后N天的留存率等等。

商品同期群：商品LTV模型
用户同期群：用户留存率模型
渠道同期群：渠道质量分析模型

4. AHP层次分析法

层次分析法具有将复杂问题简单化且计算简单等优点，应用十分广泛，诸如在人员素质评估、多方案比较、科技成果评比和工作成效评价等多领域多方面都有运用。它是多指标综合评价算法,一般有两个用途：

指标定权：对某一个决策，（主观）对其因素的重视程度不一，ahp可以实现在无需搜集数据的情况下，给这些指标制定权重
量化方案选择：层次分析法可以综合以上5个因素，给这些方案计算得出一个量化得分

层次单排序核心思想大致分为两步

对判断矩阵计算其权重（权重向量）：

方根法：每一行连乘后开根，得到的向量进行标准化后即为权重向量
和法：先将矩阵的每列进行标准化，然后各元素按行求和，求和结果进行标准化

进行一致性检验：

线代原理

定理1：若A为一致性矩阵，则A的最大特征值λ_max⁡ = n，其中n为矩阵A的阶，A的其余特征值均为0。

定理2：n阶正互反矩阵为一致性矩阵，当且仅当其最大特征值λ_max⁡ = n，并且当正互反矩阵非一致时，必有λ_max⁡ > n。

定义一致性指标一致性指标CI越大，整个矩阵就越不一致

根据权重矩阵计算最大特征根A为判断矩阵，W为标准化后的权重

然后为了衡量的大小，引入随机一致性指标，该指标的构建方法是随机构建1000个正互反矩阵，并计算一致性指标的平均值，查表即可

最后计算一致性比例一般,当一致性比率时，通过一致性检验

对于层次总排序，

其一致性比例为

5. 时间序列模型

5.1 AR(p)模型

AR模型全称是Auto Regression，表示自回归，大家应该都知道普通的回归方程，都是用x去回归y，这里的x和y一般不是同一个东西。而我们这里的自回归顾名思义就是用自己回归自己，也就是x和y都是时间序列自己。具体的模型如下：

上面模型中，Xt表示t期的值，当期的值由前p期的值来决定，δ值是常数项，相当于普通回归中的截距项，μ是随机误差.

5.2 MA(q)模型

MA的全称是Moving Average，表示移动平均。具体模型如下：

上面模型中，Xt表示t期的值，当期的值由前q期的误差值来决定，μ值是常数项，相当于普通回归中的截距项，ut是当期的随机误差。MA模型的核心思想是每一期的随机误差都会影响当期值，把前q期的所有误差加起来就是对t期值的影响。

5.3 ARMA(p,q)模型

ARMA模型其实就是把上面两个模型进行合并，就是认为t期值不仅与前p期的x值有关，而且还与前q期对应的每一期的误差有关，这两部分共同决定了目前t期的值，具体的模型如下：

5.4 ARIMA(p,d,q)模型

ARIMA模型是在ARMA模型的基础上进行改造的，ARMA模型是针对t期值进行建模的，而ARIMA是针对t期与t-d期之间差值进行建模，我们把这种不同期之间做差称为差分，这里的d是几就是几阶差分。ARIMA的的具体模型如下：

上面公式中的wt表示t期经过d阶差分以后的结果。我们可以看到ARIMA模型的形式基本与ARMA的形式是一致的，只不过把X换成了w。

当数据是平稳时间序列时可以使用前面的三个模型，当数据是非平稳时间序列时，可以使用最后一个，通过差分的方式将非平稳时间时间序列转化为平稳时间序列。

5.5 ARIMA的步骤

1，对时间序列数据进行绘图，检验数据的平稳性，对非平稳时间序列数据，要先进行差分，直到时间序列为平稳时间序列。
2，对平稳后的数据进行白噪声检验，白噪声是指零均值常方差的随机平稳序列。
3，如果是平稳非白噪声序列就计算ACF（自相关系数）、PACF（偏自相关系数），进行ARIMA模型识别。
4，对识别好的模型，确定模型参数，进行时间序列进行预测，并对模型结果进行评价。

6. 因子分析

主成分分析旨在用变量的线性组合生成同等个数的主成分，然后选择合适的线性组合数量，尽可能保持尽可能多的总体信息；而因子分析旨在根据变量之间的联系，找到共同影响变量的因子，将具有复杂关系的变量转化为少数几个因子从而再现原始变量之间的内在联系，这里的因子是假象的、不可观测的随机变量。

探索性因子分析是先不假定一堆自变量背后到底有几个因子以及关系，而是我们通过这个方法去寻找因子及关系。

验证性因子分析是假设一堆自变量背后有几个因子，试图验证这种假设是否正确。

6.1 步骤

将原始数据标准化处理 X
计算相关矩阵C的特征值 r 和特征向量 U
确定公共因子个数k
构造初始因子载荷矩阵,其中U为r的特征向量
建立因子模型
对初始因子载荷矩阵A进行旋转变换，旋转变换是使初始因子载荷矩阵结构简化，关系明确，使得因子变量更具有可解释性，如果初始因子不相关，可以用方差极大正交旋转，如果初始因子间相关，可以用斜交旋转，进过旋转后得到比较理想的新的因子载荷矩阵A'.
将因子表示成变量的线性组合，其中的系数可以通过最小二乘法得到.
计算因子得分.

7. 对应分析

7.1 简介

在因子分析中，Q型、R型分析针对的对象不同，R型因子分析研究变量（指标）之间的相关关系，Q型因子分析研究样本之间的相关关系，这两种分析方法往往是相互对立的，必须分别对样本和变量进行处理。（变量是一列，样本是一行）因此，不能同时进行 R型因子分析和 Q型因子分析，这是因子分析的一大局限。

对应分析也称为关联分析、R-Q型因子分析，它克服了因子分析的缺点，综合R型和Q型因子分析的优点，同时对交叉列联表中的行与列进行处理。
利用降维的思想达到简化数据结构的目，寻求以低维图形表示数据表中行与列之间的关系，是特别适合于多分类属性变量研究的一种多元统计分析方法。（广泛应用于市场分析、产品定位、广告研究、社会学等）

对应分析（关联分析、R-Q型因子分析、处理分类变量的利器）原理介绍_卖山楂啦prss的博客-CSDN博客_对应分析

8. 杜邦分析（财务）

杜邦分析（也称为杜邦恒等式或杜邦模型）用于分解股本回报率 (ROE) 的不同驱动因素。使投资者能够单独关注财务业绩的关键指标，以识别优势和劣势。

杜邦分析是一个扩展的股本回报率公式，通过将净利润率乘以资产周转率乘以股本乘数计算得出

推动股本回报率 (ROE) 的三大财务指标：运营效率、资产使用效率和财务杠杆。运营效率以净利润率或净利润除以总销售额或收入来表示。资产使用效率以资产周转率衡量。杠杆以权益乘数衡量，等于平均资产除以平均权益。

杜邦分析法在企业实际财务报表中的应用：

首先，企业销售净利率可以反映企业盈利能力的高低。
其次，资产周转次数可以反映企业营运能力的高低。
再者，权益乘数反映企业偿债能力的高低。

分析工具

1. 热图分析

通过记录用户的鼠标行为，并以直观的效果呈现，从而帮助使用者优化网站布局。

Mouse Move Heatmap（鼠标移动热图）
Mouse Click Heatmap（鼠标点击热图）
Mouse Scroll Heatmap（鼠标滚动热图）
Link Heatmap（链接热图）

*分析结果检验

1. 一致性检验

Kappa检验
ICC组内相关系数
Kendall W协调系数

面试题

Ⅰ.数字规律

Ⅱ.使用AB Test评估算法效果（业务题）

1）需求

某个购物APP最近优化了“猜你喜欢”模块的推荐算法，希望进一步提升推荐的精准度，进而提升销售额。现在需要通过AB Test（50%用户保留原先推荐算法的为控制组，50%用户使用新的推荐算法为实验组）来对新的推荐效果进行评估。假设你是此次实验的数据分析师，请问你会如何评估控制组和实验组的表现？请按重要性列出最重要的三个指标并给出你的分析过程。

2）解题思路

指标：推荐商品的销售额、推荐商品点击率、推荐商品的转化率

分析过程：

设原假设为使用新的推荐算法后上述指标降低或不变，备择假设为使用新的推荐算法后上述指标增加。
选择显著性水平临界值为5%，并根据指标的预期提升确定样本量和试验周期。
样本合理分流，AB测试上线，采集数据。
使用T检验，计算P值，进行效果验证。
分析结论，如果P值小于5%，那么原假设不成立，备择假设成立，即使用新算法后指标提升。反之无法推翻原假设，不能证明使用新算法后指标提升.

产品分析

产品需求文档（PRD）

PRD是对产品需求以实际可落地方式进行细化描述的文档

包含：业务流程图、功能结构图、功能细节描述、界面原型等

竞品分析

通过分析竞争对手的产品，发现痛点，更好地发掘并满足用户需求。

步骤：竞品基础数据管理、竞品流程管理、竞品分析、竞品展示

用户体验五要素

ToB和ToC产品区别

区别	ToB	ToC
商业模式	基本是签合同，卖产品付费模式	免费试用，基本是流量间接变现模式
使用场景	使用场景比较简单，大多数是在办公场景下	使用场景多且复杂，利用碎片化和随机性
业务形态	大多数是偏平化功能，可以单独拆分出来售卖	一个核心功能为主，产品多维度延伸
更换成本、用户黏性	更换成本高，定制部署周期长，用户粘性较高	如果易用性差，体验做不好，用户粘性较低
产品能力	更侧重业务流程逻辑和谈判协调能力	更侧重用户模型、交易模型等
数据分析	关注产品市场占有率、服务商户数、续费率等	关注产品活跃用户数、用户增长率、转化率等
与销售团队关系	与销售的有强关联，需配合销售	没有直接的销售团队，一般是运营团队
可扩展性	可拓展性偏弱，只能实现以点带点	可拓展性较强，可以实现以点带面

数据采集

代码埋点：APP或网站加载的时候，初始化第三方服务商数据分析的SDK，然后在某个事件发生时就调用SDK里面相应的数据发送接口发送数据。灵活性强，但人力成本大

可视化埋点：框架化埋点，利用可视化交互手段，业务人员都可以直接在页面上进行简单圈选，以追踪用户的行为(定义事件)。人力成本小，但灵活性不强。

无埋点（全埋点）：开发人员集成采集 SDK 后，SDK 便直接开始捕捉和监测用户在应用里的所有行为，并全部上报，不需要开发人员添加额外代码。 采集的是全量数据。

运营相关

渠道运营：通过一切可以利用的资源和流量为你的产品带来新增的的手段；其中包括免费、付费、换量、人脉积攒、产品的吸引力、圈内人的推荐、策划活动、内容营销、用户口碑等手段都可以是渠道运营的的方向。

References

独家！如何玩转数据分析？ | 人人都是产品经理

实战：如何设立数据指标体系？ | 人人都是产品经理

层次分析法（AHP）原理以及应用_fanstuck的博客-CSDN博客_ahp层次分析法的优缺点

用人话讲明白AHP层次分析法（非常详细原理+简单工具实现）_Halosec_Wei的博客-CSDN博客_ahp层次分析法

时间序列预测(中)_俊红的数据分析之路的博客-CSDN博客

基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
数据分析框架和方法 XiaoQiong.Zhang 人工智能
一、核心分析框架(TheBigPictureFrameworks)描述性分析(WhatHappened?)目的：了解过去发生了什么，描述现状，监控业务健康。核心工作：汇总、聚合、计算基础指标(KPI)，生成报表和仪表盘。常用方法/指标：计数/求和/平均值/中位数：DAU/MAU，总销售额，客单价等。比率：转化率，点击率，流失率，毛利率等。分布：用户活跃度分布、订单金额分布、地域分布等。常用于理解群
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
【数据分析】多数据集网络分析：探索健康与退休研究中的变量关系生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理函数网络分析画图保存图片总结系统信息介绍在医学和社会科学研究中，理解多个变量之间的复杂关系对于揭示潜在的病理生理机制和社会行为模式至关重要。本文介绍了一种基于R语言的网络分析方法，用于探索HRS（健康与退休研究）及其类似研究（CHARLS、ELSA、MHAS、SHARE）中的变
基于Python的旅游数据可视化应用
摘要本文详细介绍了一个功能完善的基于Python语言开发的旅游行业数据可视化分析应用系统。该系统采用Pandas这一强大的数据处理库进行数据清洗、转换和预处理工作，确保数据质量可靠。在可视化展示方面，系统整合了Matplotlib和Seaborn两大主流可视化库，通过丰富的图表类型直观呈现数据分析结果。特别值得一提的是，所有可视化图表均采用统一的绿色主题配色方案，这种设计不仅美观大方，更能突出体现
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
动态时间规整（Dynamic Time Warping，DTW）介绍 EmorZhong 机器学习人工智能深度学习数据结构算法
在时序数据分析中，动态时间规整（DynamicTimeWarping，DTW）是一种经典的用于度量两个时间序列相似度的算法。它的核心价值在于解决了传统距离度量（如欧氏距离）在处理时间序列时的局限性——尤其是当序列存在时间错位（如节奏快慢不同）或长度差异时，仍能准确捕捉它们的“形状相似性”。一、为什么需要DTW？传统的距离度量（如欧氏距离）要求两个时间序列必须长度相同且时间点严格对齐。但实际场景中，
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
一文搞懂怎么入门大模型
在人工智能飞速发展的当下，大模型已然成为推动众多领域创新变革的核心力量。无论是在智能客服、内容创作，还是数据分析、科学研究等方面，大模型都展现出了令人瞩目的能力。对于渴望踏入大模型领域的初学者而言，构建一个系统且全面的入门路径至关重要。接下来，我们将以DeepSeek为例，详细阐述如何系统地入门大模型。一、理论基础：搭建认知框架在深入实践之前，理解大模型的基础理论是关键。大模型，通常指具有海量参数
从零到一：王者荣耀英雄数据采集与技能图谱异步爬虫实战程序员威哥爬虫 python 开发语言自动化 scrapy
引言：随着游戏行业的迅猛发展，王者荣耀作为一款深受玩家喜爱的手游，其英雄数据和技能信息成为了爬虫开发者研究的热点之一。通过抓取英雄数据并对技能图谱进行可视化，我们不仅能够更好地理解游戏数据，还可以为游戏爱好者或数据分析师提供一个有价值的数据分析平台。本篇文章将带你一步步实现王者荣耀英雄数据的采集与技能图谱的可视化，并使用异步爬虫技术提高爬取效率。我们将结合实际开发中的需求，深入讲解如何使用异步爬虫
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
【字节跳动】数据挖掘面试题0010：解释全国人均收入下降，各省份人均收入增加的现象，属于辛普森悖论（开放性问题）言析数智数据挖掘常见面试题辛普森悖论局部与整体分析差异归因数据分析面试题
文章大纲一、辛普森悖论的核心定义二、现象成因：加权平均中的“权重偏移”三、数学逻辑与案例说明1.数学表达式2.具体案例四、辛普森悖论的本质：忽略“混杂因素”的影响五、生活中常见的辛普森悖论案例及应对策略1.医疗疗法效果评估2.大学录取率的性别偏差3.篮球运动员投篮效率4.公司员工绩效与部门规模如何利用辛普森悖论？（数据分析中的价值）六、总结全国人均收入下降而各省份人均收入增加的现象，确实属于辛普森
大模型学习应用 6: Vercel 部署自动获取微信公众号文章获取项目大地之灯大模型应用与学习学习微信大模型应用开发 python github flask
大模型落地开发实战指南！请关注微信公众号：「AGI启程号」深入浅出，助你轻松入门！数据分析、深度学习、大模型与算法的综合进阶，尽在CSDN博客主页本文将详细介绍如何在Vercel平台上部署自动微信公众号文章获取项目，包括项目结构、代码实现、部署流程以及常见问题的解决方案。注意：本项目源代码github链接，可自行克隆到自己的代码仓库完成vercel部署，注意需要稳定ip输出（微信白名单需求），免费
ChatGPTNextChat项目重构计划（九）：NextChat 解析API路由处理逻辑 stream.ts
大模型落地开发实战指南！请关注微信公众号：「AGI启程号」深入浅出，助你轻松入门！数据分析、深度学习、大模型与算法的综合进阶，尽在CSDN博客主页目录一、文件作用概述二、导入模块与类型定义三、核心函数详细解析`fetch(url,options)`四、`fetch`函数详细步骤解析步骤1:检测Tauri环境并准备请求参数步骤2:创建数据流(`TransformStream`)步骤3:定义关闭数据流
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
x86架构CPU市场格局 InnoLink_1024 芯片架构硬件架构
x86架构的CPU市场是全球处理器市场的核心，涵盖PC（桌面端与移动端）、服务器和超算等领域，主要玩家为英特尔（Intel）和AMD。以下基于最新数据分析市场格局及各领域份额，辅以国产厂商动态。1.总体市场概况x86架构因其成熟的生态系统和强大的兼容性，在PC和服务器市场占据主导地位。根据2024年数据，x86架构在服务器CPU市场占约91%的份额，而ARM等其他架构（如华为鲲鹏、飞腾）占约8%，
【力扣（LeetCode）】数据挖掘面试题0003： 356. 直线镜像
文章大纲题目描述**坐标变化规律**解题方案题目描述在一个二维平面空间中，给你n个点的坐标。问，是否能找出一条平行于y轴的直线，让这些点关于这条直线成镜像排布？平行于y轴的直线（即垂直于x轴的直线，其方程形式为(x=a)，其中(a)为常数）的对称点具有以下显著特点：坐标变化规律设直线为(x=a)，平面内任意一点(P(x,y))关于该直线的对称点为(P’(x’,y’))，则两者坐标满足：纵坐标不变：
Julia爬取数据能力及应用场景 q56731523 julia 开发语言
Julia是一种高性能编程语言，特别适合数值计算和数据分析。然而，关于数据爬取（即网络爬虫）方面，我们需要明确以下几点：虽然它是一门通用编程语言，但它的强项不在于网络爬取（WebScraping）这类任务。而且Julia的生态系统在爬虫方面还不够成熟和丰富。所以说Julia爬取数据后立即进行高性能的数据分析这点还是有一些优势。Julia虽然以高性能数值计算和数据分析见长，但它同样具备网络爬取（We
用Python的Chartify库，商业数据可视化效率提升13倍！忆愿 Python编程的脉动之声 python opencv 人工智能计算机视觉深度学习神经网络机器学习
文章目录为啥要用Chartify？安装那些事儿从零开始画图基础柱状图进阶折线图散点图与气泡图专业数据分析必备技能多维度分析时间序列分析高级可视化技巧自定义主题交互式特性批量图表生成性能优化技巧大数据集处理内存优化实战案例：销售数据分析系统数据可视化这事儿，搞过的都知道有多费劲。用matplotlib画个图要调半天参数，才能让图表看起来稍微顺眼一点；seaborn虽然画出来的图确实好看，但是配置项太
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {