你隔壁的小王

大数据分析那点事

写在前文，首先声明博主对数据分析领域也在不断学习当中，文章中难免可能会出现一些错误，欢迎大家及时指正，博主在此之前也曾对不同量级、不同领域的数据进行过分析，但是在过程中总是感觉有许多困惑，即自己也会问自己？自己分析的是否全面，是否有价值，从哪些方面出发？对于这些问题博主做了思考。归根到底还是在理论上，在阅读了相关的专业书籍和材料的基础上总结出本文，希望能给大家带来收获，同时由于内容过多，计划分三次完成全部内容，同时如果大家感觉对自己有帮助的话，记得收藏，博主会不断完善本文的缺陷和不足，希望真正能给大家带来收获！

一、什么是数据分析

二、基础分析指标和术语

2.1 平均数

2.2 绝对数与相对数

2.3 百分比与百分点

2.4 频数与频率

2.5 比例与比率

2.6 倍数与番数

2.7 同比与环比

三、数据分析方法论

3.1PEST分析法

3.2 5W2H分析法

3.3 逻辑树分析法

3.4 4P营销理论

3.5 用户使用行为理论

3.6 数据分析方法论小结

四、常用的数据分析工具

五、理解数据

5.1重复数据处理：

5.2 缺失数据处理

5.3 数据抽取

一、什么是数据分析

数据分析是指数据分析师根据分析目的，用适当的分析方法及工具，对数据进行处理与分析，提取有价值的信息，形成有效结论的过程，对现状主要有三大作用-即现状分析、原因分析、预测分析，数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来，总结出所研究对象的内在规律。数据也称观测值，是通过实验、测量、观察、调查等方式获取的结果，常常以数量的形式展现出来。高级的分析方法不一定师最好的，能够简单有效解决问题的方法才是最好的，因此一定要用恰当的方法来分析看待问题，而不是一味的追求高级的方法，能用图表示的不用表格表示，能用表格表示的不用文字表示！
数据分析的一般流程：

二、基础分析指标和术语

2.1 平均数

我们在日常生活中提到的平均数，一般是指算术平均数，就是一组数据的算术平均值，即全部数据累加后除以数据个数。算术平均数是非常重要的基础性指标，它的特点是将总体内各单位的数量差异抽象化，代表总体的一般水平，掩盖了总体内各单位的差异。

2.2 绝对数与相对数

绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标，也是数据分析中常用的指标，如GDP、总人口等。此外，绝对数也可以表现为在一定时间、地点条件下数量增减变化的绝对数，比如一班学生比二班学生多20人。
相对数是指由两个有联系的指标对比计算而得到的数值，是用以反映客观现象之间数量联系程度的综合指标。计算相对数的基本公式是:
相对数=自身数值数值/与其进行对比的数值

2.3 百分比与百分点

百分比是相对数中的一种，他表示一个数是另一个数的百分之几，也成为百分率或者百分数，百分点则是指不同时期以百分数的形式表示的相对指标的变动幅度
举个简单的例子：在学校高三誓师大会上，校长振臂高呼，今年我们的一本升学率是60%，比去年50%整整提高了10%
学习完百分比和百分点概念的你们是不是可以很轻松的发现其中的问题，对于幅度的变化不宜使用百分数来表示，因此校长正确的讲话应该是：今年我们的一本升学率是60%，比去年50%整整提高了10个百分点！（就算你学会了请别在你们校长老师讲话时直接DISS，说了也不要说时看小王这篇博客学会的）

2.4 频数与频率

频数是指一组数据中个别数据重复出现的次数，而频率则表示每组类别次数与总次数的比值，它代表某类别在总体中出现的频繁程度，一般采用百分数表示，所有组的概率夹在一起等于100%，频数是绝对是，而频率是相对数。
举个简单的例子：某班级共有30人，其中男生15人，女生15人，这里的15人就是频数，而男生在该班的比例为50%，这50%指的就是频率。

2.5 比例与比率

比例指的是在总体中各部门数值占全部数值的比重，通常反应的是总体的构成和结构，比率则是指不桶类别数值的对比，反映的是一个整体之间各部分的关系。
举个简单的例子：还是我们上个例子提到的那个班级，男生有15人，总共有30人，那么男生和女生的比例就是15：30，而男生和女生之间的比率则是15：15，即1：1.

2.6 倍数与番数

倍数和番数同样属于相对数，倍数所表示的是一个数除以另一个数所表示的商，番数则是指原来数量的2的N次方倍数
举个简单的例子：公司年会上，老总振臂高呼，今年我们场产量由去年的10万件翻了两番，提升到今年的20万件，我们的成本由去年的2万元，下降了一倍，今年的成本是1万元
学习完倍数和番数的我们很容易就可以发现上面老总振臂高呼的其实是不恰当的，正确的表达应该是：今年我们场产量由去年的10万件，提升到今年的20万件，整体翻了一番，我们的成本由去年的2万元，下降到了50%，今年的成本是1万元。

2.7 同比与环比

同比是指与历史同时期进行比较得到的数值，该指标反映的是相对情况，环比则是指与前一个统计期进行比较得到的数值，该指标主要反映的是事物逐期发展的情况。
两者所反映尽管都是变化速度，但两者反映的变化内涵是完全不同的。一般来说，环比可以与环比相比较，而不能拿同比与环比相比较；而对于同一个地方，考虑时间纵向上发展趋势的反映，则往往要把同比与环比放在一起进行对照。

三、数据分析方法论

数据分析方法论与数据分析法的区别：数据分析方法论主要是用来指导数据分析师进行一次完整的数据分析，它更多的是指数据分析思路，比如从哪些方面展开的数据分析，即从宏观角度来指导如何进行数据分析，更像是一个数据分析的一个前期规划，来指导后续工作的展开，而数据分析方法则是指具体的分析方法，比如我们常见的对比分析、交叉分析、相关分析、回归分析、聚类分析等等，数据分析法主要从微观来对数据进行分析
举个简单的例子：什么是数据分析方法论？对一个城市的规划书就是一个方法论，因为他是为城市的发展来指引前进的方向，而在具体的实施过程中需要不同部门不同专业的人士来进行具体部分的操作，这就是分析方法
数据分析方法论的重要性：为什么说数据分析方法论很重要那，在我们进行一些分析的时候是不是也会产生疑问，我的分析完整么？有说服性么？合理么？这就是为什么说数据分析方法论很重要的原因，只有在具体的理论和业务知道的情况下，才能确保我么的分析是合理有效的。
- 数据分析方法论的几个作用：
  - 可以帮助我们理清楚分析的思路，确保分析过程的体系化
  - 可以看出问题之间的关系
  - 为数据分析的开展指引方向和确保分析结果的有效准确合理性

常用的数据分析方法论

常见的营销方面的理论模型有4P、用户使用行为、STP理论、SWOT等等
常见的管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则，其中比较经典实用的主要有：PEST分析法、5W2H、逻辑树、4P、用户使用行为

3.1PEST分析法

PEST分析法用于对宏观环境进行分析。宏观环境又称一般环境，是指影响一切行业和企业的各种宏观力量。对宏观环境因素做分析时，由于不同行业和企业有其自身特点和经营需要，分析的具体内容会有差异，但一般都应对政治（ Political)、经济( Economic )、技术(Technological )和社会 (Social ）这四大类影响企业的主要外部环境因素进行分析，这种方法简称为PEST分析法。

政治环境：包括国家社会制度、政府方针、政策、法令，构成政治环境的关键指标有：政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、国防开支水平、政府补贴水平、民众对政治的参与度等等。

经济环境：经济环境主要包括宏观和微观两个方面的内容，宏观主要是指国家的国民收入、国内生产总值及其变化情况，以及通过这些指标反映的国民经济发展水平和发展速度。微观经济环境主要指企业所在地区和所服务地区的消费者的收入水平等,构成经济环境的关键指标主要有：GDP增长率、进出口额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等等

社会环境：社会环境包括一个国家或地区的居民受教育程度和文化水平、宗教信仰、风俗习惯、价值观念、审美观点等。构成社会文化环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。

技术环境:技术环境除了要考察与企业所处领域直接相关的技术手段的发展变化外，还应及时了解:国家对科技开发的投资和支持重点、该领域技术发展动态和研究开发费用总额、技术转移和技术商品化速度、专利及其保护情况等。构成技术环境的关键指标主要有：新技术的发明、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等。

3.2 5W2H分析法

5w2H分析法是以五个W开头的英语单词和两个H开头的英语单词进行提问，从回答中发现解决问题的线索，即何因（ why )、何事（ what )、何人 ( who )、何时( When )、何地（ where ) 、如何做(How )、何价( How much )，这就构成了5W2H分析法的总框架

5w2H分析法操作简单方便、易于理解，通常应用于企业营销、管理活动，对于决策和执行活动有很大的帮助，可以弥补考虑问题中的疏漏，帮助建立数据分析的框架

比如对用户购买行为的分析

3.3 逻辑树分析法

逻辑树分析法，又称为麦肯锡逻辑树，其最大的优势在于，将繁杂的数据工作细分为多个关系密切的部分，不断地分解问题，帮助人们在纷繁复杂的现象中找出关键点，推动问题的解决。逻辑树是分析问题常使用的一种工具，他将各种问题进行罗列。从最高层开始，逐步向下发展，把一个已知的问题看作树干，考虑这个问题与其他问题的相关性，有助于在分析过程中快速理清思路，避免进行重复和无关的思考，逻辑树的使用需要遵循以下原则：

要素化：把相同问题总结归纳成要素

框架化：将各个要素组织成框架，遵守不重不漏的原则

关联化：框架内的各要素要保持必要的相互关系

3.4 4P营销理论

4P营销理论产生于20世纪60年代的美国，它是随着营销组合理论的提出而出现的。营销组合实际上有几十个要素，这些要素可以概括为4类，产品( Product )、价格（ Price )、渠道( Place )、促销（ Promotion )，即著名的4P营销理论。

3.5 用户使用行为理论

用户使用行为是指用户为获取、使用物品或服务所采取的各种行动，用户对产品首先需要有一个认知、熟悉的过程，然后使用，再决定是否继续消费使用，最后成为核心用户，

3.6 数据分析方法论小结

PEST分析理论主要用于行业分析。
4P分析理论主要用于公司整体经营情况分析。
逻辑树分析理论可用于业务问题专题分析。
用户使用行为理论的用途较单一，就是用于用户行为研究分析。
5w2H分析理论的用途相对广泛，可用于用户行为分析、业务问题专题分析等。

虽然上述的方法论一般用于解决的分析问题不同，但是可以进行嵌套使用，比如用逻辑树来搭建分析框架，从4P的角度进行分析等等，最关键的是一定要具体问题具体分析！

四、常用的数据分析工具

工欲善其事，必先利其器。熟练掌握一个数据分析工具可以事半功倍的解决问题。数据分析工具有多种，它们的使用都离不开数据获取、数据处理、数据分析、数据展现这几方面常用的数据分析工具如Excel、sPSS、R、Python等
Excel是日常工作中最常用的一款工具之一，它是Microsoft公司的-款电子表格软件，拥有直观的界面、出色的计算功能和图表工具，是目前最流行的数据处理、分析工具。它可以进行各种数据处理、数据分析和数据可视化，甚至也可以用于报告撰写，广泛地应用于运营、管理、分析、财务、金融等众多领域，它的特点就是简单、易用，缺点则是数据存储有限、计算速度慢，扩展功能少。
SPSS（Statistical Product and Service Solutions），“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”（Solutions Statistical Package for the Social Sciences），但是随着SPSS产品服务领域的扩大和服务深度的增加，SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”，这标志着SPSS的战略方向正在做出重大调整。SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、数据分析和决策支持任务的软件产品及相关服务的总称，有Windows和Mac OS X等版本。其优点主要有：操作简便、功能强大、数据兼容。

R语言 R是一种免费、自由的编程语言，所以也称为R语言(其Logo 如图1-19所示)，它由统计学家发明和发展，R解决的问题只有一个，就是如何挖掘数据价值的问题。R是一款强大的数据统计分析、数据可视化工具。其特点有免费开源、绘图功能强大、程序包丰富，但是对新手友好度不高，入门门槛比较高。同时同Python相比R计算速度较慢

Python是一种免费、自由的编程语言，所以也称为Python语言，可以称得上既简单又功能强大的编程语言，它可用于软件、游戏、Web开发以及运维,当然也可以应用于数据分析、数据挖掘、数据可视化等,是一款强大的数据分析、数据挖掘工具。随着人工智能技术的流行，Python语言越来越普及。
出于对方法的优缺点和普及性的选择，本文选取基础的EXCEL和Python作为主要分析工具

五、理解数据

常用的数据类型可以归结为两大类：字符型与数据型和逻辑性，
- 字符型数据是不具有算术运算能力的文本数据类型。它包括中文字符、英文字符、数字字符（非数值型）等字符。字符型数据属于分类数据，即可以按字符型数据进行分类统计，如按性别分类统计，按部门分类统计，按姓名分类统计。
- 数值型数据表示数量，是可进行算术运算的数据类型。是否可用算术方法进行运算，是区分数据类型的重要特征。数值型数据属于一种特殊分类数据，即可以按数值型数据进行分类统计，如按每个年龄值进行分类统计，按每个收入值进行分类统计，不过类别值越多，其分类就越细，通常也就越难发现潜在规律。所以对数据值型数据进行分类统计，一般先将数值型数据进行分区间处理，再按区间段进行分类统计。
- 逻辑型数据只有TRUE 和 FALSE两种，分别代表是和否
- 在Excel中，一般情况下，字符型数据在单元格中默认靠左对齐，数值型数据在单元格中默认靠右对齐，逻辑型数据默认居中显示。
常见的数据处理方法包括：数据清洗、数据合并、数据抽取、数据计算、数据转换几大类方法

数据清洗：主要是将多余的数据进行筛选清除，将缺失的数据补充完整，常用的数据清洗方法主要有重复数据处理、缺失数据处理、空格数据处理。

5.1重复数据处理：

编号

B667708

B310882

B520304

B776477

B356517

B466074

B776477

B667708

如我们有目前的这一个编号，我们怎么进行去重？

Excel函数法去重

COUNTIF函数--COUNTIF 是一个统计函数，用于统计满足某个条件的单元格的数量；

countif（区域，条件），在B2输入=COUNTIF(A:A,A2)表示在A行中共有多少个A2元素，在c2中输入C2 =COUNTIF(A$2:A2,A2)，代表从第一个元素开始该单元格共出现了几次

编号	重复标记	前n个数据中有n个当前数据
B667708	2	1
B310882	1	1
B520304	1	1
B776477	3	1
B356517	1	1
B466074	2	1
B466074	2	2
B776477	3	2
B776477	3	3
B667708	2	2

肯定有小伙伴会问了，此时怎么得到不重复的数据那，这么做有什么意义那，此时我们只需要将C列进行筛选，筛选为1的值，即为不重复数据。

Excel高级筛选法查重

在Excel数据高级筛选中选择不重复的记录

Excel条件格式法查重

在开始选项卡中点击条件格式选择突出显示单元格原则，选择重复值

数据透视表法查重

用数据透视表统计各数据出现的频次，出现两次以上认为该数据属于重复数据

找出重复数据

使用python--pandas包下的duplicated函数

DataFrame.duplicated(subset=None, keep='first')

subset:取得一列或列标签列表。默认值为无。传递列后，它将仅将它们视为重复项。
keep:控制如何考虑重复值。它只有三个不同的值，默认值为“第一”。
->如果为“第一个”，则它将第一个值视为唯一值，并将其余相同的值视为重复值。
->如果为“ last”，则它将last值视为唯一值，并将其余相同的值视为重复值。
->如果为False，则将所有相同的值视为重复项。

data.duplicated()   #返回布尔型数据，告诉重复值的位置
df.duplicated.sum()  #说明重复值的总数
data[data.duplicated()]  #打印重复值

重复数据删除

1、使用EXCEL菜单栏里的删除重复值将重复的数据删除掉

2、使用python--pandas包下的duplicated函数删除重复值将重复的数据删除掉

#inplace=True表示直接在源数据上进行操作
data.drop_duplicates(inplace=True)

5.2 缺失数据处理

在数据处理过程中，缺失值的存在是不可避免的，缺失值过多反映在数据收集过程中出现问题，将直接影响到最终数据分析的准确性，缺失数据在总数据的10%以下方是可以接受的标准

对缺失值的处理一般采用批量填充

对于上述表格想要快速填充空值应该怎么做那？CTRL+G定位条件中选择空值，选上后输入公式（本例中单点一下“张三”即可），在CTRL+ENTER进行批量填充

可以看到所有的空值全部被选择上了

批量填充完毕

空格处理

可以采用TRIM函数 TRIM（TEXT)可以删除文本前后的空格，而保留文本中间的空格

在Python中删除字符串中所有空格有：使用replace()函数、使用split()函数+join()函数、使用Python正则表达式，正则表达式可以查看（Python-正则表达式总结+常用示例）

数据合并

通常数据表中现有的数据字段难以满足我们所有的数据分析需求，我们可以对现有的字段进行数据合并、数据抽取、数据计算或者数据转换等处理，形成数据分析所需要的新字段。数据合并是指综合数据表中某几个字段的信息或不同记录数据，将它们组合成一个新字段、新记录数据，常用的操作有字段合并、字段匹配。

1、CONCAT(text1, [text2],…)，

如果结果字符串超过 32767 个字符（单元格限制），则 CONCAT 返回 #VALUE! 错误。

参数	说明
text1 (所需的)	要联接的文本项。字符串或字符串数组，如单元格区域。
[text2， ...] (可选)	要联接的其他文本项。文本项最多可以有 253 个文本参数。每个参数可以是一个字符串或字符串数组，如单元格区域。

2、连接符& 可以直接合并多个单元格的内容，如你好&excel 输出你好excel
3、concat和&链接日期数据时得到的都是字符型数据，excel中无法将其识别为日期，不能进行相应的计算，如果想生成相应的日期类型数据，需要使用DATE函DATE(year,month,day)。
4、如果有大量的表格分布在不同的文件夹中如何进行合并那？可以查看Python遍历目录下的所有文件、读取、千万条数据合并详解

5.3 数据抽取

常见的数据抽取方法有字段拆分和随机抽样：
字段拆分是指：是指保留原始数据表中某些字段的部分信息，形成一个新字段
随机抽样是指：按照随机的原则，也就是保证总体中每个样本都有同等机会被抽中的原则，进行样本抽取的一种方法
在EXCEL中进行随机抽样可以使用RAND（）函数，RAND 返回了一个大于等于 0 且小于 1 的平均分布的随机实数。每次计算工作表时都会返回一个新的随机实数。
举例说明：如果想随机抽取60-70之间的数，可以写成rand()*10+60,也可以使用RANDBETWEEN()函数

不经一番寒彻骨，怎得梅花扑鼻香

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
【数据分析】利用Python+AI+工作流实现自动化数据分析-全流程讲解 z千鑫 AI领域 FLASK基础 Python基础人工智能数据分析 python AI编程 AI工作流 ai 自动化
文章目录一、为什么要用AI进行自动化分析？二、AI自动化分析场景三、编写Python脚本示例1、用flask实现让AI分析数据内容使用说明：示例2、用定时任务的方式，定时处理AI数据代码说明四、把AI分析的数据，放到AI工作流中做展示五、openAI的key结尾在信息爆炸的时代，如何快速获取有价值的洞察力成为了各行各业的迫切需求。传统的内容分析方法往往又耗时又费力，并且难以满足快速变化的市场需求。
Mall4j商城实战 - 部署 canal 数据库增量日志解析 yueerba126 Mall4j商城实战数据库 spring cloud 微服务架构
Canal简介Canal是基于MySQL数据库增量日志解析的工具，主要用于增量数据的订阅和消费。Canal主要用途基于MySQL数据库增量日志解析详细功能：实时解析MySQL的二进制日志（Binlog）。捕获数据库中的所有增量变更，如插入、更新和删除操作。使用场景：适用于实时监控数据库变化的应用，比如数据复制、数据备份或实时数据分析等。提供增量数据订阅和消费服务
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

大数据分析那点事

一、什么是数据分析

二、基础分析指标和术语

2.1 平均数

2.2 绝对数与相对数

2.3 百分比与百分点

2.4 频数与频率

2.5 比例与比率

2.6 倍数与番数

2.7 同比与环比

三、数据分析方法论

3.1PEST分析法

3.2 5W2H分析法

3.3 逻辑树分析法

3.4 4P营销理论

3.5 用户使用行为理论

3.6 数据分析方法论小结

四、常用的数据分析工具

五、理解数据

5.1​​​​重复数据处理：

5.2 缺失数据处理

5.3 数据抽取

你可能感兴趣的:(大数据分析,数据分析,数据挖掘)

5.1重复数据处理：