1.数据规范化
数据规范化,使属性数据按比例进行缩放,这样将原来的数值映射到一个新的特定区域中。常用的方法有:最小-最大规范化、Z-Score规范化、按小数定标规范化。
2.数据规范化、归一化、标准化区别
数据规范化是更大的概念,它指的是将不同渠道的数据,按照同一种尺度进行度量,这样一让数据间具有可比较性,二方便后续的计算。
数据归一化和数据标准化都是数据规范化的方式。
数据归一化:让数据在[0,1]或[-1,1]的区间范围内。
数据标准化让规范化的数据呈现正太分布的情况。
3.数据规范化的使用场景是什么呢?
1.距离相关的运算,比如在k-means、knn以及聚类算法中,我们有对距离的定义,所以在做这些算法前,需要对数据进行规范化。
2.有些算法用到了梯度下降作为优化器,这是为了提高迭代收敛的效率,也就是提升找到目标函数最优解的效率。我们也需要进行数据规范化。比如逻辑回归、svm和神经网络算法。
4.数据可视化
使用 Matplotlib、Seaborn 进行可视化呈现。
折线图:可以体现数据随时间的变化趋势
散点图:可以查看两个或多个变量之间的关系
饼图:可以查看每个部分占整体的百分比
直方图:可以体现单个变量的分布情况
条形图:可以体现类别特征,宽度表示类别,高表示频数。
热力图:通过颜色深浅体现两个变量之间的关联关系
蜘蛛图:王者荣耀战力图,体现一个变量相对于另一个变量的显著性是清晰可见的。
5.数据分析报告
数据分析报告是一种常用的分析应用文体,它是数据分析的目的、方法、过程、结论以及可行性建议等内容的完整展示,是数据背后真实的业务水平的客观体现,是管理者做出科学、严谨决策的依据。
数据分析报告分为总和数据分析报告、专题数据分析报告、进度数据分析报告、预测数据分析报告。内容包括:标题页、目录页、分析背景目的、分析思路、分析正文、结论建议、附录。尽量使用图表增加可读性。
6.爬虫
我们可以使用Requests访问页面,得到服务器返回的数据,这里包括HTML页面以及JSON数据。针对JSON数据,可以使用JSON进行解析。针对HTML页面,可以使用XPath进行元素定位,提取数据;
有时候我们直接用requests获取html的时候,发现想要的xpath并不存在,这是因为html还没有加载完。所以我们需要一个工具,来进行网页加载的模拟,直到完成加载后再获取完成的html。所以,使用selenium库。Selenium:浏览器自动化测试框架,模拟用户操作浏览器,对元素定位获取数据;
Scrapy:items.py:项目的数据结构文件,也就是对象文件,piplines.py:在这里进行数据的存储,settings.py:项目的设置文件,spiders/:放置spider代码,开始执行爬虫文件。
7.熟悉数据挖掘常用算法及使用场景
8.常用linux、shell命令
Shell 既是一种命令语言,又是一种程序设计语言。
ls、cd、pwd、mkdir、cp、mv、rm、du\df显示磁盘使用空间、cat显示文件内容、echo输出命令、head\tail 头尾文件、wc统计文件字数行数、grep搜索命令、logout退出、
9.了解mysql
10.大数据基本概念
Hadoop是分布式系统基础架构。Hadoop主要由三部分组成;HDFS:分布式文件系统,为海量的数据提供了存储。,MapReduce:分布式计算框架,为海量的数据提供了计算。Yarn:分布式集群的资源调度框架
01计算框架
离线计算:Hadoop MapReduce、Spark
实时计算:Storm、Spark Streaming、Flink
02存储框架文件存储:Hadoop HDFS、Tachyon、KFS
NOSQL数据库:HBase、MongoDB、Redis
全文检索:ES、Solr
03资源管理YARN、Mesos
04日志收集Flume、Logstash
05消息系统Kafka、StormMQ、ZeroMQ、RabbitMQ
06查询分析Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid
11.数据分析和数据挖掘
数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。它主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法;数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用;
数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息;主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘;输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等;