liangpi_hero

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记

文章目录

1. 数据清洗

1.1 空值和缺失值的处理

1.1.1 使用isnull()和notnull()函数

1.1.1.1 isnull()语法格式：
1.1.1.2 notnull()语法格式：

1.1.2 使用 dropna()和fillna()方法

1.1.2.1 dropna()删除含有空值或缺失值的行或列
1.1.2.2 fillna()方法可以实现填充空值或者缺失值

1.2 重复值的处理

1.2.1 使用duplicated()和drop_duplicates()方法
1.2.2 duplicated()方法的语法格式

强调注意：

1.2.2.1 drop_duplicates()方法的语法格式

1.3 异常值的处理

1.3.1 常用的检测方法有3σ原则（拉依达准则）和箱形图

1.3.1.1 3σ原则
1.3.1.2 箱形图

1.4 更改数据类型

1.4.1 在使用构造方法中的 dtype参数指定数据类型
1.4.2 通过 astype()方法可以强制转换数据的类型。
1.4.3 to_numeric()函数可以将传入的参数转换为数值类型。

2. 数据合并

2.1轴向堆叠数据

2.1.1 concat()函数

2.2 主键合并数据

2.2.1 merge()函数

2.2.1.1 how参数可以取下列值

2.3 根据行索引合并数据

2.3.1 join()方法

2.4 合并重叠数据

2.4.1 combine_first()方法

3. 数据重塑

3.1 重塑层次化索引

3.1.1 stack()方法
3.1.2 unstack()方法

3.2 轴向旋转

3.2.1 pivot()方法

4. 数据转换

4.1 重命名轴索引

4.1.1 rename()方法

4.2 离散化连续数据

4.2.1 cut ()函数

4.3 哑变量处理类别型数据

4.3.1 get_dummies()函数
4.3.2 cut()函数与get_dummies()函数的混合使用

1. 数据清洗

1.1 空值和缺失值的处理

空值一般表示数据未知、不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的。

一般空值使用None表示，缺失值使用NaN表示

1.1.1 使用isnull()和notnull()函数

可以判断数据集中是否存在空值和缺失值

1.1.1.1 isnull()语法格式：

pandas . isnull(obj)

1.1.1.2 notnull()语法格式：

pandas . notnull(obj)

notnull()与 isnull()函数的功能是一样的，都可以判断数据中是否存在空值或缺失值，不同处在于，前者发现数据中有空值或缺失值时返回False，后者返回的是True.

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第1张图片

1.1.2 使用 dropna()和fillna()方法

对缺失值进行删除和填充。

1.1.2.1 dropna()删除含有空值或缺失值的行或列

axis：确定过滤行或列

how：确定过滤的标准，默认是‘any’

inplase:：False=不修改对象本身

1.1.2.2 fillna()方法可以实现填充空值或者缺失值

value：用于填充的数值，
method：表示填充方式，默认值为None，‘ffill’前填充，‘bfill’后填充
limit：可以连续填充的最大数量，默认None.

1.2 重复值的处理

当数据中出现了重复值，在大多数情况下需要进行删除。

1.2.1 使用duplicated()和drop_duplicates()方法

duplicated()方法用于标记是否有重复值。
drop_duplicates()方法用于删除重复值。
它们的判断标准是一样的，即只要两条数中所有条目的值完全相等，就判断为重复值。

1.2.2 duplicated()方法的语法格式

subset：用于识别重复的列标签或列标签序列，默认识别所有的列标签。
keep：删除重复项并保留第一次出现的项取值可以为 first、last或 False

duplicated()方法用于标记 Pandas对象的数据是否重复，重复则标记为True，不重复则标记为False，所以该方法返回一个由布尔值组成的Series对象，它的行索引保持不变，数据则变为标记的布尔值

强调注意：

（1）只有数据表中两个条目间所有列的内容都相等时，duplicated()方法才会判断为重复值。
（2）duplicated()方法支持从前向后（ first）和从后向前（last）两种重复值查找模式，默认是从前向后查找判断重复值的。换句话说，就是将后出现的相同条目判断为重复值。

1.2.2.1 drop_duplicates()方法的语法格式

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第2张图片

2 上述方法中， inplace参数接收一个布尔类型的值，表示是否替换原来的数据，默认为False.

1.3 异常值的处理

异常值是指样本中的个别值，其数值明显偏离它所属样本的其余观测值，这些数值是不合理的或错误的。

1.3.1 常用的检测方法有3σ原则（拉依达准则）和箱形图

3σ原则是基于正态分布的数据检洳而箱形图没有什么严格的要求，可以检测任意一组数据，

1.3.1.1 3σ原则

是指假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，凡是超过这个区间的误差都是粗大误差，在此误差的范围内的数据应予以剔除。

数值几乎全部集中在（μ-3σ，μ+3σ）]区间内，超出这个范围的可能性仅占不到0.3%.所以，凡是误差超过这个区间的就属于异常值，应予以剔除

def three_sidma(ser):# ser 为数据的列
    mean_value=ser.mean()# 平均值
    std_value=ser.std()# 标准值
    rule=(ser<mean_value-3*std_value)|(ser>mean_value+3*std_value)
    index=np.arange(ser.shape[0])[rule]
    outrange=ser.iloc[index]
    return outrange

1.3.1.2 箱形图

箱开图是一种用作显示一组数据分散情况的统计图。在箱形图中，异常值通常被定义为小于QL-15QR或大于QU+1.5IQR的值。
（1）QL称为下四分位数，表示全部观察中四分之一的数据取值比它小
（2）QU称为上四分位数，表示全部观察值中有四分之一的数据取值比它大
（3）IQR称为四分位数间距，是上四分位数0与下四分位数则之差，其间包含了全部观察值的一半。

离散点表示的是异常值，上界表示除异常值以外数据中最大值；下界表示除异常值以外数据中最小值。

boxplot()方法，专门用来绘制箱形图。

检测出异常值后，通常会采用如下四种方式处理这些异常值
a）直接将含有异常值的记录删除。
b）用具体的值来进行替换，可用前后两个观测值的平均值修正该异常值
c）不处理，直接在具有异常值的数据集上进行统计分析
d）视为缺失值，利用缺失值的处理方法修正该异常值。

如果希望对异常值进行修改，则可以使用replace()方法进行替换，该方法不仅可以对单个数据进行替换，也可以多个数据执行批量替换操作。

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第4张图片

to_replace：表示查找被替换值的方式
value：用来替换任何匹配 to_replace的值，默认值None.

1.4 更改数据类型

在处理数据时，可能会遇到数据类型不一致的问题。例如，通过爬虫采集到的数据都是整型的数据，在使用数据时希望保留两位小数点，这时就需要将数据的类型转换成浮点型。

创建 Pandas数据对象时，如果没有明确地指出数据的类型，则可以根据传入的数据推断出来并且通过 dtypes属性进行查看。

1.4.1 在使用构造方法中的 dtype参数指定数据类型

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第5张图片

1.4.2 通过 astype()方法可以强制转换数据的类型。

dtype：表示数据的类型。
errors：错误采取的处理方式，可以取值为 raise或 ignore.其中， raise表示允许引发异常ignore表示抑制异常，默认为 raise.

astype()方法存在着一些局限性，只要待转换的数据中存在非数字以外的字符，在使用 astype()方法进行类型转换时就会出现错误，而to_numeric()函数的出现正好解决了这个问题。

1.4.3 to_numeric()函数可以将传入的参数转换为数值类型。

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第6张图片

arg：表示要转换的数据，可以是list、tuple、 Series.
errors：表示错误采取的处理方式。

2. 数据合并

2.1轴向堆叠数据

2.1.1 concat()函数

concat()函数可以沿着一条轴将多个对象进行堆叠，其使用方式类似数据库中的数据表合并。

axis：表示连接的轴向，可以为0或1，默认为0
join：表示连接的方式，inner表示内连接， outer表示外连接默认使用外连接。
i gnore_index：如果设置为True，清除现有索引并重置索引值。
names：结果分层索引中的层级的名称。

根据轴方向的不同，可以将堆叠分成横向堆叠与纵向堆叠，默认采用的是纵向堆叠方式。

在堆叠数据时，默认采用的是外连接（join参数设为 outer）的方式进行合并，当然也可以通过join=inner设置为内连接的方式。

2.2 主键合并数据

主键合并类似于关系型数据库的连接方式，它是指根据个或多个键将不同的 DataFrame对象连接起来，大多数是将两个 DataFrame对象中重叠的列作为合并的键。

2.2.1 merge()函数

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第7张图片

left：参与合并的左侧 DataFrame对象。
right：参与合并的右侧 DataFrame对象。
how：表示连接方式，默认为 inner。

2.2.1.1 how参数可以取下列值

left：使用左侧的 DataFrame的键，类似SQL的左外连接
right：使用右侧的 DataFrame的键，类似SQL的右外连接
outer：使用两个 DataFrame所有的键，类似SQL的全连接。
inner：使用两个 DataFrame键的交集，类似SQL的内连接

在使用 merge()函数进行合并时，默认会使用重叠的列索引做为合并键，并采用内连接方式合并数据，即取行索引重叠的部分。

merge()函数还支持对含有多个重叠列的 Data frame对象进行合并。

使用外连接的方式将 left与right进行合并时，列中相同的数据会重叠，没有数据的位置使用NaN进行填充。

2.3 根据行索引合并数据

join()方法能够通过索引或指定列来连接多个DataFrame对象

2.3.1 join()方法

on：名称，用于连接列名。
how：可以从{‘left‘，’right’，’ outer‘，‘inner’}中任选一个，默认使用左连接的方式。
sort：根据连接键对合并的数据进行排序，默认为 False.

2.4 合并重叠数据

当DataFrame对象中出现了缺失数据，而我们希望使用其他 DataFrame对象中的数据填充缺失数据，则可以通过 combine_first()方法为缺失数据填充。

2.4.1 combine_first()方法

上述方法中只有一个参数 other，该参数用于接收填充缺失值的 DataFrame对象。

注意：使用combine_first()方法合并两个DataFrame对象时，必须确保它们的行索引和列索引有重叠的部分

3. 数据重塑

3.1 重塑层次化索引

Pandas中重塑层次化索引的操作主要是 stack()方法和 unstack()方法，前者是将数据的列“旋转”为行，后者是将数据的行“旋转”为列。

3.1.1 stack()方法

stack()方法可以将数据的列索引转换为行索引。

level：默认为-1，表示操作内层索引。若设为0，表示操作外层索引。

dropna：表示是否将旋转后的缺失值删除，若设为True，则表示自动过滤缺失值，设置为 False则相反。

3.1.2 unstack()方法

unstack()方法可以将数据的行索引转换为列索引

level：默认为-1，表示操作内层索引，0表示操作外层索引。

fill_value：若产生了缺失值，则可以设置这个参数用来替换NaN。

3.2 轴向旋转

在 Pandas中pivot()方法提供了这样的功能，它会根据给定的行或列索引重新组织一个 DataFrame对象。

3.2.1 pivot()方法

index：用于创建新 DataFrame对象的行索引。
columns：用于创建新 DataFrame对象的列索引
values：用于填充新 DataFrame对象中的值。

4. 数据转换

4.1 重命名轴索引

Pandas中提供了一个rename()方法来重命名个别列索引或行索引的标签或名称。

4.1.1 rename()方法

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第8张图片

index，columns：表示对行索引名或列索引名的转换。

inplace：默认为False，表示是否返回新的Pandas对象。

4.2 离散化连续数据

Pandas 的 cut ()函数能够实现离散化操作。

4.2.1 cut ()函数

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第9张图片

x：表示要分箱的数组，必须是一维的。

bins：接收int和序列类型的数据。（序列划分区间）

right：是否包含右端点，决定区间的开闭，默认为True。

cut()函数会返回一个Categorical对象，我们可以将其看作一组表示面元名称的字符串，它包含了分组的数量以及不同分类的名称。

Categories对象中的区间范围跟数学符号中的“区间”一样，都是用圆括号表示开区间，用方括号则表示闭区间。

ages=[18,22,25,27,21,23,37,31,60,45,82]
bins=[0,18,25,50,60,100] # bins是一个序列，划分区间
cuts=pd.cut(ages,bins)
cuts

设置左闭右开区间，则可以在调用cut()函数时传入right=False进行修改。

# 如果希望设置左右开区间，则可以在调用cut函数时传入right= False进行修改。
pd.cut(ages,bins=bins,right=False)

# 可以在调用cut函数时指定labels=  用干生成区间的标签
pd.cut(ages,bins=bins,labels=['少年','青年','中年','中老年','老年'])

4.3 哑变量处理类别型数据

在Pandas中，可以使用get_dummies()函数对类别特征进行哑变量处理.

4.3.1 get_dummies()函数

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第10张图片

data：表示哑变量处理的数据。

prefix：表示列名的前缀，默认为None。（‘col’）

prefix_sep：用于附加前缀作为分隔符使用，默认为“_”。

哑变量又称应拟变量，名义变量，从名称上看就知道，它是人为虚设的变量，用来反映某个交量的不间类别
使用哑变最处理类别转换，事实上就是将分类变量转换为哑变最矩阵或指标矩阵，矩阵的值通常用“0”或“1”表示

df1=pd.DataFrame({'职业':['工人','学生','司机','教师','导游']})
# get_dummies()对类别特进行哑变量处理
pd.get_dummies(df1)

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第11张图片

pd.get_dummies(df1,prefix=['col'])

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第12张图片

4.3.2 cut()函数与get_dummies()函数的混合使用

ret=pd.cut(ages,bins=bins,right=False,
	labels=['少年','青年','中年','中老年','老年'])
pd.get_dummies(ret,prefix='年龄类别',prefix_sep=':')

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记_第13张图片

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S