可以叫我才哥

Pandas学习笔记02-数据合并(concat/merge/join)

文章目录

1.concat

1.1.设置keys值
1.2.按列合并axis=1
1.3.内连接join='inner'
1.4.忽略索引ignore_index=True
1.5.DataFrame与Series合并
1.6.行数据追加到数据帧

2.merge

2.1.链接方式how=' '
2.2.validate检查重复键
2.3.indicator合并指示器
2.4.left_on和right_on

3.join

pandas对象中的数据可以通过一些方式进行合并：
pandas.concat可以沿着一条轴将多个对象堆叠到一起；
pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。

这部分，我觉得pandas官网资料介绍的太香了，直接搬运过来吧。

1.concat

concat函数可以在两个维度上对数据进行拼接，默认纵向拼接（axis=0），拼接方式默认外连接（outer）。
纵向拼接通俗来讲就是按行合并，横向拼接通俗来讲就是按列合并；
外连接通俗来说就是取所有的表头字段或索引字段，内连接通俗来说就是只取各表都有的表头字段或索引字段。

先简单看个例子吧~

In [1]: df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
   ...:                     'B': ['B0', 'B1', 'B2', 'B3'],
   ...:                     'C': ['C0', 'C1', 'C2', 'C3'],
   ...:                     'D': ['D0', 'D1', 'D2', 'D3']},
   ...:                     index=[0, 1, 2, 3])

In [2]: df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
   ...:                     'B': ['B4', 'B5', 'B6', 'B7'],
   ...:                     'C': ['C4', 'C5', 'C6', 'C7'],
   ...:                     'D': ['D4', 'D5', 'D6', 'D7']},
   ...:                     index=[4, 5, 6, 7])

In [3]: df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
   ...:                     'B': ['B8', 'B9', 'B10', 'B11'],
   ...:                     'C': ['C8', 'C9', 'C10', 'C11'],
   ...:                     'D': ['D8', 'D9', 'D10', 'D11']},
   ...:                     index=[8, 9, 10, 11])  
   
In [4]: df = [df1,df2,df3]
In [5]: result = pd.concat(df)

pd.concat(objs, axis=0, join=‘outer’, ignore_index=False, keys=None,
levels=None, names=None, verify_integrity=False, copy=True)

objs：需要用于连接合并的对象列表
axis：连接的方向，默认为0（按行），按列为1
join：连接的方式，默认为outer，可选inner只取交集
ignore_index：合并后的数据索引重置，默认为False，可选True
keys：列表或数组，也可以是元组的数组，用来构造层次结构索引
levels：指定用于层次化索引各级别上的索引，在有keys值时
names：用于创建分层级别名称，在有keys和levels时
verify_integrity：检查连接对象中新轴是否重复，若是则异常，默认为False允许重复
copy：默认为True，如果是False，则不会复制不必要的可以提高效率

1.1.设置keys值

In [6]: result = pd.concat(df, keys=['x', 'y', 'z'])

我们还可以通过字典形式传递keys参数(以下代码结果和上述一致)：

In [7]: pieces = {'x': df1, 'y': df2, 'z': df3}
In [8]: result = pd.concat(pieces)

我们还可以指定keys值进行数据合并：

In [9]: result = pd.concat(pieces, keys=['z', 'y'])

以上我们可以看到，设定keys值后，合并后的数据多了一层索引，我们可以直接通过这一层索引选择整块数据：

In [10]: result.loc['y']
Out[11]: 
    A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7

1.2.按列合并axis=1

默认情况下，join=‘outer’，合并时索引全部保留，对于不存在值的部分会默认赋NaN。

In [12]: df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
    ...:                    'D': ['D2', 'D3', 'D6', 'D7'],
    ...:                    'F': ['F2', 'F3', 'F6', 'F7']},
    ...:                     index=[2, 3, 6, 7])

In [13]: result = pd.concat([df1, df4], axis=1,sort=False)

对于按照列合并数据时，如果我们希望只保留第一份数据下的索引，可以通过如下两种方式实现：

#①合并后只取第一份数据的索引
In [14]: pd.concat([df1, df4], axis=1).reindex(df1.index)
Out[15]: 
    A   B   C   D    B    D    F
0  A0  B0  C0  D0  NaN  NaN  NaN
1  A1  B1  C1  D1  NaN  NaN  NaN
2  A2  B2  C2  D2   B2   D2   F2
3  A3  B3  C3  D3   B3   D3   F3
#②对第二份数据设置索引为第一份部分索引
In [16]: pd.concat([df1, df4.reindex(df1.index)], axis=1)
Out[17]: 
    A   B   C   D    B    D    F
0  A0  B0  C0  D0  NaN  NaN  NaN
1  A1  B1  C1  D1  NaN  NaN  NaN
2  A2  B2  C2  D2   B2   D2   F2
3  A3  B3  C3  D3   B3   D3   F3

1.3.内连接join=‘inner’

内连接就是选取交集部分的索引或列名

In [18]: result = pd.concat([df1, df4], axis=1, join='inner')

1.4.忽略索引ignore_index=True

很多时候需要合并的数据存在索引重叠的情况，对于很多没有实际意义的索引（比如单纯的默认索引0到n-1），我们可以设定忽略索引从而创建新的0到m-1的索引。

In [19]: result = pd.concat([df1, df4], ignore_index=True, sort=False)

1.5.DataFrame与Series合并

Series与DataFrame合并时，会将Series转化为DataFrame的一列，该列名为Series的名称。

In [20]: s1 = pd.Series(['x0','x1','x2','x3'],name = 'x')
In [21]: result = pd.concat([df1,s1],axis=1)

若Series未进行命名，则合并后的列名为连续的编号。

In [22]: s2 = pd.Series(['-0','-1','-2','-3'])
In [23]: result = pd.concat([df1,s2,s2,s2], axis=1)

我们同样可以通过使用ignore_index = True删除并重新进行列名称编号。

In [24]: result = pd.concat([df1, s1], axis=1, ignore_index=True)

1.6.行数据追加到数据帧

这样做的效率一般，使用append方法，可以将Series或字典数据添加到DataFrame。
Series数据追加到数据帧

In [25]: s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
In [26]: result = df1.append(s2, ignore_index=True)

字典数据追加到数据帧

In [27]: dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4},
    ...:          {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]
In [28]: result = df1.append(dicts, ignore_index=True, sort=False)

2.merge

merge可根据一个或多个键（列）相关同DataFrame中的拼接起来。SQL或其他关系型数据库的用户对此应该会比较熟悉，因为它实现的就是数据库的join操作。

pd.merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=True,
suffixes=(’_x’, ‘_y’), copy=True, indicator=False,
validate=None)

left：参与合并的左侧数据
right：参与合并的右侧数据
how：合并类型：inner(默认内连接)、outer（外连接）、left（左连接）、right（右连接）
on：用于连接的列名，默认为左右侧数据共有的列名，指定时需要为左右侧数据都存在的列名
left_on：左侧数据用于连接的列
right_on：右侧数据用于连接的列
left_index：将左侧索引作为连接的列
right_index：将右侧索引作为连接的列
sort：排序，默认为True，设置为False可提高性能
suffixes：默认为(’_x’, ‘_y’)，可以自定义如(‘date_x’,‘date_y’)
copy：默认为True，如果是False，则不会复制不必要的可以提高效率
indicator：指示器，设置为True时会新增一列标识行数据存在于哪侧数据
validate：字符串，如果指定则会检测合并的数据是否满足指定类型

validate 类型说明：
“one_to_one” or “1:1”: checks if merge keys are unique in both left and right datasets.
“one_to_many” or “1:m”: checks if merge keys are unique in left dataset.
“many_to_one” or “m:1”: checks if merge keys are unique in right dataset.
“many_to_many” or “m:m”: allowed, but does not result in checks.

先看个简单的例子

In [78]: result = df1.append(dicts, ignore_index=True, sort=False)
In [79]: left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
    ...:                              'A': ['A0', 'A1', 'A2', 'A3'],
    ...:                              'B': ['B0', 'B1', 'B2', 'B3']})
    ...: 
    ...: right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
    ...:                               'C': ['C0', 'C1', 'C2', 'C3'],
    ...:                               'D': ['D0', 'D1', 'D2', 'D3']})
In [80]: result = pd.merge(left, right, on='key')

2.1.链接方式how=’ ’

left左连接
只保留左侧数据有的索引

In [81]: left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
    ...:                      'key2': ['K0', 'K1', 'K0', 'K1'],
    ...:                      'A': ['A0', 'A1', 'A2', 'A3'],
    ...:                      'B': ['B0', 'B1', 'B2', 'B3']})
    ...: 
    ...: 
In [81]: right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
    ...:                       'key2': ['K0', 'K0', 'K0', 'K0'],
    ...:                       'C': ['C0', 'C1', 'C2', 'C3'],
    ...:                       'D': ['D0', 'D1', 'D2', 'D3']})
In [82]: result = pd.merge(left, right, how='left', on=['key1', 'key2'])

right右连接
只保留右侧数据有的索引

In [46]: result = pd.merge(left, right, how='right', on=['key1', 'key2'])

outer外连接
外连接会保留左右两侧全部的索引

In [47]: result = pd.merge(left, right, how='outer', on=['key1', 'key2'])

inner内连接
外连接只保留左右两侧均有的索引，这个也是默认的连接形式

In [48]: result = pd.merge(left, right, how='inner', on=['key1', 'key2'])

2.2.validate检查重复键

validate参数可以指定一对一、一对多、多对一和多对多的情况，若不满足对应情况则在合并时会发生异常。

In [83]: left = pd.DataFrame({'A' : [1,2], 'B' : [1, 2]})
In [84]: right = pd.DataFrame({'A' : [4,5,6], 'B': [2, 2, 2]})

以上left和right有重复项，都包含A和B名称的列，默认情况下是会根据两个都有的列名进行合并，若设置**validate=‘one_to_one’**则会报错。

In [88]: result
Out[88]: 
Empty DataFrame
Columns: [A, B]
Index: []

In [89]: result = pd.merge(left, right,on = 'B',how ='outer',validate='one_to_one')
    "Merge keys are not unique in right dataset; "
MergeError: Merge keys are not unique in right dataset; not a one-to-one merge

若我们设置**validate=‘one_to_many’**则可正常合并。

In [90]: pd.merge(left, right, on='B', how='outer', validate="one_to_many")
Out[90]: 
   A_x  B  A_y
0    1  1  NaN
1    2  2  4.0
2    2  2  5.0
3    2  2  6.0

In [91]: pd.merge(left, right, on='B', how='outer', validate="many_to_many")
Out[91]: 
   A_x  B  A_y
0    1  1  NaN
1    2  2  4.0
2    2  2  5.0
3    2  2  6.0

2.3.indicator合并指示器

默认情况下，indicator为False，若我们设置为True，则会在合并数据后新增一列标识

In [93]: df1 = pd.DataFrame({'col1': [0, 1], 'col_left': ['a', 'b']})
In [94]: df2 = pd.DataFrame({'col1': [1, 2, 2], 'col_right': [2, 2, 2]})

In [95]: df1
Out[95]: 
   col1 col_left
0     0        a
1     1        b

In [96]: df2
Out[96]: 
   col1  col_right
0     1          2
1     2          2
2     2          2
In [97]: pd.merge(df1, df2, on='col1', how='outer', indicator=True)
Out[97]: 
   col1 col_left  col_right      _merge
0     0        a        NaN   left_only
1     1        b        2.0        both
2     2      NaN        2.0  right_only
3     2      NaN        2.0  right_only

我们也可以对indicator辅助列进行命名，通过传递参数形式。

In [98]: pd.merge(df1, df2, on='col1', how='outer', indicator='辅助标识器')
Out[98]: 
   col1 col_left  col_right       辅助标识器
0     0        a        NaN   left_only
1     1        b        2.0        both
2     2      NaN        2.0  right_only
3     2      NaN        2.0  right_only

2.4.left_on和right_on

当我们想合并的两个数据出现没有公共列名的情况，可以用left_on和right_on分别指定左右两侧数据用于匹配的列。

In [102]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
     ...:                      'B': ['B0', 'B1', 'B2', 'B3'],
     ...:                      'key': ['K0', 'K1', 'K0', 'K1']})
     ...: 
     ...: 
In [102]: right = pd.DataFrame({'C': ['C0', 'C1'],
     ...:                       'D': ['D0', 'D1'],
     ...:                       'key2': ['K0', 'K1']})
     
In [104]: result = pd.merge(left, right, left_on='key', right_on='key2',how='left', sort=False)
In [105]: result
Out[105]: 
    A   B key   C   D key2
0  A0  B0  K0  C0  D0   K0
1  A1  B1  K1  C1  D1   K1
2  A2  B2  K0  C0  D0   K0
3  A3  B3  K1  C1  D1   K1

3.join

join可以将两个没用共同列名的数据进行快速合并，默认是保留被被合并的数据索引

In [106]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
     ...:                      'B': ['B0', 'B1', 'B2']},
     ...:                     index=['K0', 'K1', 'K2'])

In [107]: right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
     ...:                       'D': ['D0', 'D2', 'D3']},
     ...:                     index=['K0', 'K2', 'K3'])

In [108]: result = left.join(right)

join接受的参数有how、on和suffix等
以下两个表达式是等效的：

>>>left.join(right, on=key_or_keys)
>>>pd.merge(left, right, left_on=key_or_keys, right_index=True,
      how='left', sort=False)

比如：

In [109]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
     ...:                      'B': ['B0', 'B1', 'B2', 'B3'],
     ...:                      'key': ['K0', 'K1', 'K0', 'K1']})
     ...: 
     ...: 
In [109]: right = pd.DataFrame({'C': ['C0', 'C1'],
     ...:                       'D': ['D0', 'D1']},
     ...:                       index=['K0', 'K1'])

In [110]: result = left.join(right, on='key')
In [111]: result
Out[111]: 
    A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K0  C0  D0
3  A3  B3  K1  C1  D1

In [112]: result = pd.merge(left, right, left_on='key', right_index=True,how='left', sort=False)
In [113]: result
Out[113]: 
    A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K0  C0  D0
3  A3  B3  K1  C1  D1

参考资料
①https://pandas.pydata.org/docs/user_guide/merging.html#timeseries-friendly-merging

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
【Python】写入Pandas DataFrame到CSV文件 civilpy python pandas 开发语言
基本原理Pandas是一个强大的Python数据分析库，它提供了许多用于数据处理和分析的功能。在处理数据时，我们经常需要将数据保存到文件中，以便后续使用或分享。CSV（Comma-SeparatedValues，逗号分隔值）文件是一种常见的数据交换格式，它以纯文本形式存储表格数据，每行表示一个数据记录，列之间用逗号分隔。DataFrame是Pandas中用于存储表格数据的主要数据结构。它类似于Ex
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
python的pandas库帅维维 python pandas 开发语言
什么是pandasPandas是一个开源的第三方Python库，它从Numpy和Matplotlib的基础上构建而来，享有数据分析“三剑客之一”的盛名。Pandas已经成为Python数据分析的必备高级工具，目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。数据结构Pandas中除了Panel数据结构,还引入了两种新的数据结构——Series和DataFrame,这两种数据结构都建立在Nu
Python数据分析及可视化教程--商城订单为例-适用电商相关进行数据分析---亲测可用！！！！ Dreams°123 AIGC 机器学习 python 测试工具数据分析大数据
前言：Python是进行数据分析和可视化的强大工具，常用的库包括Pandas、NumPy、Matplotlib和Seaborn。以下是一个基本的教程概述，介绍了如何使用这些库来进行数据分析和可视化：Python数据分析及可视化教程1、环境准备2、数据准备3、开始数据分析3.1、导入库3.2、加载数据3.3、数据预处理3.4、数据分析3.5、数据可视化4、总结解释使用方法：5、错误处理和异常判断说明
python的可视化库有哪些,python可视化数据包 2401_85422942 信息可视化 python
大家好，小编来为大家解答以下问题，python用于进行数据分析及可视化处理的第三方库，python数据分析及可视化处理的第三方库，今天让我们一起来看看吧！众所周知，Python以优雅、简洁著称，入行门槛低，可以从事Linux运维、PythonWeb网站工程师python自动化测试、数据分析、人工智能等职位，薪资待遇呈上涨趋势，很多人都想学习Python。今天来和大家讲述一下我自己学Python时的
从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版 weixin_37988176
给大家带来的一篇关于数据挖掘相关的电子书资源，介绍了关于Python、数据分析、数据挖掘方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小67.8MB，刘顺祥编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.5。内容介绍从零开始学Python数据分析与挖掘本书以Python3版本作为数据分析与挖掘实战的应用工具，从Pyhton的基础语法开始，陆续介绍有关数值计算的Numpy、数
Python数据分析之证券之星沪深A股基本信息爬取与分析卓小曙 python数据分析数据分析 python
Python数据分析之证券之星沪深A股基本信息爬取与分析上周爬取了证券之星上沪深A股的信息，我对股票完全是小白，对流通市值这些完全不了解，是上网先了解了一下，老实说虽然有了基本概念，但在数据分析时还是一头雾水，所以今天只说一下我在爬取和分析时遇到的问题（不涉及股票方面知识，只是分析数据，只是分析数据，只是分析数据），希望能对大家有帮助，也希望得到大家的意见！爬取数据获取网页内容爬取方面依旧是我常用
Python数据分析之pandas学习！ Python_trys python 数据分析 pandas 开发语言学习 ide
Python中的pandas模块进行数据分析。接下来pandas介绍中将学习到如下8块内容：1、数据结构简介：DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用pandas进行缺失值的处理7、利用pandas实现Excel的数据透视表功能8、多层索引的使用在文章开始前打个
如何快速上手Python，成为一名数据分析师 Want595 #图书推荐 python 数据分析开发语言
目录写在前面推荐图书推荐理由粉丝福利写在最后写在前面520快乐！喜欢Python的小伙伴有福啦，本期博主给大家推荐一本入门Python的热门书籍，快来看看吧~推荐图书《Python数据分析快速上手》(王靖，商艳红，张洪波，卢军)【摘要书评试读】-京东图书编辑推荐Python作为一种强大且易于学习的编程语言，已经成为数据分析的首选工具。《Python数据分析快速上手》是一本为初学者、职场人士以及对数
Python-Matplotlib实现新冠病毒疫情数据分析-超细致流-逐行注解 wx1871428 Python
(1)需求背景我将扮演一名数据工作者。在目前国内的新冠病毒疫情背景下，你觉得应该用数据做重新剖析一下疫情状况，恰好现在有一份2020.1.22至2020.2.13的全国疫情数据，我将对疫情现状做一个基本分析作为一名python数据分析是,面对元素数据,我将完成以下工作:a.读取数据,初步了解数据结构b.清洗数据,使数据能做进一步分析c.呈现结果1.全国疫情确诊病例Top10那些省市2.查看不同日期
三国演义python分析系统_Python之三国演义(上) weixin_40002692 三国演义python分析系统
一、设计实现详细说明1.1任务详细描述以中国四大名著之一——《三国演义》为蓝本，结合python数据分析知识进行本次的文本分析。《三国演义》全书共120回。本次的分析主要基于统计分析、文本挖掘等知识。1.2设计思路详细描述数据准备、数据预处理、分词等全书各个章节的字数、词数、段落等相关方面的关系整体词频和词云的展示全书各个章节进行聚类分析并可视化，主要进行了根据IF-IDF的系统聚类和根据词频的L
Python之Pandas详解八秒记忆的老男孩 Python Python基础 python pandas 开发语言
Pandas是Python语言的一个扩展程序库，用于数据分析。Pandas是一个开放源码、BSD许可的库，提供高性能、易于使用的数据结构和数据分析工具。Pandas名字衍生自术语“paneldata”（面板数据）和“Pythondataanalysis”（Python数据分析）。Pandas一个强大的分析结构化数据的工具集，基础是NumPy（提供高性能的矩阵运算）。Pandas可以从各种文件格式比
Python数据分析详解（适合新手的详细教程）码农必胜客 Python零基础入门 python 数据分析开发语言
前言这篇文章主要介绍了Python中的数据分析详解,对数据进行分析。数据分析是指根据分析目的，用适当的统计分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。目录数据分析概述python在数据分析方面有哪些优势数据的导入和导出导入数据导出数据数据预处理数据的选择和运算数据分类汇总和统计时间序列数据可视化数据分析概述python在数据分析方面有哪些优势Python不受数据
2024年网络安全最全二蛋赠书二十期：《Python数据分析》，阿里架构师深入讲解网络安全开发 2401_84264583 程序员 web安全 python 数据分析
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以点击这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！总之，对于Python的学习和掌握为开发者提供了一个
Python数据分析会用到的dataframe方法汇总（全）翠花上酸菜 python 数据分析开发语言
本文将dataframe的应用分为以下几类：1.创建dataframe的方法2.Dataframe读取文件的方法3.数据类型的转换4.增删改查操作5.统计函数汇总1.创建dataframe的多种方法以下四种类型可以创建dataframe：通过字典创建DataFrame通过列表创建DataFrame通过numpyndarray创建dataframe通过一个Series对象创建2.使用Datafram
Python数据分析与可视化的基础知识（带例子）草宣 python 数据分析开发语言
一、数据分析库在数据分析中，有许多常用的数据分析库可以帮助我们进行数据处理、探索和可视化。以下是几个常见的数据分析库和它们的功能：1.NumPyNumPy是一个功能强大的科学计算库，提供了多维数组对象和各种计算功能，用于高效地处理大规模数据集。它还提供了许多数学函数和线性代数操作。2.pandaspandas是基于NumPy的数据处理和分析库，提供了高效的数据结构和数据分析工具，如Series和D
《Python数据分析实战》 johnny233 Python 读书笔记 python
环境搭建定义变量名时要遵循的规则：变量名必须以字母或下画线开始，名字中间只能由字母、数字和下画线组成长度不能超过255个字符变量名在有效范围内必须具有唯一性不能使用保留字（关键字）区分大小写不能对元组中的元素做修改，只能做切片查询。如果元组中只有1个元素，则需要在这个元素的后面加上逗号。数字100正确的表示方法为(100,)列表：a=[1,2,3]，常用列表函数函数用途append()向列表末尾添
Python数据分析利器之groupby和pivot_table使用详解 Rocky006 python 数据分析开发语言
概要在数据分析的过程中，数据聚合与数据透视是两项非常重要的操作。Python的Pandas库提供了强大的工具——groupby和pivot_table，帮助我们高效地进行数据聚合和透视分析。本文将详细介绍如何使用这两个功能，并结合示例代码展示它们的实际应用，帮助更好地掌握数据分析的技巧。数据聚合groupbygroupby是Pandas中用于对数据进行分组并进行聚合操作的工具。通过groupby，
(二十一)Seaborn知识学习8-python数据分析与机器学习实战(学习笔记) 努力奋斗的durian
文章原创,最近更新：2018-05-17课程来源:python数据分析与机器学习实战-唐宇迪引言:介绍seaborn热度图绘制学习参考链接:1、Seaborn官方0.8.1版本首先介绍以下热度图的作用,拿出离散群数据,离散群数据可能会发生波动变化.看一下哪个点的值比较高,看一下哪个点的值比较低?通过值的变化,用颜色表现出来,这个是我们要做的一件事.热度图是由不同的颜色构成的,这个颜色由可能是由浅入
Python数据分析入门与Pandas master_chenchengg python python 办公效率 python开发 IT
Python数据分析入门与Pandas一、开启Python之旅：为什么选择Python进行数据分析缘起：从Excel到Python的转变为何Python是数据分析的首选语言Python的魅力：简洁与强大并存二、初识Pandas：解锁数据处理的超级能力Pandas是什么：从零开始了解Series与DataFrame：Pandas的核心数据结构如何创建第一个DataFrame：动手试试看三、数据清洗：
Python数据分析常用的类库matlab 视觉震撼 python python 数据分析 matlab
NumPyNumPy（NumericalPython）是Python科学计算的基础包，它可以提供以下功能。■快速高效的多维数组对象ndarray。■用于对数组执行元素级计算和直接对数组执行数学运算的函数。■用于读写硬盘上基于数组的数据集的工具。■线性代数运算、傅里叶变换，以及随机数生成。■用于将C、C++、Fortran代码集成到Python的工具。除了为Python提供快速的数组处理能力，Num
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
numpy和matplotlib小例子 Roy Teng numpy matplotlib
最近准备学《Python数据分析与挖掘实战》这本书，刚看到第二章numpy和matplotlib这一部分，发现这个图挺有意思的，就做个笔记记录一下，日后发现有意思的继续更。importnumpyasnpimportmatplotlib.pyplotaspltx=np.linspace(0,10,1000)y=np.sin(x)+1z=np.cos(x**2)+1plt.figure(figsize
跨界协作：借助gRPC实现Python数据分析能力的共享工业甲酰苯胺 python 数据分析开发语言
gRPC是一个高性能、开源、通用的远程过程调用（RPC）框架，由Google推出。它基于HTTP/2协议标准设计开发，默认采用ProtocolBuffers数据序列化协议，支持多种开发语言。在gRPC中，客户端可以像调用本地对象一样直接调用另一台不同的机器上服务端应用的方法，使得您能够更容易地创建分布式应用和服务。gRPC支持多种语言，并提供了丰富的接口和库，以及简单易用的API，方便开发者进行快
BI 数据分析，数据库，Office，可视化，数据仓库阿里数据专家数据分析数据库数据仓库 excel AIGC powerpoint 数据挖掘
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集Mysql8.054集Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战51集Excel2021实操100集，Excel2021函数大全80集Excel2021高级图表应用89集，Excel2021大屏可视化制作56集Excel2021实用技巧30
python3 数据分析项目案例,python数据分析报告范文 2301_81895949 oracle
这篇文章主要介绍了python3数据分析项目案例，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。1需求分析随着科学技术的不断发展，信息流通日益方便，信息数据不断膨胀，充斥在各行各业。由于数据非常庞大，所以即使在搜索引擎存在的情况下，搜索结果的准确率也不高，这使得在网上查找关键有效信息也变为一项极具挑战性的复杂任务python编程代码画哆啦
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>