weixin_40830097

Python的大数据处理模块Pandas

【这篇转载自海盗Ora的博客：https://www.cnblogs.com/huanjing/p/6701396.html】

Pandas使用一个二维的数据结构DataFrame来表示表格式的数据，相比较于Numpy，Pandas可以存储混合的数据结构，同时使用NaN来表示缺失的数据，而不用像Numpy一样要手工处理缺失的数据，并且Pandas使用轴标签来表示行和列。

1、文件读取
首先将用到的pandas和numpy加载进来
import pandas as pd
import numpy as np

读取数据：

#csv和xlsx分别用read_csv和read_xlsx，下面以csv为例

df = pd.read_csv(path): 读入csv文件，形成一个数据框(data.frame)

例如：df=pd.read_csv('/users/administrator/desktop/train.csv') # df可以理解为dataframe的简写

df = pd.read_csv(path, header=None) 不要把第一行作为header

`to_csv()`

* 注意，默认会将第一行作为header，并且默认会添加index，所以不需要的话需要手动禁用 *

df.to_csv(path, header=False, index=False)

数据框操作

df.head(1) 读取头几条数据

df.tail(1) 读取后几条数据

df[‘date’] 获取数据框的date列

df.head(1)[‘date’] 获取第一行的date列

df.head(1)[‘date’][0] 获取第一行的date列的元素值

sum(df[‘ability’]) 计算整个列的和

df[df[‘date’] == ‘20161111’] 获取符合这个条件的行

df[df[‘date’] == ‘20161111’].index[0] 获取符合这个条件的行的行索引的值

df.iloc[1] 获取第二行

df.iloc[1][‘test2’] 获取第二行的test2值

10 mins to pandas
df.index 获取行的索引

df.index[0] 获取第一个行索引

df.index[-1] 获取最后一个行索引,只是获取索引值

df.columns 获取列标签

df[0:2] 获取第1到第2行，从0开始，不包含末端

df.loc[1] 获取第二行

df.loc[:,’test1’] 获取test1的那一列,这个冒号的意思是所有行，逗号表示行与列的区分

df.loc[:,[‘test1’,’test2’]] 获取test1列和test2列的数据

df.loc[1,[‘test1’,’test2’]] 获取第二行的test1和test2列的数据

df.at[1,’test1’] 表示取第二行，test1列的数据，和上面的方法类似

df.iloc[0] 获取第一行

df.iloc[0:2,0:2] 获取前两行前两列的数据

df.iloc[[1,2,4],[0,2]] 获取第1，2，4行中的0，2列的数据

(df[2] > 1).any() 对于Series应用any()方法来判断是否有符合条件的，返回True或者False

2、查看数据

df.head()

#默认出5行，括号里可以填其他数据

3、查看数据类型

df.dtypes

与Numpy一样，用dtype属性来显示数据类型，Pandas主要有以下几种dtype：

object -- 代表了字符串类型
int -- 代表了整型
float -- 代表了浮点数类型
datetime -- 代表了时间类型
bool -- 代表了布尔类型

当读取了一个文件之后，Pandas会通过分析值来推测每一列的数据类型

print(df.dtypes)

输出：每一列对应的数据类型

NDB_No int64

Shrt_Desc object

Water_(g) float64

Energ_Kcal int64

Protein_(g) float64

...

4、利用现有数据生成一列新数据

比如：max_time和min_time是现有的两列，现在业务需要生成一列gs，gs=max_time-min_time

df['gs']=df['max_time']-df['min_time']

#查看是否成功

df.head()

5、查看基本统计量(包括count、unique、top、freq、mean、std、min、25%、50%、75%、max等)

df.describe(include='all') # all代表需要将所有列都列出

统计描述

print (df.describe())

# OUTPUT

Abra Apayao Benguet Ifugao Kalinga

count 79.000000 79.000000 79.000000 79.000000 79.000000

mean 12874.379747 16860.645570 3237.392405 12414.620253 30446.417722

std 16746.466945 15448.153794 1588.536429 5034.282019 22245.707692

min 927.000000 401.000000 148.000000 1074.000000 2346.000000

25% 1524.000000 3435.500000 2328.000000 8205.000000 8601.500000

50% 5790.000000 10588.000000 3202.000000 13044.000000 24494.000000

75% 13330.500000 33289.000000 3918.500000 16099.500000 52510.500000

max 60303.000000 54625.000000 8813.000000 21031.000000 68663.000000

通常来说，数据是CSV格式，就算不是，至少也可以转换成CSV格式。在Python中，我们的操作如下：

import pandas as pd

# Reading data locally

df = pd.read_csv('/Users/al-ahmadgaidasaad/Documents/d.csv')

# Reading data from web

data_url = "https://raw.githubusercontent.com/alstat/Analysis-with-Programming/master/2014/Python/Numerical-Descriptions-of-the-Data/data.csv"

df = pd.read_csv(data_url)

为了读取本地CSV文件，我们需要pandas这个数据分析库中的相应模块。

其中的read_csv函数能够读取本地和web数据。b

# Head of the data

print （df.head()）

# OUTPUT

Abra Apayao Benguet Ifugao Kalinga

0 1243 2934 148 3300 10553

1 4158 9235 4287 8063 35257

2 1787 1922 1955 1074 4544

3 17152 14501 3536 19607 31687

4 1266 2385 2530 3315 8520

# Tail of the data

print （df.tail()）

# OUTPUT

Abra Apayao Benguet Ifugao Kalinga

74 2505 20878 3519 19737 16513

75 60303 40065 7062 19422 61808

76 6311 6756 3561 15910 23349

77 13345 38902 2583 11096 68663

78 2623 18264 3745 16787 16900

上述操作等价于通过print(head(df))来打印数据的前6行，以及通过print(tail(df))来打印数据的后6行。

当然Python中，默认打印是5行，而R则是6行。因此R的代码head(df, n = 10)，

在Python中就是df.head(n = 10)，打印数据尾部也是同样道理。可以通过修改n的值来改变输出的行数

在Python中，我们则使用columns和index属性来提取，如下：

# Extracting column names

print （df.columns）#输出列名称

# OUTPUT

Index([u'Abra', u'Apayao', u'Benguet', u'Ifugao', u'Kalinga'], dtype='object')

# Extracting row names or the index

print （df.index）#输出行名称

# OUTPUT

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30], dtype='int64')

数据转置使用T方法，

# Transpose data

print （df.T）

# OUTPUT

0 1 2 3 4 5 6 7 8 9

Abra 1243 4158 1787 17152 1266 5576 927 21540 1039 5424

Apayao 2934 9235 1922 14501 2385 7452 1099 17038 1382 10588

Benguet 148 4287 1955 3536 2530 771 2796 2463 2592 1064

Ifugao 3300 8063 1074 19607 3315 13134 5134 14226 6842 13828

Kalinga 10553 35257 4544 31687 8520 28252 3106 36238 4973 40140

... 69 70 71 72 73 74 75 76 77

Abra ... 12763 2470 59094 6209 13316 2505 60303 6311 13345

Apayao ... 37625 19532 35126 6335 38613 20878 40065 6756 38902

Benguet ... 2354 4045 5987 3530 2585 3519 7062 3561 2583

Ifugao ... 9838 17125 18940 15560 7746 19737 19422 15910 11096

Kalinga ... 65782 15279 52437 24385 66148 16513 61808 23349 68663

Abra 2623

Apayao 18264

Benguet 3745

Ifugao 16787

Kalinga 16900

其他变换，例如排序就是用sort属性。现在我们提取特定的某列数据。

Python中，可以使用iloc或者ix属性。但是我更喜欢用ix，因为它更稳定一些。假设我们需数据第一列的前5行，我们有：

print （df.ix[:, 0].head()）

# OUTPUT

0 1243

1 4158

2 1787

3 17152

4 1266

Name: Abra, dtype: int64

顺便提一下，Python的索引是从0开始而非1。为了取出从11到20行的前3列数据，我们有：

print (df.ix[10:20, 0:3])

# OUTPUT

Abra Apayao Benguet

10 981 1311 2560

11 27366 15093 3039

12 1100 1701 2382

13 7212 11001 1088

14 1048 1427 2847

15 25679 15661 2942

16 1055 2191 2119

17 5437 6461 734

18 1029 1183 2302

19 23710 12222 2598

20 1091 2343 2654

上述命令相当于df.ix[10:20, ['Abra', 'Apayao', 'Benguet']]。

为了舍弃数据中的列，这里是列1(Apayao)和列2(Benguet)，我们使用drop属性，如下：

print (df.drop(df.columns[[1, 2]], axis = 1).head())

# OUTPUT

Abra Ifugao Kalinga

0 1243 3300 10553

1 4158 8063 35257

2 1787 1074 4544

3 17152 19607 31687

4 1266 3315 8520

axis 参数告诉函数到底舍弃列还是行。如果axis等于0，那么就舍弃行。

print (df.drop(df.index[[1, 2]], axis = 0).head())#表示舍弃第二行和第三行

可以使用tolist()函数转化为list

df.columns.tolist()

与Numpy一样，用shape属性来显示数据的格式

dimensions = df.shape

print(dimensions)

输出：(8618,36) ，

其中dimensions[0]为8618，dimensions[1]为36

索引

读取了文件后，Pandas会把文件的一行作为列的索引标签，使用行数字作为行的索引标签

注意，行标签是从数字0开始的

Pandas使用Series数据结构来表示一行或一列的数据，类似于Numpy使用向量来表示数据。Numpy只能使用数字来索引，而Series可以使用非数字来索引数据，当你选择返回一行数据的时候，Series并不仅仅返回该行的数据，同时还有每一列的标签的名字。

譬如要返回文件的第一行数据，Numpy就会返回一个列表（但你可能不知道每一个数字究竟代表了什么）

而Pandas则会同时把每一列的标签名返回（此时就很清楚数据的意思了）

选择数据

Pandas使用loc[]方法来选择行的数据

# 选择单行数据：

df.loc[0]   # 选择行标号为0的数据，即第一行数据
df.loc[6]   # 选择行标号为6的数据，即第七行数据

# 选择多行数据：

df.loc[3:6] # 使用了切片，注意：由于这里使用loc[]函数，所以返回的是行标号为3，4，5，6的数据，与python的切片不同的是这里会返回最后的标号代表的数据，但也可以使用python的切片方法：df[3:7]
而df.iloc[3:6]相当于df[3:6],      df.ix[3:6]相当于df.loc[3:6]

df.loc[[2,5,10]] # 返回行标号为2，5，10三行数据

练习：返回文件的最后五行

方法一：

length = df.shape[0]

last_rows =df.loc[length-5:length-1]

方法二：

num_rows = df.shape[0]

last_rows = df[num_rows-5:num_rows]

Pandas直接把列名称填充就能返回该列的数据

ndb_col = df["NDB_No"] # 返回列名称为NDB_No的那一列的数据

zinc_copper = df[["Zinc_(mg)", "Copper_(mg)"]] # 返回两列数据,##注意是中括号两个

简单运算

现在要按照如下公式计算所有食物的健康程度，并按照降序的方式排列结果：

Score=2×(Protein_(g))−0.75×(Lipid_Tot_(g))

对DataFrame中的某一列数据进行算术运算，其实是对该列中的所有元素进行逐一的运算，譬如：

water_energy = food_info["Water_(g)"] * food_info["Energ_Kcal"]

原理：

由于每一列的数据跨度太大，有的数据是从0到100000，而有的数据是从0到10，所以为了尽量减少数据尺度对运算结果的影响，采取最简单的方法来规范化数据，那就是将每个数值都除以该列的最大值，从而使所有数据都处于0和1之间。其中max()函数用来获取该列的最大值.

df['Normalized_Protein'] = df['Protein_(g)'] / df['Protein_(g)'].max()

df['Normalized_Fat'] = df['Lipid_Tot_(g)'] / df['Lipid_Tot_(g)'].max()

df['Norm_Nutr_Index'] = df["Normalized_Protein"] * 2 - df["Normalized_Fat"] * 0.75

注意：上面的两个语句已经在原来的DataFrame中添加了三列，列名分别为Normalized_Protein和Normalized_Fat，Norm_Nutr_Index。只需要使用中括号和赋值符就能添加新列，类似于字典

对DataFrame的某一列数据排序，只需要使用函数sort_values()即可

food_info.sort_values("Sodium_(mg)") # 函数参数为列名，默认是按照升序排序，同时返回一个新的

DataFramefood_info.sort_values("Norm_Nutr_Index", inplace=True, ascending=False ) 

# 通过inplace参数来控制在原表排序，而不是返回一个新的对象；ascending参数用来控制是否升序排序

这部分内容转载自

Modozil的博客

https://blog.csdn.net/niuniuyuh/article/details/76650904?fps=1&locationNum=9

Pandas库中有iloc和loc以及ix可以用来索引数据，抽取数据。但是方法一多也容易造成混淆。下面将一一来结合代码说清其中的区别。

1. iloc和loc的区别：

iloc主要使用数字来索引数据，而不能使用字符型的标签来索引数据。而loc则刚好相反，只能使用字符型标签来索引数据，不能使用数字来索引数据，不过有特殊情况，当数据框dataframe的行标签或者列标签为数字，loc就可以来其来索引。

好，先上代码，先上行标签和列标签都为数字的情况。

[python]  view plain  copy
import pandas as pd  
import numpy as np  
a = np.arange(12).reshape(3,4)  
print (a)  
>>>  
[[ 0  1  2  3]  
 [ 4  5  6  7]  
 [ 8  9 10 11]]  
df = pd.DataFrame(a)  
print (df)  
>>>  
   0  1   2   3  
0  0  1   2   3  
1  4  5   6   7  
2  8  9  10  11  
print (df.loc[0])  
>>>  
0    0  
1    1  
2    2  
3    3  
Name: 0, dtype: int32  
print (df.iloc[0])  
0    0  
1    1  
2    2  
3    3  
Name: 0, dtype: int32  
print (df.loc[:,[0,3]])  
   0   3  
0  0   3  
1  4   7  
2  8  11  
print (df.iloc[:,[0,3]])  
   0   3  
0  0   3  
1  4   7  
2  8  11  

接下来是把行标签[0, 1, 2]改成['a', 'b', 'c']，则成这样了。

[python]  view plain  copy
df.index = ['a','b','c']  
print (df)  
>>>  
   0  1   2   3  
a  0  1   2   3  
b  4  5   6   7  
c  8  9  10  11  
print (df.loc[0])  
# TypeError: cannot do label indexing on  with these indexers [0] of   
print (df.iloc[0])  
>>>  
0    0  
1    1  
2    2  
3    3  
Name: a, dtype: int32  
print (df.iloc['a'])  # TypeError: cannot do positional indexing on  with these indexers [a] of   
print (df.loc['a'])   # 正确  
>>>  
0    0  
1    1  
2    2  
3    3  
Name: a, dtype: int32  

同样地，把列标签[0, 1, 2, 3]改成['A', 'B, 'C', 'D']，则成这样了。

[python]  view plain  copy
df.columns = ['A','B','C','D']  
print (df)  
>>>  
   A  B   C   D  
a  0  1   2   3  
b  4  5   6   7  
c  8  9  10  11  
print (df.loc[:,'A'])  
>>>  
a    0  
b    4  
c    8  
Name: A, dtype: int32  
print (df.iloc[:,'A'])  # ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types  

2.ix是一种混合索引，字符型标签和整型数据索引都可以。

[python]  view plain  copy
print (df.ix[0])  
>>>  
A    0  
B    1  
C    2  
D    3  
Name: a, dtype: int32  
print (df.ix['a'])  
>>>  
A    0  
B    1  
C    2  
D    3  
Name: a, dtype: int32  
print (df.ix[:,0])  
>>>  
a    0  
b    4  
c    8  
Name: A, dtype: int32  
print (df.ix[:,'A'])  
>>>  
a    0  
b    4  
c    8  
Name: A, dtype: int32  

一、创建对象

可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。

1、可以通过传递一个list对象来创建一个Series，pandas会默认创建整型索引：

2、通过传递一个numpy array，时间索引以及列标签来创建一个DataFrame：

#np.random.randn(6,4)通过本函数可以返回一个或一组服从标准正态分布的随机样本值。

3、通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame：

4、查看不同列的数据类型：

5、如果你使用的是IPython，使用Tab自动补全功能会自动识别所有的属性以及自定义的列，下图中是所有能够被自动识别的属性的一个子集：

二、查看数据

详情请参阅：Basics Section

1、 查看frame中头部和尾部的行：

2、 显示索引、列和底层的numpy数据：

3、 describe()函数对于数据的快速统计汇总：

4、对数据的转置：

5、按轴进行排序

6、按值进行排序

三、选择

虽然标准的Python/Numpy的选择和设置表达式都能够直接派上用场，但是作为工程使用的代码，我们推荐使用经过优化的pandas数据访问方式： .at, .iat, .loc, .iloc 和 .ix详情请参阅Indexing and Selecing Data 和 MultiIndex / Advanced Indexing。

l 获取

1、选择一个单独的列，这将会返回一个Series，等同于df.A：

2、通过[]进行选择，这将会对行进行切片

l 通过标签选择

1、使用标签来获取一个交叉的区域

2、通过标签来在多个轴上进行选择

3、标签切片

4、对于返回的对象进行维度缩减

5、获取一个标量

6、快速访问一个标量（与上一个方法等价）

l 通过位置选择

1、通过传递数值进行位置选择（选择的是行）

2、通过数值进行切片，与numpy/python中的情况类似

3、通过指定一个位置的列表，与numpy/python中的情况类似

4、对行进行切片

5、对列进行切片

6、获取特定的值

l 布尔索引

1、使用一个单独列的值来选择数据：

2、使用where操作来选择数据：

3、使用isin()方法来过滤：

l 设置

1、设置一个新的列：

2、通过标签设置新的值：

3、通过位置设置新的值：

4、通过一个numpy数组设置一组新值：

上述操作结果如下：

5、通过where操作来设置新的值：

四、缺失值处理

在pandas中，使用np.nan来代替缺失值，这些值将默认不会包含在计算中，详情请参阅：Missing Data Section。

1、 reindex()方法可以对指定轴上的索引进行改变/增加/删除操作，这将返回原始数据的一个拷贝：、

2、去掉包含缺失值的行：

3、对缺失值进行填充：

4、对数据进行布尔填充：

五、相关操作

详情请参与 Basic Section On Binary Ops

统计（相关操作通常情况下不包括缺失值）

1、执行描述性统计：

2、在其他轴上进行相同的操作：

3、对于拥有不同维度，需要对齐的对象进行操作。Pandas会自动的沿着指定的维度进行广播：

Apply

1、对数据应用函数：

直方图

具体请参照：Histogramming and Discretization

字符串方法

Series对象在其str属性中配备了一组字符串处理方法，可以很容易的应用到数组中的每个元素，如下段代码所示。更多详情请参考：Vectorized String Methods.

六、合并

Pandas提供了大量的方法能够轻松的对Series，DataFrame和Panel对象进行各种符合各种逻辑关系的合并操作。具体请参阅：Merging section

Concat

Join 类似于SQL类型的合并，具体请参阅：Database style joining

Append 将一行连接到一个DataFrame上，具体请参阅Appending：

七、分组

对于”group by”操作，我们通常是指以下一个或多个操作步骤：

（Splitting）按照一些规则将数据分为不同的组；
（Applying）对于每组数据分别执行一个函数；
（Combining）将结果组合到一个数据结构中；

详情请参阅：Grouping section

1、分组并对每个分组执行sum函数：

2、通过多个列进行分组形成一个层次索引，然后执行函数：

Stack堆

tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                    'one', 'two', 'one', 'two']]))
tuples

注：创建了一个list，并且用zip方法整合合并成内部是tuple形式

index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
index

注：将数据转为MultiIndex结构，即从字面上理解为多索引结构

df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df

df2 = df[:4]

注：取出前四行数据

stack（）方法“压缩”DataFrame的列。

stacked = df2.stack()
stacked

使用“堆叠”DataFrame或Series（具有MultiIndex作为索引），stack（）的反向操作是unpack（），它默认情况下解除最后一个级别

unstack会默认多层索引的series转变为DataFrame

stacked.unstack()

stacked.unstack(1)

stacked.unstack(0)

数据透视表，详情请参阅：Pivot Tables.

可以从这个数据中轻松的生成数据透视表：

你可能感兴趣的:(Python数据处理)

Python中数据处理的常用库-其功能。 Good_tea_h python 开发语言
在Python中，数据处理的常用库众多，它们各自在数据处理的不同方面发挥着重要作用。以下是一些常用的Python数据处理库及其功能的详细阐述：1.NumPy功能概述：NumPy是Python中用于科学计算的基础库，它提供了高性能的多维数组对象以及操作这些数组的工具。NumPy的数组（ndarray）是Python列表的扩展，支持大量的维度，且数组元素类型必须相同。NumPy还提供了大量的数学函数库
python删除两个excel表中的相同元素_Python数据处理--删除重复项、数值替换和表合并... weixin_39654058
导入需要的包：numpy、pandasimportnumpyaspyimportpandasaspd创建一个表：df=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],"date":pd.date_range('20130102',periods=6),"city":['Beijing','SH','guangzhou','Shenzhen','
爬虫-华为云空间备忘录导出到docx-selenium控制浏览器行为-python数据处理 violet_ever_garden 爬虫华为云 selenium
背景+适用情况介绍老的荣耀手机属于华为云系统，家里人换了新荣耀手机属于荣耀云系统无法通过云空间将备忘录转移到新手机，不想让他们一个一个搞，于是整了一晚上想办法爬取下来。从网页抓取下来，然后存到docx文档中（包括文字和图片，别的形式的内容请举一反三）本方法Cons：不能复制到荣耀云里，因为捣了半天这个根本就没有除了手机之外可以访问的方法别的思路手机内部自动化保存为文档后处理华为手机备忘录批量导出t
机器学习（1）——Python数据处理与绘图 WHJ226 机器学习机器学习 python python数据处理与绘图
目录1numpy数组使用1.1numpy生成数组1.2numpy数组属性1.3数组的索引和切片1.4numpy数组运算1.5随机数1.6数组副本和视图1.7数组重塑1.8数组连接与拆分1.8.1数组连接1.8.2数组拆分2scipy包的使用2.1scipy包中的模块2.2常数模块的使用2.3特殊函数模块的使用2.4信号处理模块2.5空间结构模块2.6优化器2.6稀疏矩阵2.7图结构3pandas包
Pandas 数据处理(一) —— 几个简单函数掌握！小张Python
上一阶段公号更新了OpenCV的一些小案例，在接下来的一段时间里公号的更文计划向Pandas、Numpy、Matplotlib关于数据处理、可视化的方向侧重；偶尔会加入几篇Python自动化办公相关文章，小伙伴们关于推文方向有什么建议的话可以发在下方评论里，也可以在后台私信我。对于Pandas，接触过Python数据处理的小伙伴们都应该挺熟悉的，做数据处理不可或缺的一个程序包，最大的特点高效，本篇
如何把2274587.84如何快速的转换为中文大写？（下篇）皮皮_f075
大家好，我是皮皮。一、前言前几天在Python黄金群【莫生气】问了一个Python数据处理的问题，需求如下：大佬们，请教一个问题，2274587.84如何快速的转换为大写：贰佰贰拾柒万肆仟伍佰捌拾柒元捌角肆分？有没有工具或者网页啥的？不一定要Python实现。使用百度上查到的代码，似乎不太好用，defnum2chinese(num):chinese_num=["零","壹","贰","参","肆"
python数据处理list补零问题 liqiang12689 python标准库 tensorflow pytorch
近日在调整代码时遇到一个特别奇怪的问题：使用python定义的list嵌套结构在对子list进行补零操作时，原list也会进行扩展，我们有时不希望这种功能，为避免错误，使用a+b方法进行扩展。错误代码：此处对x_进行补零时，x列表内容同样补零，在最终网络返回时，这种操作修改了原始输入x，如果不进行循环操作，改使用不会被发现，一旦使用了循环，则会出现输入数据的变化。修改方法：
4.1Python数据处理篇之Matplotlib系列(一)---初识Matplotlib 张一根
目录[TOC]前言对于数据可视化的python库，对于Matplotlib早有耳闻，今天就来正式学习一下。（一）matplotlib的介绍matplotlib是python优秀的2D绘图库，可以完成大部分的绘图需求，同时其可定制性也很强，可内嵌在tkinter等各种GUI框架里。官方网站：https://matplotlib.org/users/index.html官方教程：https://mat
Polars使用指南（一）大白兔黑又黑 Python python pandas
pandas是Python数据处理中非常经典的一个科学计算库，表形式的数据结构、丰富的API和灵活的编程语法使得pandas成为最常用的的数据分析工具。但是pandas也有一个最致命的缺陷，就是效率问题，尤其是不支持并行计算。pandas2在性能方面有了极大的提升，但是不支持并行计算依然是pandas的遗憾之一。针对这个问题，市场上也涌现出了多种解决方案，如pandarallel、dask、ray
python 解方程 sympy_Python数据处理篇之Sympy系列(五)---解方程旋叶芦荟mkq~~ python 解方程 sympy
前言sympy不仅在符号运算方面强大，在解方程方面也是很强大。本章节学习对应官网的：Solvers官方教程(一)求解多元一次方程-solve()1.说明：解多元一次方程可以使用solve()，在sympy里，等式是用Eq()来表示，例如：2x=42x=4表示为：Eq(x*2,4)2.源代码："""解下列二元一次方程2x-y=33x+y=7"""#导入模块fromsympyimport*#将变量符号
Python数据处理 ——展现Pandas 的强大 Zouia Gail(修行中) python pandas 开发语言
一、简介Pandas是一个基于NumPy的分析结构化数据的工具集，NumPy为其提供了高性能的数据处理能力。Pandas被普遍用于数据挖掘和数据分析，同时也提供数据清洗、数据I/O、数据可视化等辅助功能。Pandas不仅简洁，还拥有出众的数据处理能力和完备的辅助功能。归纳起来，Pandas有以下5大特点。具有极强的自适应能力。无论是Python还是NumPy的数据对象，即使是结构不规则的数据也可以
Python数据处理&可视化学习指南 azim
Python数据处理指南Python数据处理指南Python数据可视化指南Python数据可视化指南
python如何提取数据中的年月_Python数据处理笔记——Pandas时间数据提取处理 weixin_39600447
做数据分析时，对于有时间数据的数据来源，在时间维度上的剖析必不可少比如：在一天的销售时间内，哪些时间段是高峰是否与星期有关RFM模型中的R怎么快速计算距离天数如何找出某个时间点或时间段的数据以某订单数据为例查看时间列，包括日期和时间，从19年到20年，共约4万条数据，注意类型是datetime如果类型不是datetime，则后续无法处理时间数据！如下新建一列类型不是datetime的时间数据，在提
python数据处理常用代码表（持续更新中）金工校尉 python通用 finance python
作图篇plt作图中文显示问题插入两行代码plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False作图分辨率、画布大小、参考线设置、添加文字plt.figure(dpi=
python数据处理与分析案例,python数据处理程序代码阳阳2013哈哈 python
大家好，小编来为大家解答以下问题，python数据处理案例步骤及其代码，python数据处理与分析教程，现在让我们一起来看看吧！数据预处理前言一、熟悉数据1.1数据表的基本信息查看1.2查看数据表的大小1.3数据格式的查看1.4查看具体的数据分布二、缺失值处理2.1缺失值检查2.2缺失值删除2.3缺失值替换/填充三、重复值处理3.1发现重复值四、异常值的检测和处理4.1检测异常值4.2处理异常值五
Polars基本操作-1 9命怪猫 python
Polars是一个Python数据处理库，介绍可以看官网，也可以看看Pandas有了平替Polars-CSDN博客Polars基本操作1.Series和Dataframeimportpolarsaspl#创建一个PolarsDataFramedata={"A":[1,2,3,4,5],"B":["a","b","c","d","e"],"C":[True,False,True,False,True
Python3(15)：python之实际应用--python数据处理，读取Excel数据并进行对比宁儿测开进阶 python相关 python excel 开发语言
python之实际应用--python数据处理，读取Excel数据并进行对比前言产品的媒体库(开发代码)更新逻辑：跟第三方接口对接，每日需要发送新的媒体给第三方接口至少200条，并且需要更新媒体的数据信息，逻辑如下：每天删除第三方的媒体库中的200条媒体需要从公司产品的媒体库读取至少新的200条数据发送到第三方媒体库(如昨日媒体库缺少，则需要补足)保证每次发送成功并入第三方的媒体库的是至少200条
python数据处理作业1：输出1~100之间不能被7整除的数，美化输出格式要求每行输出10个数字西鲶鱼数学建模
每日小语：其实人和树是一样的，越是向往高处的阳光，它的根越要伸向黑暗的地底。——尼采gpt代码：count=0#用于计数每行输出的数字个数fornuminrange(1,101):ifnum%7!=0:print(f'{num:3}',end='')count+=1#如果输出了10个数字，换行并重置计数ifcount==10:print()count=0#确保最后一行有换行ifcount>0:pr
Python数据处理笔记小陈总想啥
Python有多容易忘记,如果不整理,过一段时间就完全重新学了.所以借着这一些练习,把自己学过的东西记录并总结,才方便日后回顾.importpandasaspd另外可以导入Series和DataFrame，因为这两个经常被用到：frompandasimportSeries,DataFrameDataFrame生成DataFrame的若干种方式从文件中来:最常见的方式手动生成:可以根据自己的喜好来定
Python数据处理张先森啊 python数据处理与分析 python 开发语言后端 pandas numpy
Python数据处理-numpy和pandas库的学习1.numpy数组1.1numpy的ndarray:一种多维数组对象ndarray是一个通用的同构数据多维容器，其中所有的元素必须是相同类型的，每个数组都有一个shape(一个表示各维度大小的元组)和一个dtype(一个用于说明数组数据类型的对象)1.1.1创建ndarray创建数组最简单的方法就是使用array函数，它接受一切序列型的对象（包
Pandas有了平替Polars 9命怪猫 pandas 人工智能
Polars是一个Python数据处理库，旨在提供高性能、易用且功能丰富的数据操作和分析工具。它的设计灵感来自于Pandas，但在性能上更加出色。Polars具有以下主要特点：强大的数据操作功能：Polars提供了类似于Pandas的数据操作接口，可以进行数据的切片、过滤、聚合、排序等常见操作，并且支持链式操作，方便编写复杂的数据处理流程。高性能的计算引擎：Polars的底层使用Rust语言编写，
Python数据处理048：Python读写pkl文件惊鸿若梦一书生 Python数据分析 Python机器学习 Python深度学习 python 开发语言
文章目录原理pkl文件介绍pkl文件优缺点python数据和pkl相互转换的原理代码代码解释注意事项原理pkl文件介绍Pickle（.pkl）格式是Python特有的一种数据序列化方式。它允许用户将几乎任何Python对象转换为字节流，并将其存储在文件中。之后，可以从这个文件中恢复（反序列化）原来的Python对象。这种格式广泛用于数据持久化和在程序运行间传递对象。Pickle格式的介绍：通用性:
Python数据处理必备：Pandas DataFrame中行迭代技巧大曝光！ Sitin涛哥 Python python pandas 开发语言
更多资料获取个人网站：ipengtao.com在数据分析和处理中，Pandas是Python中最常用的库之一，而DataFrame是Pandas的核心数据结构之一。迭代DataFrame中的行是一种常见的操作，本文将详细介绍几种迭代DataFrame行的方法，并提供丰富的示例代码。1.使用iterrows()方法iterrows()方法是Pandas中迭代DataFrame行的一种基本方法。它返回
图解NumPy：常用函数的内在机制逍遥_yjz
支持大量多维数组和矩阵运算的NumPy软件库是许多机器学习开发者和研究者的必备工具，本文将通过直观易懂的图示解析常用的NumPy功能和函数，帮助你理解NumPy操作数组的内在机制。NumPy是一个基础软件库，很多常用的Python数据处理软件库都使用了它或受到了它的启发，包括pandas、PyTorch、TensorFlow、Keras等。理解NumPy的工作机制能够帮助你提升在这些软件库方面的技
用Python数据处理分析入门必备系列文章：环境安装醉月似心 Python Python Python学习 Python开发
最近有挺多小伙伴问我要入门Python的资料，还有小伙伴完全没有入门Python就直接购买了我的pandas专栏。因此我决定写几篇Python数据处理分析必备的入门知识系列文章，以帮助有需要的小伙伴们更好入门。前言学习Python的第一步当然是安装他，毕竟目前来说Windows没有Python这玩意。但是，如果你是用Python做数据领域的事情，那么必定要安装numpy、pandas等各种第三方库
Python数据处理：如何自动插入相关数据到工作表中 EaSoNgo111 python 开发语言
defprice_insert_15_20_30(self,df,column):df=df.rename(columns={column:'sku'})data=pd.read_excel(r'C:\Users\wangkejun\Desktop\orderadjust\tempdata\caculatetemp.xlsx')data['sku']=df['sku']columns=list(d
python数据处理-pandas-拼接 45度看我数据分析 python pandas
python数据处理-pandas-拼接一：数据拼接方式1，pd.concat()、pd.merge()、Dateframe.join()、pd.append()2，区别二：pd.concat()1，源码参数2，常用参数解析1,objs2,axis3,join4，ignore_index三：Dateframe.join()1，常用参数解析四：pd.append()1，源码参数2，常用参数说明：五：
入门指南：介绍Python库——Pandas 小肖学数据分析 Python pandas python 开发语言
个人网站本文首发于公众号小肖学数据分析Pandas是一个功能强大、灵活易用的Python数据处理库。无论你是数据分析师、数据科学家还是Python初学者，掌握Pandas都将为你提供高效、便捷的数据处理和分析能力。本文将为你详细介绍Pandas的基本概念、常用功能和使用示例，帮助你快速上手这一强大的Python库。在当今数据驱动的世界中，处理和分析数据已成为各行各业的关键任务。为了更高效地处理大规
Python pandas对表格进行整行整列筛选、删除或修改，对特定值进行修改 Fo*(Bi) Python程序设计小技巧数据挖掘与数据分析 python pandas
Pandas库的使用Pandas库：从入门到应用(二)–行列数据读写Python数据处理工具——Pandas（数据的预处理）Pandas库有两个数据类型:Series,DataFrameSeries=索引+一维数据DataFrame=行列索引+二维数据DataFrame类型DataFrame类型介绍DataFrame类型由共用相同索引的一组列组成。DataFrame是一个表格型的数据类型，每列值类
【Python】Pandas基础操作深海大凤梨_ Python pandas python 数据分析
Pandas是一个重要的Python数据处理库。它提供了数据结构和数据分析工具，使得数据清洗、分析和可视化变得更加容易。在本文中，我们将列举一些常用的Pandas基础操作。读取数据Pandas提供了多种方法来读取不同格式的数据。其中最常用的是read_csv()和read_excel()函数。使用这些函数可以轻松地将数据加载到PandasDataFrame中。importpandasaspd#读取
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

Python的大数据处理模块Pandas

to_csv()

数据框操作

索引

选择数据

Modozil的博客

一、 创建对象

二、 查看数据

三、 选择

四、 缺失值处理

五、 相关操作

六、 合并

七、 分组

Stack堆

你可能感兴趣的:(Python数据处理)

`to_csv()`

一、创建对象

二、查看数据

三、选择

四、缺失值处理

五、相关操作

六、合并

七、分组