HYESC

pandas快速入门

pandas

Pandas的名称来自于面板数据（panel data）和Python数据分析（data analysis）。

Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了高级数据结构和数据操作工具，它是使Python成为强大而高效的数据分析环境的重要因素之一。

pandas的常用数据类型

1、Series 一维，带标签数组（相对于numpy的数组，多了一列标签）
2、DataFrame 二维，Series容器，（单独的一列拿出来就是一个series，因此是容器），类似普通的数据库形式

Series

ndarray是可以使用for循环遍历的
series同样可以，遍历的时候，标签会被去掉

Series创建

series中的index对应的是字典中的key，而非列表的下标
可以通过ndarray、列表、字典进行创建，具体代码如下：

# 未指定index时，默认从0开始自增，类似mysql数据库自增主键
a = pd.Series(np.arange(10))
# 指定index，需要index的长度与数组的长度保持一致
b = pd.Series(np.arange(10), index=list(string.ascii_uppercase[:10]))
# 字典数据无需指定index，字典的key是index，value是具体的值
data = {string.ascii_uppercase[i]: i for i in range(10)}
c = pd.Series(data)
# 字典数据人为指定index，如果与字典的key相同，则转换字典数据，与key不对应的index，默认以NaN填充
d = pd.Series(data, index=list(string.ascii_uppercase[5:15]))
# 可迭代对象创建
e = pd.Series(range(10))
# 列表创建
f = pd.Series([1, 2, 3, 4])

Series修改数据类型和numpy雷同

f = f.astype(np.float64) # f就是上边代码的f

name属性

可以通过赋值进行设置，也可以通过属性直接获取名字
对象名：series.name
对象索引名：series.index.name

c.name = 'number'
c.index.name = 'index'
print(c.name)
print(c.index.name)

Series的索引

取一个值的时候，类似列表或字典取值，直接传入一个下标或者index即可，取多个值的时候，需要传入下标或index的列表
例子：

f = pd.Series([1, 2, 3, 4], index=list(string.ascii_lowercase[:4]))
# 索引取单值
print(f[0])  # 位置索引，和列表下表雷同
print(f['d'])  # index索引，和字典通过key获取value雷同
# 索引取多值，得到series
print(f[[0, 1]])
print(f[['a', 'b']])
print(f[['a', 'e']])  # e不存在，以NaN填充
# print(f[[0, 5]])  报错，因为5这个下标不存在
# print(f[['f']])  报错 f不存在
# print(f['f'])  报错 f不存在

综上，索引方式较列表更为丰富，可取单值，多值，下标索引，index索引（类字典）
单值索引取出单值，多值索引取出Series

Series 切片

data = {string.ascii_uppercase[i]: i for i in range(10)}
c = pd.Series(data)
print(c[0:2])
print(c['A':'C'])  # 相较于下标切片，他包含有C对应的value，能取到末尾
print(c['a':'c'])  # 不存在此index，取出空series
print(c[0:5:2])
print(c[c > 4])  # 布尔索引，和numpy类似

综上，切片可与列表用相同的方式切出，同时还支持使用index进行切片的方式切出

Series的索引和值

通过Series的两个属性来获取索引（index属性）和值（values属性）

print(c.index)  # 得到Index类型
print(c.values)  # 得到ndarray类型

总结

Series本质上由两个数组构成，一个数组构成对象的键(index，类字典的key)，一个数组构成对象的值（values，类字典的value），同样是一个个键值对存在

ndarray的很多方法都可以运用在series类型，如argmax，clip等
很多方法中都有inplace参数，用来指定是更改原数组或Series的值，还是返回一个新对象

series的where方法和ndarray不同？？？？？？？？？？TODO 需要详细对比了解下

read_csv的文件名不要带中文，会报错还需要多测试几次

读取文件数据

csv、网站等数据

# 返回的是dataframe类型
pd.read_csv('filepath or url')

读取mysql
pd.read_sql() 具体使用需要研究一下

读取mongodb，还不知道是哪个命令

DateFrame

二位数组，结构上类似传统数据库，有行索引和列索引
numpy中的二位数组传递进来就变为DateFrame类型：pd.DateFrame(np.arange(12).reshape((3,4)))

创建DateFrame类型

通过二维数组创建

# 通过index和column参数指定行索引和列索引
a = pd.DataFrame(np.arange(12).reshape((3, 4)), index=list(string.ascii_lowercase[:3]), columns=list(string.ascii_uppercase[:4]))

通过字典创建

# key变为列索引，不存在的key以NaN填充
b = [{'a': 1, 'b': 2}, {'a': 2, 'b': 3, 'c': 7}, {'a': 4, 'b': 5}]
c = pd.DataFrame(b)
print(c)  


# key变为列索引，对应列表变为具体的值
d = {'a': [1, 3, 4], 'b': [2, 4, 5]}  # a b必须拥有相等的长度，否则报错
e = pd.DataFrame(d)
print(e)
# 以下为结果
   a  b    c
0  1  2  NaN
1  2  3  7.0
2  4  5  NaN
   a  b
0  1  2
1  3  4
2  4  5

DateFrame基础属性和方法

# 和numpy类似，有很多表明df基本信息的属性
df.shape  # 行数，列数
df.dtypes  # 列数据类型，结果为Series类型
df.ndim  # 数据维度
df.index  # 行索引，和series中的index一个意思
df.columns  # 列索引
df.values  # 对象值，二维数组

注意：行索引和列索引都是Index类型

DataFrame整体情况查询

df.head(3)  # 显示头三行，默认五行
df.tail(3)  # 显示末三行，默认5行
df.info()  # 相关信息：行数，烈属，列索引，列非空值个数，列类型，内存占用
df.describe()  # 快速综合统计结果：每一列的计数，均值，标准差，最大值，最小值，四分位数

DataFrame排序

df.sort_values(by='a', ascending=False)  # ascentding默认升序
df.sort_values(by=['a','b'], ascending=False)  # 先以a排序，当a相等时，以b进行排序

pandas取行或列

注意：不需要掌握中括号的方式，不推荐
单独取一列：print(f['A'])取出A列的数据，得到series

loc方式

此方式通过标签取值，通俗讲通过行索引或列索引进行操作，即index和column的名称取

f = pd.DataFrame(np.arange(12).reshape((3, 4)), index=list(string.ascii_lowercase[:3]),columns=list(string.ascii_uppercase[:4]))
# 取出一列，取出的结果是series
print(f.loc[:, 'A'])
print(type(f.loc[:, 'A']))
# 取出多列，如A-C列，取出的结果是dataframe
print(f.loc[:, 'A':'C'])
# 取出某行某列，即对应的某一个位置的值，单独的值被取出
print(f.loc['a', 'A'])
# 取出两行两列，取出dataframe
print(f.loc['a':'b', 'A':'B'])
# 取出指定的某几列的数据，如A,C,取出dataframe
print(f.loc[:, ['A', 'C']])
# 取出指定的某几列某几行的数据,取出dataframe
print(f.loc[['a', 'c'], ['A', 'C']])
# 取出指定某一行的所有数据，结果是series
print(f.loc['a', :])
print(f.loc[['a'], :])
# 取出指定某一行的某几列数据，结果是series
print(f.loc['a', ['A', 'C']])
# 需要取出的结果是dataframe
print(f.loc[['a'], ['A', 'C']])

iloc方式

此方式通过位置索引取值，通俗讲就是下标，如取第几行第几列的数据
代码同样以loc方式生成的数据为例进行
整体方式和loc没什么区别，可以使用切片方式，也可以使用逗号的方式，仅仅是将行索引和列索引变更为对应的行下标和列下标，如第2行第5列，第2-5行第5-6列等等。

布尔索引

和numpy的布尔索引类似

print(f[f > 5])  # 小于5的被nan替换
print(f['C'] > 5)
print(f[f['C'] > 5])  # 只要C列数据大于5，那么这一行数据均返回
print(f[(f['C'] > 5) & (f['A'] > 4)])  # 注意条件需要带上括号，否则报错
print(f[(f['C'] > 5) | (f['A'] < 4)])  # 注意条件需要带上括号，否则报错

注意点：不同的条件之间需要用括号括起来

pandas的字符串方法

str方法属于series独有，dataframe没有此方法，也就是说从dataframe中取出来的必须是个series
使用方式为：sh['date'].str 如此即可得到str对象

print(sh['date'].str.len())  # 得到series，每一行的字符串长度全部获取
print(sh.loc[:, 'date'].str.len())  # 和上边的一个性质
print(sh['date'].str.contains('2'))  # 返回布尔类型，是否包含2

缺失值处理

主要使用fillna方法进行处理
注意在pandas中计算均值等运算时，nan不参与运算，numpy中是会参与运算的

g = pd.DataFrame(np.arange(24).reshape((4, 6)), index=list(string.ascii_uppercase[:4]),
                 columns=list(string.ascii_uppercase[4:10]))
print(g)

# 将数据里的部分数据替换为nan和0
g.loc['A', 'G'] = 0
g.loc['C', 'H'] = np.nan
g.loc['B', 'H'] = np.nan
g.loc['D', 'F'] = np.nan
print(g)

# 判断数据是否为nan，得到布尔类型的数据
# print(pd.isnull(g))
# print(pd.notnull(g))

# 使用fillna方法进行填充，此方式有返回值，可通过参数设置没有返回值
g.fillna(g.mean(), inplace=True)  # 替换为每列的均值
g.fillna(g.median(), inplace=True)  # 替换为每列的中值
g.fillna(0, inplace=True)  # 替换为0
print(g)

# 计算某一列的平均值
print(g['F'].mean())

# 只填充有NaN的某一列
print(g['F'].fillna(g['F'].mean(), inplace=True))

一般情况下，数据存储方式是以列来存储同一类型的数据，因此填充缺失值时往往是以列均值填充，一般没有使用行均值进行填充的，即使需要用行均值进行填充，依然可以通过转置，将数据转换后，依旧按列进行填充即可。无需深究如何以行均值填充缺失值，没有意义。

关于0值，看情况是否需要将其转换为nan，如果需要使用 g[g==0]=np.nan 布尔索引的方式赋值

删除缺失值

g.dropna(axis,how)
axis指定按行还是列删除，how指定any或all，any表示只要有一个nan，就删除，all表示全部为nan时才删除

pandas常用统计方法

基本上和numpy的统计方法雷同
max,argmax,min,argmin,median,mean等等，如果有具体需求，搜索查看是否有相关方法

tolist()和to_dict()

tolist()可以讲series中存储的列表数据，转存到一个大列表中，形成列表嵌套列表，可以直接转换为二位数组的列表
to_dict()可以将dataframe转为字典格式，当在做特征抽取时，会用到此方法，因为需要字典数据进行one-hot编码处理

one-hot编码的手动实现思路

需求：统计每个电影都属于哪些类别，最后能够汇总统计每个类别有多少电影？
解决：构造一个列数等于类别数，行数等于电影数的全为0的数组，然后以电影类别为列名，电影名作为行名，将其构造为dataframe类型，然后遍历每个电影有什么类别，将0改为1即可。
具体代码如下：

import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
file_path = "./IMDB-Movie-Data.csv"

df = pd.read_csv(file_path)
print(df["Genre"].head(3))
#统计分类的列表
temp_list = df["Genre"].str.split(",").tolist()  #[[],[],[]]

genre_list = list(set([i for j in temp_list for i in j]))

#构造全为0的数组
zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)
# print(zeros_df)

#给每个电影出现分类的位置赋值1
for i in range(df.shape[0]):
    #zeros_df.loc[0,["Sci-fi","Mucical"]] = 1
    zeros_df.loc[i,temp_list[i]] = 1

# print(zeros_df.head(3))

#统计每个分类的电影的数量和
genre_count = zeros_df.sum(axis=0)
print(genre_count)

#排序
genre_count = genre_count.sort_values()
_x = genre_count.index
_y = genre_count.values
#画图
plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y,width=0.4,color="orange")
plt.xticks(range(len(_x)),_x)
plt.show()

数据合并

类似sql的join，目的是通过某些相同的条件，来得到另一个表更多的信息，如学生表和班级表，每个学生都有一个班级的id，通过这个id进行join，就可以得到联合表结果，从这个结果中可以得到每个学生班级的名称等一系列信息。

join和merge对应的均是标准sql中的join用法，区别在于join默认是以行索引对齐进行连接，on参数是用来指定以哪列来对齐，但是这一列需要变为行索引才可以进行连接，这是他的限制，个人感觉如果就需要以默认的行索引进行拼接，就是用join，否则使用merge即可。

merge是完全符合标准sql的join用法，how用来指定连接方式，on用来指定连接的条件

join

join提供了方便的以行索引进行连接查询的方式。
理解为sql中的join的用法即可，包括left，right，inner，outer，这几项通过how参数进行设置
on的设置没看明白，需要单独研究TODO
当两表（两个数据集）有相同的列名时，需要添加后缀，通过lsuffix和rsuffix进行设置
默认是left join的用法，右表不存在的数据以NaN填充

df1 = pd.DataFrame(np.arange(12).reshape((3, 4)), index=['a', 'b', 'c'], columns=['A', 'B', 'C', 'D'])
print(df1)

df2 = pd.DataFrame(np.arange(15).reshape((5, 3)), index=['a', 'c', 'd', 'e', 'f'], columns=['D', 'F', 'G'])
print(df2)

df = df1.join(df2, lsuffix='l',rsuffix='r')  # suffix后缀的意思
print(df)

df = df1.join(df2, how='right', lsuffix='l',rsuffix='r')
print(df)

df = df1.join(df2, how='inner', lsuffix='l',rsuffix='r')
print(df)

可以发现是通过index进行连接的
因此，df1和df2的左右顺序对结果是有影响的

merge

np.random.seed(1)
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': np.random.randn(4)})
df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'], 'value': np.random.randn(4)})
print(df1)
print(df2)

# join
df = df1.join(df2, lsuffix='_l', rsuffix='_r')
print(df)
# 通过merge实现join的效果应该如何实现
# 连接后会比join多一列key_0，原因是这一列是指定的条件列，join因为是index是条件，结果中的index已经体现了条件
df = df1.merge(df2, how='left', left_on=df1.index, right_on=df2.index, suffixes=('_l', '_r'))
print(df)
# left_on和right_on用来指定两个表分别以什么列来进行条件的判断
# merge
df = df1.merge(df2, on='key')  # 默认内连接
print(df)

df = df1.merge(df2, on='key', how='left')  # 左连接
print(df)

df = df1.merge(df2, on='key', how='right')
print(df)

参数on还可以传入列表，以多列进行条件筛选，具体见https://blog.csdn.net/weixin_37226516/article/details/64137043

分组和聚合

通过 df.groupby(by='') 实现

by的值可以是列表内嵌套多个列名，也可以是单独的一个列名，同时还可以是列表内嵌套取出的一列数据
对某几列数据进行分组：
df["Country"].groupby(by=[df["Country"],df["State/Province"]]).count() 参数是两组数据，因为源数据只有country这列，不能直接指定不存在的列名了，所以只能如此取出，感觉没什用处。

结果是迭代器，每个数据都是元组，包含两个数据，第一个是分组依据的结果值，如上述df，分组后的B,D，E，就是这里指的值，第二个是dataframe，是分到某一组的具体数据

实现的的结果，和sql中的类似，也有聚合函数可以使用如：

df = pd.read_csv('./directory.csv')

# 需求，美国和中国哪里的星巴克数量多
# 解决：以Country进行分组，而后统计数量得到结果
# 中国是cn，美国是us，得到结果迭代器对象，遍历得到的是元组
country = df.groupby('Country')  
count = country.count()  # 统计所有国家的数量，dataframe类型，结果中包含所有的列，任意一列都可作为统计的结果
# 从count中取出index是US和CN的两行一列数据，列可取任意一列，因为数据都相等
us = count.loc['US', 'Brand']
cn = count.loc['CN', 'Brand']
print('us:%s,cn:%s' % (us, cn))

# 需求：中国每个省份星巴克的数量
# 解决：先以国家和省份进行分组，然后使用count，得到复合索引的dataframe，再从中取出CN
# 如果先以国家分组，再以省份分组，需要进行for循环遍历找出CN的那组dataframe
country = df.groupby(by=['Country', 'State/Province'])
count = country.count()
print(count)  # ountry和State/Province 共同作为index存在
print(count.loc['CN', 'Brand'])  # 先分组再取出特定的列和行

country = df.groupby(by=['Country', 'State/Province'])['Country']
print(country.count().loc['CN'])  # series  和上边的执行结果一致，先取出某一列，在此列的基础上进行统计
# 两种方式均可，个人习惯第一种，更加清晰，第二种从分组结果的迭代器中再取出某一列数据，无法直观看到结果

索引和复合索引

普通索引

df = pd.DataFrame(np.arange(12).reshape((3, 4)), columns=['a', 'b', 'c', 'd'])
print(df)

# 获取索引
print(list(df.index))
# 重新设置index
df.index = ['x', 'y', 'z']
print(df)
# 创建一个新索引的新对象，不是表面的reindex的意思
# 相当于从df中取出xzf行的数据组成新df，如果索引不存在，以nan填充
df = df.reindex(list('xzf'))
print(df)

指定某一列成为索引

# 指定某一列成为index，原索引会被删掉
df = df.set_index('a', drop=False)  # drop指的是是否在数据中删除a这一列
print(df)

# df = df.set_index('a', drop=False)
df.loc[4, 'b'] = 1
print(df['b'])
# 需求，对某一列的数据进行去重时，可以取出此列，然后使用unique方法实现
print(df['b'].unique())  # 是series的方法，实现去重，得到一维数组

复合索引

可以通过set_index传入列表来指定复合索引，groupby时，如果以多个条件进行分组，也会得到复合索引

df = df.set_index(['a', 'b'])['c']
print(df)
a  b
0  1     2
4  5     6
8  9    10
print(df[4])  
print(df[4, 5])

可以通过df.swaplevel()进行复合索引里外层位置的交换
更多内容可查阅资料

时间序列

利用date_range(start,end,periods,freq)生成时间序列
start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引
start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引

时间的格式支持很多，常见的均支持，更多的可以进入源码内看样例

d = pd.date_range(start='20181101', end='20191101')
d = pd.date_range(start='2018-11-01', end='2018-12-01')
d = pd.date_range(start='2018/11/01', end='2018/12/01')
d = pd.date_range(start='11/01/2018', end='12/01/2018')

时间序列存在的意义：数据中有很多时间格式的数据，当想以时间进行统计时，如按月或季度进行统计，但是数据中的时间是字符串形式存在的，此时就需要将其转换为datetime类型，然后可以按需要的时间进行设置。这个重新设置时间的过程称为重采样。

to_datetime能够将series中的时间转换成datetimeindex

df["timeStamp"] = pd.to_datetime(df["timeStamp"],format="")

format参数大部分情况下可以不用写，但是对于pandas无法格式化的时间字符串，我们可以使用该参数，比如包含中文
python的datetime类型中格式化时间的写法写道format中，就可以识别了

resample重采样

重采样：指的是将时间序列从一个频率转化为另一个频率进行处理的过程，将高频率数据转化为低频率数据为降采样，低频率转化为高频率为升采样

t = pd.DataFrame(np.random.uniform(10, 50, (100, 1)), index=pd.date_range('20180101', periods=100, freq='D'))
# print(t)
# 按月重采样
t= t.resample('M')
print(t)  # 返回DatetimeIndexResampler对象

print(t.mean())  # 可以根据结果进行统计
print(t.count())

PeriodIndex

如果原始数据中的时间，如年月日是分开存储的，需要将其合并为一个时间，就用到这个了

# 可以将其转为pandas的时间类型PeriodIndex
periods = pd.PeriodIndex(year=data["year"],month=data["month"],day=data["day"],hour=data["hour"],freq="H")

给原dataframe添加一列数据

df["dtime"] = periods

d = pd.DataFrame(np.arange(12).reshape((3, 4)), index=['a', 'b', 'c'], columns=['A', 'B', 'C', 'D'])
print(d)

d.loc[:, 'E'] = [1, 2, 3]  # 直接传递列表，不是series，没有index
print(d)

s = pd.Series(list(range(3)))
print(s)
d['G'] = s  # 因为s默认是有索引的，因此和d中的索引不符合，赋值后会导致G这列数据全部是NaN
print(d)
# 解决上边的问题，将series变为列表后再进行赋值，即可快速添加
# 复杂的方式，在获取series时，将其index指定为原df的index
d['F'] = list(s)
print(d)

同时添加多列数据，不清楚怎么添加多列，还是将多列拆分为单列后，添加

你可能感兴趣的:(pandas,python技巧)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python编写直方图和饼图 2301_80421078 python 开发语言
1.直方图#直方图的绘制#语法格式：plt.hist(x,bins),其中x:数据集；bins:统计数据的分布区间importmatplotlib.pyplotaspltimportpandasaspd#导入文件excel=pd.read_excel('成绩.xlsx')#print(excel)#避免乱码plt.rcParams['font.sans-serif']=['SimHei']x=ex
pythonpandas函数详解_Python pandas常用函数详解 Senvn
本文研究的主要是pandas常用函数，具体介绍如下。1import语句importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportdatetimeimportre2文件读取df=pd.read_csv(path='file.csv')参数：header=None用默认列名，0，1，2，3...names=['A','B','C'
python画出分子化学空间分布（UMAP） Sakaiay python
利用umap画出分子化学空间分布图安装pipinstallumap-learn下面是用一个数据集举的例子importtorchimportumapimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.manifoldimportTSNEfromrdkit.Chemimport
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
python如何更方便的处理日期和时间 openwin_top python编程示例系列 python编程示例系列二 python java 前端
Arrow是一个第三方Python库，提供了更加易用和方便的日期和时间处理接口。它的设计目标是提供一种简单、一致且易于使用的API，以替代Python内置的datetime模块。Arrow支持各种日期和时间的操作，包括时区转换、日期和时间格式化、日期和时间差计算等功能。它还支持与其他日期和时间库的互操作，例如datetime、dateutil和pandas等库。以下是一个使用Arrow库的简单示例
python下载pandas库镜像_下载pandas库 weixin_39791152
背景交代：在下载matplotlib库时，我已经将pip的下载源手动更改为清华的镜像，所以，如果有小伙伴在下载库遇到问题，如timeout，请先将下载源改为国内镜像，具体操作见我的另一篇文章：今天的主题是安装pandas库~首先，按田字格+R，打开cmd，输入：pipinstallpandas嗯，不出所料地报错了……主要原因：pip._vendor.urllib3.exceptions.ReadT
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
如何“选择不同的“?跨越 pandas 中的多个数据框列? 潮易 pandas
在pandas中，如果你想要选择不同的列，你可以使用DataFrame的loc属性和iloc属性的组合。loc属性是基于标签的，iloc属性则是基于索引的。如果你想要选择多个列，你只需要将它们放入一个列表即可。以下是一个代码示例：```pythonimportpandasaspd#创建一个数据框df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]
详解 Pandas 的 query 函数文刀小桂 Pandas pandas python 开发语言
Pandas的query()方法能够使用字符串表达式来筛选DataFrame数据的行，类似于SQL的where子句importpandasaspddf=pd.DataFrame({"A":[1,3,5,6,7],"B":[11,10,9,8,12],"C":["hello","pandas","python","java","shell"],"D":["2024-02-01","2023-12-1
详解 Pandas 的 isin 用法文刀小桂 Pandas pandas python
Pandas的isin()方法可以判断数据值是否在某个数据集合中，若与集合中的某个值相等则返回True，反之返回False。importpandasaspddf=pd.DataFrame({"title":["one","two","three","four"],"type":["small","common","middle","large"],"num":[10,20,30,40]})#1.判
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
groupby 中如何显示 tqdm 的进度条？ domodo2020
在循环时调用tqdm显示进度已经是一个常规操作，常见的方式是foriiintqdm(...):...while循环的情况类似，whileicntintqdm(range(n)):...icnt+=1这里记录没有显式循环时，在groupby中的用法：importpandasaspdimportnumpyasnpfromtqdmimporttqdmdf=pd.DataFrame(np.random.r
pandas读取xlsx文件使用sqlachemy写到数据库 hzw0510 pandas pandas 数据库
pandas读取xlsx文件使用sqlachemy写到数据库要使用pandas和SQLAlchemy将Excel文件中的数据读取到数据库中，你可以按照以下步骤进行操作：安装必要的库：确保你已经安装了pandas、SQLAlchemy和openpyxl（用于读取Excel文件）。可以使用以下命令安装：pipinstallpandassqlalchemyopenpyxl如果你使用的是特定的数据库（如S
python 问题 ‘list‘ object cannot be interpreted as an integer 和‘int‘ object is not iterable annekqiu python
访问同一个excel表格（含有多个sheet）importnumpyasnpimportpandasaspdimportxlrd#读取excel的库importxlwt#写excel的库data=xlrd.open_workbook('./161005.xlsx')#打开excel文件读取数据table=data.sheets()[0]#读取sheet1h=table.ncols#获得列表数目a1
【Python】写入Pandas DataFrame到CSV文件 civilpy python pandas 开发语言
基本原理Pandas是一个强大的Python数据分析库，它提供了许多用于数据处理和分析的功能。在处理数据时，我们经常需要将数据保存到文件中，以便后续使用或分享。CSV（Comma-SeparatedValues，逗号分隔值）文件是一种常见的数据交换格式，它以纯文本形式存储表格数据，每行表示一个数据记录，列之间用逗号分隔。DataFrame是Pandas中用于存储表格数据的主要数据结构。它类似于Ex
Python酷库之旅-第三方库Pandas(115) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲506、pandas.DataFrame.rank方法506-1、语法506-2、参数506-3、功能506-4、返回值506-5、说明506-6、用法506-6-1、数据准备506-6-2、代码示例506-6-3、结果输出507、pandas.DataFrame.round方法507-1、语法507-2、参数507-3、功能507-4、返回值507-5、说明507-6、用法507
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
pandas中的loc和iloc 白日与明月 python 数据挖掘 pandas
loc和iloc的比较.loc和.iloc是pandas提供的两种不同的索引方法，它们的主要区别在于索引数据的依据：.loc：基于标签的索引，使用DataFrame或Series的索引标签（即行名和列名）来获取数据。可以使用单个标签、标签列表、标签切片、布尔数组或者callable函数作为索引器。如果使用标签索引并且标签不存在，.loc会抛出一个KeyError。对于切片，包括两端的标签。.ilo
pandas loc与iloc的区别 authorized_keys 数据处理 python pandas loc iloc
目录一、二者的特点二、官网原文三、例子——总有一款适合你一、二者的特点loc可用“字符”、“整数”、“布尔值”作为索引，也就是标签索引注意：此处的“整数”将被解释为index的一个label而不是index的位置iloc只允许“整数”作为索引，也就是位置索引，和列表索引类似，里面只能是数字注意：此处的“整数”将被解释为index的位置，前闭后开其中，loc是指location的意思，iloc中的i
pandas中loc和iloc的区别林光虚霁晓数据分析 pandas
在Pandas中，loc和iloc是用于选择和过滤数据的两种主要方法，它们的区别在于使用的索引类型。1.loc：基于标签索引loc是基于行或列的标签（label）来选择数据。它可以按行或列的名称来访问数据，也可以通过布尔索引选择。支持的索引类型：行标签、列标签、布尔索引。语法：DataFrame.loc[row_indexer,column_indexer]示例importpandasaspd#创
seurat自学笔记1.0 单细胞数据导入 Sanye2022 python pandas
Python读取.h5ad文件importanndataimportpandasaspdadata=anndata.read("/home/R/R_data/Seurat/PBMC10/output/adata.h5ad")#adata.X.todense()#将稀疏矩阵转成普通矩阵#X=pd.DataFrame(adata.X.todense())#cell_name=adata.obs.ind
Pandas教程：详解Pandas数据清洗旦莫 Python Pandas python pandas 数据分析
目录1.引言2.Pandas基础2.1安装与导入2.2创建一个复杂的DataFrame3.数据清洗流程3.1处理缺失值3.1.1删除缺失值3.1.2填充缺失值3.2数据去重3.3数据类型转换4.数据处理与变换4.1添加与删除列4.2数据排序5.数据分组与聚合6.其他数据清洗方法6.1字符串处理6.2时间序列处理6.3数据类型转换1.引言数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质
python的pandas库帅维维 python pandas 开发语言
什么是pandasPandas是一个开源的第三方Python库，它从Numpy和Matplotlib的基础上构建而来，享有数据分析“三剑客之一”的盛名。Pandas已经成为Python数据分析的必备高级工具，目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。数据结构Pandas中除了Panel数据结构,还引入了两种新的数据结构——Series和DataFrame,这两种数据结构都建立在Nu
Python数据分析及可视化教程--商城订单为例-适用电商相关进行数据分析---亲测可用！！！！ Dreams°123 AIGC 机器学习 python 测试工具数据分析大数据
前言：Python是进行数据分析和可视化的强大工具，常用的库包括Pandas、NumPy、Matplotlib和Seaborn。以下是一个基本的教程概述，介绍了如何使用这些库来进行数据分析和可视化：Python数据分析及可视化教程1、环境准备2、数据准备3、开始数据分析3.1、导入库3.2、加载数据3.3、数据预处理3.4、数据分析3.5、数据可视化4、总结解释使用方法：5、错误处理和异常判断说明
python第三方库手动安装教程_为了应对异常情况，提供最原始的python第三方库的安装方法：手动安装。往往是Windows用户需要用到这种方法。... weixin_39735247
进入pypi.python.org，搜索你要安装的库的名字，这时候有3中可能：第一种是exe文件，这种最方便，下载满足你的电脑系统和python环境的对应的exe，再一路点击next就可以安装。第二种是.whl类文件，好处在于可以自动安装依赖包。第三种是源码，大概都是zip、tar.zip、tar.bz2格式的压缩包，这个方法要求用户已经安装了这个包所依赖的其他包。例如pandas依赖于numpy
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/