雨落GJS

pandas学习笔记

一、pandas库的Series类型

1、初始化

1、一维Series可以用一维列表初始化

a=pd.Series([1,3,5,np.nan,6,5])

2、索引

1、默认的情况下，Series的下标都是数字（可以使用额外参数指定），类型是统一的

b=pd.Series([1,3,5,np.nan,6,5],index=['a','b','c','d','e','f'])
print(b)

2、索引——数据行标签

a.index

3、取值

a.values

4、切片

a[2:5]

5、索引赋值

a.index=list('abcdef')

6、根据默认索引取值

ser.value_count().index[0:2]

3、查看数据

1）Series.take(参数)

Series.take(indices, axis=0, convert=None, is_copy=True, **kwargs)

参数说明：

参数	说明
indices	一个整数数组，指示要采取的位置。
axis	选择元素的轴。0：行，1：列
convert	是否将负指数转换为正指数
is_copy	是否返回原始对象的副本。

Series.take(indices, axis=0, convert=None, is_copy=True, **kwargs)
例：
sr = pd.Series(['New York', 'Chicago', 'Toronto', 'Lisbon', 'Rio', 'Moscow']) 
sr.take(indices = [0, 2])#获取了sr中第1个和第3元素

二、DataFrame类型

1、初始化

1)传入二维数组

df=pd.DataFrame(np.random.randn(6,4))
df    ##默认使用0、1、2.。。作为索引index

2)传入一个字典

df1=pd.DataFrame({'A':1,'B':pd.Timestamp('20200101'),'C':pd.Series(1,index=list(range(4)),dtype=float),'D':np.array([3]*4,dtype=int),'E':pd.Categorical(['test','train','test','train']),'F':'abc'})
df1

3)读取文件

df_mv=pd.read_excel(r'路径')

4)列表重塑

li.reshape

#将系列重塑ser为具有 7 行 5 列的数据框
ser = pd.Series(np.random.randint(1, 10, 35))
df=pd.DataFrame(ser.values.reshape(7,5))

2、索引

1)df.columns=[列标]

设值列表

2）df.index=[行号]

3）df.loc[[index],[column]]

df.loc[[index],[column]]通过标签选择数据

df.loc[[index],[column]]通过标签选择数据
df_mv.loc[[1,3,4],['名字','评分']]

4)条件选择

df_mv[df_mv['产地']=='中国大陆'][:5]
df_mv[(df_mv.产地=='美国')&(df_mv.评分>9)].head()
df_mv[((df_mv.产地=='美国')|(df_mv.产地=='中国大陆'))&(df_mv.评分>9)].head()

5）df.rename()

于更改行列标签，即行和列的索引，可以传入一个字典或则一个函数。

df.rename(index={...}columns={...})
df.rename()用于更改行列标签，即行和列的索引，可以传入一个字典或则一个函数。

df.rename(lambda x:x+11)#索引从11开始排
df.rename(index={0:'a',1:'b'})

6）df.reindex()

重新索引：DataFrame

DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=nan, limit=None, tolerance=None)

参数说明：

参数	说明
labels	新标签/索引使“ axis”指定的轴与之一致。
index, columns	要符合的新标签/索引。最好是一个Index对象，以避免重复数据
axis	轴到目标。可以是轴名称(“索引”，“列”)或数字(0、1)。
method	{None，“ backfill” /“ bfill”，“ pad” /“ ffill”，“ nearest”}，可选
copy	即使传递的索引相同，也返回一个新对象
level	在一个级别上广播，在传递的MultiIndex级别上匹配索引值
fill_value	在计算之前，请使用此值填充现有的缺失(NaN)值以及成功完成DataFrame对齐所需的任何新元素。如果两个对应的DataFrame位置中的数据均丢失，则结果将丢失。
limit	向前或向后填充的最大连续元素数
tolerance	不完全匹配的原始标签和新标签之间的最大距离。匹配位置处的索引值最满足方程abs(index [indexer]-target)

df.reindex(range(len(df)))

7）df.set_index()

DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)

参数说明：

参数	说明
keys	列标签或列标签/数组列表，需要设置为索引的列
drop	默认为True，删除用作新索引的列
append	是否将列附加到现有索引，默认为False。
inplace	输入布尔值，表示当前操作是否对原数据生效，默认为False。True：即改变原来的索引
verify_integrity	检查新索引的副本。否则，请将检查推迟到必要时进行。将其设置为false将提高该方法的性能，默认为false。

#将PassengerId设置为索引
df.set_index('PassengerId')

3、查看数据

1）df.head(n)

2）df.tail(n)

head和tail方法可以分别查看最前面几行和最后面几行的数据（默认为5）

3）df.index

下标使用index属性查看

4）df.columns

列标使用columns属性查看

5）df.values

数据值使用values查看

6） df.iloc[索引/切片]

显示行，左闭右开

7）df.loc[[行],[列]]

选择数据，左闭右闭

8）df.shape

显示现状

9）df.ndim

显示维度

10）df[列].dtype

列数据类型

11）df.info()

12）df.describe()

综合统计结果

13）df.loc[a1,a2]

标签索引：只能是定标签名字,即自定义索引

参数说明：

参数	说明
a1	行标签，可以切片，也可以为一个列表
a2	列标签，可以切片，也可以为一个列表

14）df.iloc[a1,a2]

位置索引：只能通过原始的索引，不能使用自定义索引

参数说明：

参数	说明
a1	行标签，可以切片，也可以为一个列表
a2	列标签，可以切片，也可以为一个列表

15）df.ix[a1,a2]

混合索引：即可用位置索引，也可以用户标签索引

16）df.query()

df.query(expr, inplace = False, **kwargs)

参数说明：

参数	说明
expr	要评估的查询字符串；可以在环境中引用变量，在变量前面加上@字符（@a+b）；也可以通过在反引号中将空格或运算符括起来来引用它们
inplace	查询是应该修改数据还是返回修改后的副本

1 #  查询B列中数值为2的行记录

print(df.query('B == 2'))
 
2 #查询A列数值小于B列的行记录
print(df.query('A < B'))
# 等价于
print(df[df.A < df.B])

3 #查询B列数值和C C列相等的行记录

#注：对于名称中带有空格的列名，python2可以用反引号引用，但是python3已经取消了，所以可以用下面的方法
print(df[df.B == df['C C']])

4 #查询A列小于B列，且A列小于C C列的数据
#注意对于C C列的列名中间有空格或运算符等其他特殊符号的情况，上文提到，要用反引号（就是键盘上第二排第一个按键，有‘~’这个符号的按键）。
df.query('A < B & A < `C C`')

17）df.dtypes

查看各列（Series）类型

#查看每个列的数据类型
pokemon.dtypes

18）s.unique()

获取唯一值，返回一个列表

df['item_name'].unique()#返回该列所有唯一值，一个列表

19）s.nunique()

获取唯一值的个数，返回一个数字，可用于DataFrame

df['item_name'].nunique()#返回一个数字

df.nunique()#作用于dataframe,返回各列唯一值的数量

out:order_id              1834
quantity                 9
item_name               50
choice_description    1043
item_price              78
dtype: int

20）s.vlaue_counts()

计算每个唯一值的频率计数。

value_counts()是一种查看表格某列中有多少个不同值的快捷方法，并计算每个不同值有在该列中有多少重复值。
value_counts()是Series拥有的方法，一般在DataFrame中使用时，需要指定对哪一列或行使用

默认是会降序的

df['年代'].value_counts()[:10]#计算列取重后的值数量

#在choice_description中，下单次数最多的商品是什么？
df['choice_description'].value_counts().head(1)

21）df.filter()

df.filter(items=None, like=None, regex=None, axis=None)

参数说明：

参数	说明
item	对列进行筛选
like	表示用正则进行匹配
regex	进行筛选
axis	axis=0表示对行操作，axis=1表示对列操作

其中的参数 items, like, 和 regex parameters 被强制执行为相互排斥，即只能有一个存在

22）df.any() and df.all()

1、df.all(axis=0, bool_only=None, skipna=True, level=None)

返回是否所有元素都为真(可能在轴上)，即都为镇才返回

参数说明：

参数	说明
axis	0或’index’；1或’columns’；None。默认为0。指出哪个轴应该减少。0或’index’:减少索引，返回索引为原始列标签的Series。1或’columns’:减少列，返回一个索引为原始索引的Series。None:减少所有轴，返回一个标量。
skipna	默认 True，排除NA/null值。如果整个row/column为NA，并且skipna为True，那么对于空row/column，结果将为True。如果skipna是False,那么NA就被当作True，因为它们不等于零。

2、df.any(axis=0, bool_only=None, skipna=True, level=None)

返回是否至少一个元素为真，即有一个为真则返回

23）s.diff()

计算相对于当前的前一个值的差，本行与前一行的差

#计算前一天与后一天收盘价的差值
df['收盘价(元)'].diff()
#等价于
df['收盘价(元)']-df.shift()['收盘价(元)']

24）s.pct_chang()

计算与前一行的变化量

#计算前一天与后一天收盘价变化率
df['收盘价(元)'].pct_change()
#计算前两天的收盘价变化率
df['收盘价(元)'].pct_change(2)

3、数据操作

1）行的操作

1、查看行数据

df_mv.iloc[0]
df_mv.iloc[0:5]#左闭又开
df_mv.loc[0:5]#左闭右闭

2、添加一行

dit={'名字':'复仇者联盟3',
     '投票人数':123456,
     '类型':'剧情/科幻',
     '产地':'美国',
     '上映时间':'2017-05-04 00:00:00',
     '时长':142,
     '年代':2017,
     '评分':8.7,
     '首映地点':'美国'}
s=pd.Series(dit)
s.name=38738
df_mv=df_mv.append(s)

3、删除一行

df_mv=df_mv.drop([行号])

4、df.drop()

df.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors=‘raise’)

参数说明：

参数	说明
labels	待删除的行名or列名；
axis	删除时所参考的轴，0为行，1为列；默认是0
index	待删除的行名
columns	待删除的列名
level	多级列表时使用，暂时不作说明
inplace	布尔值，默认为False,这是返回的是一个copy;若为True,返回的是删除相应数据后的版本

2）列的操作

1、查看列数据

df_mv['列名'][0:5]
df_mv[['列1','列2']][:5]

2、增加一列

df_mv['列名']=range(1,len(df_mv)+1)列每行的内容

3、插入一列 df.insert()

DataFrame.insert(loc, column, value, allow_duplicates=False)

参数	说明
loc	参数column插入的位置，如果想插入到第一例则为0，取值范围： 0 <= loc <= len(columns),其中len(columns)为Dataframe的列数
column	给插入数据value取列名，可为数字，字符串等
value	可以是整数，Series或者数组等
allow_duplicates	默认 False，如果想完成重复值的插入需要把allow_duplicates设置为True

df.insert(想要插入的索引，列名，数据)  # 数据可以为数组或Series
frame.insert(0, 'num', np.ones(5))

4、删除一列

df_mv=df_mv.drop('序号',axis=1)

3）移动行或列

df.shift()

df.shift()#整体向下移动一行，顶行填充nan
df.shift(3)#整体向下移动三行，顶部填充nan
df.shift(-1)#向上移动一行
df.shift(1,axis=1)#向右移动一列
df.shift(-1,asis=1)#向左移动一列

df['收盘价(元)']-df.shift()['收盘价(元)']#实现了df['收盘价(元)'].diff()

4、对齐运算

使用后df+df默认的是有相同标签的会相加，没有则以nan填充，其他也类似

单词：

单词	意思
add	加
subtract	减
multiply	乘
divide	除
power	乘方

算术运算表：

方法	描述
add,radd	加法（+）
sub,rsub	减法（-）
div,rdiv	除法（/）
floordiv,rfloordiv	整除（//）
mul,rmul	乘法（*）
pow,rpow	幂次方（**）
注释：	带有r开头的表示它运算会翻转，后面的算数前面的，如df1.div(df2)表示df1/df2,而df1.rdiv(df2)表示df2/df1

df1.add(df2,)

df1.add(df2,level=None, fill_value=None, axis=0)

返回算数运算的结果

参数说明：

参数	说明
fill_value	添加前要在系列/列表中用NaN替换的值，如果两个df对应的行列都为nan则返回nan
level	多索引时级别的整数值

df1.add(df2,fill_value=0)  # df1加df2，如果有nan则填充为0运算
df1.sub(df2,fill_value=0)  # df1减df2，如果有nan则填充为0运算
df1.mul(df2,fill_value=0)  # df1乘df2，如果有nan则填充为0运算
df1.div(df2,fill_value=0)  # df1除df2，如果有nan则填充为0运算

三、数据清洗

函数	描述
df.isnull	返回一个布尔值对象，判断哪些值是缺失值
df.notnull	isnull的否定式
df.fillna	对缺失值进行填充
df.dropna	根据标签中的缺失值进行过滤，删除缺失值

1、缺失值处理

1）判断缺失值

df.isnull()

df_mv[df_mv['名字'].isnull()].head()
df.isnull().sum().sort_values(ascending=False)#判断每一列的缺失值个数，并降序排序

2）填充缺失值

df.fillna()

fillna参数说明：

参数	说明
inplace	True：直接修改原对象，False：创建一个副本，修改副本，原对象不变（缺省默认）
method	取值： {‘pad’, ‘ffill’,‘backfill’, ‘bfill’, None}, default None， pad/ffill：用前一个非缺失值去填充该缺失值，向前填充， backfill/bfill：用下一个非缺失值填充该缺失值，向后填充 None：指定一个值去替换缺失值（缺省默认这种方式）
limit	限制填充个数
axis	修改填充方向

df_mv['名字'].fillna('未知电影',inplace=True)

3）删除缺失值

df.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)

dripna参数说明：

参数	说明
axis	{0 or ‘index’, 1 or ‘columns’}, default 0,0 or ‘index’：删除包含丢失值的行， 1, or ‘columns’：删除包含丢失值的列
how	{‘any’, ‘all’}, default ‘any’，‘any’: 只要有缺失值出现，就删除，‘all’: 所有的值都缺失，才删除
thresh	int,保留含有int个非空值的行，如果缺失值（NaN）的数量大于thresh，将删除
subset	对特定的列进行缺失值删除处理，传入列表
inplace	True：直接修改原对象，False：创建一个副本，修改副本，原对象不变（缺省默认）

df_mv1=df_mv.dropna()

4）插值填充

1、df.interpolate()

DataFrame.interpolate(method=‘linear’, axis=0, limit=None, inplace=False, limit_direction=None, limit_area=None, downcast=None, **kwargs)

参数说明：

参数	说明
method	str，默认为‘linear’使用插值方法。 ‘linear’：忽略索引，线性等距插值。这是MultiIndexes支持的唯一方法。 ‘time’: 在以天或者更高频率的数据上插入给定的时间间隔长度数据。 ‘index’, ‘values’: 使用索引的实际数值。 ‘pad’：使用现有值填写NaN。 ‘nearest’, ‘zero’, ‘slinear’, ‘quadratic’, ‘cubic’, ‘spline’, ‘barycentric’, ‘polynomial’: 传递给 scipy.interpolate.interp1d。这些方法使用索引的数值。‘polynomial’ 和 ‘spline’ 都要求您还指定一个顺序（int），例如，df.interpolate(method=‘polynomial’, order=5) ‘krogh’，‘piecewise_polynomial’，‘spline’，‘pchip’，‘akima’：包括类似名称的SciPy插值方法。 ‘from_derivatives’：指 scipy.interpolate.BPoly.from_derivatives，它替换了scipy 0.18中的’piecewise_polynomial’插值方法。
axis	{0或’index’，1或’columns’，None}，默认为None；沿轴进行interpolate。
limit	int；要填充的连续NaN的最大数量。必须大于0。
inplace	bool，默认为False；如果可以，更新现有数据。
limit_direction	{‘forward’，‘backward’，‘both’}，默认为’forward’；如果指定了限制，则将沿该方向填充连续的NaN。
limit_area	{None, ‘inside’, ‘outside’}, 默认为None；如果指定了限制，则连续的NaN将填充此限制。 None：无填充限制。 ‘inside’：仅填充有效值包围的NaN。 ‘outside’: 仅在有效值之外填充NaN。

s = pd.Series([0, 1, np.nan, 3])
s.interpolate()#线性等距插nan值

5）异常值处理

对于异常值，一般来说数量都会很少，在不影响整体数据分布的情况下，我们直接删除就可以了。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XZ35DDk6-1640316998300)(图片\屏幕截图 2021-09-30 094301.png)]

6）重复值判断

df.duplicated(subset=None, keep=‘first’)

返回Boolean

参数说明：


subset=None	列标签或标签序列，可选# 只考虑某些列来识别重复项;默认使用所有列
keep	{‘first’，‘last’，False} # - first：将第一次出现重复值标记为True # - last：将最后一次出现重复值标记为True # - False：将所有重复项标记为True

7）删除重复值

data.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

参数说明：

参数	说明
subset	列名，可选，默认为None
keep	{‘first’, ‘last’, False}, 默认值 ‘first’ first：保留第一次出现的重复行，删除后面的重复行。 last：删除重复项，除了最后一次出现。 False：删除所有重复项。
inplace	布尔值，默认为False，是否直接在原数据上删除重复项或删除重复项后返回副本。（inplace=True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本。）

单词:

单词	意思
replication	复制
duplicate	无关要的）重复（某事），复制
inplace	原地
keep	保持，处于

8）替换

df.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method=‘pad’,)

参数说明：

参数	说明
to_replace	被替换的值
value	替换后的值
inplace	是否要改变原数据，False是不改变，True是改变，默认是False
limit	控制填充次数
regex	是否使用正则,False是不使用，True是使用，默认是False
method	填充方式，pad,ffill,bfill分别是向前、向前、向后填充

df['priority']=df['priority'].replace(to_replace=['yes','no'],value=[True,False])
#将priority列的yes和no用True和False替换
df.replace({'A': r'^ba.$'}, {'A': 'new'}, regex=True)
#使用正则表达式，不同的值替换不同的内容

9）映射

Pandas对DataFrame单列/多列进行运算（map,apply,transform,agg）

1.单列运算map

Series.map(arg, na_action=None)

参数说明：

参数	说明
arg	函数, 字典或系列。
na_action	{无, ‘忽略’}, 默认值无。如果忽略, 它将返回空值, 而不将其传递给映射对应关系。

在Pandas中，DataFrame的一列就是一个Series, 可以通过map来对一列进行操作：

df['col2'] = df['col1'].map(lambda x: x**2)
data["gender"] = data["gender"].map({"男":1, "女":0})#①使用字典进行映射

2.多列运算apply

1）Series.apply()

该函数的功能是在序列的每一个元素上应用自定义函数，函数的格式如下：

Series.apply(func, convert_dtype=True, args=(), **kwds)

参数说明：

参数	说明
func	要应用到序列上每一个元素的函数；
convert_dtype	布尔数据类型，默认为 True，表示寻找到最合适的结果类型；
args=()	元组数据类型，表示传入 func 函数的参数；
**kwds	表示传入 func 函数的参数。

2）DataFrame.apply()

该函数的功能是在 DataFrame 对象指定的轴方向应用自定义函数，函数的格式如下：

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

参数说明：

参数	说明
func	要应用在 DataFrame 对象的行或列的函数；
axis	用于控制是将 DataFrame 对象的行数据，还是列数据传入 func 函数。如果 axis=1 则将 DataFrame 对象的行数据作为 Series 的数据结构传入 func 函数。它的默认值是 0，列；
broadcast	布尔数据类型，默认为 False。对于聚合函数，返回具有传播值的相同大小的对象；
row	布尔数据类型，默认为 False。其作用是将每行或每列转换为一个系列。如果 row=True，则传递的函数将接收 ndarray 对象；
reduce	默认为 None，表示尽量减少应用程序；
args=()	元组数据类型，表示传入 func 函数的参数；
**kwds	表示传入 func 函数的参数。

要对DataFrame的多个列同时进行运算，可以使用apply，例如col3 = col1 + 2 * col2:

df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)

3.applymap

applymap()使用 applymap 函数可以格式化 DataFrame,

函数的功能是将自定义函数作用于DataFrame的所有元素

df.applymap(lambda x:"%.2f" % x)
#将DataFrame中所有的值保留两位小数显示

10）管道

1、df.pipe()

语法结构：df.pipe(<函数名>, <传给函数的参数列表>)

df.pipe(lambda x,a,b:x[(x['A']>a)&(x['B']<b)],1,30) #x:传入的df,a:定义的一个变量有后面参数列表传入，b:定义的一个变量有后面参数列表传入

11）合并

1、df.merge(合并)

pd.merge(df1,df2,on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True)

参数说明：

参数	说明
on	列名，join用来对齐的那一列的名字，用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。
left_on	左表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。
right_on	右表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。
left_index/ right_index	如果为True，则使用左侧DataFrame中的索引（行标签）作为其连接键。对于具有MultiIndex（分层）的DataFrame，级别数必须与右侧DataFrame中的连接键数相匹配。
how	数据融合的方法。left,right,outer,inner,默认为inner
sort	根据dataframe合并的keys按字典顺序排序，默认是，如果置false可以提高表现。

2、交集

how='inner’内连

pd.merge(df1,df2,on=['name','age','gender'])

3、并集

how='outer’外联

pd.merge(df1,df2,how='outer')

4、差集

先添加，在去重，不保留重复

df1=df1.append(df2)
df1.drop_duplicates(keep=False)

5、series的交并

可以将series转为set集合，用set的交并方法来获得，如果返回结果要为Series，可在转list后转Series

set中的方法	描述
intersection	交集
union	并集

#un_id1，un_id2 为两个 Series 对象：

un_id1 = set(un_id1)
un_id2 = set(un_id2)
tmp = un_id1.intersection(un_id2) #交集

 s1 = pd.Series([4,5,6,20,42])
 s2 = pd.Series([1,2,3,5,42])
#如果返回结果要为Series，可在转list后转Series
# 求交集 #
pd.Series(list(set(s1).intersection(set(s2))))
# 求并集 #
pd.Series(list(set(s1).union(set(s2))))

ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8])
jiao=pd.Series(list(set(ser1).intersection(set(ser2))))#交集
bing=pd.Series(list(set(ser1).union(set(ser2))))#并集
bing[~bing.isin(jiao)]#ser1ser2不共同集

6、df.append(追加)

DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=None)

功能说明：向dataframe对象中添加新的行，如果添加的列名不在dataframe对象中，将会被当作新的列进行添加

参数说明：

参数	说明
other	DataFrame、series、dict、list这样的数据结构
ignore_index	默认值为False，如果为True则不使用index标签
verify_integrity	默认值为False，如果为True当创建相同的index时会抛出ValueError的异常
sort	boolean，默认是None，该属性在pandas的0.23.0的版本才存在。

1）添加字典

import pandas as pd

data = pd.DataFrame()
a = {"x":1,"y":2}
data = data.append(a,ignore_index=True)
print(data)

2）添加Series

import pandas as pd

data = pd.DataFrame()
series = pd.Series({"x":1,"y":2},name="a") # 不指定ignore_index参数，是指定name
data = data.append(series) # 不指定ignore_index参数
print(data)

3）添加list

data = pd.DataFrame()
a = [1,2,3] # 一维的
data = data.append(a) #以列的形式添加
print(data)

data = pd.DataFrame()
a = [[[1,2,3]]] # 二维的
data = data.append(a) # 以行的形式添加
print(data)

data = pd.DataFrame()
a = [[1,2,3],[4,5,6]]
data = data.append(a,ignore_index=True) 
a = [[7,8,9],[10,11,12]] 
data = data.append(a,ignore_index=True) #多次append追加数据时会出现相同索引，用ignore_index=True
print(data)

fname=r'd:/data/九江招聘_{0}.csv'
xueli=['本科', '中专', '高中', '大专', '初中及以下', '中技', '硕士', '博士']
dftmp=pd.DataFrame(columns=['count','学历'])
for xl in xueli:
    df1=pd.read_csv(fname.format(xl),sep=',',encoding='gbk')
    df1['发布时间']=pd.to_datetime(df1['发布时间'],format='%Y-%m-%d')
    df1.set_index(df1['发布时间'],inplace=True)
    df1['月份']=df1.index.month
    count=df1[df1['月份']==9].size
    s=pd.Series({'count':count,'学历':xl})
    dftmp=dftmp.append(s,ignore_index=True)
dftmp

四、离散处理

再实际的数据分析项目中，对有的数据属性，我们往往并不关注数据的绝对取值，只关注它所处的区间或等级。
比如我们可以把评分9分及以上定义为A，7-9分为B，5-7分为C，3-5分为D，小于3分的为E。

离散化也可以称为分组、区间化

1、pd.cut()

pd.cut (x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False,duplicates=‘raise’)

参数	说明
x	被切分的类数组（array-like）数据，必须是1维的（不能用DataFrame）；
bins	bins是被切割后的区间（或者叫“桶”、“箱”、“面元”），有3中形式：一个int型的标量、标量序列（数组）或者pandas.IntervalIndex 。
right	bool型参数，默认为True，表示是否包含区间右部。比如如果bins=[1,2,3]，right=True，则区间为(1,2]，(2,3]；right=False，则区间为(1,2),(2,3)。
labels	给分割后的bins打标签，比如把年龄x分割成年龄段bins后，可以给年龄段打上诸如青年、中年的标签。labels的长度必须和划分后的区间长度相等，比如bins=[1,2,3]，划分后有2个区间(1,2]，(2,3]，则labels的长度必须为2。如果指定labels=False，则返回x中的数据在第几个bin中（从0开始）。分组标签必须比分组序列少一个，也就是必须要与组数相同
retbins	bool型的参数，表示是否将分割后的bins返回，当bins为一个int型的标量时比较有用，这样可以得到划分后的区间，默认为False。
precision	保留区间小数点的位数，默认为3.
include_lowest	bool型的参数，表示区间的左边是开还是闭的，默认为false，也就是不包含区间左部（闭）。
duplicates	是否允许重复区间。有两种选择：raise：不允许，drop：允许。

df['评分等级']=pd.cut(df['评分'],[0,3,5,7,9,10],labels=['E','D','C','B','A'])
#把评分9分及以上定义为A，7-9分为B，5-7分为C，3-5分为D，小于3分的为E

bins=np.percentile(df['投票人数'],[0,20,40,60,80,100])#使用 np.percentile 进行分位数计算
df['热门程度']=pd.cut(df['投票人数'],bins,labels=['E','D','C','B','A']) #

2、pd.qcut()

pd.qcut(x,q,labels=None,retbins=False,precision=3,duplicates=‘raise’)

pandas的qcut可以把一组数字按大小区间进行分区,相当于cut的bin做了np.percentile()分位数操作

常用参数说明：

参数	说明
x	要进行分组的数据，数据类型为一维数组，或Series对象
q	组数，即要将数据分成几组，后边举例说明，列表，0~1
labels	可以理解为组标签，这里注意标签个数要和组数相等，分组标签必须比分组序列少一个，也就是必须要与组数相同
retbins	默认为False,当为False时，返回值是Categorical类型（具有value_counts()方法），为True是返回值是元组

#11将系列ser分成 10 个相等的十分位数，并用 bin 名称替换这些值。
ser = pd.Series(np.random.random(20))
#bins=np.percentile(ser,q=[0,10,20,30,50,70,80,90,100])
#print(bins)
#pd.cut(ser,bins)
pd.qcut(ser,[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],labels=['1th','2th','3th','4th','5th','6th','7th','8th','9th','10th'])

df['热门等级']=pd.qcut(df['评分人数'],[0,0.33,0.66,1],labels=['C','B','A'])

qcut与cut的主要区别：

qcut:传入参数，要将数据分成多少组，即组的个数，具体的组距是由代码计算

cut:传入参数，是分组依据。具体见示例

五、排序

1）索引排序

obj.sort_index(aixs,ascending)

2）Series的排序：

Series.sort_values(ascending=True, inplace=Flase)

参数说明：

参数	说明
ascending	默认为True升序排列，为Flase降序排序
inplace	是否修改原始的Series

3）DataFrame的排序

DataFrame.sort_values(by, ascending=True, inplace=Flase )

参数说明：

参数	说明
by	字符串或者List<字符串>，单列排序或者多列排序
ascending	bool或者list,升序还是降序，如果是list对应by的多列
inplace	是否修改原始的DataFrame

1、按指定列排序

df.sort_values(by='列')[:5]  ## 默认升序排列df.sort_values(by='投票人数',ascending=False)[:5]  ##降序排序

2、多值排序

df.sort_values(by=['列1','列2'],ascending=False)[:5]
df.sort_values(by=['评分','投票人数'],ascending=[False,True])[:5]

4）自定义排序

使用CategoricalDtype将数据强制转换为具有有序性的类别类型

CategoricalDtype是具有类别和顺序的分类数据的类型[1]。它对于创建自定义排序非常有用[2]。让我们通过一个例子来看看这是如何工作的。

第一步，让我们导入CategoricalDtype。

from pandas.api.types import CategoricalDtype

第二步，创建一个自定义类别类型

自定义类型= CategoricalDtype( [排序的规则], ordered=True )

xueli_order=CategoricalDtype(['博士','硕士','本科','大专','高中','中专','中技','初中及以下'],ordered=True)
#第一个参数设置为['博士','硕士','本科','大专','高中','中专','中技','初中及以下']作为学历的唯一值。
#第二个参数ordered=True，将此变量视为有序。
#['博士' < '硕士' < '本科' < '大专' < '高中' < '中专' < '中技' < '初中及以下']

第三步，将要自定义排序的字段转为自定义类型

#调用astype(xueli_order)将大小数据强制转换为自定义类别类型
df['学历要求']=df['学历要求'].astype(xueli_order)

第四步，对该字段进行正常的排序

#调用相同的方法对值进行排序。
df.sort_values('学历要求')

from pandas.api.types import CategoricalDtype
xueli_order=CategoricalDtype(['博士','硕士','本科','大专','高中','中专','中技','初中及以下'],ordered=True)
df['学历要求']=df['学历要求'].astype(xueli_order)
df.sort_values('学历要求')

5）排名

s.rank(method=‘first’)

对series的值进行升序排名，输出为排名，当排名相同时，输出平均排名，method=‘first’排名相同时按照值在数组中出现的顺序排序

method取值说明：

method取值	说明
average	默认，在相等分组中，为各个值分配平均排名
first	按值在原始数据中出现顺序分配排名
min	使用整个分组的最小排名
max	使用整个分组的最大排名

六、分组

1、df.groupby()

df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)

GroupBy技术：实现数据的分组，和分组运算，作用类似于数据透视表

参数说明：

参数	说明

1）单值分组

df.groupby(by=df[列])

group=df.groupby(df['产地'])先定义一个分组变量group
group.mean()可以计算分组后的各个统计量

分组内排序
df.groupby('B').apply(lambda x: x.sort_values('C', ascending=False))
df[['电影名称','制片国家/地区','评分']].groupby('制片国家/地区').apply(lambda x:x.sort_values('评分',ascending=False)).head(3)

2）多值分组

df.groupby(df[列1],df[列2])

df.groupby([df['产地'],df['年代']]).mean().head()
我们也可以传入多个分组变量

3）查看分组

通过调用groups属性查看分组结果,以一个字典的形式：

df.groupby('地区').groups
## 返回一个字典，keys是组名，values是同一组的索引，是一个列表存在

通过get_group()获得指定分组

df.groupby('收货地址').get_group('江西') # 获取江西分组

4）常见的聚合方法

方法	说明
grouped.first()	第一个值，默认为分组字段排序后的最小值
grouped.last()	最后个值，默认为分组字段排序后的最大值
grouped.sum()	和
grouped.mean()	平均值
grouped.median()	中位数
grouped.count()	个数
grouped.min()	最小值
grouped.max()	最大值
grouped.std()	标准差
grouped.var()	方差
grouped.prod()	积
grouped.size()	长度

s = pd.Series([1, 2, 3, 10, 20, 30], index = [1, 2, 3, 1, 2, 3])
grouped = s.groupby(level=0)  # 唯一索引用.groupby(level=0)，将同一个index的分为一组
print(grouped)
print(grouped.first(),'→ first：非NaN的第一个值\n')
print(grouped.last(),'→ last：非NaN的最后一个值\n')
print(grouped.sum(),'→ sum：非NaN的和\n')
print(grouped.mean(),'→ mean：非NaN的平均值\n')
print(grouped.median(),'→ median：非NaN的算术中位数\n')
print(grouped.count(),'→ count：非NaN的值\n')
print(grouped.min(),'→ min、max：非NaN的最小值、最大值\n')
print(grouped.std(),'→ std，var：非NaN的标准差和方差\n')
print(grouped.prod(),'→ prod：非NaN的积\n')

5）组的过滤操作

DataFrameGroupBy.filter(func, dropna=True,*args, **kwargs)

参数说明：

参数	说明
func	函数，函数应用于每个分组的子帧，应该返回 True 或 False。
dropna	删除未通过筛选器的组。默认为 True，如果为 False，则评估为 False 的组将填充 NaN

通过 filter() 函数可以实现数据的筛选，该函数根据定义的条件过滤数据并返回一个新的数据集。

filter和匿名函数的使用，用来筛选groupby之后的数据。
注意：filter内函数传的是每个分组的数据表

df.groupby('地区').filter(lambda x:len(x)==2)#查询地区只有两个的
df1=df.groupby('district').filter(lambda x: x['age'].mean()>20)
#结果会将所有age>20的district的行选掉，返回所有其他值。

6）组的选择操作

有了 GroupBy 对象，可能希望对每个列进行不同的操作，使用类似于 [] 从 DataFrame 获取列：

groups=df.groupby('收货地址') # 得到一个分组对象
groups['买家实际支付金额'].sum() # 只选取列进行聚合

7）迭代

一个分组对象由组名，和分组后的df组成

groups=df.groupby('收货地址')
for name,group in groups: # name是分组的组名，group是分组后的df
    print(name,group)

2、df.agg()

df.agg（func，axis = 0，** args，**kwargs ）

参数	说明
func	函数，函数名称，函数列表，字典{‘行名/列名’：‘函数名’}
axis	默认0

df_arows=df.agg(['max','min','mean'])
df_columns=df.agg({'col1':['sum','min'],'col2':['max','min'],'col3':['sum','min']})
df.groupby(['order_id','product_id']).agg(buy_cnt=('user_id','count'))#指定列名，列表是原列名和方法

agg内常用聚合函数

//求和； //； //； //； //； //；//；//；//； //； //； //； //；//；//

函数	说明
np.sum()	求和
np.prod()	所有元素相乘
np.mean()	平均值
np.std()	标准差
np.var()	方差
np.median()	中数
np.power()	幂运算
np.sqrt()	开方
np.min()	最小值
np.max()	最大值
np.argmin()	最小值的下标
np.argmax()	最大值的下标
np.inf	无穷大
np.exp(10)	以e为底的指数
np.log(10)	对数

#1) 运行代码，统计各城市的酒店数量和房间数量，以城市房间数量降序排列， 并打印输出前 10 条统计结果。
df[['酒店','城市','房间数']].groupby('城市').agg({'酒店':'count','房间数':'sum'}).sort_values('房间数',ascending=False).head(10)

3、pd.Grouper()

pandas.Grouper ( key = None，level = None，freq = None，axis = 0，sort = False ) [source]

Grouper允许用户为目标对象指定groupby指令
此规范将通过key参数选择列，或者如果给出了level或axis参数，则指定了目标对象的索引级别。
这些是本地设置，将覆盖“全局”设置，即传递给groupby本身的轴参数和level。

分组器

df.groupby(pd.Grouper(key='date', freq='60s'))
df.groupby(pd.Grouper(freq='4M'))#每连续四个月为一组

七、窗口函数

1、窗口函数可以与聚合函数一起使用，聚合函数指的是对一组数据求总和、最大值、最小值以及平均值的操作

2、可以与groupby配合使用

3、可以和聚合函数agg一起使用

1、移动窗口

df.rolling(window=n, min_periods=None, center=False)

常用参数说明：

参数	说明
window	默认值为1，表示窗口的大小，也就是观测值的数量
min_periods	表示窗口的最小观察值，默认于window的参数值相等
center	是否把中间值作为窗口标准，默认值为False

window=3表示是每一列中依次紧邻的每 3 个数求一次均值。当不满足 3 个数时，所求值均为 NaN

#每3个数求求一次均值
print(df.rolling(window=3).mean())#(index1+index2+index3)/3
dft=pd.DataFrame(np.random.randint(1,100,50).reshape(10,5),columns=list('ABCDE'))
dft['sum_A']=dft['A'].rolling(3).sum() 
dft['sum_A']=dft['A'].rolling(3,center=True).sum() # 以中间值为窗口中心

2、扩展窗口(滚动窗口)

df.expanding(min_periods=)

参数说明：

参数	说明
min_periods	指定最小观察值

扩展是指由序列的第一个元素开始，逐个向后计算元素的聚合值。设置 min_periods=3，表示至少 3 个数求一次均值

dft['exp_sum_A']=dft['A'].expanding().sum()#滚动累加
dft['exp_sum_A']=dft['A'].expanding(3).sum()#最少三个数累加

注意：

但rowling函数的窗口大小为df的长度时，指定min_periods=1后的效果与expanding()的效果一致

dft['rolling_sum_A']=dft['A'].rolling(len(dft),min_periods=1).sum()
#等价于
dft['exp_sum_A']=dft['A'].expanding().sum()#滚动累加

八、时间序列

1、pd.data_range(参数)

date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, closed=None, **kwargs)

常用参数为start、end、periods、freq。说明：

参数	说明
start	指定生成时间序列的开始时间
end	指定生成时间序列的结束时间
periods	指定生成时间序列的数量
freq	生成频率，默认‘D’，可以是’H’、‘D’、‘M’、‘5H’、‘10D’、…

频率说明：

别号	描述
S	秒
T	分
H	没小时频率
D	日历日频率，天
M	月结束频率，月
Y	年终频率
5H	5小时
10D	10天
BM	每个月的最后一天
MS	每个月的第一天
W	每周

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J47AejK9-1640316998302)(C:\Users\GJS\Desktop\markdown\python数据分析\图片\20191101162048218.png)]

还可以根据closed参数选择是否包含开始和结束时间，left包含开始时间，不包含结束时间，right与之相反。默认同时包含开始时间和结束时间。
函数调用时至少要指定参数start、end、periods中的两个。


pd.date_range('20200101','20200110')
pd.date_range('20200101',periods=10)
pd.date_range(end='20200110',periods=10)

2、pd.to_datetime()

pd.to_datetime(arg,format=)

将给定的数据按照指定格式转换成日期格式

参数	说明
arg	输入
format	日期格式

#将date列转化为datetime类型
data["Date"]= pd.to_datetime(data["Date"])

3、df.resample(freq)

DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention=‘start’,kind=None, loffset=None, limit=None, base=0)

重新采样，是对原样本重新处理的一个方法，是一个对常规时间序列数据重新采样和频率转换的便捷的方法。得到的是一个分组，可用于对时间分组聚合

降采样：高频数据到低频数据

升采样：低频数据到高频数据

参数说明：

参数	说明
参数	说明
freq	表示重采样频率，例如‘M’、‘5min’，Second(15)
how=‘mean’	用于产生聚合值的函数名或数组函数，例如‘mean’、‘ohlc’、np.max等，默认是‘mean’，其他常用的值由：‘first’、‘last’、‘median’、‘max’、‘min’
axis=0	默认是纵轴，横轴设置axis=1
fill_method = None	升采样时如何插值，比如‘ffill’、‘bfill’等
closed = ‘right’	在降采样时，各时间段的哪一段是闭合的，‘right’或‘left’，默认‘right’
label= ‘right’	在降采样时，如何设置聚合值的标签，例如，9：30-9：35会被标记成9：30还是9：35,默认9：35
loffset = None	面元标签的时间校正值，比如‘-1s’或Second(-1)用于将聚合标签调早1秒
limit=None	在向前或向后填充时，允许填充的最大时期数

series.resample('3T').sum()#降低采样频率为三分钟

4、时间的属性attributes

属性	描述
time.year	年
time.month	月
time.day	日
time.hour	时
time.minute	分
time.second	秒

5、s.dt 时间访问器

形式	描述
s.dt.date	日期
s.dt.time	时间
s.dt.year	年
s.dt.month	月
s.dt.day	日
s.dt.hour	时
s.dt.minute	分
s.dt.second	秒
s.dt.strftime(date_format)	格式化字符串的索引

df['time'].dt.strftime('%m-%d') # 获取月-日
df['time'].dt.year # 获取年

5、datetime.datetime

df['上映日期']
import re
import datetime
def parse(x):
    time=re.findall('(\d{4}-\d{2}-\d{2})',x)
    etime=datetime.datetime.strptime(time[0],'%Y-%m-%d').date()
    for t in time:
        ttime=datetime.datetime.strptime(t,'%Y-%m-%d').date()
        if ttime<etime:
            etime=ttime
    return etime

df['上映日期'].map(lambda x:parse(x))

#时间的差
a=datetime.now()-datetime.strptime('2021-9-1','%Y-%m-%d')
print(a.days) # 获取差后的天数
print(a.seconds) # 获取毫秒数

九、样式

1、数字格式化

df.style.format()

Styler.format(self, formatter,subset=None,na_rep: Union[str, NoneType]=None)

formatter一般为一个字典形式，由列名和格式组成

参数说明

参数	说明
formatter	格式
subset
na_rep	控制替换

# 所有列格式化为2位小数，并转为百分数
df.style.format("{:.2%}")

#指定列
df.style.format({'random':"{:.2%}"})

# 缺失值的显示格式
df.style.format("{:.2%}", na_rep="-")

常见的数字格式：

格式	描述
{:2f}	保留两位小数
{:+2f}	带符号保留两位小数
{:0f}	不保留小数
{:,}	以逗号分隔的数字格式
{:.2%}	百分比格式

2、数值高亮显示

样式	描述
df.style.highlight_null	高亮显示空值
df.style.highlight_max	高亮显示最大值
df.style.highlight_min	高亮显示最小值
df.style.highlight_between(left=,right=,subset=)	高亮显示区间，subset指定列

十、数据透视表

1、数据透视

2、数据透视表

pd.pivot_table(df,index=,columns=,values=,aggfunc)

参数说明：

参数	说明
df	要透视的DataFrame对象
values	要聚合的列或多个列
index	在数据透视表索引上进行分组的键
columns	在数据透视表列上进行分组的键
aggfunc	用于聚合的函数，默认是np.mean
margins	=True,计算总合数据，默认=False
fill_value	空值处理,=0将空值视为0

#1、设置显示最大行列
pd.set_option('max_columns',100)  ##设置显示的最大列
pd.set_option('max_rows',500)  ##设置显示的最大行

pd.pivot_table(df,index=['列']) # 基本形式
pd.pivot_table(df,index=['列1','列2'])#多个索引index，即多个分组键
pd.pivot_table(df,index=['列1','列2'],values=['列'])#指定需要统计汇总的数据values
pd.pivot_table(df,index=['列1','列2'],values=['列'],aggfunc=np.sum)#指定计算函数
pd.pivot_table(df,index=['列'],values=['列1','列2'],aggfunc=[np.sum,np.mean])#计算多个指标
table = pd.pivot_table(df, values=['D', 'E'], index=['A', 'C'],aggfunc={'D': np.mean,'E': [min, max, np.mean]})#对不同的values执行不同的函数
pd.pivot_table(df,index=['列'],aggfunc=[np.sum,np.mean],fill_value=0,margins=True)#计算综合

十一、数据炸裂

1、series的炸裂

s.explode()

df['A'].explode()#对A列数据进行炸裂

2、dataframe的炸裂

df.explode(column)

炸开column列，标量将保持不变。空的类似列表将导致该行的np.nan。

explode这个爆炸方法只能处理列表、元组、Series和numpy的ndarray的类型。

参数说明：

参数	说明
column	要爆炸的列

将类似列表的每个元素转换为一行，从而复制索引值。

df=df.explode('A').drop_duplicates().reset_index().drop('index',axis=1)#将'A'列的数据炸开，去重后重新排列索引

对于不是列表,元组的，可以先进性分割转为列表在炸裂

df['A']=df['A'].str.split(',')
df=df.explode('A').drop_duplicates().reset_index().drop('index',axis=1)

df.explode('A').explode('C').drop_duplicates().reset_index().drop('index',axis=1)#依次炸开多列

十二、IO操作

1、读取文件

1)使用read_table来读取文本文件

pandas.read_table(filepath_or_buffer, sep=’\t’, header=’infer’, names=None,index_col=None, dtype=None, engine=None, nrows=None)

2)使用read_csv函数来读取csv文件

pd.read_csv(filename,sep="",names=[],header=,nrows=…)

常用参数说明：

参数	说明
filename	指的是你要读取的数据文件的位置
sep	指的是你读取的数据的分隔方式，sep=’\t’
names	指的是你为数据集设置的列名
header	指的是开始读取的行数，header=0开始表示从第一行开始读取
nrows	指所要读取的总行数，nrows=10，表示读取十行
parse_dates	解析索引 parse_dates=[1, 2, 3] -> 解析1,2,3列的值作为独立的日期列； parse_dates= [[1, 3]] -> 合并1,3列作为一个日期列使用
encoding	指定字符编码

pandas.read_csv(filepath_or_buffer, sep=’\t’, header=’infer’, names=None,index_col=None, dtype=None, engine=None, nrows=None)

3)使用read_excel读取Excel文件

pandas.read_excel(io, sheetname=0, header=0, index_col=None, names=None,dtype=None)

4)使用read_sql读取mysql

read_sql(sql,con,index_col=None,coerce_float=True,params=None,parse_dates=None,columns=None,chunksize=None)

我们常用的就是前两个参数：

sql 为可执行的sql语句
con为数据库的连接

connect建立的第一种：

import pymysql
import pandas
connect = pymysql.Connect(host='localhost',
                          port=3306,
                          user='root',
                          password='Gjs200010',
                          database='pymysql',
                          charset='utf8')
df = pd.read_sql('select * from douban',conn)

conect建立的第二种：

import pymysql
from sqlalchemy import create_engine
connect=create_engine('mysql+pymysql://root:Gjs200010@localhost:3306/lian_jia')
df=pd.read_sql('select * from jiujiang_lianxi',connect)

2、保存文件

1)使用to_csv函数实现以csv格式存储

DataFrame.to_csv(path_or_buf=None,sep=’,’,na_rep=”,columns=None,header=True,index=True,index_label=None,mode=’w’,encoding=Non)

#分组保存数据
fname=r'd:/data/九江招聘_{0}.csv'
groups=df.groupby('学历要求',as_index=False)
for g,gdf in groups:
    gdf.to_csv(fname.format(g),sep=',',index=True,encoding='gbk')

2)使用to_excel函数实现以excel格式存储

DataFrame.to_excel(excel_writer=None, sheetname=None’,na_rep=”,header=True,index=True,index_label=None,mode=’w’,encoding=Non)

3)使用后to_sql保存到数据库

import pymysql from  sqlalchemy import create_engine

to_sql(name, con, flavor=None, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None)

（1）name参数为存储的表名；

（2）con参数为连接数据库，这里和读取有区别，不能用pymysql连接；

（3）if_exists参数用于判断是否有重复表名。填写fail表示：如果有重复表名，就不保存。填写replace用作替换。填写 append，就在该表中继续插入数据。

create_engine(“数据库类型+数据库驱动://数据库用户名:数据库密码@IP地址:端口/数据库”，其他参数)

import pymysql
from sqlalchemy import create_engine

connect=create_engine('mysql+pymysql://root:Gjs200010@localhost:3306/lian_jia')
df=pd.read_sql('select * from jiujiang_lianxi',connect)

df1=df[df['jiage']>7539].sort_values(by='jiage',ascending=False)[:10]
df1.to_sql('jiujiang_gaojia',con=connect,index=False,if_exists='fail')


to_sql(‘表名’，con=链接，index=不写入,if_exists=存在时执行)
index=False表示不写入索引，
if_exists = ‘append’or’replace’or’fail’：分别表示：表存在时，追加，替代和默认的什么都不做

八、pandas操纵

1、数据格式转换

1）df[列].dtype

查看格式

2)df[列].astype(‘类型’)

将年代格式转化为整型

2、排序

1）单值排序

1、默认排序

df[:10]  ##根据index进行排序

2、按指定列排序

df.sort_values(by='列')[:5]  ## 默认升序排列df.sort_values(by='投票人数',ascending=False)[:5]  ##降序排序

2）多值排序

df.sort_values(by=['列1','列2'],ascending=False)[:5]
df.sort_values(by=['评分','投票人数'],ascending=[False,True])[:5]

九、基本统计分析

1、描述性统计 df.describe()

dataframe.describe()：

对dataframe中的数值数据进行描述性统计过描述性统计，可以发现一些异常值，很多异常值往往是需要我们逐步去发现的

2、常用的统计函数

函数名称	描述说明
count()	统计某个非空值的数量。
sum()	求和，axis=0 表示按垂直方向进行计算，而 axis=1 则表示按水平方向
mean()	求均值
median()	求中位数
mode()	求众数
std()	求标准差
var()	方差
min()	求最小值
max()	求最大值
abs()	求绝对值
prod()	求所有数值的乘积。
cumsum()	计算累计和，axis=0，按照行累加；axis=1，按照列累加。
cumprod()	计算累计积，axis=0，按照行累积；axis=1，按照列累积。
corr()	计算数列或变量之间的相关系数，取值-1到1，值越大表示关联性越强
cov()	协方差

特殊说明

3、计数

1） len(df)

len(df)dataframe行数

2）df[列].unique()

#某列的所有取值
df['产地'].unique()
len(df['产地'].unique())

3）df[列].value_counts()

df['年代'].value_counts()[:10]#计算列取重后的值数量

8、数据替换

df['产地'].replace('USA','美国',inplace=True)
df['产地'].replace(['西德','苏联'],['德国','俄罗斯'],inplace=True)
len(df['产地'].unique())

十一、数据重塑和轴向旋转

1、层次化索引

1)Series的层次化索引

s=pd.Series(np.arange(1,10),index=[['a','a','a','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,3]])
层次化索引是pandas的一项重要功能，他能使我们再一个轴上拥有多个索引

注意：创建索引时，第一层索引和第二层索引的个数要和data的个数一至

1、选取数据

import numpy as np
import pandas as pd 

data=['张三','李四','王五','老刘']
df_test=pd.Series(data,index=[['a','a','b','b'],['男','女','女','男']])
df_test['a','男']#选取内部
df_test['a':'b']#全取外部

2)DataFrame的层次化索引

data=pd.DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]])对于DataFrame来说，行和列都能够进行层次化索引。data=pd.DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]],columns=[['A','A','B'],['Z','X','C']])

1、设置名称

data.index.names=['row1','row2']data.columns.names=['column1','column2']

2、行顺序调整

df.swaplevel('row1','row2')

3、Series和DataFrame互转

s.unstack() #将Series转为DataFrame
s.stack()   #将DataFrame转为Series

2、列和索引互相转换层次化

1)df.set_index(列…])

df=df.set_index(['产地','年代'])
可以把列变成索引
把产地和年代同时设置成索引，产地是外层索引，年代是内层索引

2)df.reset_index()

df=df.reset_index()把索引变成列

3、数据旋转 df.T

data.T  T 可以直接让数据的行和列进行交换

十二、数据分组，分组运算

GroupBy技术：实现数据的分组，和分组运算，作用类似于数据透视表

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=<no_default>, observed=False, dropna=True)

1、df.groupby(by=df[列])

group=df.groupby(df['产地'])先定义一个分组变量group
group.mean()可以计算分组后的各个统计量

2、df.groupby(df[列1],df[列2])

df.groupby([df['产地'],df['年代']]).mean().head()
我们也可以传入多个分组变量

十四、合并数据集

1、append

df1.append(df2)

2、merge

pd.merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=(’_x’,’_y’), copy=True, indicator=False)

参数	说明
left	对象
right	另一个对象
on	要加入的列。必须在左、右综合对象中找到。如果不能通过，left_index和right_index是假，将推断DataFrame中的列的交叉点为连接键，连接键
left_on	从左边的综合使用作为键列。可以是列名或数组的长度等于长度综合。
right_on	从右边的综合使用作为键列。可以是列名或数组的长度等于长度综合。
left_index	如果为True，则使用索引（行标签）从左综合作为其连接键。在与多重（层次）的综合，级别数必须匹配连接键从右综合的数目。
right_index	先沟通用法作为正确综合left_index。
how	之一‘左’，‘右’，‘外在’，‘内部’。默认为内联。
suffixes	字符串后缀并不适用于重叠列的元组。默认为（’_x’，’_y’）
copy	即使重新索引是不必要总是从传递的综合对象，赋值的数据（默认为True）。在许多情况下不能避免，但可能会提高性能/内存使用情况，可以避免赋值上述案件有些病理，但尽管如此提供此选项。
indicator	将列添加到输出综合呼吁_merge与信息源的每一行。_merge是绝对类型，并对观测其合并键只出现在‘左’的综合，关策其合并键只会出现在‘正确’的综合，和两个如果观测合并关键发现在两个 right_only left_only 的值。

pd.merge(df1,df2,how='inner',on='名字')

3、concat

dff=pd.concat([df1,df2,df3],axis=0) ##默认axis=0 增加行数，axis=1增加列数

import pandas as pd
pd.concat(object,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False)

参数说明
object：series，dataframe或则是panel构成的序列list
axis：需要合并连接的轴，0是行，1是列
join：连接的方式inner，或者outer

!（map,apply,applymap,transform,agg）

3.分组运算

可以结合groupby与transform来方便地实现类似SQL中的聚合运算的操作：

df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count())

4.聚合函数

结合groupby与agg实现SQL中的分组聚合运算操作，需要使用相应的聚合函数：

df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean, 'col1_sum‘’: sum}, 'col2': {'col2_count': count}})

#打印出每个大陆对spirit饮品消耗的平均值，最大值和最小值
df.groupby('continent')['spirit_servings'].agg(['mean','min','max'])

常用函数

2、series.str.contains()

Series.str.contains（pat，case = True，flags = 0，na = nan，regex = True)

返回布尔值系列或索引，具体取决于给定模式或正则表达式是否包含在系列或索引的字符串中。

参数说明：

参数	说明
pat	str类型字符序列或正则表达式。
case	bool，默认为True 如果为True，区分大小写。
flags	int，默认为0（无标志）标志传递到re模块，例如re.IGNORECASE。
na	默认NaN 填写缺失值的值。na=False的意思就是，遇到非字符串的情况，直接忽略。你也可以写na=True，意思就是遇到非字符串的情况，计为筛选有效。
regex	bool，默认为True 如果为True，则假定pat是正则表达式。如果为False，则将pat视为文字字符串。

3、series.isin（列表)和~isin()

isin()接受一个列表，判断该列中元素是否在列表中。
df[df[某列].isin(条件)&df[某列].isin(条件)]
告诉你没有isnotin，它的反函数就是在前面加上 ~ ，其他用法同上。
ser1[~ser1.isin(ser2)]ser1中不在ser2中的元素

4、series.values()

pandas.Series.values 将Series内的数值以ndarray或ndarray-like的形式返回，取决于原Seires的数据类型

5、pd.data_range(参数)

date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, closed=None, **kwargs)

常用参数为start、end、periods、freq。
start：指定生成时间序列的开始时间
end：指定生成时间序列的结束时间
periods：指定生成时间序列的数量
freq：生成频率，默认‘D’，可以是’H’、‘D’、‘M’、‘5H’、‘10D’、…
还可以根据closed参数选择是否包含开始和结束时间，left包含开始时间，不包含结束时间，right与之相反。默认同时包含开始时间和结束时间。
函数调用时至少要指定参数start、end、periods中的两个。


pd.date_range('20200101','20200110')
pd.date_range('20200101',periods=10)
pd.date_range(end='20200110',periods=10)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GVXMSUG6-1640316998304)(图片\20191101162048218.png)]

5、df.resample(freq)

DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start',kind=None, loffset=None, limit=None, base=0)

series.resample('3T').sum()#降低采样频率为三分钟

6、pd.Grouper()

pandas.Grouper ( key = None，level = None，freq = None，axis = 0，sort = False )  [source]

Grouper允许用户为目标对象指定groupby指令
此规范将通过key参数选择列，或者如果给出了level或axis参数，则指定了目标对象的索引级别。
这些是本地设置，将覆盖“全局”设置，即传递给groupby本身的轴参数和level。
df.groupby(pd.Grouper(key='date', freq='60s'))
df.groupby(pd.Grouper(freq='4M'))#每连续四个月为一组

7、df.interpolate()

DataFrame.interpolate(method=‘linear’, axis=0, limit=None, inplace=False, limit_direction=None, limit_area=None, downcast=None, **kwargs)

参数说明：

参数	说明
method	str，默认为‘linear’使用插值方法。 ‘linear’：忽略索引，线性等距插值。这是MultiIndexes支持的唯一方法。 ‘time’: 在以天或者更高频率的数据上插入给定的时间间隔长度数据。 ‘index’, ‘values’: 使用索引的实际数值。 ‘pad’：使用现有值填写NaN。 ‘nearest’, ‘zero’, ‘slinear’, ‘quadratic’, ‘cubic’, ‘spline’, ‘barycentric’, ‘polynomial’: 传递给 scipy.interpolate.interp1d。这些方法使用索引的数值。‘polynomial’ 和 ‘spline’ 都要求您还指定一个顺序（int），例如，df.interpolate(method=‘polynomial’, order=5) ‘krogh’，‘piecewise_polynomial’，‘spline’，‘pchip’，‘akima’：包括类似名称的SciPy插值方法。 ‘from_derivatives’：指 scipy.interpolate.BPoly.from_derivatives，它替换了scipy 0.18中的’piecewise_polynomial’插值方法。
axis	{0或’index’，1或’columns’，None}，默认为None；沿轴进行interpolate。
limit	int；要填充的连续NaN的最大数量。必须大于0。
inplace	bool，默认为False；如果可以，更新现有数据。
limit_direction	{‘forward’，‘backward’，‘both’}，默认为’forward’；如果指定了限制，则将沿该方向填充连续的NaN。
limit_area	{None, ‘inside’, ‘outside’}, 默认为None；如果指定了限制，则连续的NaN将填充此限制。 None：无填充限制。 ‘inside’：仅填充有效值包围的NaN。 ‘outside’: 仅在有效值之外填充NaN。

DataFrame.interpolate(method=‘linear’, axis=0, limit=None, inplace=False, limit_direction=None, limit_area=None, downcast=None, **kwargs)

method ： str，默认为‘linear’使用插值方法。

axis ： {0或’index’，1或’columns’，None}，默认为None；沿轴进行interpolate。
limit： int；要填充的连续NaN的最大数量。必须大于0。
inplace ： bool，默认为False；如果可以，更新现有数据。
limit_direction ： {‘forward’，‘backward’，‘both’}，默认为’forward’；如果指定了限制，则将沿该方向填充连续的NaN。
limit_area ： {None, ‘inside’, ‘outside’}, 默认为None；如果指定了限制，则连续的NaN将填充此限制。
None：无填充限制。
‘inside’：仅填充有效值包围的NaN。
‘outside’: 仅在有效值之外填充NaN。
    
 返回与调用方相同的对象类型，
并以部分或全部NaN值进行插值。

例如：
 s = pd.Series([0, 1, np.nan, 3])
 s.interpolate()#线性等距插nan值

Series.str常用方法

1. cat（和指定字符进行拼接）

print(df["name"].str.cat())
"""
莫伊拉士兵76死神托比昂安娜aaa
"""
# 可以看到如果cat里面不指定参数，是将所有字段拼接在一起了
 
print(df["name"].str.cat(sep='-'))
"""
莫伊拉-士兵76-死神-托比昂-安娜-aaa
"""
# 可以指定sep分隔符，会自动用sep连接
 
print(df["name"].str.cat(['xx'] * len(df)))
"""
0     莫伊拉xx
1    士兵76xx
2      死神xx
3     托比昂xx
4      安娜xx
5     aaaxx
Name: name, dtype: object
"""
# 第一个参数要么不传，要么是一个与之等长的序列
# 会按照索引顺序将元素组合起来，得到一个新的Series

print(df["name"].str.cat(['xx'] * len(df), sep="@"))
"""
0     莫伊拉@xx
1    士兵76@xx
2      死神@xx
3     托比昂@xx
4      安娜@xx
5     aaa@xx
Name: name, dtype: object
"""
# 当然此时也是可以指定分隔符的
 
print(df["attack"].str.cat(['xx'] * len(df), sep="@"))
"""
0     近距离@xx
1     远距离@xx
2     近距离@xx
3    中远距离@xx
4     远距离@xx
5        NaN
Name: attack, dtype: object
"""

print(df["attack"].str.cat(['xx'] * len(df), sep="@", na_rep="-"))
"""
0     近距离@xx
1     远距离@xx
2     近距离@xx
3    中远距离@xx
4     远距离@xx
5       -@xx
Name: attack, dtype: object
"""
# 可以看到如果一方为NaN,name结果也为NaN,因此我们可以指定na_rep,表示将NaN用na_rep替换

2. split（按照指定字符串分隔）

df.str.split(self, pat=None, n=-1, expand=False) 从左边开始分割

参数详解：

参数	说明
pat	分列的依据，可以是空格，符号，字符串等等。支持正则表达式
n	分列的次数，不指定的话就会根据符号的个数全部分列。
expand	为True可以直接将分列后的结果转换成DataFrame。扩大

df.str.rsplit(self,pat=None,n=-1,expand=False) 从右边开始分割

tmp_df=df['薪资'].str.split(',',expand=True)#将薪资以逗号隔开，expand为True转为dataframe
tmp_df.columns=['最低薪资','最高薪资']
pd.merge(df,tmp_df,how='left',left_index=True,right_index=True)

df.merge(合并)

pd.marge(df1,df2,on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True)

参数说明：

参数	说明
on	列名，join用来对齐的那一列的名字，用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。
left_on	左表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。
right_on	右表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。
left_index/ right_index	如果是True的haunted以index作为对齐的key
how	数据融合的方法。left,right,outer,inner,默认为inner
sort	根据dataframe合并的keys按字典顺序排序，默认是，如果置false可以提高表现。

11. startswith（是否某个子串开头）

print(df["attack"].str.startswith("近"))
"""
0     True
1    False
2     True
3    False
4    False
5     None
Name: attack, dtype: object
"""

12. endswith（判断是否以某个子串结尾）

print(df["attack"].str.endswith("离"))
"""
0    True
1    True
2    True
3    True
4    True
5    None
Name: attack, dtype: object
"""

19. strip（按照指定内容，从两边去除，和python字符串内置的strip一样）

print(df["attack"].str.strip("中远近离"))
"""
0       距
1       距
2       距
3       距
4       距
5    None
Name: attack, dtype: object
"""

22. find（查找指定字符第一次出现的位置）

print(df["date"].str.find("-"))
"""
0    4
1    4
2    4
3    4
4    4
5    4
Name: date, dtype: int64
"""
 
# 当然可以指定范围,包括起始和结束
print(df["date"].str.find("-", 5))
"""
0    7
1    7
2    7
3    7
4    7
5    7
Name: date, dtype: int64
"""
 
print(df["date"].str.find("蛤"))
"""
0   -1
1   -1
2   -1
3   -1
4   -1
5   -1
Name: date, dtype: int64
"""
# 找不到的话，返回-1

print(df["attack"].str.strip("中远近离"))
"""
0       距
1       距
2       距
3       距
4       距
5    None
Name: attack, dtype: object
"""

Series.str.capitalize()

将给定系列的第一个字母转为大写字母，并使所有的字符在特定字符串中保持不变

21. extract（分组捕获）

提取

extract(正则匹配)

print(df["date"].str.extract("\d{4}-(\d{2})-(\d{2})"))
"""
    0   1
0  11  23
1  11  23
2  11  23
3  11  23
4  11  23
5  11  23
"""
# 必须匹配指定pattern，否则为NaN
# 而且必须要有分组，否则报错，结果是一个DataFrame，每一个分组对应一列
 
print(df["date"].str.extract("\d{4}-(?P<月>\d{2})-(?P<日>\d{2})"))
"""
    月   日
0  11  23
1  11  23
2  11  23
3  11  23
4  11  23
5  11  23
"""
# 指定分组名，会变成列名

pandas SQL操作

操作	sql	pandas
基础查询	select ‘字段’,… from ‘表’	表[[‘字段’,…]]
去重	select distinct ‘字段’ from ‘表’	表[[‘字段’]].drop_duplicates()
条件查询	select 字段 from 表 where 条件	表[条件]
排序查询	select 字段 from 表 where 条件 order by 排序字段 [asc/desc]	表[条件][[‘字段’]].sort_values(‘排序字段’,ascending=True/False)
分组查询	select 聚合函数,字段 from 表 where 条件 group by 分组字段 order by 排序字段	表[条件][[‘字段’]].groupby(‘分组字段’).聚合函数.sort_values(‘排序字段’)
聚合	select 聚合函数,字段 from 表 where 条件 group by 分组字段 order by 排序字段	表[条件][[‘字段’]].groupby(‘分组字段’).agg({‘字段’:函数}).sort_values(‘排序字段’)
分组后筛选	select 字段 from 表 where 条件 group by 分组字段 having 分组和条件 order by 排序字段	表[条件]/[[‘字段’]].groupby(‘分组字段’).query(‘条件’).sort_values()
limit	select 字段 from 表 where 条件 group by 分组字段 having 分组和条件 order by 排序字段 limit 条	表[条件]/[[‘字段’]].groupby(‘分组字段’).filter(条件).sort_values(‘排序字段’).head(条数)
连接查询
内连接	select 查询列表 from 表1 别名【inner】 join 表2 别名 on 连接条件 where 筛选条件 group by 分组列表 having 分组后的筛选 order by 排序列表 limit 子句;	表1.merge(表2)
外连接	select 查询列表 from 表1 别名 left\|right\|full[outer] join 表2 别名 on 连接条件 where 筛选条件 group by 分组列表 having 分组后的筛选 order by 排序列表 limit 子句;	表1.merage(表2,how=‘outer’)

数据分析模型：

1、RFM模型

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中，RFM模型是被广泛提到的。该机械模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况。

最近一次消费 (Recency)

消费频率 (Frequency)

消费金额 (Monetary)

计算：

最近一次消费：当前时间-消费时间

消费频率：消费次数的总和

消费金额：及每次消费的金额

指标表示

客户类型	R(最近一次消费值越高，价值越低)	F(消费频率值越高，价值越高)	M(消费金额值越高，价值越高)
重要价值客户(111)	高	高	高
一般价值客户(110)	高	高	低
重要保持客户(011)	r低	高	高
一般保持客户(010)	低	高	低
重要发展客户(101)	高	低	高
一般发展客户(100)	高	低	低
重要挽留客户(001)	低	低	高
一般挽留客户(000)	低	低	低

价值：最近一次消费和频率都高

保持：最近一次消费价值低

发展：消费频率低

挽留：最近一次消费和频率都低

#计算最后消费日期，消费金额，消费频率

df=df.groupby('user_id').agg(最后消费日期=('date','max'),
                         M=('消费金额','sum'),
                         F=('user_id','count')).reset_index()
#计算最近依次消费时间间隔
rq_max=df['最后消费日期'].max()
df['R']=df['最后消费日期'].map(lambda x:rq_max-x)
df['R']=df['R'].dt.days
df=df[['user_id','R','F','M']]

#对R进行打分
r_min=df['R'].min()
r_max=df['R'].max()
df['R']=pd.cut(df['R'],bins=[r_min-1,30,60,90,120,r_max+1],labels=[5,4,3,2,1])
#对F进行打分
f_min=df['F'].min()
f_max=df['F'].max()
df['F']=pd.cut(df['F'],bins=[f_min-1,1,2,3,4,f_max+1],labels=[1,2,3,4,5])
#对M进行打分
m_min=df['M'].min()
m_max=df['M'].max()
df['M']=pd.cut(df['M'],bins=[m_min-1,200,500,1000,2000,m_max+1],labels=[1,2,3,4,5])

#如果大于均值则标记1，否则标记0
r_mean=df['R'].mean()
f_mean=df['F'].mean()
m_mean=df['M'].mean()
df['R']=df['R'].map(lambda x:'1' if x<r_mean else '0')
df['F']=df['F'].map(lambda x:'1' if x>f_mean else '0')
df['M']=df['M'].map(lambda x:'1' if x>m_mean else '0')
#分析各户价值
def jiazhi(x):
    if x=='111':
        return '重要价值客户'
    elif x=='101':
        return '重要发展客户'
    elif x=='011':
        return '重要保持客户'
    elif x=='001':
        return '重要挽留客户'
    elif x=='110':
        return '一般价值客户'
    elif x=='100':
        return '一般发展客户'
    elif x=='010':
        return '一般保持客户'
    elif x=='000':
        return '一般挽留客户'
df['result']=df['result'].map(lambda x:jiazhi(x))

2、波斯顿矩阵

波士顿矩阵（BCG Matrix），又称市场增长率-相对市场份额矩阵、波士顿咨询集团法、四象限分析法、产品系列结构管理法等。

本法将企业所有产品从销售增长率和市场占有率角度进行再组合。在坐标图上，以纵轴表示企业销售增长率，横轴表示市场占有率，各以10%和20%作为区分高、低的中点，将坐标图划分为四个象限，依次为“明星类产品（★）”、“问题类产品（。）”、金牛类产品（￥）”、“瘦狗类产品（×）”。其目的在于通过产品所处不同象限的划分，使企业采取不同决策，以保证其不断地淘汰无发展前景的产品，保持“问题”、“明星”、“金牛”产品的合理组合，实现产品及资源分配结构的良性循环。

计算：

占有率=个体销量 / 总体销量

增长率=（当年销量-上一年销量）/ 上一年销量或当年销量 / 上一年销量 - 1

指标表示：

通过以上两个因素相互作用，会出现四种不同性质的产品类型，形成不同的产品发展前景：

①销售增长率和市场占有率“双高”的产品群（明星类产品）；

②销售增长率和市场占有率“双低”的产品群（瘦狗类产品）；

③销售增长率高、市场占有率低的产品群（问题类产品）；

④销售增长率低、市场占有率高的产品群（金牛类产品）。


增长率高、占有率高（双高）	明星类产品（生长期）发展
增长率低、占有率低（双低）	廋狗类产品（衰退期）放弃
增长率高、占有率低	问题类产品（导入期）收割
增长率低、占有率高	金牛类产品（成熟期）保持

战略	说明	运用
发展	以提高经营单位的相对市场占有率为目标．甚至不惜放弃短期收益。要使问题类业务想尽快成为“明星”，就要增加资金投入。	明星
保持	投资维持现状，目标是保持业务单位现有的市场份额、对于较大的“金牛”可以此为目标，以使它们产生更多的收益。	金牛
收割	这种战略主要是为了获得短期收益，目标是在短期内尽可能地得到最大限度的现金收入。对处境不佳的金牛类业务及没有发展前途的问题类业务和瘦狗类业务应视具体情况采取这种策略。	问题
放弃	目标在于清理和撤销某些业务，减轻负担，以便将有限的资源用于效益较高的业务。这种目标适用于无利可图的瘦狗类和问题类业务。一个公司必须对其业务加以调整，以使其投资组合趋于合理。	廋狗

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oOOJjLeM-1640316998305)(C:\Users\GJS\Desktop\markdown\python数据分析\图片\波士顿矩阵1.png)]

3、布林指标

布林线指标，即BOLL指标，其英文全称是“Bollinger Bands”，布林线(BOLL)由约翰·布林先生创造，其利用统计原理，求出股价的标准差及其信赖区间，从而确定股价的波动范围及未来走势，利用波带显示股价的安全高低价位，因而也被称为布林带。其上下限范围不固定，随股价的滚动而变化。布林指标和麦克指标MIKE一样同属路径指标，股价波动在上限和下限的区间之内，这条带状区的宽窄，随着股价波动幅度的大小而变化，股价涨跌幅度加大时，带状区变宽，涨跌幅度狭小盘整时，带状区则变窄。

计算：

一般至少二十天

中轨线=N日的移动平均线

上轨线=中轨线+两倍的标准差

下轨线=中轨线－两倍的标准差

指标表示

在股市分析软件中，BOLL指标一共由四条线组成，即上轨线UP 、中轨线MB、下轨线DN和价格线。

其中上轨线UP是UP数值的连线，用黄色线表示；

中轨线MB是MB数值的连线，用白色线表示；

下轨线DN是DN数值的连线，用紫色线表示；

价格线是以美国线表示，颜色为浅蓝色。和其他技术指标一样，在实战中，投资者不需要进行BOLL指标的计算，主要是了解BOLL的计算方法和过程，以便更加深入地掌握BOLL指标的实质，为运用指标打下基础。

上轨线	中轨线	下轨线	说明	建议
上	上	上	股价强势明显，短期内上涨	持股待涨，逢低买入
下	下	下	股价弱势明显，短期内下跌	持币观望，逢高卖出
下	上	上	处于长期上升：强势整理；处于长期下跌：弱势整理	处于长期上升：持股观望，逢低买入；处于长期下跌：持币观望，逢高卖出
上	下	下	股价将下跌
上	上	下	股价将上涨

4、关联规则

顾名思义，关联规则就是发现数据背后存在的某种规则或者联系。

概念：

指标	说明
项目	交易数据库中的一个字段，对超市的交易来说一般是指一次交易中的一个物品，如：牛奶
事务	某个客户在一次交易中，发生的所有项目的集合：如｛牛奶，面包，啤酒｝
项集	包含若干个项目的集合（一次事务中的），一般会大于0个
支持度	项集｛X，Y｝在总项集中出现的概率（见下面的例子）
置信度	在先决条件X发生的条件下，由关联规则｛X->Y ｝推出Y的概率（见下面的例子）
提升度	表示含有X的条件下同时含有Y的概率，与无论含不含X含有Y的概率之比。
频繁项集	某个项集的支持度大于设定阈值（人为设定或者根据数据分布和经验来设定），即称这个项集为频繁项集。

计算：

A->B

字母	说明
A	买A的人数
B	买B的人数
AB	既买A又买B的人数
S	总共的人数

指标	计算公式
支持度	AB/S
置信度	AB/A
提升度	AB/A / B/A

指标说明：

提升度说明：

提升度	关系
>1	有效的强关联关系
<=1	无效的强关联光系
=1	A与B相互独立，即是否有A对于B的出现没有影响

使用mlxtend计算

通过mlxtend库的frequent_patterns模块计算频繁项集和关联规则

导入函数

from mlxtend.frequent_patterns import apriori 计算频繁项集

from mlxtend.frequent_patterns import association_rules 计算相关规则

from mlxtend.prequent_patterns import TransactionEncoder 接口规范

from mlxtend.frequent_patterns import apriori	#计算频繁项集

from mlxtend.frequent_patterns import association_rules	#计算相关规则

from mlxtend.prequent_patterns import TransactionEncoder #接口规范

1、TransactionEncoder()

传入参数需要符合人家的要求，也就是接口规范，我们需要用到

TransactionEncoder有两个方法:

方法	说明
fit(dataset)	先fit之后，mlxtend就可以知道有多少个唯一值，有了所有的唯一值，就可以转换成one-hot code了
transform()

属性	说明
columns_

#将同一个客户购买的所有商品放入同一个购物篮
baskets=df.groupby('OrderNumber')['Model'].apply(lambda x:x.tolist())

te=TransactionEncoder()
basked_tf=te.fit_transform(baskets)#转换算法可以接受的模型（bool)
df=pd.DataFrame(basked_tf,columns=te.columns_)
df.head()

2、pariori()

apriori(df,min_support=0.6,use_colnames=True)

计算频繁项集

参数说明：

参数	说明
df	候选项集
min_support	最小支持度
use_colnames	使用列名

#计算频繁项集，需指定最小支持度,返回DataFrame类型,(support,itemsets)
frequent_itemsets=apriori(df,min_support=0.01,use_colnames=True)

3、association()

association_rules(df, metric=“confidence”,min_threshold=0.8,support_only=False)

计算关联规则

参数说明：

参数	说明
df	频繁项集
metric	可选值： support ：支持度 confidence ：置信度 lift ：提升度 leverage conviction
min_threshold	最小度,参数类型是浮点型，根据 metric 不同可选值有不同的范围 metric = ‘support’ => 取值范围 [0,1] metric = ‘confidence’ => 取值范围 [0,1] metric = ‘lift’ => 取值范围 [0, inf]
support_only	默认是 False。仅计算有支持度的项集，若缺失支持度则用 NaNs 填充。

#求关联规则，设置最小置信度为0.1
rules=association_rules(frequent_itemsets,metric='confidence',min_threshold=0.1)

你可能感兴趣的:(python数据分析,python,数据挖掘,机器学习,pandas,数据分析)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

pandas学习笔记

一、pandas库的Series类型

1、初始化

2、索引

3、查看数据

1）Series.take(参数)

二、DataFrame类型

1、初始化

1)传入二维数组

2)传入一个字典

3)读取文件

4)列表重塑

2、索引

1)df.columns=[列标]

2）df.index=[行号]

3）df.loc[[index],[column]]

4)条件选择

5）df.rename()

6）df.reindex()

7）df.set_index()

3、查看数据

1）df.head(n)

2）df.tail(n)

3）df.index

4）df.columns

5）df.values

6） df.iloc[索引/切片]

7）df.loc[[行],[列]]

8）df.shape

9）df.ndim

10）df[列].dtype

11）df.info()

12）df.describe()

13）df.loc[a1,a2]

14）df.iloc[a1,a2]

16）df.query()

17）df.dtypes

18）s.unique()

19）s.nunique()

20）s.vlaue_counts()

21）df.filter()

22）df.any() and df.all()

23）s.diff()

24）s.pct_chang()

3、数据操作

1）行的 操作

1、查看行数据

2、添加一行

3、删除一行

4、df.drop()

2）列的操作

1、查看列数据

2、增加一列

3、插入一列 df.insert()

4、删除一列

3）移动行或列

4、对齐运算

算术运算表：

df1.add(df2,)

三、数据清洗

1、缺失值处理

1）判断缺失值

2）填充缺失值

3）删除缺失值

4）插值填充

5）异常值处理

6）重复值判断

7）删除重复值

8）替换

9）映射

1.单列运算map

2.多列运算apply

1）Series.apply()

2）DataFrame.apply()

3.applymap

10）管道

1、df.pipe()

11）合并

1、df.merge(合并)

2、交集

1）行的操作