nono_x

pandas库的使用

官方文档：https://pandas.pydata.org/

axis=0，表示纵向，行操作

axis=1，表示横向，列操作

pandas统计分析基础

1、读/写不同数据源的数据

在生产环境中，绝大多数数据都存储于数据库中。pandas提供了读取与存储关系型数据库数据的函数与方法。除了pandas库以外，还需要使用SQLAlchemy库建立对应的数据库连接。SQLAlchemy配合相应数据库的Python连接工具（如：MySQL需要pymysql库，Oracle需要cx_engine库），使用create_engine函数，建立一个数据库连接。pandas支持MySQL、postgresql、Oracle、SqlServer和SQLite等主流数据库。

以MySQL为例：

读写数据库数据

读取数据

pandas读取MySQL有3个函数，read_sql、read_sql_table、read_sql_query.

read_sql_table只能读取数据库的一个表格，不能实现查询操作
read_sql_query只能实现查询操作，不能直接读取数据库中的某个表
read_sql既能读取数据库中的一个表、也能实现查询操作

import pandas as pd
pd.read_sql(
    sql,
    con,
    index_col=None,
    coerce_float=True,
    params=None,
    parse_dates=None,
    columns=None,
    chunksize=None,
)
read_sql_query(
    sql,
    con,
    index_col=None,
    coerce_float=True,
    params=None,
    parse_dates=None,
    chunksize=None,
)
read_sql_table(
    table_name,
    con,
    schema=None,
    index_col=None,
    coerce_float=True,
    parse_dates=None,
    columns=None,
    chunksize=None,
)

SQLAlchemy连接MySQL数据库的代码：

from sqlalchemy import create_engine
#用户名为root，密码为1234
#地址为127.0.0.1，数据库名称为testdb，编码为utf-8
#数据库产品名+连接工具名://用户名:密码@数据库IP地址:数据库端口号/数据库名称?charset=数据库数据编码
engine = create_engine('mysql+pymysql://root:[email protected]:3306/testdb?charset=utf-8')

重要参数说明：

参数名称	说明
sql/table_name	接收string。表示读取的数据的表名或者sql语句
con	接收数据库连接。表示数据库链接信息
index_col	表示设定的列作为列名，如果是一个数列，则是多重索引
coerce_float	接收boolean。将数据库中的decimal类型转为pandas中的float64类型数据
columns	接收list。表示读取数据的列名

使用函数读取数据库数据：

formlist = pd.read_sql_query('show tables',con=engine)
detail1 = pd.read_sql_table('table_name',con=engine)
detail2 = pd.read_sql('se;ect * from meal_order_detail2',con=engine)

存储数据

将DataFrame写入数据库中，也要依赖SQLAlchemy库的create_engine函数创建数据库连接。数据库存储只有一个方法：to_sql()，其用法与常用参数

DateFrame.to_sql(
        name,
        con,
        schema=None,
        if_exists="fail",
        index=True,
        index_label=None,
        chunksize=None,
        dtype=None,
        method=None,
    )

参数名称	说明
name	接收string。代表数据库表名
con	接收数据库连接
if_exists	接收fail、replace、append。fail表示如果表名存在，则不执行写入操作；replace表示如果存在，则将原表替换掉；append则表示在源数据表的基础上追加数据。默认为fail
index	接收boolean。表示是否将行索引作为数据存入数据库。默认为True
index_label	接收string或者sequence。代表是否引用索引名称
dtype	接收dict。代表写入的数据类型（列名为key，数据格式为values）。默认为None

读写文本文件

读取数据

pandas提供了两种函数读取文本文件

read_table()读取文本文件
read_csv()读取csv文件，即字符分隔文件

#详细见官方文档
pd.read_table(filepath,sep='\t',header='infer',names=None,index_col=None,dtype=None,encoding=utf-8,engine=None,nrows=None)
pd.read_csv(filepath,sep=',',header='infer',names=None,index_col=None,dtype=None,encoding=utf-8,engine=None,nrows=None)

参数名称	说明
filepath	接收string。代表文件路径
sep	接收string。代表分隔符
header	接收int或sequence。表示将某行数据作为列名。默认infer，表示自动识别
names	接收array。表示列名
index_col	接收int、sequence、False。表示索引列的位置
dtype	接收dict。代表写入的数据类型
engine	接收c或者python。代表数据解析引擎。默认为c
nrows	接收int。表示读取前几行

存储数据

对于结构化数据，通过to_csv()函数实现以csv文件格式存储。

DataFrame.to_csv(
        path_or_buf=None,
        sep=",",
        na_rep="",
        float_format=None,
        columns=None,
        header=True,
        index=True,
        index_label=None,
        mode="w",
        encoding=None,
        compression="infer",
        quoting=None,
        quotechar='"',
        line_terminator=None,
        chunksize=None,
        date_format=None,
        doublequote=True,
        escapechar=None,
        decimal=".",
    )

常用参数说明：

参数名称	说明
path_or_buf	接收string。代表文件路径
sep	接收string。代表分隔符，默认为’,’
na_rep	接收string。代表缺失值，默认为""
columns	接收list。代表写出的列名
header	接收boolean。代表是否将列名写出。默认为True
index	接收boolean。表示索引名。代表是否将行名写出。默认为True
index_label	接收sequence。表示索引名
mode	接收特定的string。代表数据写入模式。默认为w
encoding	接收特定的string。代表存储文件的编码格式

读写Excel文件

读取数据

import pandas as pd
pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False,dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, **kwds)
#读取csv文件时，使用encoding='gbk'解决中文问题

1、io，Excel的存储路径

2、sheet_name，要读取的工作表名称

3、header，用哪一行作列名

4、names，自定义最终的列名

5、index_col，用作索引的列

6、usecols，需要读取哪些列

7、squeeze，当数据仅包含一列

8、converters ，强制规定列数据类型

9、skiprows，跳过特定行

10、nrows ，需要读取的行数

11、skipfooter ，跳过末尾n行

存储数据

DateFrame.to_excel(
        excel_writer,
        sheet_name="Sheet1",
        na_rep="",
        float_format=None,
        columns=None,
        header=True,
        index=True,
        index_label=None,
        startrow=0,
        startcol=0,
        engine=None,
        merge_cells=True,
        encoding=None,
        inf_rep="inf",
        verbose=True,
        freeze_panes=None,
    )
   
with pd.ExcelWriter(r'{}\{}.xlsx'.format(path,'table_rank')) as writer:
    table_rank.to_excel(excel_writer=writer,sheet_name='{}'.format('排名变化表'))

##2、掌握Series的常用操作

Series 是一个带有名称和索引的一维数组。
Series 中包含的数据类型可以是整数、浮点、字符串、列表、元组、ndarray等。
假定有一个场景是：存储一些用户的信息，暂时只包括年龄信息。
我们可以通过 Series 来存储，这里我们通过 Series 存储了四个年龄：18/30/25/40，只需将要存储的数据构建成一个数组，然后赋值给data参数即可。

import pandas as pd
import numpy as np
pd.Series(['data=None', 'index=None', 'dtype=None', 'name=None', 'copy=False', 'fastpath=False'],)

Series索引的添加与修改

方法1

name = ['蜘蛛侠', '灭霸', '奇异博士', '钢铁侠', '蝙蝠侠', '索尔']
age = [22, 3000, 33, 37, 40, 1500]

heroes_age = pd.Series(age,index=name)   #索引index作为pd.Series()中的参数来为heroes_age指定索引
heroes_age 
heroes_age.index

方法2

建立好Series之后，用一个新的列表（或者其他有序序列）赋值到该Series的索引对象中。

user_age = pd.Series([22, 3000, 33, 37, 40, 1500])   

user_age.index = ['蜘蛛侠', '灭霸', '奇异博士', '钢铁侠', '蝙蝠侠', '索尔']

user_age

Series名字的添加和修改

索引名的添加

user_age.index = ['蜘蛛侠', '灭霸', '奇异博士', '钢铁侠', '蝙蝠侠', '索尔']
user_age.index.name = '英雄姓名'
user_age
user_age.index.name

In [6]: user_age.index.name = '英雄姓名'
In [7]: user_age
Out[7]:
英雄姓名
蜘蛛侠       22
灭霸      3000
奇异博士      33
钢铁侠       37
蝙蝠侠       40
索尔      1500
dtype: int64

Series名字的添加

#直接用pd.Series()中的name参数来设置
name = ['蜘蛛侠', '灭霸', '奇异博士', '钢铁侠', '蝙蝠侠', '索尔']
age = [22, 3000, 33, 37, 40, 1500]
heroes_age = pd.Series(age,index=name,name='英雄年龄')

heroes_age.name

#通过pd.Index方法先创建一个索引，再将索引添加到series中去 
data=[22, 3000, 33, 37, 40, 1500]
index = pd.Index(['蜘蛛侠', '灭霸', '奇异博士', '钢铁侠','蝙蝠侠', '索尔' ], name="英雄姓名")  #注意这里的Index中的"i"是大写

user_age = pd.Series(data=data, index=index, name="英雄年龄")

user_age
##运行结果
英雄姓名
蜘蛛侠       22
灭霸      3000
奇异博士      33
钢铁侠       37
蝙蝠侠       40
索尔      1500
Name: 英雄年龄, dtype: int64

Series的索引和切片

import numpy as np
import pandas as pd
name = ['蜘蛛侠', '灭霸', '奇异博士', '钢铁侠', '蝙蝠侠', '索尔']
age = [22, 3000, 33, 37, 40, 1500]
heroes_age = pd.Series(age,index=name)
##索引
heroes_age[0]
heroes_age['蜘蛛侠']
##切片
heroes_age[0::2]
heroes_age['蜘蛛侠':'索尔':2]
#单独抽取某些数据
heroes_age[[1,2,4]]
heroes_age[['灭霸','奇异博士','蝙蝠侠']]
##get方法索引
heroes_age["蜘蛛侠"]
heroes_age.get("蜘蛛侠")
heroes_age.get("闪电侠", '不存在')

掩码提取

因为Series底层封装的也ndarray数组结构, 因此同样支持向量化操作, 可以利用

import numpy as np
import pandas as pd

name = ['蜘蛛侠', '灭霸', '奇异博士', '钢铁侠', '蝙蝠侠', '索尔']
age = [22, 3000, 33, 37, 40, 1500]
heroes_age = pd.Series(age,index=name)
heroes_age[heroes_age>100]
heroes_age[(heroes_age>1000)&(heroes_age<2000)]
# 提取年龄为偶数的数据
#提取年龄为偶数，且年龄小于100的英雄年龄
heroes_age[heroes_age%2==0]
heroes_age[(heroes_age%2==0)]
heroes_age[(heroes_age%2==0)&(heroes_age<100)]   # 在多个逻辑条件下，用& 或者|

3、掌握DataFrame的常用操作

DataFrame 是一个带有索引的二维数据结构，每列可以有自己的名字，并且可以有不同的数据类型。你可以把它想象成一个 excel 表格或者数据库中的一张表，也可以将它想象成由多个Series拼接成的一个DataFrame，公用一个索引，它是最常用的 Pandas 对象。

DataFrame的创建

import numpy as np
import pandas as pd

pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

转化数组

a=np.arange(1,10).reshape(3,3)
print(pd.DataFrame(a))

通过字典转化

data = {
    "年龄":[19, 3000, 30, 37, 40, 1500], 
    "出生地":["纽约皇后区", "泰坦星球","费城", "纽约", "哥谭",  "阿斯加德" ]
}
#先将dataframe的索引创建，再将索引添加到dataframe中去
index = pd.Index(data=['蜘蛛侠', '灭霸', '奇异博士', '钢铁侠','蝙蝠侠', '索尔' ], name="英雄姓名")
user_info = pd.DataFrame(data=data,index=index )
print（user_info）

通过多维数组转化

除了上面这种传入 dict 的方式构建外，我们还可以通过另外一种方式来构建。这种方式是先构建一个二维数组，然后再生成一个列名称列表。

data = [[19, "纽约皇后区"], 
        [3000, "泰坦星球"], 
        [30, "费城"], 
        [37, "纽约"], 
        [40, "哥谭"], 
        [1500, "阿斯加德"]]
columns = ["年龄", "出生地"]
index = pd.Index(data=['蜘蛛侠', '灭霸', '奇异博士', '钢铁侠','蝙蝠侠', '索尔' ], name="英雄姓名")
user_info = pd.DataFrame(data=data, index=index, columns=columns)
print(user_info)

查看DataFrame的常用属性

DataFrame的基础属性：

values：获取元素
index：索引
columns：列名
dtypes：类型
size：DataFrame元素个数
ndim：DataFrame的维度数
shape：DataFrame的数据形状
T：实现DataFrame的数据转置（行列转换）
属性调用：DataFrame.values

增删改查DataFrame数据

增

添加一列的方法：只需要新建一个列索引，然后对该索引进行数据赋值即可

np.where()的妙用

如果新列是依据原有的列生成的“衍生变量”，那么需要用到np.where()，比如要生成一列变量，将性别的“男”转化为“1”,“女”转化为“0”

import numpy as np
user_info
np.where(user_info.性别=="男",1,0)      #这里返回的是numpy的ndarray
user_info["sex"]=np.where(user_info.性别=="男",1,0)
user_info

删

行列删除

删除某行或者某列的数据用pandas提供的drop方法：

DataFrame.drop(label,axis=0,index=None,columns=None,level=None,inplace=False,erros='raise')

参数名称	说明
labels	接收string或者array。代表删除的行或列的标签
axis	接收0或1.代表操作的轴向,（0或’行’）或（1或’列’）
levels	接收int或索引名。代表标签所在级别。
inplace	接收boolean。代表操作是否对原数据生效。默认为False

列删除

user_infor2.pop("列名")

列顺序的更改

如果我们想新修改user_infor2的列顺序，有两个方法：

df[列名组]

先用列表定义行的列名顺序，再按照这个新的顺序重新赋值回原DataFrame：

hehe=["年龄","性别","出生地"]
user_infor2[hehe]    #这里只是返回新DataFrame，并没有修改原DataFrame

df.pop() + df.insert()
- 将要移动位置的列用DataFrame.pop()删除，弹出的该列series赋值到新变量。
- 然后用DataFrame.insert()将弹出来的这列指定位置插回原DataFrame。
- 这种做法当然会修改原DataFrame
```
sex=user_infor2.pop("性别")
user_infor2.insert(1,"性别",sex)
user_infor2
```

改

更改DataFrame中的数据原理是将这部分数据提取出来，重新复制为新数据，需要注意的是：数据更改直接对源数据进行更改，操作无法撤销。如果做出更改，需要对更改条件进行确认或对数据进行备份。

df.assign()

通过上面的例子可以看出，我们创建新的列的时候都是在原有的 DataFrame 上修改的，也就是说如果添加了新的一列之后，原有的 DataFrame 会发生改变。

我们可以通过 assign 方法来创建新的一列,并返回一个新DataFrame，不修改原DataFrame。

user_info.assign(新列 = 88)     #自然对数（e为底）

DataFrame.assign()往往会搭配np.where()使用：

比如，依据原有的user_infor表，生成一个新的DataFrame，新的DataFrame新增一列变量，如果英雄性别为男，年龄增加10岁，性别为女增加5岁，新列列名为“新年龄”。

查

DataFrame的基本查看方式
- 获取单列数据：DataFrame['列名']、DataFrame.属性名
- 获取单列多行数据：DataFrame['列名'][:5]
- 获取多列多行数据：DataFrame[['列名1'，'列名2']][:5]
- 获取多行数据：DataFrame[:][:5]
- head()和tail()方法：DataFrame.head(n)、DataFrame.tail(n)
loc、iloc访问方式
- DataFrame.loc[行索引名称会条件，列索引名称]
```
#条件切片
DataFrame.loc[DataFrame['列名']=='111','列名2']
```
- DataFrame.iloc[行索引位置，列索引位置]
```
DataFrame.loc[(DataFrame['列名']=='111').values,[1,5]]
```
切片方法之ix：DataFrame.ix[行索引名称或位置，列索引名称或位置]

ix方法既可以接收索引名称，也可以接收索引位置，需注意：当索引名称和位置存在部分重叠时，ix默认优先识别名称。
```
#ix索引位置为闭区间
DataFrame.ix[2:6,5]
```

4、索引和列名的修改

在使用 DataFrame 的过程中，经常会遇到修改列名，修改索引名、修改索引等情况。使用 rename 轻松可以实现。

修改索引名用需要在df.rename()中设置index参数。
修改列名只需要设置参数 columns。

修改索引名

user_infor2.index.name="heros names"

修改索引

要将整个索引替换掉，只需要建立一个字典：

该字典的“键”对应着“旧索引”
该字典的“值”对应着“新索引”

a=['蜘蛛侠', '灭霸', '奇异博士', '钢铁侠', '蝙蝠侠', '索尔']
b=["荷兰弟","乔什·布洛林","本尼迪克特·康伯巴奇","小罗伯特·唐尼","本·阿弗莱克","克里斯·海姆斯沃斯"]
c=dict(zip(a,b))

user_infor2=user_infor2.rename(index=c)   #将行索引改为上面字典的映射关系
user_infor2.index.name="演员"  #添加行索引名
user_infor2

修改列名

修改列名只需要设置参数 columns。

user_infor2.columns.name="角色属性"

c={"年龄":"Age","性别":"Sex","出生地":"Birthplace"}

user_infor2=user_infor2.rename(columns=c)
user_infor2

描述分析DataFrame数据

有时候我们获取到数据之后，想要查看下数据的简单统计指标（最大值、最小值、平均值、中位数等），比如想要查看年龄的最大值，如何实现呢？

DataFrame中有两种方法可以实现：

方法一：直接通过DataFrame抽取出来的单列series使用series的相应统计方法或函数。
方法二：通过使用numpy对应的方法或函数，处理目标就是DataFrame抽出来的series。

user_info.Age.mean()
np.mean(user_info.Age)

那么，series能用哪些描述性统计的指标呢？——numpy中ndarray相应的函数都能用在这里

#numpy的函数都能用在这里
user_infor.Age.max()
user_infor.Age.idxmax()
user_infor.Age.idxmin()
user_infor.loc[user_infor.Age.idxmax()]

类似的，通过调用 min、mean、quantile、sum 方法可以实现最小值、平均值、中位数以及求和。可以看到，对一个 Series 调用这几个方法之后，返回的都只是一个聚合结果。

user_info.Age.cumsum()
###例题
grade=pd.read_csv('student_grade.txt',sep='\t')
grade.head()
grade["数学"].mean()
grade['数学'].std()
t=grade[['数学','语文','英语']]
grade['总分1']=np.sum(t,axis=1)
grade['总分2']=grade.英语+grade.数学+grade.语文
grade
grade['差值']=grade.数学-grade.语文
grade['差值']=grade.差值.abs()
grade.head(5)

pandas常用描述性统计方法

方法名称	说明	方法名称	说明
min	最小值	max	最大值
mean	均值	ptp	极差
median	中位数	std	标准差
var	方差	cov	协方差
sem	标准误差	mode	众数
skew	样本偏度	kurt	样本峰度
quantile	四分位数	count	非空数值数目
describe	描述统计	mad	平均绝对离差

如果想要获取更多的统计方法，可以参见官方链接：Descriptive statistics (http://pandas.pydata.org/pandas-docs/stable/basics.html#descriptive-statistics)

虽然说常见的各种统计值都有对应的方法，如果我想要得到多个指标的话，就需要调用多次方法，是不是显得有点麻烦呢？

Pandas 设计者自然也考虑到了这个问题，想要一次性获取多个统计指标，只需调用 describe 方法即可

df.describe()

# 只支持数值列
grade.describe()
#直接调用 describe 方法后，会显示出数字类型的列的一些统计指标，如 总数、平均数、标准差、最小值、最大值、25%/50%/75% 分位数。

user_infor.describe(include=["object"])  #显示数据类型是object的字段信息
#结果展示了非数字类型的列的一些统计指标：总数，去重后的个数、最常见的值、最常见的值的频数。

Series.value_counts

频数统计：

user_infor['Birthplace'].value_counts()

如果想要获取某列最大值或最小值对应的索引，可以使用 idxmax 或 idxmin 方法完成。

user_infor.Age.idxmin() #注意区分，ndarray对应方法为np.argmin()

单列数据类型转换

如果想要转换数据类型的话，可以通过 astype 来完成。

Series.astype()

比如，想将年龄的数据类型从"int64"转为"float":

user_infor2.Age = user_infor2.Age.astype(float)  #用dtype就要写成"float64",记得加双引号
user_infor2.info()
user_infor2

Series.to_numeric()

有时候会涉及到将 object 类型转为其他类型，常见的有转为数字、日期、时间差。 Pandas 中分别对应 to_numeric、to_datetime、to_timedelta 方法。比如，如果我们给user_infor增加了一列新的字段“身高”

user_infor2["Height"] = ["175", "270", "178", "177", "185", "188", "168"]
#转换为数字
pd.to_numeric(user_infor2.Height)
user_infor2["Height"] = pd.to_numeric(user_infor2.Height)
##对身高字段进行统计描述
user_infor2["Height"].describe()

如果身高里面多了一些"cm"的字符，使用Series.to_numeric()会转换失败：

这时候可以通过Series.to_numeric()方法里面errors参数的设定来进行区分处理,errors可以设置参数’ignore’, ‘raise’, ‘coerce’：

如果’raise’，则无效的解析将引发异常。
如果’coerce’，则无效解析将被设置为NaN。
如果’ignore’，则无效的解析将返回输入。

user_infor2["Height"] = ["175", "270cm", "178cm", "177", "185", "188cm", "168"]
user_infor2["Height"] = pd.to_numeric(user_infor2.Height,errors="coerce")
user_infor2["Height"] = ["175", "270cm", "178cm", "177", "185", "188cm", "168"]
user_infor2["Height"] = pd.to_numeric(user_infor2.Height,errors="ignore")
user_infor2

5、转换与处理时间序列数据

转换字符串时间为标准时间

在多数情况下，对时间类型数据进行分析的前提就是将原本为字符串的时间转换为标准时间。pandas继承了NumPy库和datetime库的时间相关模块，提供了6中时间相关的类。

类名称	说明
Timestamp	最基础的时间类。表示某个时间点。绝大多数的场景中的时间数据都是Timestamp
Period	表示单个时间跨度，或者某个时间段，例如某一天、某一小时等
Timedelta	表示不同单位的时间，例如1d、1.5h等，而非具体的某个时间段
DatetimeIndex	一组Timestamp构成的index，可以用来作为Series或者DataFrame的索引
PeriodtimeIndex	一组Period构成的index，可以用来作为Series或者DataFrame的索引
TimedeltaIndex	一组Timedelta构成的index，可以用来作为Series或者DataFrame的索引

Timestamp：将与时间相关的字符串转为Timestamp。pd.to_datetime()

还可以将原时间数据提取出来转换为DatetimeIndex 、PeriodtimeIndex

pd.DatetimeIndex()、pd.PeriodIndex(Series,freq='S')，转换为PeriodIndex的时候，需要通过freq参数指定时间间隔，常用的时间间隔有Y、M、D、H、T、S。两个函数可以用来转换数据，还可以用来创建时间序列数据。

参数名称	说明
data	接收array。表示DatetimeIndex的值
freq	接收string。表示时间的间隔频率
start	接收string。表示生成规则时间数据的起点
periods	表示需要生成的周期数目
end	接收string。表示生成规则时间数据的终点
tz	接收timezone。表示数据的市区
name	接收int或string。指定DatimeIndex的名字

DatetimeIndex用来指代一系列时间点的一种数据结构
PeriodIndex用来指代一系列时间段的数据节后-

提取时间序列数据信息

在多数涉及与时间相关的数据处理、统计分析的过程中，都需要提取实践中的年份、月份等数据。

使用对应的Timestamp类属性就能够实现这一目的。

属性名称	说明	属性名称	说明
year	年	week	一年中第几周
month	月	quarter	季节
day	日	weekofyear	一年中第几周
hour	小时	dayofyear	一年中第几天
minute	分钟	dayofweek	一周第几天
second	秒	weekday	一周第几天
date	日期	weekday_name	星期名陈
time	时间	is_leap_year	是否闰年

结合python列表推导式，可以实现对DataFrame某一列时间信息数据的提取

[i for i in DataFrame['lock_time']]

在DatetimeIndex和PeriodIndex中提取对应信息的方法更加简单，以类属性方法实现：pd.DatetimeIndex().weekday_name，需要注意的是：PeriodIndex相比于DatetimeIndex少了weekdar_name属性，所以不能用该属性提取星期名称，可以通过weekday属性，而后将0_{6分别复制为Monday}Sunday

加减时间数据

Timedelta类是时间相关类中的一个异类，不仅能够使用正数，还能使用负数表示单位时间。

类的周期名称、对应单位及说明

周期名称	单位	说明
weeks	无	星期
days	D	天
hours	h	小时
minutes	m	分
seconds	s	秒
milliseconds	ms	毫秒
microseconds	us	微秒
nanoseconds	ns	纳秒

#将时间数据向后平移一天
time1 = DataFrame['time'] + pd.Timedelta(days=1)
#时间数据相减,减去2017年1月1日0点0时0分0秒
timedelta = DataFrame['time'] - pd.to_datetime('2017-1-1')

6、使用分组聚合进行组内运算

groupby拆分数据

groupby方法提供的是分组聚合步骤中的拆分功能，能够根据索引或者字段对数据进行分组。

DataFrame.groupby(
        by=None,
        axis=0,
        level=None,
        as_index=True,
        sort=True,
        group_keys=True,
        squeeze=False,
        observed=False,
        **kwargs
    )

参数名称	说明
by	接收llist、string、mapping、generator。用于确定分组的依据。如果传入的是函数，则对索引进行计算并分组；如果传入的是字典或Series，则字典或Series的值用来作为分组依据；如果传入一个NumPy数组，则数据的元素作为分组依据；如果传入的是字符串或者字符串列表，则使用这些字符串所代表的字段作为分组依据
axis	接收int。表示操作的轴向，默认为0
level	接收int或索引名。代表标签所在级别。默认为None
as_index	接收boolean。表示聚合后的聚合标签是否以DataFrame索引形式输出，默认为True
sort	接收boolean。表示是否对分组依据、分组标签进行排序、默认为True
group_keys	接收boolean。表示是否显示分组标签的名称，默认为True
squeeze	接收boolean。表示是否在允许的情况下对返回数据进行降维。默认为False

分组后结果并不能直接查看，而后被存于内存中，输出的内存地址。是pandas提供的一种对象，Groupby对象常用的描述性统计方法及说明：

方法名称	说明
count	计算分组的数目，包括缺失值
head	返回每组的前n个值
max	返回每组的最大值
mean	返回每组的均值
median	返回每组的中位数
cumcount	对每个分组的组员进行标记，0~n-1
size	返回每组的大小
min	返回每组的最小值
std	返回每组的标准差
sum	返回每组的和

detailGroup = DataFrame[['列名1','列名2','列名3']].group(DataFrame['列名1']).mean()
detailGroup = DataFrame.group(['列名1'])['列名1','列名2','列名3'].mean()

agg聚合数据

DataFrame.agg(func,axis=0,*args,**kwargs)
DataFrame.aggregate(func,axis=0,*args,**kwargs)

参数名称	说明
func	接收list、dict、function。表示应用于每行或每列的函数
axis	接收0或1。代表操作的轴向，默认为0

#使用agg求出当前数据对应的统计量
DataFram.agg([np.sum,np.mean])
#分别求出一个字段的总和，另一个字段的均值
DataFrame.agg({'字段1':np.sum,'字段2':np.mean})
#agg里面也可以传入自定义函数
#agg方法对分组数据使用不同的聚合函数
DataFrame.groupby(by='列名').agg({'列名2':np.count,'列名3':np.sum})

apply聚合数据

DataFrame.apply(
        func,   #接收传入的函数
        axis=0,	#操作的轴向
        broadcast=None,	#是否进行广播
        raw=False,	#是否将ndarray对象传递给函数
        reduce=None, #表示返回值的格式
        result_type=None,
        args=(),
        **kwds
    )

DataFrame.groupby(by='列名').apply(np.mean)

transform聚合数据

DataFrame.transform(func)，可以对整个DataFrame进行操作

7、创建透视表与交叉表

使用pivot_table函数创建透视表

pd.pivot_table(
    	data,			#接收DataFrame
        values=None,	#接收string。指定要聚合的数据字段名
        index=None,		#接收string、list。表示行分组键
        columns=None,	#接收string、list。表示列分组键
        aggfunc="mean",	#接收函数，表示聚合函数
        fill_value=None,	#填充缺失值
        margins=False,		#接收boolean。表示汇总开关
        dropna=True,		#是否删除权威NaN的列
        margins_name="All",
        observed=False,
    )
DataFrame.pivot_table(
        values=None,
        index=None,
        columns=None,
        aggfunc="mean",
        fill_value=None,
        margins=False,
        dropna=True,
        margins_name="All",
        observed=False,
    )

使用crosstab函数创建交叉表

交叉表是一种特殊的透视表，主要用于计算分组频率。

pd.crosstab(
    index,		#接收string、list。表示行索引建
    columns,	#接收string、list。表示列索引建
    values=None,#接收array，表示聚合数据
    rownames=None,#表示行分组键名
    colnames=None,#表示列分组键名
    aggfunc=None, #表示聚合函数
    margins=False,#汇总功能的开关，默认为True
    margins_name="All",
    dropna=True, #是否删除全为NaN的列，默认为False
    normalize=False,#是否对值进行标准化。默认为False
)

使用pandas进行数据预处理

1、合并数据

堆叠合并数据

pd.concat

堆叠就是简单的把两个表拼在一起，也被称为轴向连接、绑定或连接。

pd.concat(
    objs, 	#接收合并对象
    axis=0,  #0代表纵向合并
    join="outer", #表示其他轴上的索引是按交集(inner)还是并集(outer)合并
    join_axes=None, #接收Index对象，表示用于其他n-1条轴的索引
    ignore_index=False, #是否不保留连接轴上的索引
    keys=None,
    levels=None,
    names=None,
    verify_integrity=False,
    sort=None,
    copy=True,
)

pd.concat([user_infor,user_infor],axis=0)

pd.concat([user_infor,user_infor],axis=1)

df.append(df)

append方法可纵向合并数据，但是两张表的列名需要完全一致

DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=None)

user_infor.append(user_infor)

主键合并数据

pd.merge(
    left,
    right,
    how="inner",  #连接方式
    on=None,
    left_on=None, #左表主键名
    right_on=None, #右表主键名
    left_index=False,
    right_index=False,
    sort=False,
    suffixes=("_x", "_y"),
    copy=True,
    indicator=False,
    validate=None,
)

pd.merge()

pd.merge('left', 'right', "how='inner'", 'on=None', 'left_on=None', 'right_on=None)

left：仅使用左框架中的键，类似于SQL左外连接;保留关键顺序

pd.merge(user_info_01,user_info_02,how="left",left_on="Hero Name",right_on="英雄名")
- right：仅使用右框架中的键，类似于SQL右外连接;保留关键顺序
  
  pd.merge(user_info_01,user_info_02,how="right",left_on="Hero Name",right_on="英雄名")
- outer：使用来自两个帧的键的并集，类似于SQL full outer加入;按字典顺序排序键
- inner：使用两个帧的交集，类似于SQL内部加入;保留左键的顺序
  
  pd.merge(user_info_01,user_info_02,how="inner",left_on="Hero Name",right_on="英雄名")

new_infor=pd.merge(user_info_01,user_info_02,how="right",left_on="Hero Name",right_on="英雄名")
new_infor=new_infor.drop("英雄名",axis=1)
a={"演员":"Actor or Actress"}
new_infor=new_infor.rename(columns=a)
new_infor.iloc[7,:]=["黑寡妇",35,"女","斯大林格勒","枪械"]
new_infor["Age"]=new_infor["Age"].astype(int)
new_infor

DataFrame.join()

join方法也可以实现部分主键合并功能，但是使用join方法时，两个主键名必须相同

DataFrame.join(self, other, on=None, how="left", lsuffix="", rsuffix="", sort=False)

重叠合并数据

数据分析和处理过程中偶尔会出现两份数据的内容几乎一致的情况，但是某些特征一张表上是完整的，另一个表是缺失的。这是处理将数据一一对比然后填充的方法以外，还可以进行重叠合并数据。

df.combine_first(other) ，other表示参与重叠合并的另一个表

2、清洗数据

数据重复会导致数据的方差变小，数据分布发生较大变化。缺失会导致样本信息减少，不仅增加了数据分析的困难，而且会导致数据分析结果产生偏差。异常值则会产生"伪回归"。

检测与处理重复值

记录重复，一个或多个特征的某几条记录的值完全相同

DataFrame.drop_duplicates(subset=None, keep="first", inplace=False)，该方法仅对DataFrame、Series有效

参数名称	说明
subset	接收string、sequence。表示去重的列，默认为全部列
keep	接收特定的string。表示重复时保留第几个数据。first、last、false
inplace	接收boolean。表示是否在原表上进行操作。默认为False

特征重复，存在一个或多个特征名称不同，但数据完全相同
- 相似度矩阵进行特征去重：该方法只能对数值型重复特征去重
  
  利用特征间的相似度将两个相似度为1的特征去除一个。在pandas中，相似度计算方法为corr。使用该方法计算相似度时默认为pearson法，可以通过method参数进行调节，还支持spearman和kendall法。
- 通过DataFrame.equals进行特征去重
```
#作出特征相等矩阵
df.loc[i,j] = df.loc[:,i].equals(df.loc[:,j])
#遍历找出重复的列
if df.iloc[k,l]:
#删除重复列
	df.drop(df.columns[l])
```
某一列是否有重复值

df_new_1 = df_new.groupby(['User_id'])['Merchant_id'].nunique()
#在同一个'User_id'下，'Merchant_id'有多少个
df_new_1 = df_new.groupby(['User_id']['Merchant_id'].value_counts()
df_new_1 = df_new.groupby(['User_id'])['Merchant_id'].unique()
#返回具体的unique值

检测与处理缺失值

在了解缺失值（也叫控制）如何处理之前，首先要知道的就是什么是缺失值？直观上理解，缺失值表示的是“缺失的数据”。

可以思考一个问题：是什么原因造成的缺失值呢？其实有很多原因，实际生活中可能由于有的数据不全所以导致数据缺失，也有可能由于误操作导致数据缺失，又或者人为地造成数据缺失。

在DataFrame中被当作是缺失值来处理的有:

Python对象中的None
np中的np.nan,显示标签是"NaN"
- "NaN"是特殊的浮点数

其实如果DataFrame中存在Python中的None对象，一旦转化为dtype类型数据(object类型除外)，None对象都会转成np.nan。

df_01=pd.DataFrame([1,2,None])  #在None转化为NaN过程中，object对象转化为float64,因为"NaN"是特殊的浮点数
df_01
df_01[0].dtype
##
type(np.nan)
df_01=pd.DataFrame([1,2,np.nan])   
df_01
df_01[0].dtype

ser_01=pd.Series(range(2),dtype=object)  #在None转化为NaN过程中，object对象不会转化为float64
ser_01[0]=None
ser_01

检测缺失值：df.isnull().sum()识别缺失值方法、df.notnull().sum()识别非缺失值方法

删除法

删除法简单易行，但是会引起数据结构的变动，样本量的减少

删除法分为删除观测记录和删除特征两种。属于通过减少样本量来换取信息完整度的一种方法，pandas提供了dropna方法，通过参数控制，既可以删除观测记录，也可以删除特征

df.dropna(axis=0, how="any", thresh=None, subset=None, inplace=False)

参数名称	说明
axis	接收0或1.表示轴向，0表示行，1表示列
how	接收特定的string。表示删除形式。any表示只要有缺失值就删除；all表示全部为缺失值时才删除
subset	接收array。表示要进行去重的列/行。默认为所有
inplace	接收boolean。表示是否在原表上操作

参数how

user_info_01.dropna(axis=1,how="all")   #how="all"只有当该列（或行）全都为缺失值时，才会将该列删除

# user_info_01.dropna(axis=1,how="any")   #how="any"只有当该列（或行）有一个缺失值，就会将该列删除

参数thresh

thresh参数设置的是：你想至少留下多少非缺失值！

user_info_01.dropna(thresh=8)   #thresh=8只有当该行（可以设置axis=1来处理列）有8缺失值以上，就会将该行删除

参数subset

subset设定一个子集，子集中的列作为剔除缺失值的参考列：

user_info_01.dropna(axis=0,how="any")  
user_info_01.dropna(axis=0,how="any",subset=["Height","Weight"]) 
user_info_01.dropna(axis=0,how="any",subset=["Birthplace","Weapon"])  
##如何删除user_info_01中缺失值超过45%的字段。
user_info_01.dropna(axis=1,thresh=user_info_01.shape[0]*(1-0.45))

替换法

替换法难度较低，但是会影响数据的标准差，导致信息量的变动

替换法指用一个特定的值替换缺失值。特征分为数值型和类别型，两者出现缺失值时的处理方法也不同。

缺失值为数值型时，常用均值、中位数、众数等描述其集中趋势的统计量来代替缺失值
缺失值为类别型时，选择使用众数来替换缺失值

df.fillna(
        value=None,
        method=None,
        axis=None,
        inplace=False,
        limit=None,
        downcast=None,
        **kwargs
    )

参数名称	说明
value	接收scalar、dict、Series、DataFrame。表示用来替换缺失值的值。
method	接收特定的string。backfill、fill表示使用下一个非缺失值来填补缺失值
axis	接收0或1。表示轴向，默认为1
inplace	接收boolean。是否在原表上进行操作
limit	接收int。表示填补缺失值个数的上限。超过则不进行填补

插值法
- 线性插值法：针对已知的值求出线性方程，通过求解线性方程得到缺失值。只在自变量和因变量为线性关系时拟合才较为出色
- 多项式插值法：利用已知的值拟合一个多项式，使用现有的数据猫族这个多项式，在利用这个多项式求解缺失值。常见的有拉格朗日插值和牛顿插值。
- 样条插值：以可变样条来做出一条经过一系列点的光滑曲线的插值方法。
- 重心坐标插值：
pandas提供了interpolate的插值方法，能够进行上述部分的插值操作，但是Scipy库的interpolate模块更加全面。
```
import numpy as np
from scipy import interpolate

inter_1d = interpolate.interp1d(x,y,kind='linear')
large = interpolate.lagrange(x,y)
spline = interpolate.make_interp_spline(x, y, k=3, t=None, bc_type=None, axis=0,check_finite=True)
BI = interpolate.BarycentricInterpolator(x,y)
```
df.replace()

None、np.nan、NaT（时间数据类型的缺失值）这些都是缺失值。

但是这些在 Pandas 的眼中是缺失值，有时候在我们人类的眼中，某些异常值我们也会当做缺失值来处理。例如，在我们的存储的用户信息中，假定我们限定用户都是青年，出现了年龄为 40 的，我们就可以认为这是一个异常值。

再比如，我们都知道性别分为男性（male）和女性（female），在记录用户性别的时候，对于未知的用户性别都记为了 “unknown”,很明显，我们也可以认为“unknown”是缺失值。

此外，有的时候会出现空白字符串，这些也可以认为是缺失值。

对于上面的这种情况，我们可以使用 replace 方法来替换缺失值。
```
user_info_01.iloc[::2,4]="unknown"
user_info_01
```
如果我们想要将上面DataFrame中所有的"unknown"都转为pandas能识别的缺失值形式np.nan，可以使用df.replace()的方法：

user_info_01.replace("unknown",np.nan)

指定到"Birthplace"这一列来进行替换缺失值，也是可以的：

user_info_01["Birthplace"]=user_info_01["Birthplace"].replace("unknown",np.nan)

检测与处理异常值

异常值是指数据中个别的数值明显偏离其余的值，有时也称为离群点，检测异常值就是检验数据中是否有输入错误以及是否有含有不合理的数据。

3σ原则

该原则就是先假设一组检测数据只含有随机误差，对原始数据进行计算处理得到标准差，然后按一定的概率确定一个区间，认为误差超过这个区间就属于异常。这种处理方法仅适用于正态或者近似正态分布的样本数据。
箱线图分析

箱线图提供了识别异常值的一个标准，即异常值被定义为小于QL-1.5IQR或者大于QU+.5IQR的值。QL为下四分位数，QU为上四分位数，IQR为四分位数间距，是QU与QL之差。

3、标准化数据

不同特征之间往往具有不同的量纲，由此造成的数值间的差异可能很大，在涉及空间距离计算或者梯度下降等情况时，不对其进行处理会影响数据分析结果的准确性。

离差标准化数据

离差标准化是对原始数据的一种线性变换，结果是将原始数据的数值映射到[0,1]区间：
$X^{*}=\frac{X-min}{max-min}$

数据的整体分布情况并未发生变化
若数据集某个数值很大，则离差标准化的值就会接近于0，并且相互之间差别不大。若遇到超过目前属性的[min，max]取值范围的情况会引起系统出错，这时需要重新定义min、max。

标准差标准化数据

标准差标准化也叫零均值标准化或z分数标准化，经过改方法处理的数据均值为0，方程为1：
$X^{*}=\frac{X-\overline{X}}{\delta}$

小数定标标准化数据

通过移动数据的小数位数，将数据映射到区间[-1,1]，移动的小数位数取决于数据的绝对值的最大值：
$X^{*}=\frac{X}{10^{k}}$

4、转换数据

哑变量处理类别型数据

即0-1化非数值型数据

pandas库中的get_dummies函数对类别型特征进行哑变量处理

pd.get_dummies(
    data,			#接收需要进行哑变量处理的数据
    prefix=None,	#哑变量化后列名的前缀
    prefix_sep="_",	#前缀连接符
    dummy_na=False,	#是否为NaN值添加一列
    columns=None,	#需要编码的列名
    sparse=False,	#虚拟列是否是稀疏的
    drop_first=False,#是否通过从k个分类级别中删除第一级来获得k-1个分类级别
    dtype=None,
)

离散化连续型数据

连续特征的离散化就是在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或者整数值代表落在每个子区间中的数据值。因此离散化涉及两个子任务：

确定分类数
如何将连续数据映射到这些类别型数据上

等宽法

将数据的值域分成具有相同宽度的区间，区间个数由数据本身的特点决定或者由用户指定。

pd.cut(
    x,
    bins,
    right=True,
    labels=None,
    retbins=False,
    precision=3,
    include_lowest=False,
    duplicates="raise",
)

参数名称	说明
x	接收需要离散化的数据
bins	接收int、list、array、tuple。int表示离散化后的数目；序列类型表示进行切分的区间，每两个数的间隔为一个区间
right	代表右侧是否为闭区间
labels	离散化后各个类别的名称
retbins	是否返回区间的标签
precision	显示标签的精度

pd.cut(user_infor['Age'], 7)

cut 自动生成了等距的离散区间，如果自己想定义也是没问题的。

pd.cut(user_infor.Age, [0, 18, 60, 100,5000])

有时候离散化之后，想要给每个区间起个名字，可以在pd.cut()中使用参数 labels 来指定。

a=pd.cut(user_infor.Age, [0, 18, 60, 100,150,5000], labels=["未成年", "成年", "老年人","超长寿","非人类"])
a
#既然pd.cut()返回的是一列Series，那么可以将其添加到原DataFrame中： 
user_infor["Age"]=a
user_infor

除了可以使用 cut 进行离散化之外，qcut 也可以实现离散化。cut 是根据每个值的大小来进行离散化的，qcut 是根据每个值出现的次数来进行离散化，也就是基于分位数的离散化功能。

pd.qcut()

user_infor=pd.read_csv("new_infor.csv",index_col="Unnamed: 0")
user_infor
pd.qcut(user_infor.Age, 3)

等频法

def SameRateCut(data,k):
    w = data.quantile(np.arange(0,1+1.0/k,1.0/k))
    data = pd.cut(data,w)
    return data

聚类分析法

5、排序功能

在进行数据分析时，少不了进行数据排序。Pandas 支持两种排序方式：按轴（索引或列）排序和按实际值排序。

df.sort_index()

sort_index方法默认是按照索引进行正序排的

user_info=pd.read_csv("new_infor.csv",index_col="Unnamed: 0")
user_infor.sort_index()
# 如果想要按照列进行倒序排，可以设置参数 axis=1 和 ascending=False。
user_infor.sort_index(axis=0, ascending=False)

df.sort_values()

如果想要实现按照实际值来排序，例如想要按照年龄排序，如何实现呢？

使用 sort_values 方法，设置参数 by=“age” 即可。

user_infor.sort_values(by='Age')

有时候我们可能需要按照多个值来排序，例如：按照年龄和城市来一起排序，可以设置参数 by 为一个 list 即可。

注意：list 中每个元素的顺序会影响排序优先级的。

user_infor.sort_values(by=["Age", "Birthplace"])

series.nlargest()

一般在排序后，我们可能需要获取最大的n个值或最小值的n个值，我们可以使用 nlargest 和 nsmallest 方法来完成，这比先排序再使用 head(n)方法快得多。

user_infor.Age.nlargest(3)
user_infor.Age.nsmallest(3)

6、函数应用及映射方法

虽说 Pandas 为我们提供了非常丰富的函数，有时候我们可能需要自己使用高级函数来实现自定义功能，并将它应用到 DataFrame 或 Series。常用到的函数有

map
apply
applymap

Series.map()

map 是 Series 中特有的方法，通过它可以对 Series 中的每个元素实现转换。

如果我想通过年龄判断用户是否属于中年人（50岁以上为中年），通过 map 可以轻松搞定它。

##第一种方法
di = {
"纽约皇后区": "地球人",
"泰坦星球": "外星人",
"费城": "地球人",
"纽约": "地球人", 
"哥谭":"地球人", 
"阿斯加德":"外星人", 
"天堂岛":"地球人",
"斯大林格勒":"地球人"
}

user_infor['星球'] = user_infor.Birthplace.map(di)
#第二种方法
earth_city=['纽约','费城','纽约','哥谭','天堂岛',"斯大林格勒"]

def city(x):
    if x in earth_city:
        return "地球人"
    else:
        return "外星人"
user_infor=user_info.copy(deep=True)

user_infor['种族'] = user_infor.Birthplace.map(city)
user_infor

Series.apply()

apply 方法既支持 Series，也支持 DataFrame，在对 Series 操作时会作用到每个值上，在对 DataFrame 操作时会作用到所有行或所有列（通过 axis参数控制）。

# 对 Series 来说，apply 方法 与 map 方法区别不大。
earth_city=['纽约','费城','纽约','哥谭','天堂岛',"斯大林格勒"]

def city(x):
    if x in earth_city:
        return "地球人"
    else:
        return "外星人"


user_infor['种族'] = user_infor.Birthplace.apply(city)  #这里只是将上一小节中的Series.map()换成了.apply()，其余代码一样
user_infor

对 DataFrame 来说，apply 方法的作用对象是一行或一列数据（一个Series）

axis为 0或’index’：将函数应用于每列。
axis为1或’columns’：将函数应用于每一行。

def re_max(x):
    return x.max()

user_infor.apply(re_max, axis=0)

df.applymap()

applymap 方法针对于 DataFrame，它作用于 DataFrame 中的每个元素，它对 DataFrame 的效果类似于 apply 对 Series 的效果。

#将'侠'替换成'人'
def replace(x):
    x=str(x)
    if x.find("侠")!=-1:
        x=x.replace("侠","人")
    return x

user_infor.applymap(replace)

你可能感兴趣的:(Python数据挖掘,python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的