西门催学不吹雪

使用 pandas 进行数据预处理

文章目录

1. 合并数据

1.1 堆叠合并

1.1.1 横向堆叠
1.1.2 纵向堆叠

1.2 主键合并
1.3 重叠合并

2. 清洗数据

2.1 重复值

2.1.1 记录重复
2.1.2 特征重复

2.2 缺失值

2.2.1 删除法
2.2.2 替换法
2.2.3 插值法

2.3 异常值

2.3.1 3σ 原则
2.3.2 箱线图分析

3. 标准化数据

3.1 离差标准化
3.2 标准差标准化
3.3 小数定标标准化

4. 转换数据

4.1 哑变量处理类别型数据
4.2 离散化连续型数据

4.2.1 等宽法
4.2.2 等频法
4.2.3 聚类分析法

1. 合并数据

1.1 堆叠合并

堆叠就是简单地把两个表拼在一起，也被称作轴向连接、绑定或连接。依照连接轴的方向，数据堆叠可以分为横向堆叠和纵向堆叠。

1.1.1 横向堆叠

横向堆叠，即将两个表在 y 轴方向拼接在一起，即左右拼接。可以使用 concat 函数完成。

pandas.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, 
			names=None, verify_integrity=False, sort=False, copy=True)

concat 函数官方文档

concat 函数常用参数说明

参数名称	说明
objs	接收多个 Series、DataFrame、Panel 的组合。表示参与连接的 pandas 对象的列表的组合。
axis	接收 0 或 1。表示轴向。0：x 轴，纵向堆叠；1：y 轴，横向堆叠。默认为 0。纵向堆叠。
join	接收 inner 或者 outer。表示其他轴上的索引是按交集（inner）还是并集（outer）进行合并。默认为 outer。

# 索引完全相同时横向堆叠
import numpy as np
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('mysql+pymysql://root:123456@localhost:3306/testdb?charset=utf8')
detail = pd.read_sql('meal_order_detail1',con=engine)
df1 = detail.iloc[:,:10]    # 取出detail前10列数据
df2 = detail.iloc[:,10:]    # 取出detail后9列数据
print('df1的大小为%s，df2的大小为%s。'%(df1.shape,df2.shape))
print('内连接合并后数据框大小为：',pd.concat([df1,df2],axis=1,join='inner').shape)
print('外连接合并后数据框大小为：',pd.concat([df1,df2],axis=1,join='outer').shape)

1.1.2 纵向堆叠

纵向堆叠是将两个数据表在 x 轴方向拼接，即上下拼接。可以使用 concat 函数和 append 方法。但是 append 方法的前提是两张表的列名需要完全一致。

DataFrame.append(self, other, ignore_index=False, verify_integrity=False, sort=False)

append 函数官方文档

# 表名完全相同时的concat纵向堆叠
df3 = detail.iloc[:1500,:]       # 取出detail前1500行数据
df4 = detail.iloc[1500:,:]       # 取出detail的1500行后的数据
print('df3的大小为%s，df4的大小为%s。'%(df3.shape,df4.shape))
print('内连接纵向合并后数据框大小为：',pd.concat([df3,df4],axis=0,join='inner').shape)
print('外连接纵向合并后数据框大小为：',pd.concat([df3,df4],axis=0,join='outer').shape)

# 使用append方法进行纵向表堆叠
print('append纵向堆叠后数据框大小为：',df3.append(df4).shape)

1.2 主键合并

主键合并，即通过一个或多个键将两个数据集的行连接起来，类似于 SQL 中的 join。pandas 库中 merge 函数和 join 方法都可以实现主键合并，但是两者实现方式不同。
和数据库的 join 一样，merge 函数也有左连接（left）、右连接（right）、内连接（inner）和外连接（outer）。但是使用 join 方法时，两个主键的名字必须相同。

DataFrame.merge(self, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, 
			right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, 
			validate=None)

merge 函数官方文档

merge 函数的常用参数说明

参数名称	说明
right	接收 DataFrame 或 Series。表示要添加的数据。
how	接收 inner、outer、left、right。表示数据的连接方式。默认为 inner。
on	接收 string 或 sequence。表示两个数据合并的主键（必须一致）。
left_on	表示左面数据用于合并的主键。
right_on	表示右面数据用于合并的主键。
suffixes	接收 tuple。表示用于追加左右两个数据框列名相同时的后缀。默认为 (’_x’, ‘_y’)

DataFrame.join(self, other, on=None, how='left', lsuffix='', rsuffix='', sort=False)

join 函数官方文档

join 函数的常用参数说明

参数名称	说明
other	接收 DataFrame 或 Series 或者多个 DataFrame 的 list。表示要连接的数据。
how	接收 inner、outer、left、right。表示数据的连接方式。默认为 left。
on	接收列名或者包含列名的 list 或者 tuple。表示用于连接的列名。
lsuffix	接收 string，表示用于追加左侧重叠列名的尾缀。无默认。
rsuffix	接收 string，表示用于追加右侧重叠列名的尾缀。无默认。

# 使用mrege函数合并数据表
order = pd.read_csv('meal_order_info.csv',encoding='gbk')
order['info_id'] = order['info_id'].astype('str')
detail_order = detail.merge(order,left_on='order_id',right_on='info_id')
print('detail订单详情表原始形状为：',detail.shape)
print('order订单信息表原始形状为：',order.shape)
print('两个表合并后的形状为：',detail_order.shape)

# 使用join方法实现主键合并
order.rename(columns={'info_id':'order_id'},inplace=True)
detail_order1 = detail.join(order.set_index('order_id'),on='order_id',lsuffix='_d',rsuffix='_o')
print('两个表合并后的形状为：',detail_order1.shape)

1.3 重叠合并

数据分析和处理过程中偶尔会出现两份数据的内容几乎一致的情况，但是某些特征在其中一张表上是完整的，而在另一张表上的数据则是缺失的。这时除了使用将数据一对一比较，然后进行填充的方法外，还有一种方法就是重叠合并。pandas 提供 combine_first 方法来进行重叠合并。

DataFrame.combine_first(self, other)

combine_first 函数官方文档

# 重叠合并
df1 = pd.DataFrame({'A': [None, 0], 'B': [None, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})
print('df1：\n',df1)
print('df2：\n',df2)
print('df1与df2重叠合并后：\n',df1.combine_first(df2))  

df3 = pd.DataFrame({'A': [None, 0], 'B': [4, None]})
df4 = pd.DataFrame({'B': [3, 3], 'C': [1, 1]}, index=[1, 2])
print('df3：\n',df3)
print('df4：\n',df4)
print('df3与df4重叠合并后：\n',df3.combine_first(df4))

2. 清洗数据

数据重复 会导致数据的方差变小，数据分布发生较大的变化；缺失值 会导致样本信息减少，不仅增加数据分析的难度，而且会导致数据分析结果产生偏差。异常值 则会产生 “伪回归”。因此需要对数据进行检测，查询是否有重复值、缺失值和异常值，并且要对这些数据进行适当的处理。

2.1 重复值

常见的数据重复分为两种：一种为 记录重复，即一个或多个特征的某几条记录值完全相同；另一种为 特征重复，即存在一个或多个特征名称不同，但数据完全相同的情况。

2.1.1 记录重复

# 方法一：利用list去重（代码冗长，效率低，不推荐）
import pandas as pd

# 定义去重函数
def defRep(list1):
    list2=[]
    for i in list1:
        if i not in list2:
            list2.append(i)
    return list2

detail = pd.read_csv('detail.csv',encoding='gbk')
dishes = list(detail['dishes_name'])
print('去重前菜品总数为：',len(dishes))
dish = defRep(dishes)
print('方法一去重后菜品总数为：',len(dish))


# 方法二：利用set特性去重（代码简洁，但是数据排列会发生改变，不推荐）
print('去重前菜品总数为：',len(dishes))
dish_set = set(dishes)
print('方法二去重后菜品总数为：',len(dish_set))

鉴于以上两种方法的缺陷，pandas 提供了 drop_duplicates 的去重方法。该方法只对 DataFrame 或者 Series 类型有效。这种方法不会改变数据的原始排列，并且代码简洁运行稳定。

DataFrame.drop_duplicates(self, subset=None, keep='first', inplace=False, ignore_index=False)

drop_duplicates 函数官方文档

drop_duplicates 方法常用参数说明

参数名	说明
subset	接收 string 或 sequence。表示进行去重的列。默认为 None，表示全部列。
keep	接收待定的 string。表示重复时保留第几个数据。first：保留第一个。last：保留最后一个。false：只要有重复都不保留。默认为 first。
inplace	接收 boolean。表示是否在原表进行操作。默认为 false。

# 使用drop_duplicates方法对菜品名称去重
dishes_name = detail['dishes_name'].drop_duplicates()
print('drop_duplicates方法去重后菜品总数为：',len(dishes_name))

# 使用drop_duplicates方法对多列去重
print('去重前订单详情表的形状为：',detail.shape)
shapeDet = detail.drop_duplicates(subset=['order_id','emp_id']).shape
print('依照订单编号、会员编号去重后订单详情表的大小为：',shapeDet)

2.1.2 特征重复

要除去连续的特征重复，可以利用特征间的相似度将两个相似度为 1 的特征去除一个。在 pandas 中，相似度的计算方法为 corr。使用该方法计算相似度时，默认为 pearson 法，可以通过 method 参数调节，目前还支持 spearman 法和 kendall 法。
但是通过相似度矩阵去重存在一个弊端，该方法只能对数值型特征去重，类别型特征之间无法通过计算相似系数来衡量相似度。

DataFrame.corr(self, method='pearson', min_periods=1)

corr 函数官方文档
·

# 求出counts和amounts两列数据的Kendall法相似度矩阵
corrDet = detail[['counts','amounts']].corr(method='kendall')
print('销量和售价的Kendall法相似度矩阵为：\n',corrDet)

# 求出dishes_name、counts、amounts这三个特征的pearson法相似度矩阵
corrDet1 = detail[['dishes_name','counts','amounts']].corr(method='pearson')
print('菜品名称、销量和售价的pearson法相似度矩阵为：\n',corrDet1)

除了使用相似度矩阵进行特征去重之外，还可以使用 DataFrame.equals 方法进行特征去重。

# 定义求取特征是否完全相同的矩阵函数
def FeatureEquals(df):
    dfEquals = pd.DataFrame([],columns=df.columns,index=df.columns)
    for i in df.columns:
        for j in df.columns:
            dfEquals.loc[i,j] = df.loc[:,i].equals(df.loc[:,j])
    return dfEquals

detEquals = FeatureEquals(detail)
print('detail的特征相等矩阵的前5行5列为：\n',detEquals.iloc[:5,:5])


# 通过遍历的方式进行数据筛选
lenDet = detEquals.shape[0]
dupCol = []
for i in range(lenDet):
    for j in range(i+1,lenDet):
        if detEquals.iloc[i,j] & (detEquals.columns[j] not in dupCol):
            dupCol.append(detEquals.columns[j])
            
print('需要删除的列：',dupCol)
detail.drop(dupCol,axis=1,inplace=True)
print('删除多余列后detail的特征数目为：',detail.shape[1])

2.2 缺失值

数据中的某个或某些特征的值是不完整的，这些值称为缺失值。 pandas 提供了识别缺失值的方法 isnull 以及识别非缺失值的方法 notnull，这两种方法在使用时返回的都是 boolean 类型，即 True 和 False。结合 sum 函数和 isnull、notnull 函数，可以检测数据中缺失值的分布以及数据中一共含有多少缺失值。

# isnull和notnull用法
print('detail每个特征缺失的数目为：\n',detail.isnull().sum())
print('detail每个特征非缺失的数目为：\n',detail.notnull().sum())

2.2.1 删除法

删除法是指将含有缺失值的特征或者记录删除。删除法分为删除观测记录和删除特征两种，它属于通过减少样本量来换取信息完整度的一种方法，是一种最简单的缺失值处理方法。pandas 中提供删除缺失值的方法 dropna，通过参数控制，该方法既可以删除观测记录，也可以删除特征。

DataFrame.dropna(self, axis=0, how='any', thresh=None, subset=None, inplace=False)

dropna 函数官方文档

dropna 方法主要参数说明

参数名	说明
axis	接收 0 或 1。表示轴向。0 为删除行（记录），1 为删除列（特征）。默认为 0。
how	接收特定的 string。表示删除的形式。any：表示只要有缺失值存在就执行删除操作。all：表示当且仅当全部为缺失值时才执行删除操作。默认为 any。
subset	接收 array。表示进行操作的行/列。默认为 None，表示所有行/列。
inplace	接收 boolean。表示是否在原表上进行操作。默认为 False。

# 使用dropna方法删除缺失值
print('去除缺失的列前detail的形状为：',detail.shape)
print('去除缺失的列后detail的形状为：',detail.dropna(axis=1,how='any').shape)

2.2.2 替换法

替换法是指用一个特定的值替换缺失值。特征可以分为数值型和类别型，两者出现缺失值时的处理方法不同。缺失值所在的特征为数值型时，通常利用其均值、中位数和众数等描述其集中趋势的统计量来替换缺失值；当缺失值所在的特征为类别型时，则选择使用众数来替换缺失值。pandas 提供了缺失值替换的方法 fillna。

DataFrame.fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)

fillna 函数官方文档

fillna 方法主要参数说明

参数名	说明
value	表示用来替换缺失值的值。无默认。
method	接收特定 string。backfill 或 bfill：表示使用下一个非缺失值来代替缺失值。pad 或 ffill：表示使用上一个非缺失值来代替缺失值。默认为 None。
inplace	接收 boolean。表示是否在原表上进行操作。默认为 False。
limit	接收 int。表示填补缺失值个数上限，超过则不进行填补。默认为 None。

# 使用fillna方法替换缺失值
detail = detail.fillna(-99)
print('detail每个特征缺失的数目为：\n',detail.isnull().sum())

2.2.3 插值法

删除法简单易行，但是会引起数据结构变动，样本减少；替换法使用难度较低，但是会影响数据的标准差，导致信息量变动。在面对数据缺失问题时，除了这两种方法，还有一种方法——插值法。
常用的插值法有 线性插值、多项式插值 和 样条插值。线性插值是针对已知值求出线性方程，通过求解线性方程得到缺失值。多项式插值是利用已知值拟合一个多项式，使得现有数据满足这个多项式，再利用这个多项式求解缺失值。常见的多项式插值有拉格朗日插值和牛顿插值等。样条插值是以可变样条来做出一条经过一系列点的光滑曲线的插值方法。插值样条由一些多项式组成，每一个多项式都由相邻两个数据点决定，这样可以保证两个相邻多项式及其导数在连接处连续。
pandas 提供了 interpolate 插值方法，能够进行上述部分插值操作，但是 SciPy 的 interpolate 模块更加全面。

scipy.interpolate 官方文档

# SciPi interpolate模块插值

# 线性插值
import numpy as np
from scipy.interpolate import interp1d      # 提示：这是数字1，不是字母l

x = np.array([1,2,3,4,5,8,9,10])             # 创建自变量x
y1 = np.array([2,8,18,32,50,128,162,200])    # 创建因变量y1
y2 = np.array([3,5,7,9,11,17,19,21])         # 创建因变量y2

LinearInsValue1 = interp1d(x,y1,kind='linear')   # 线性插值拟合x,y1
LinearInsValue2 = interp1d(x,y2,kind='linear')   # 线性插值拟合x,y2
print('当x为6、7时，使用线性插值y1为：',LinearInsValue1([6.,7]))
print('当x为6、7时，使用线性插值y2为：',LinearInsValue2([6.,7]))


# 拉格朗日插值
from scipy.interpolate import lagrange

LagInsValue1 = lagrange(x,y1)       # 拉格朗日插值拟合x,y1
LagInsValue2 = lagrange(x,y2)       # 拉格朗日插值拟合x,y2
print('当x为6、7时，使用拉格朗日插值y1为：',LagInsValue1([6.,7]))
print('当x为6、7时，使用拉格朗日插值y2为：',LagInsValue2([6.,7]))


# 样条插值
from scipy.interpolate import splev,splrep

SplineInsValue1 = splrep(x,y1)
SplineInsValue2 = splrep(x,y2)

print('当x为6、7时，使用样条插值y1为：',splev([6,7],SplineInsValue1))
print('当x为6、7时，使用样条插值y2为：',splev([6,7],SplineInsValue2))

上面代码中，自变量 $x$ 和因变量 $y_1$ 的关系式为： $y_1=2x^2$ ；自变量 $x$ 和因变量 $y_2$ 的关系式为： $y_2=2x+1$
从拟合的结果可以看出，多项式插值和样条插值在两种情况下的拟合都非常出色，线性插值法只在自变量和因变量为线性关系的情况下拟合才比较出色。而在实际分析过程中，自变量和因变量的关系是线性的情况非常少见，所以在大多数情况下，多项式插值和样条插值是比较合适的选择。

2.3 异常值

异常值是指数据中个别值的数值明显偏离其余的数值，有时也称为离群点，检测异常值就是检验数据中是否有输入错误以及是否含有不合理的数据。异常值的存在对数据分析十分危险，如果计算分析过程中的数据中有异常值，那么会对结果产生不良影响，从而导致分析结果产生偏差乃至错误。常用的异常值检测主要为 3 $\alpha$ 原则和箱线图分析两种方法。

2.3.1 3σ 原则

3σ 原则又称为拉依达准则。该原则就是先假设一组检测数据只含有随机误差，对原始数据进行计算处理得到标准差，然后按一定的概率确定一个区间，认为误差超过这个区间就属于异常。不过，这种判别处理方法仅适用于对正态或近似正态分布的样本数据进行处理，而对其他分布类型的数据无效。

正态分布数据的 3α 原则

数值分布	在数据中占比
(μ-σ, μ+σ)	0.6827
(μ-2σ, μ+2σ)	0.9545
(μ-3σ, μ+3σ)	0.9973

其中 σ 代表标准差，μ 代表均值。数据的数值分布几乎全部集中在区间 (μ-3σ, μ+3σ) 内，超出这个范围的数据仅占不到 0.3%。根据小概率原理，可以认定超出 3σ 的部分为异常数据。

# 使用3σ原则识别异常值

# 定义3σ原则识别异常值函数
def outRange(series):
    boolInd = (series < series.mean()-3*series.std()) | (series > series.mean()+3*series.std())
    index = np.arange(series.shape[0])[boolInd]
    outrange = series.iloc[index]
    return outrange

outRangeValue = outRange(detail['counts'])
print('使用3σ原则判定异常值个数为：',outRangeValue.shape[0])
print('异常值的最大值为：',outRangeValue.max())
print('异常值的最小值为：',outRangeValue.min())

2.3.2 箱线图分析

箱线图提供了识别异常值的一个标准，即异常值通常被定义为小于 QL-1.5IQR 或大于 QU+1.5IQR 的值。其中，QL 称为下四分位数，表示全部观察值中有四分之一的数据取值比它小；QU 称为上四分位数，表示全部观察值中有四分之一的数据取值比它大；IQR 称为四分卫数的间距，是上四分位数 QU 与下四分位数 QL 之差，其间距包含了全部观察值的一半。

# 方法一：自定义箱线图函数识别异常值
import numpy as np

# 定义识别异常值函数
def outRange(series):
    QL = series.quantile(0.25)
    QU = series.quantile(0.75)
    IQR = QU - QL
    boolInd = (series>(QU+1.5*IQR)) | (series<(QL-1.5*IQR))
    index = np.arange(series.shape[0])[boolInd]
    outrange = series.iloc[index]  
    return outrange

outRangdeValue = outRange(detail['counts'])
print('使用箱线图判定异常值个数为：',outRangeValue.shape[0])
print('异常值的最大值为：',outRangeValue.max())
print('异常值的最小值为：',outRangeValue.min())


# 方法二：根据箱线图识别异常值
import matplotlib.pyplot as plt

p = plt.boxplot(detail['counts'].values,notch=True)
outRangeValue = p['fliers'][0].get_ydata()  # fliers为异常值的标签
plt.show()
print('销售量数据异常值个数为：',len(outRangeValue))
print('销售量数据异常值的最大值为：',max(outRangeValue))
print('销售量数据异常值的最小值为：',min(outRangeValue))

3. 标准化数据

不同特征之间往往具有不同的量纲，由此所造成的数值间的差异可能很大，在涉及空间距离计算或梯度下降法等情况时，不对其进行数据处理会影响到数据分析结果的准确性。为了消除特征之间的量纲和取值范围差异可能会造成的影响，需要对数据进行标准化处理，也可以称作规范化处理。

3.1 离差标准化

离差标准化是对原始数据的一种线性变换，结果是将原始数据的数值映射到 [0,1] 区间，转化公式如下：
$X^*= \frac{X -min}{max -min}$
其中， $m a x$ 为样本数据的最大值， $m i n$ 为样本数据的最小值， $m a x - m i n$ 为极差。离差标准化保留了原始数据之间的联系，是消除量纲和数据取值范围影响最简单的方法。

# 离差标准化示例
import pandas as pd
import numpy as np

detail = pd.read_csv('detail.csv',encoding='gbk')

# 自定义离差标准化函数
def MinMaxScaler(data):
    return (data-data.min())/(data.max()-data.min())

# 对菜品订单表售价和销量做离差标准化
data1 = MinMaxScaler(detail['counts'])
data2 = MinMaxScaler(detail['amounts'])
data3 = pd.concat([data1,data2],axis=1)
print('离差标准化之前销量与售价数据的前5行为：\n',detail[['counts','amounts']].head())
print('离差标准化之后销量与售价数据的前5行为：\n',data3.head())

离差标准化的缺点：若数据集中某个数值很大，则导致数据极差过大，使离差标准化的值会接近 0，并且相互间差别不大。

3.2 标准差标准化

标准差标准化也叫零均值标准化或 $z$ 分数标准化，是当前使用最广泛的数据标准化方法。经过该方法处理的数据均值为 0，标准差为 1，转化公式如下：
$X^* = \frac{X-\bar{X} }{\delta}$
其中， $\bar X$ 为原始数据的均值， $\delta$ 为原始数据的标准差。

# 标准差标准化示例
#自定义标准差标准化函数
def StandardScaler(data):
    return (data-data.mean())/data.std()

# 对菜品订单表售价和销量做标准化
data4 = StandardScaler(detail['counts'])
data5 = StandardScaler(detail['amounts'])
data6 = pd.concat([data4,data5],axis=1)
print('标准差准化之前销量与售价数据的前5行为：\n',detail[['counts','amounts']].head())
print('标准差标准化之后销量与售价数据的前5行为：\n',data6.head())

3.3 小数定标标准化

通过移动数据的小数点位数，将数据映射到区间 [-1, 1]，移动的小数位数取决于数据绝对值的最大值。转化公式如下：
$X^*=\frac{X}{{10}^k}$

# 小数定标标准化示例
# 自定义小数定标标准化函数
def DecimalScaler(data):
    return data/10**np.ceil(np.log10(data.abs().max()))

# 对菜品订单表售价和销量做标准化
data7 = DecimalScaler(detail['counts'])
data8 = DecimalScaler(detail['amounts'])
data9 = pd.concat([data7,data8],axis=1)
print('小数定标标准化之前销量与售价数据的前5行为：\n',detail[['counts','amounts']].head())
print('小数定标标准化之后销量与售价数据的前5行为：\n',data9.head())

4. 转换数据

数据分析的预处理工作除了数据合并、数据清洗以及数据标准化之外，还包括数据变换的过程。数据变换需要对数据做一些合理的转换，使之符合分析要求。

4.1 哑变量处理类别型数据

数据分析模型中有相当一部分的算法模型都要求输入的特征为数值型，但实际数据中，特征的类型不一定只有数值型，还会存在相当一部分的类别型，这部分的特征需要经过哑变量处理才可以放入模型中。pandas 提供了 get_dummies 函数对类别型特征进行哑变量处理。

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, 
				drop_first=False, dtype=None)

get_dummies 函数官方文档

get_dummies 函数常用参数说明

参数名称	说明
data	表示需要哑变量处理的数据。
prefix	表示哑变量量化后列名的前缀。默认为 None。
prefix_sep	接收 string。表示前缀的连接符。默认为 ’_‘。
columns	表示 DataFrame 中需要编码的列名。默认为 None，表示对所有 object 和 category 类型进行编码。

# 哑变量处理示例
import pandas as pd
import numpy as np

detail = pd.read_csv('detail.csv',encoding='gbk')
data = detail.loc[0:5,'dishes_name']   # 抽取部分数据做演示
print('哑变量处理前的数据为：\n',data)
print('哑变量处理后的数据为：\n',pd.get_dummies(data))

对于一个类别型特征，若其取值有 m 个，则经过哑变量处理后就变成了 m 个二元特征，并且这些特征互斥，每次只有一个激活，这使得数据变得稀疏。由于数据变成了稀疏矩阵的形式，因此也加快了算法模型的运算速度。

4.2 离散化连续型数据

某些模型算法，特别是某些分类算法，如 ID3 决策树和 Apriori 算法等，要求数据是离散的，此时就需要将连续型特征（数值型）变换成离散型特征（类别型），即连续特征离散化。
连续特征的离散化就是在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化区间，最后用不同的符号或整数值代表落在每个子区间中的数据值。因此离散化涉及两个子任务，即确定分类数以及如何将连续型数据映射到这些类别型数据上。
常用的离散化方法主要有 3 种：等宽法、等频法 和 聚类分析法（一维）。

4.2.1 等宽法

将数据的值域分为具有相同宽度的区间，区间的个数由数据本身的特点决定或者由用户指定，与制作频率分布表类似。pandas 提供了 cut 函数，可以进行连续型数据的等宽离散化。

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False,
		duplicates='raise')

cut 函数官方文档

cut 函数常用参数说明

参数名称	说明
x	接收 array 或 Series。代表要进行离散化处理的数据
bins	接收 int、list、array 和 tuple。若为 int，则代表离散化后的类别数目；若为序列类型的数据，则表示进行切分的区间，每两个数的间隔为一个区间。无默认。
right	接收 boolean。代表右侧是否为闭区间。默认为 True。
labels	接收 list、array。代表离散化后各个类别的名称。默认为空
retbins	接收 boolean。代表是否返回区间标签。默认为 False。
precision	接收 int。显示标签的精度。默认为 3。

# 等宽法离散化示例
price = pd.cut(detail['amounts'],5)
print('离散化后5条记录售价分布为：\n',price.value_counts())

缺陷：等宽法离散化对数据分布具有较高要求，若数据分布不均，那么各个类的数目也会变得非常不均匀，有些区间包含了许多数据，而另外一些区间的数据极少，这会严重损坏所建立的模型。

4.2.2 等频法

cut 函数虽然不能够直接实现等频离散化，但是可以通过定义相同数量的记录放进每个区间。

# 等频法离散化示例
# 自定义等频法离散化函数
def SameRateCut(data,k):
    w = data.quantile(np.arange(0,1+1.0/k,1.0/k))
    data = pd.cut(data,w)
    return data

# 对菜品售价进行等频离散化
result = SameRateCut(detail['amounts'],5).value_counts()
print('菜品数据等频法离散化后各个类别数目分布状况为：\n',result)

等频法离散化相较于等宽法离散化，避免了类分布不均的问题，但同时也有可能将数值非常接近的两个值分到不同的区间以满足每个区间对数据个数的要求。

4.2.3 聚类分析法

一维聚类的方法包括两个步骤。首先将连续型数据用聚类算法（如 K-Means 算法等）进行聚类，然后处理聚类得到的簇，为合并到一个簇的连续型数据做同一种标记。聚类分析的离散化方法需要用户指定簇的个数，用来决定产生的区间数。

# 基于聚类分析的离散化
# 自定义数据K-Means聚类离散化函数
def KmeanCut(data,k):
    from sklearn.cluster import KMeans     # 引入K-Means
    
    kmodel = KMeans(n_clusters=k,n_jobs=4)         # 建立模型，n_jobs是并行数
    kmodel.fit(data.values.reshape(len(data),1))   # 训练模型
    c = pd.DataFrame(kmodel.cluster_centers_).sort_values(0)
    w = c.rolling(2).mean().iloc[1:]               # 相邻两项求中点，作为边界值
    w = [0]+list(w[0])+[data.max()]                # 把首末边界点加上
    data = pd.cut(data,w)
    return data

# 菜品售价聚类离散化
result = KmeanCut(detail['amounts'],5).value_counts()
print('菜品售价聚类离散化后各个类别数目分布状况：\n',result)

K-Means 聚类分析的离散化方法可以很好地根据现有特征的数据分布状况进行聚类，但是由于 K-Means 算法本身的缺陷，用该方法进行离散化时依旧需要指定离散化后类别的数目。此时需要配合聚类算法评价方法，找出最优的聚类簇数目。

你可能感兴趣的:(Python,数据分析)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本