LuZhouShiLi

一文详解Pandas

- 一、Pandas概述
- 二、Pandas数据结构
- - 2.1 Series
  - 2.2 DataFrame数据结构
- 二、数学与统计计算
- 三、DataFrame的文件操作
- - 3.1 读取文件
  - 3.2 写入文件
- 四、数据处理
- - 4.1 缺失值处理
  - 4.2 重复值处理

一、Pandas概述

Pandas是另外一个用于处理高级数据结构和数据分析的Python库，Pandas是基于Numpy构建的一种工具，，纳入了大量的模块和库一些标准数据模型，提高了Python处理大数据的性能。

特点：

DataFrame是一种高效快速的数据结构模式，Pandas支持DataFrame格式，从而可以自定义索引
可以将不同格式的数据文件加载到内存中
未对齐及其索引方式不同的数据可按轴自动对齐
可处理时间序列或非时间序列数据
可基于标签来切片索引，获得大数据集子集
可进行高性能数据分组、聚合、添加、删除
灵活处理数据缺失、重组、空格

Pandas广泛用于金融、经济、数据分析、统计等商业领域，为各个领域数据从业者提供了便捷。

Pandas的安装与Numpy相似，如果你已经安装了Anaconda，那么直接导入即可，

安装命令：

pip install pandas

导入命令起个别名

import pandas as pd

二、Pandas数据结构

Pandas被广泛使用的数据结构主要有Series和DataFrame,两者皆为python进行数据分析提供了基础

2.1 Series

series类似于一维数组，由一组数据产生，Series数组由数据和索引标签组成，索引在左侧，值在右侧。创建Series,可以使用Series函数。

（1）创建Series数组

import pandas as pd

# 将列表作为数据导入 转换成Series
s1 = pd.Series([1,2,3,4,5])
print('s1:{}'.format(s1))  # 格式化字符串函数 str.format（）

s1:0    1
1    2
2    3
3    4
4    5
dtype: int64

补充：这里用到了格式化字符串的函数str.format(),增强了字符串格式化的功能，其基本语法是通过{} 和：来代替之前的% ，format函数可以接受若干个参数，位置可以不按照顺序

左边的列表表示索引，右边的列表表示值，默认从0开始创建索引，可以指定索引，设置index参数。

import pandas as pd
s2 = pd.Series([1,2,3,4,5],index = ['第一','第二','第三','第四','第五'])
print('s2 : {}'.format(s2))

s2:第一    1
第二    2
第三    3
第四    4
第五    5
dtype: int64

这里，指定了参数index,自行设置了索引

（2）Series的索引和切片

通过Series的values和index属性可以获取Series中的索引和数值

查看Series的索引和数值

import pandas as pd
s2 = pd.Series([1,2,3,4,5],index = ['第一','第二','第三','第四','第五'])
print('s2:{}'.format(s2))
print('s2索引：{}'.format(s2.index))
print('s2数值：{}'.format(s2.values))

s2:第一    1
第二    2
第三    3
第四    4
第五    5
dtype: int64
s2索引：Index(['第一', '第二', '第三', '第四', '第五'], dtype='object')
s2数值：[1 2 3 4 5]

每一个数组都有与之对应的索引，所以在Series中，可以通过索引的方式选取或者修改Series的数值。但是index对象是不可以修改的，这样才可以保证index对象在多个数据结构中共享

根据索引修改数值

print('s2中 第二 对应的数值： {}'.format(s2['第二']))
s2['第二'] = 10
print('s2中 第二 对应的数值： {}'.format(s2['第二']))

s2中 第二 对应的数值： 2
s2中 第二 对应的数值： 10

除了单个数值索引之外，Series还可以索引多个数值

print('s2中 第二第四第五 对应的数值: {}'.format(s2[['第二','第四','第五']]))

s2中 第二第四第五 对应的数值: 第二    10
第四     4
第五     5
dtype: int64

这里的索引值需要加上两层中括号

如果对于连续索引，可以使用冒号进行设置：

print('s2中 第二到第五 对应的数值：{}'.format(s2['第二':'第五']))

s2中 第二到第五 对应的数值：第二    10
第三     3
第四     4
第五     5
dtype: int64

注意：这里的切片与Python中的切片是不一样的，Series的切片末端元素是包含在内的，所以末端元素仍然可以被输出

（3）字典类型创建Series
前面都是使用列表数据类型创建Series,也可以使用字典数据类型创建Series,

s3_dic = {'First':1,'Second':2,'Third':3,'Fourth':4,'Fifth':5}
s3 = pd.Series(s3_dic)
print('s4: {}'.format(s3))

s4: First     1
Second    2
Third     3
Fourth    4
Fifth     5
dtype: int64

可以看到，直接使用字典数据类型数据创建Series,字典中key对应Series的索引，字典的value对应Series的数值。Series数组的排列按照索引首字符顺次进行排序，如果希望按照指定顺序进行排序，可在Series创建时传入一个index列表，就像使用列表创建Series一样

s4_dic = {'First':1,'Second':2,'Third':3,'Fourth':4,'Fifth':5}
s4 = pd.Series(s4_dic,index = ['First','Second','Third','Fourth','Fifth'])
print('s4:{}'.format(s4))

s4:First     1
Second    2
Third     3
Fourth    4
Fifth     5
dtype: int64

可用于字典中的某些函数，比如in not in 可以用于Series数组的索引中

查看某些元素是否在Series数组中，

print('s4 中含有 sixth:{}'.format('sixth' in s4))
print('s4中不含有sixth:{}'.format('sixth' not in s4))

s4 中含有 sixth:False
s4中不含有sixth:True

这里的in not in只是用来判断索引值存不存在

如果传入的index参数中含有原字典中不含有的索引标签，那么索引参数与数据字典value值无法匹配成功。未匹配成功的index对应的数值位置就记录为空，用NAN来表示，代表缺失值，可以用is null 和 not null函数判断是否存在缺失值

查看是否存在缺失值

s4_dic = {'First':1,'Second':2,'Third':3,'Fourth':4,'Fifth':5}
s4 = pd.Series(s4_dic,index = ['First','Second','Third','Fourth','Tenth'])
print('s4:{}'.format(s4))

s4:First     1.0
Second    2.0
Third     3.0
Fourth    4.0
Tenth     NaN
dtype: float64

Tenth在原来的字典中不存在相应的键值对，所以生成Series时，索引Tenth对应的值就是空的。

print('数据缺失：{}'.format(s4.isnull()))
print('数据不缺失:{}'.format(s4.notnull()))

数据缺失：First     False
Second    False
Third     False
Fourth    False
Tenth      True
dtype: bool
数据不缺失:First      True
Second     True
Third      True
Fourth     True
Tenth     False
dtype: bool

（4）Series的算术运算
不同的Series数组间可做算术运算，在算数运算中，不同的索引对应的数据会自动的对齐。

Series数组运算数据自动对齐：

print('s3 + s4: {}'.format(s3 + s4))

s3 + s4: Fifth     NaN
First     2.0
Fourth    8.0
Second    4.0
Tenth     NaN
Third     6.0
dtype: float64

可以看到相应索引处的数值实现了加法运算，s4中Tenth和S3中的Fifth分别做NAN缺失处理。

2.2 DataFrame数据结构

DataFrame是Pandas中的另外一种数据结构，与Series数组结构不同的是，DataFrame是二维表格型结构，既含有行索引，又包含列索引，每一列的元素可能是不同类型的数据，例如字符串、整形数据、布尔类型数据。

（1）DataFrame的创建
DatAFrame的创建与Series类似，可以直接使用函数pd.DataFrame传入一个列表或者字典。

创建DataFrame的代码：

df_dic = {'color':['red','yellow','blue','purple','pink'],'size':['medium','small','big','medium','small'],'taste':['sweet','sour','salty','sweet','spicy']}
df = pd.DataFrame(df_dic)
print(df)

    color    size  taste
0     red  medium  sweet
1  yellow   small   sour
2    blue     big  salty
3  purple  medium  sweet
4    pink   small  spicy

解析：每一组数据都自动的添加了索引，序列按照列名称首字母进行排序，如果希望设置排序，可以在pd.DataFrame()函数中传入columns参数。这个就类似于Series中的index列表

指定DataFrame中的columns：

df1 = pd.DataFrame(df_dic,columns = ['taste','color','size'])
print(df1)

   taste   color    size
0  sweet     red  medium
1   sour  yellow   small
2  salty    blue     big
3  sweet  purple  medium
4  spicy    pink   small

如果传入的columns中含有与源字典数据key值不匹配的列名称时，该列会被记作NAN列。

df1 = pd.DataFrame(df_dic,columns = ['taste','color','size','category'])
print(df1)

   taste   color    size category
0  sweet     red  medium      NaN
1   sour  yellow   small      NaN
2  salty    blue     big      NaN
3  sweet  purple  medium      NaN
4  spicy    pink   small      NaN

DataFrame的表头可以设置列索引名称的标题和行索引名称的标题，需要使用name函数进行设置。

df1.index.name = 'sample'
df1.columns.name = 'feature'
print(df1)

feature  taste   color    size
sample                        
0        sweet     red  medium
1         sour  yellow   small
2        salty    blue     big
3        sweet  purple  medium
4        spicy    pink   small

这里为列名称设置了feature,为索引名称设置了sample

使用values函数可以获得DataFrame中的所有数据，以二维数组的形式返回（数组与列表的区别是逗号）

print('df1的values值为： {}'.format(df1.values))

df1的values值为： [['sweet' 'red' 'medium']
 ['sour' 'yellow' 'small']
 ['salty' 'blue' 'big']
 ['sweet' 'purple' 'medium']
 ['spicy' 'pink' 'small']]

注意：数组元素之间都没有逗号

（2）DataFrame的索引

获取DataFrame中的列，可以采用以下两种方式：

print('df1中的color列： {}'.format(df1['color']))
print('df1中的color列： {}'.format(df1.color))

df1中的color列： sample
0       red
1    yellow
2      blue
3    purple
4      pink
Name: color, dtype: object
df1中的color列： sample
0       red
1    yellow
2      blue
3    purple
4      pink
Name: color, dtype: object

可以看到打印的结果都是一样的。

对于行方向上的索引，如果希望获取某一行，可以使用行索引字段ix。

print(df1.ix[3])

feature
taste     sweet
color    purple
size     medium
Name: 3, dtype: object

通过DatAFrame数据的索引，可对特定的数组进行修改。

import numpy as np
df1['category'] = np.arange(5)
print(df1)

feature  taste   color    size  category
sample                                  
0        sweet     red  medium         0
1         sour  yellow   small         1
2        salty    blue     big         2
3        sweet  purple  medium         3
4        spicy    pink   small         4

可以看到使用Numpy生成一维数组，然后直接填补DataFrame的一列

但是如果只是想填补其中的部分数值，可精确匹配DataFrame中缺失值的索引，然后填补缺失值

import numpy as np
df1['category'] = pd.Series([2,3,4],index = [0,2,4])
print(df1)

feature  taste   color    size  category
sample                                  
0        sweet     red  medium       2.0
1         sour  yellow   small       NaN
2        salty    blue     big       3.0
3        sweet  purple  medium       NaN
4        spicy    pink   small       4.0

可以看到，如果为不存在的列赋值将会创建一个新的列。

df1['country'] = pd.Series(['China','UK','USA','Australia','Japan'])
print(df1)

feature  taste   color    size  category    country
sample                                             
0        sweet     red  medium       2.0      China
1         sour  yellow   small       NaN         UK
2        salty    blue     big       3.0        USA
3        sweet  purple  medium       NaN  Australia
4        spicy    pink   small       4.0      Japan

上面的代码，使用Series创建一个数组，并且指定了索引，

DataFrame中可以使用布尔型数组选取行：

print(df1[df1['category'] < 3])

feature  taste color    size  category country
sample                                        
0        sweet   red  medium       2.0   China

这里选取了category小于等于3的样本数据，用到了列索引，所以也可以写成df1.category

二、数学与统计计算

Pandas是一个高性能的数据计算库，其中包含一些高效处理数学以及统计运算的函数

Pandas提供了对Series和DataFrame进行汇总统计的函数，比如求和，求平均数、求分位数。

DataFrame数学统计函数：

首先创建一个DataFrame,这里使用二维列表进行创建，不仅指定了index,而且指定了columns

df5 = pd.DataFrame([[3,2,3,1],[2,5,3,6],[3,4,5,2],[9,5,3,1]],index = ['a','b','c','d'],columns = ['one','two','three','four'])
print(df5)

   one  two  three  four
a    3    2      3     1
b    2    5      3     6
c    3    4      5     2
d    9    5      3     1

使用DataFrame中的sum函数将会返回一个按列或者按行求和的的Series。

print('按列求和： {}'.format(df5.sum()))
print('按行求和： {}'.format(df5.sum(axis = 1)))

按列求和： one      17
two      16
three    14
four     10
dtype: int64
按行求和： a     9
b    16
c    14
d    18
dtype: int64

设定axis = 1将进行行求和。不设定默认列求和

consum函数用于计算累计求和值，按照指定顺序依次求和。

print('从上到下累计求和： {}'.format(df5.cumsum()))
print('从左往右累计求和： {}'.format(df5.cumsum(axis = 1)))

从上到下累计求和：    one  two  three  four
a    3    2      3     1
b    5    7      6     7
c    8   11     11     9
d   17   16     14    10
从左往右累计求和：    one  two  three  four
a    3    5      8     9
b    2    7     10    16
c    3    7     12    14
d    9   14     17    18

Pandas还定义了其他DataFrame的统计指标，下面就列出相关数据统计函数。

统计函数	解释
mean	均值
median	中位数
count	非缺失值数量
min、max	最大最小值
describe	汇总统计
var	方差
std	标准差
skew	偏度
kurt	峰度
diff	一阶差分
cumin、cumax	累计最大值、累计最小值
cumsum、cumprod	累计和、累计积
cov、corr	协方差、相关系数

三、DataFrame的文件操作

Pandas提供了多种读取文件函数和写入文件函数，可将原始数据文件转换成DataFrame类型的数据结构

3.1 读取文件

Pandas常用的读取数据文件函数如表所示：

读取数据文件函数	解释
pd.read_csv(filename)	从csv文件导入数据，默认分隔符为“,"
pd.read_table(filename)	从文本文件导入数据，默认分隔符为制表符
pd.read_excel(filename)	从Excel文件导入数据
pd.read_sql(query,connection_object)	从SQL表/库中导入数据
pd.read_json(json_string)	从json文件导入数据
pd.read_html(url)	解析url、字符串或者HTML文件，提取数据表格
pd.DataFrame(dict)	从字典对象中读入数据

Panads读取csv文件：

pd.read_csv('df.csv',encoding = 'utf-8')

第一个参数时原数据文件的存储路径，这里的数据文件存储在当前目录下，encoding参数用于设置编码方式，这里设置为utf-8

3.2 写入文件

Python 常用的写入文件函数如下表：

读取数据文件函数	解释
pd.to_csv(filename)	导入数据至csv文件
pd.to_excel(filename)	导入数据至excel文件
pd.to_sql(table_name,connection_object)	导入数据至SQL表
pd.to_json(json_string)	导出数据为json格式
pd.to_html(url)	导出数据为html文件
pd.to_clipboard(filename)	导出数据到剪切板

Pandas写入csv文件：

df.to_csv('df.csv',seq = ',',header = True,index = True,encoding = 'utf-8')

第一个参数为写入文件路径，这里表示写入当前目录，seq参数用于设置写入文件的分隔符，header参数表示写入文件是否写入标题行，默认值为True,index参数表示是否写入行索引，默认值为True。

四、数据处理

在做数据分析时，读取的数据有时候不符合是数据分析的要求，可能会存在一些缺失值、重复值，Pandas提供了对Series数组和DataFrame进行数据预处理（数据清洗的方法）

4.1 缺失值处理

（1）不存在型空值，也就是无法获取的值
（2）存在性空值，样本的该特征时存在的，但是暂时无法获取数据，之后该信息一旦被确定，就可以补充数据，使信息趋于完全。
（3）占位型空值，无法确定是存在型空值还是不存在型空值，随着时间的推移来确定

查找缺失值
Pandas中可使用isnull函数来判断是否存在缺失值。DataFrame中的缺失值一般记作：numpy.nan,表示数据空缺。

查找DataFrame中的缺失值

import pandas as pd
import numpy as np
df6 = pd.DataFrame([[3,np.nan,3,1],[2,5,np.nan,6],[3,4,5,np.nan],[5,3,1,3]],index = ['a','b','c','d'],columns = ['one','two','three','four'])
print(df6.isnull())

     one    two  three   four
a  False   True  False  False
b  False  False   True  False
c  False  False  False   True
d  False  False  False  False

使用DataFrame中的isnull函数，会逐个遍历数组中的每一个元素，每一个索引位置都返回一个布尔值表示其是否为缺失值，缺失值np.nan的位置返回True, 非缺失值的位置False，构成一个由布尔值组成的DataFrame类型数据。

通过此布尔型返回值，结合any函数可以对原DataFrame进行切片，提取所有包含缺失值的数据。

# 输出含有缺失值的行  所有的行
print(df6[df6.isnull().any(axis = 1)])

   one  two  three  four
a    3  NaN    3.0   1.0
b    2  5.0    NaN   6.0
c    3  4.0    5.0   NaN

过滤缺失值

dropna函数用于过滤缺失值，可返回不含有缺失值的数据和索引，对于Series数组使用dropna函数进行过滤的实例如下所示：

过滤Series中的缺失值：

# 创建一个Series数组
arr = pd.Series([1,2,3,np.nan,5,6])
print(arr)
print(arr.dropna())

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
dtype: float64
0    1.0
1    2.0
2    3.0
4    5.0
5    6.0
dtype: float64

使用dropna函数之后，arr中的缺失数据被过滤，但是返回的只是一个副本

可以接着输出：python print(arr)

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
dtype: float64

原Series数组的缺失数据仍然存在，所以dropna返回的是一个执行删除操作的新的数组，删除操作不改变原来的数组，如果希望改变原来的数组，可以执行如下操作：

arr = arr.dropna()
print(arr)

将删除之后的数组再次赋值给原数组

对于DataFrame的过滤方法，dropna函数的使用方法与过滤Series数组类似

print(df6.dropna())

   one  two  three  four
d    5  3.0    1.0   3.0

dropna函数传入how = 'all’可以删除全为缺失值NAN的行或者列

df6['fifth'] = np.NAN
print(df6)
print(df6.dropna(how = 'all',axis = 1,inplace = True))

   one  two  three  four  fifth
a    3  NaN    3.0   1.0    NaN
b    2  5.0    NaN   6.0    NaN
c    3  4.0    5.0   NaN    NaN
d    5  3.0    1.0   3.0    NaN

填充缺失值
fillna函数是处理缺失值最常用的方法，调用fillna函数，传入替换之后的数值，即可完成缺失值的替换。

df6['fifth'] = np.NAN
print(df6)
print(df6.fillna(0))

   one  two  three  four  fifth
a    3  NaN    3.0   1.0    NaN
b    2  5.0    NaN   6.0    NaN
c    3  4.0    5.0   NaN    NaN
d    5  3.0    1.0   3.0    NaN
   one  two  three  four  fifth
a    3  0.0    3.0   1.0    0.0
b    2  5.0    0.0   6.0    0.0
c    3  4.0    5.0   0.0    0.0
d    5  3.0    1.0   3.0    0.0

解析：df6中的缺失值全部被替换成为0，但是数据分析常用哦过的填充数据是数据当前列的中位数或者均值，分别使用Pandas中的median函数和mean函数，如图所示。

print(df6)
print(df6.fillna(df6.median()))

   one  two  three  four
a    3  NaN    3.0   1.0
b    2  5.0    NaN   6.0
c    3  4.0    5.0   NaN
   one  two  three  four
a    3  NaN    3.0   1.0
b    2  5.0    NaN   6.0
c    3  4.0    5.0   NaN
d    5  3.0    1.0   3.0
   one  two  three  four
a    3  4.0    3.0   1.0
b    2  5.0    3.0   6.0
c    3  4.0    5.0   3.0
d    5  3.0    1.0   3.0

Pandas还提供了向上向下填充缺失值的函数，分别为ffill函数和bfill函数。向上填充法使用缺失值位置的前一个数据代替缺失值，向下填充法使用缺失值的后一个数据代替缺失值。

print(df6)
print(df6.fillna(df6.ffill()))

   one  two  three  four
a    3  NaN    3.0   1.0
b    2  5.0    NaN   6.0
c    3  4.0    5.0   NaN
d    5  3.0    1.0   3.0
   one  two  three  four
a    3  NaN    3.0   1.0
b    2  5.0    3.0   6.0
c    3  4.0    5.0   6.0
d    5  3.0    1.0   3.0

print(df6)
print(df6.fillna(df6.bfill()))

   one  two  three  four
a    3  NaN    3.0   1.0
b    2  5.0    NaN   6.0
c    3  4.0    5.0   NaN
d    5  3.0    1.0   3.0
   one  two  three  four
a    3  5.0    3.0   1.0
b    2  5.0    5.0   6.0
c    3  4.0    5.0   3.0
d    5  3.0    1.0   3.0

4.2 重复值处理

DataFrame中可能会存在重复的行或者列，或者几行中存在重复的几列，数据的重复或者冗余会影响数据分析的准确性，去除重复值是数据清洗过程的一个重要的环节，duplicated函数是一个可以用来查看是否存在重复值。

查看DataFrame中的重复值

查看DataFrame中的重复值：

df7 = pd.DataFrame([[3,5,3,1],[2,5,5,6],[3,4,5,3],[5,3,1,3],[3,4,5,3],[3,4,6,8]],index = ['a','b','c','d','e','f'],columns = ['one','two','three','four'])

print(df7[df7.duplicated()])
print(df7[df7.duplicated(subset = ['one','two'])])

   one  two  three  four
e    3    4      5     3
   one  two  three  four
e    3    4      5     3
f    3    4      6     8

解析：结合使用布尔型切片查看重复行，duplicated函数中subset参数默认值为None,表示考虑DataFrame中的所有列。如果subset如本例所示指定为某几列，则会针对这几列进行重复值查询。

duplicated函数默认只保留第一次出现重复的行，subset参数用于识别重复的列标签或者列标签序列，默认为所有的列标签，可以根据列筛选重复的行。

去处DataFrame中重复值
使用drop_duplicates函数即可对数据进行去重

print(df7.drop_duplicates(subset = ['one','two'],keep = 'first'))

   one  two  three  four
a    3    5      3     1
b    2    5      5     6
c    3    4      5     3
d    5    3      1     3

这里设置参数subset，只对前两列进行检查，之后有设置了参数keep,first表示保留第一次出现的重复值，keep还有另外两个参数值，分别为last、false。

数据记录合并与分组

不同的DataFrame中的数据有时需要放在一起分析，Pandas常用的数据合并方法有append、concat、merge等。

使用append函数连接两个DataFrame（列索引必须相同）,

df8 = pd.DataFrame([[3,3,2,4],[5,4,3,3]],index = ['g','h'],columns = ['one','two','three','four'])
print(df8.append(df7))

   one  two  three  four
g    3    3      2     4
h    5    4      3     3
a    3    5      3     1
b    2    5      5     6
c    3    4      5     3
d    5    3      1     3
e    3    4      5     3
f    3    4      6     8

可以看到合并了两行，列数还是四列。

使用concat函数合并数据记录
concat函数也可以对DataFrame连接，可以指定两个DataFrame按照某个轴进行连接，也可以指定二者连接的方式，axis参数可以指定连接的轴向，axis默认值为0，表示列对齐，两表上下合并，与append()结果相同，axis = 1时，表示行对齐，两表左右合并

# 默认上下连接
print(pd.concat([df7,df8]))

   one  two  three  four
a    3    5      3     1
b    2    5      5     6
c    3    4      5     3
d    5    3      1     3
e    3    4      5     3
f    3    4      6     8
g    3    3      2     4
h    5    4      3     3

# 左右连接
print(pd.concat([df8,df7],axis = 1))

   one  two  three  four  one  two  three  four
a  NaN  NaN    NaN   NaN  3.0  5.0    3.0   1.0
b  NaN  NaN    NaN   NaN  2.0  5.0    5.0   6.0
c  NaN  NaN    NaN   NaN  3.0  4.0    5.0   3.0
d  NaN  NaN    NaN   NaN  5.0  3.0    1.0   3.0
e  NaN  NaN    NaN   NaN  3.0  4.0    5.0   3.0
f  NaN  NaN    NaN   NaN  3.0  4.0    6.0   8.0
g  3.0  3.0    2.0   4.0  NaN  NaN    NaN   NaN
h  5.0  4.0    3.0   3.0  NaN  NaN    NaN   NaN

解析： concat函数上下连接时相同的列索引的数据进行合并，左右连接时相同的行索引的数据合并。

join参数用来设置连接方式，join的默认值为’outer’，表示两个数据集若存在不重合索引，则取并集，未匹配的位置处记录为缺失值NAN,join = ‘inner’ 表示对两数据集取交集，只返回都匹配成功的数据。

使用merge函数合并数据记录
merge函数可以根据两个DataFrame共有的某个字段进行数据合并，类似于关系数据库的连接，通过一个或者多个键将这两个数据集的行连接在一起，合并之后的DataFrame行数没有增加，列数为两个DataFrame的总列数减去连接键的数量。

df_dic11 = {'color':['red','yellow','blue','purple','pink'],'size':['medium','small','big','medium','small'],'taste':['sweet','sour','salty','sweet','spicy'],'category':[2,3,4,5,6]}
df9 = pd.DataFrame(df_dic11,columns = ['taste','color','size','category'])
print(df9)
df_dic12 = {'country':['China','UK','USA','Australia','Japan'],'quality':['good','normal','excellent','good','bad'],'category':[2,3,4,5,6]}
df10 = pd.DataFrame(df_dic12,columns = ['country','quality','category'])
print(df10)
print(pd.merge(df9,df10,left_on = 'category',right_on = 'category',how = 'left'))

   taste   color    size  category
0  sweet     red  medium         2
1   sour  yellow   small         3
2  salty    blue     big         4
3  sweet  purple  medium         5
4  spicy    pink   small         6
     country    quality  category
0      China       good         2
1         UK     normal         3
2        USA  excellent         4
3  Australia       good         5
4      Japan        bad         6
   taste   color    size  category    country    quality
0  sweet     red  medium         2      China       good
1   sour  yellow   small         3         UK     normal
2  salty    blue     big         4        USA  excellent
3  sweet  purple  medium         5  Australia       good
4  spicy    pink   small         6      Japan        bad

left_on参数表示主键在左侧DatFrame中的列名称，right_on表示主键在右侧的列名称，两个的名称可以不相同，

how表示DataFrame的连接方式，默认值为‘inner’,表示根据主键对两表匹配时，若未完全匹配，则保留匹配成功的部分，也就是两者的交集，how参数还可以设置为right、outer，参数设置为outer时，两个DataFrame中未匹配成功的部分全部保留，也就是两者的并集，how = left对于未匹配的部分保留左边DatFrame中含有，但是右边DataFrame中不含有的部分。

结束，后续知识，遇到之后在进行补充改进

你可能感兴趣的:(#,pandas,机器学习,数据挖掘,数据分析,pandas)

HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
探索R语言：经典案例解析与源代码翠绿探寻 r语言信息可视化开发语言 R语言
探索R语言：经典案例解析与源代码引言：R语言是一种流行的数据分析和统计建模工具，具有丰富的功能和广泛的应用领域。在本文中，我们将通过经典案例来探索R语言的一些重要功能和技术。我们将提供相应的源代码，以便读者能够实际运行并理解这些示例。案例一：数据导入与处理在数据分析中，数据导入和处理是首要任务。R语言提供了丰富的函数和包，用于处理各种数据格式。下面是一个简单的示例，演示了如何导入和处理CSV格式的
数据分析与AI丨AI Fabric：数据和人工智能架构的未来 Altair澳汰尔数据分析 ai RapidMiner 知识图谱人工智能
AIFabric架构是模块化、可扩展且面向未来的，是现代商业环境中企业实现卓越的关键。在当今商业环境中，数据分析和人工智能领域发展可谓日新月异。几乎每天都有新兴技术诞生，新的应用场景不断涌现，前沿探索持续拓展。可遗憾的是，众多企业在利用数据和人工智能方面，脚步总是滞后。这是每个行业进行创新和获得竞争优势的冲刺阶段，但正如大多数企业时常感受到的那样，大规模实施下一代数据和AI工具说起来容易做起来难。
Linux下安装Mysql环境软件分享工作室 Linux linux mysql 运维
1.mysql说明MySQL是一种开源的关系型数据库管理系统，它具有高性能、可靠性和灵活性的特点。MySQL支持多种操作系统，包括Windows、Linux和MacOS等。它是最流行的数据库管理系统之一，被广泛应用于网站开发、数据存储和数据分析等领域。2.mysql优点1.开源免费：MySQL是开源软件，可以免费使用和修改，没有任何使用限制。2.跨平台：MySQL可以在多种操作系统上运行，包括Wi
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
ClickHouse 作用，优缺点。 mldsh13 clickhouse
ClickHouseClickHouse是一个开源的分布式列式数据库管理系统(DBMS)，专门设计用于实时分析(OLAP)。它最初由俄罗斯的Yandex开发，后来成为了开源项目，被广泛应用于需要高性能数据分析和查询的场景。作用：实时分析：ClickHouse专注于快速查询和分析大量数据，使其特别适用于数据分析、报告和实时仪表板等应用场景。大规模数据处理：能够处理海量数据，支持分布式架构，可以水平扩
Apache Doris 实现毫秒级查询响应随风九天匠心数据库服务 java apache Apache Doris
1.引言1.1数据分析的重要性随着大数据时代的到来，企业对实时数据分析的需求日益增长。快速、准确地获取数据洞察成为企业在竞争中脱颖而出的关键。传统的数据库系统在处理大规模数据时往往面临性能瓶颈，难以满足实时分析的需求。例如，一个电商公司需要实时监控销售数据以调整库存和营销策略，而传统的数据库可能需要数分钟甚至数小时才能生成报表，这显然无法满足业务需求。1.2ApacheDoris简介ApacheD
C++开源库大全大王算法 C/C++开发实战365 C++入门及项目实战宝典 c++开源
程序员要站在巨人的肩膀上，C++拥有丰富的开源库，这里包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++StandardLibrary：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。
基于PyTorch的深度学习——机器学习3 Wis4e 深度学习机器学习 pytorch
激活函数在神经网络中作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1
AI 驱动的软件测试革命：从自动化到智能化的进阶之路綦枫Maple AI+软件测试人工智能自动化运维
引言：软件测试的智能化转型浪潮在数字化转型加速的今天，软件产品的迭代速度与复杂度呈指数级增长。传统软件测试依赖人工编写用例、执行测试的模式，已难以应对快速交付与高质量要求的双重挑战。人工智能技术的突破为测试领域注入了新动能，通过机器学习、深度学习、自然语言处理等技术，测试流程正从“被动验证”向“主动预防”演进。本文将深入探讨AI与软件测试的融合路径，结合技术原理、工具实践与行业趋势，为读者呈现一幅
JSON数据解析实战：从嵌套结构到结构化表格亿牛云爬虫专家代理IP 爬虫代理 python json 数据解析嵌套结构结构化表格 Google Scholar 学术文献爬虫代理
在信息爆炸的时代，如何从杂乱无章的数据中还原出精准的知识图谱，是数据侦探们常常面临的挑战。本文以GoogleScholar为目标，深入解析嵌套JSON数据，从海量文献信息中提取关键词、作者、期刊等内容。最终，我们不仅将数据转换成结构化表格，还通过Graphviz制作出技术关系图谱，揭示文献间的隐秘联系。关键数据分析在本次调研中，我们的核心目标是获取GoogleScholar上的学术文献信息。为此，
XGBClassifiler函数介绍浊酒南街 #算法机器学习 XGB
目录前言函数介绍示例前言XGBClassifier是XGBoost库中用于分类任务的类。XGBoost是一种高效且灵活的梯度提升决策树（GBDT）实现，它在多种机器学习竞赛中表现出色，尤其擅长处理表格数据。函数介绍XGBClassifiler(max_depth=3,learning_rate=0.1,n_estimators=100,objective='binary:logistic',boo
基于大数据架构的就业岗位推荐系统的设计与实现【java或python】—计算机毕业设计源码+LW文档 qq_375279829 大数据架构 python 课程设计算法
摘要随着互联网技术的迅猛发展和大数据时代的到来，就业市场日益复杂多变，求职者与招聘方之间的信息不对称问题愈发突出。为解决这一难题，本文设计并实现了一个基于大数据架构的就业岗位推荐系统。该系统通过收集、整合并分析大量求职者简历信息、企业招聘信息以及市场动态数据，运用先进的机器学习算法，为求职者提供个性化的岗位推荐服务，同时帮助企业快速定位到合适的候选人。本文将从系统设计的背景与意义、技术基础、需求分
向量数据库简介 openwin_top python编程示例系列 python编程示例系列二数据库
向量数据库（VectorDatabase）是一种专门用于存储和查询向量数据的数据库系统。向量数据库通常使用高效的向量索引技术，支持基于向量相似度的查询和检索，可以应用于图像搜索、自然语言处理、推荐系统、机器学习等领域。与传统的关系型数据库不同，向量数据库通常使用基于向量的数据模型，将向量作为数据的核心表示形式。向量数据库可以存储和处理大量的向量数据，支持高效的向量相似度计算和查询。常见的向量索引技
供应链工作效率如何提升 dev.null 社会供应链
提升供应链工作效率可以从以下几个关键方面入手：1.优化供应链管理数据驱动决策：利用AI和大数据分析，提高预测准确性，优化库存管理。供应链可视化：采用ERP（企业资源计划）和SCM（供应链管理）系统，实现实时跟踪和监控。流程自动化：使用RPA（机器人流程自动化）减少人为操作，提高效率。2.提高物流效率智能调度：使用AI优化配送路线，减少运输时间和成本。自动化仓储：采用自动分拣、机器人搬运、无人机配送
Ubuntu22.04安装CP2K最新版2025.1 jhonwyyc 机器学习深度学习 ubuntu
CP2K教程CP2K系列之一安装文章目录CP2K教程前言一、安装依赖库1.引入库二、下载并解压缩1.下载链接2.解压缩三、安装1.安装cp2k_toolchain2.安装cp2k3.指定根目录4.修改环境变量四、测试总结前言CP2K是一款开源的第一性原理计算软件，采用Fortran98编写。近年来结合机器学习与lammps，已成为热度逐年增加的软件。但是目前使用它仍存在不少难点。本文讲解在Ubun
Azure AI Document Intelligence 使用指南 scaFHIO azure 人工智能 flask python
AzureAIDocumentIntelligence使用指南AzureAIDocumentIntelligence（原名AzureFormRecognizer）是一项基于机器学习的服务，可以从数字或扫描PDF、图像、Office和HTML文件中提取文本（包括手写）、表格、文档结构（如标题、节标题等）和键值对。它支持多种格式，包括PDF、JPEG/JPG、PNG、BMP、TIFF、HEIF、DOC
鸢尾花数据集的四个特征具体是什么？学术乙方 Python 人工智能
鸢尾花数据集（IrisDataset）是机器学习领域中最经典的数据集之一，它包含150个样本，每个样本有4个特征，分别是：1.花萼长度（SepalLength）描述：花萼（花的外部绿色部分）的长度，单位为厘米。取值范围：通常为4.3cm到7.9cm。2.花萼宽度（SepalWidth）描述：花萼的宽度，单位为厘米。取值范围：通常为2.0cm到4.4cm。3.花瓣长度（PetalLength）描述：
OLAP与OLTP：数据处理系统的两种核心架构思静鱼 #Mysql-数据库架构
文章目录OLAP和OLTP的主要区别OLAP常见数据库和OLTP常见数据库OLAP是英文OnlineAnalyticalProcessing的缩写，中文称为联机分析处理。它是一种基于多维数据模型的分析处理技术，用于从不同的角度进行数据挖掘和分析，以帮助用户快速发现数据之间的相关性和趋势。OLAP技术通常涉及到预计算、缓存和查询优化等方面的技术，可用于构建在线分析系统（OLAP系统）。该系统将大量的
DeepSeek源码解析（2）白鹭凡 deepseek ai
Tensor（张量）的介绍在计算机科学和机器学习领域，“张量”（Tensor）是一个数学概念，它被用来表示多维数组。在大模型（如深度学习模型）中，张量扮演着核心角色，具体来说：数据表示：张量用于表示输入数据、模型参数和中间计算结果。例如，在图像处理中，一张图片可以被表示为一个三维张量（高度、宽度、颜色通道数），而在自然语言处理中，一段文本可以被编码为一系列词向量组成的二维张量（句子长度、词向量维度
【PyCharm】Python和PyCharm的相互关系和使用联动介绍 lisw05 python python pycharm ide
李升伟整理Python是一种广泛使用的编程语言，而PyCharm是JetBrains开发的专门用于Python开发的集成开发环境（IDE）。以下是它们的相互关系和使用联动的介绍：1.Python和PyCharm的关系Python：一种解释型、面向对象的高级编程语言，适用于多种开发任务，如Web开发、数据分析、人工智能等。PyCharm：专为Python设计的IDE，提供代码编辑、调试、测试、版本控
机器学习数学基础：29.t检验 @心都机器学习人工智能
一、t检验的定义与核心思想（一）定义t检验（Student’st-test）是一种在统计学领域中广泛应用的基于t分布的统计推断方法。其主要用途在于判断样本均值与总体均值之间，或者两个独立样本的均值之间、配对样本的均值之间是否存在显著差异。例如，在教育研究中，可以通过t检验判断某个班级学生的平均成绩与全校学生的平均成绩是否有显著差异；在医学实验里，可用于比较实验组和对照组的患者某项生理指标的均值是否
数据分析在宇宙观测中的重要性 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
数据分析在宇宙观测中的重要性关键词：数据分析、宇宙观测、数据预处理、数据挖掘、数据可视化摘要：本文将探讨数据分析在宇宙观测中的重要性，从数据分析在宇宙观测中的应用背景、重要性、面临的挑战与机遇以及未来发展趋势等方面进行深入分析，旨在为读者提供一个全面而详细的了解。引言第1章:分析数据与宇宙观测的关联1.1.1数据分析在宇宙观测中的应用背景宇宙观测是研究宇宙的结构、演化、性质以及各种物理现象的科学。
淘宝天猫商品评论数据接口：实时API调用指南 pythonc++java
淘宝天猫商品评论数据接口是用于获取淘宝和天猫平台上商品评论数据的工具。通过该接口，开发者可以实时调用API获取所需数据，为数据分析、应用开发等提供便利。以下是淘宝天猫商品评论数据接口的实时API调用指南：一、准备工作注册淘宝开放平台账号：访问淘宝开放平台官网，注册并登录账号。申请API密钥：在开放平台中，申请API密钥，以便在调用接口时进行身份验证。熟悉API文档：仔细阅读淘宝开放平台的API文档
基于SpringBoot的智能问诊系统设计与隐私保护策略大熊计算机技术博文 spring boot 后端 java
通过SpringBoot框架，我们可以快速搭建一个智能问诊系统，为用户提供便捷的线上医疗服务。然而，在系统设计和实现过程中，如何保障用户的隐私和数据安全，始终是一个亟需关注的问题。本文将探讨基于SpringBoot的智能问诊系统的设计原理、开发实践及隐私保护策略。1.智能问诊系统概述智能问诊系统是基于人工智能、数据分析及信息技术等手段，通过网络平台为用户提供医疗咨询、初步诊断、健康管理等服务的系统
机器学习算法（2）—— 线性回归算法疯狂的石头。算法机器学习线性回归
‘’‘构造数据集’‘’x=[[80,86],[82,80],[85,78],[90,90],[86,82],[82,90],[78,80],[92,94]]y=[84.2,80.6,80.1,90,83.2,87.6,79.4,93.4]‘’‘模型训练’‘’实例化一个估计器estimator=LinearRegression()使用fit方法进行训练estimator.fit(x,y)查看回归系数
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr