悟乙己

一句Python，一句R︱pandas模块——高级版data.frame

先学了R，最近刚刚上手python,所以想着将python和R结合起来互相对比来更好理解python。最好就是一句python，对应写一句R。

pandas可谓如雷贯耳，数据处理神器。

---

一、Series 和 DataFrame构成

1、series构造

2、dataframe构造

二、以某规则重排列.reindex

1、series

2、dataframe

三、切片与删除、增加操作与选中

1、切片-定位

2、删除

3、增加

四、排序与排名

1、排序

2、排名rank

五、简单统计量/计数

六、缺失值处理

七、其他

1、组合相加

2、dataframe应用函数

3、inplace 用法

4、DataFrame转换为其他类型

5、pandas中字符处理

6、时间序列

延伸应用一：dataframe如何横向、纵向合并？

延伸二：DataFrame横向合并/拼接出现不可合并问题的

延伸三：dataframe、series的索引删除与创建问题

延伸四：使用 Cut 函数进行分箱

pd.qcut()和pd.cut()区别：

延伸五：实战中的内容拼接pd.concat

延伸六：空缺值NaN如何填补

延伸七：dataframe去重

延伸八：read_csv，数据读入

延伸九：dataframe 抽样 sample

延伸十：跟mysql一样文字规则查询

以下符号：

=R=

代表着在R中代码是怎么样的。

pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包

类似于 Numpy 的核心是 ndarray，pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas 约定俗成的导入方法如下：

神奇的axis=0/1 :

合并的时候，axis=0代表rbinb，axis=1代表cbind；

单个dataframe时候，axis=0代表列，axis=1代表行

预先加载：

from pandas import Series,DataFrame
import pandas as pd

本图来源于：https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PandasPythonForDataScience+(1).pdf

————————————————————————————————————-

一、Series 和 DataFrame构成

1、series构造

s = Series([1,2,3.0,'abc'])                          #object可以多格式，像list(c(1,2,3.0,'abc'));dtppe为单种格式
s = Series(data=[1,3,5,7],index = ['a','b','x','y']) #其中Index=rownames
s.index             #=R=rownames(s)
s.values            #=R=s
s.name              #colnames列名之上名字
s.index.name        #rownames行名之上名字

python很看重index这个属性，相比之下R对于索引的操作明显要弱很多。在延伸中提到对索引的修改与操作。

2、dataframe构造

data = {'state':['Ohino','Ohino','Ohino','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002],
        'pop':[1.5,1.7,3.6,2.4,2.9]}

大括号代表词典，有点像list，可以自定义数列的名字。

df=DataFrame(data)

其中DataFrame(data=None,index=None,columns=None)其中index代表行名称，columns代表列名称

其中df.index/df.columns分别代表行名称与列名称：

df.index      #行名
df.columns    #列名

其中index也是索引，而且不是那么好修改的。

————————————————————————————————————-

二、以某规则重排列.reindex

1、series

series.reindex(index,method,fill_values)
s.reindex(index=[2,1,3,6])  #类似order重排列 此时，按照2,1,3的顺序重新排列
s.reindex(index=[2,1,3,6],fill_value=0)  #fill_value插补方式，默认NaN,此时为0
s.reindex(index=[2,1,3,6],fill_value=0,method="backfill")
    #method:{'backfill', 'bfill', 'pad', 'ffill', None}（ffill = pad，bfill = back fill，分别指插值时向前还是向后取值）

2、dataframe

#dataframe索引，匹配，缺失值插补
dataframe.reindex(index,columns,method,fill_values)   #插值方法 method 参数只能应用于行，即轴 0
 state = ['Texas','Utha','California']
df.reindex(columns=state,method='ffill')   #只能行插补

df.T.reindex(index=[1,6,3],fill_value=0).T   #列插补技巧

————————————————————————————————————-

三、切片与删除、增加操作与选中

dataframe实质是numpy的高阶表现形式。如果选中也是很讲究，这个比R里面的dataframe要复杂一些：

两列：用irow/icol选中单个；用切片选择子集 .ix/.iloc

选择列：

#---1 利用名称选择列---------
data['w']  #选择表格中的'w'列，使用类字典属性,返回的是Series类型

data.w    #选择表格中的'w'列，使用点属性,返回的是Series类型

data[['w']]  #选择表格中的'w'列，返回的是DataFrame类型

data[['w','z']]  #选择表格中的'w'、'z'列

#---2 利用序号寻找列---------
data.icol(0)   #取data的第一列
data.ix[:,1] #返回第2行的第三种方法，返回的是DataFrame，跟data[1:2]同

利用序号选择的时候，注意[:,]中的:和,的用法

选择行：

#---------1 用名称选择-----------------
data['a':'b']  #利用index值进行切片，返回的是**前闭后闭**的DataFrame, 
        #即末端是包含的  

data[0:2]  #返回第1行到第2行的所有行，前闭后开，包括前不包括后

#--------跟data.table一样，可以不加逗号选中-----------
data[1:2]  #返回第2行，从0计，返回的是单行，通过有前后值的索引形式，
       #如果采用data[1]则报错

data.ix[1,:] #返回第2行的第三种方法，返回的是DataFrame，跟data[1:2]同

data.irow(0)   #取data的第一行

data.iloc[-1]   #选取DataFrame最后一行，返回的是Series
data.iloc[-1:]   #选取DataFrame最后一行，返回的是DataFrame

其中跟R中的data.table有点像的是，可以通过data[1]，就是选中了第一行。

1、切片-定位

python的切片要是容易跟R进行混淆，那么现在觉得区别就是一般来说要多加一个冒号：

R中：
data[1,]
python中：
data[1,:]

一开始不知道切片是什么，其实就是截取数据块。其中还有如何截取符合条件的数据列。

s[1:2]            #x[2,2]
df.ix[2,2]        #df[3,3]
df.ix[2:3,2:3]
df.ix[2,"pop"]    #可以用列名直接定位
df["pop"]
df[:2]            #横向第0行，第1行
df[df["pop"]>3]   #df[df$pop>3]

跟R很大的区别，就是python中是从0开始算起。

同时定位的时候需要加入data.ix这个.ix很容易被忽略。

其中注意：

负向切片是需要仔细了解的：

    L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack']
 >>> L[-2:]
['Bob', 'Jack']
>>> L[-2:-1]
['Bob']

2、删除

s.drop(1)              #去掉index为1的行
df.drop(names,axis=0)  #axis=0代表rbind，=1代表cbind；names代表列名（colnames）或者行名（rownames）
axis=0)  #axis=0代表rbind，=1代表cbind；names代表列名（colnames）或者行名（rownames）

drop(colnames/rownames,axis=0/1)代表按rbind、cbind删除。

3、增加

df.ix[5,:]=[3,"Nevada",3000]

选中之后，填入数据，当然数值很多情况下，应该用合并的操作了。————————————————————————————————————-

四、排序与排名

1、排序

foo.order(ascending=False)         #按值，降序，ascending=True代表升序
foo.sort(ascending=False)    #按index

也有两个，order和sort。其中sort_index是按照Index进行排列。

Series 的 sort_index(ascending=True) 方法可以对 index 进行排序操作，ascending 参数用于控制升序或降序，默认为升序。若要按值对 Series 进行排序，当使用 .order() 方法，任何缺失值默认都会被放到 Series 的末尾。在 DataFrame 上，.sort_index(axis=0, by=None, ascending=True) 方法多了一个轴向的选择参数与一个 by 参数，by 参数的作用是针对某一（些）列进行排序（不能对行使用 by 参数）。

df.sort(axis=0,ascending=False,by=None)
    #按index，比series 多了axis，横向纵向的功能
    #by默认为None,by 参数的作用是针对某一（些）列进行排序（不能对行使用 by 参数）
    #by两个，df.sort_index(by=['California','Texas'])axis=0,ascending=False,by=None)
    #按index，比series 多了axis，横向纵向的功能
    #by默认为None,by 参数的作用是针对某一（些）列进行排序（不能对行使用 by 参数）
    #by两个，df.sort_index(by=['California','Texas'])

dataframe的排序

2、排名rank

Series.rank(method='average', ascending=True)
    #返回的是名次的值value
    #处理平级项，方法里的 method 参数就是起这个作用的，他有四个值可选：average, min, max, first

dataframe.rank(axis=0, method='first', ascending=True)  #按行给出名次axis=0, method='first', ascending=True)  #按行给出名次

排名（Series.rank(method='average', ascending=True)）的作用与排序的不同之处在于，他会把对象的 values 替换成名次（从 1 到 n）。这时唯一的问题在于如何处理平级项，方法里的 method参数就是起这个作用的，他有四个值可选：average, min, max, first。

排序应用一：多维复杂排序

pandas中有sort和rank，这个就跟R里面是一样的了。

rank(axis=0,ascending=Flase，method = 'first')

其中axis代表0为rbind，1代表cbind，ascending=True代表升序（从小到大）、Flase代表降序（从大到小）；有一个method选项，用来规定下标的方式

sorted(data.ix[:,1])  
# 数据排序  
a=data.rank(axis=0,ascending=False)  
#数据求秩  
data.ix[:,1][a.ix[:,1]-1]

data.ix[:,1]代表选中第一列，然后sorted代表对第一列进行排序；

a.ix[:,1]-1 代表排好的秩，-1就还原到数据可以认识的索引。

如果想要在同一表中实现按某列重排，使用sort_index：

data.sort_index(by='index')

————————————————————————————————————-

五、简单统计量/计数

df.mean(axis=0,skipna=True) =R=apply(df,2,mean) #df中的pop，按列求均值，skipna代表是否跳过均值axis=0,skipna=True) =R=apply(df,2,mean) #df中的pop，按列求均值，skipna代表是否跳过均值

这个跟apply很像，返回的是按列求平均。其他常用的统计方法有：

########################	******************************************
count	非 NA 值的数量
describe	针对 Series 或 DF 的列计算汇总统计
min , max	最小值和最大值
argmin , argmax	最小值和最大值的索引位置（整数）
idxmin , idxmax	最小值和最大值的索引值
quantile	样本分位数（0 到 1）
sum	求和
mean	均值
median	中位数
mad	根据均值计算平均绝对离差
var	方差
std	标准差
skew	样本值的偏度（三阶矩）
kurt	样本值的峰度（四阶矩）
cumsum	样本值的累计和
cummin , cummax	样本值的累计最大值和累计最小值
cumprod	样本值的累计积
diff	计算一阶差分（对时间序列很有用）
pct_change	计算百分数变化

其中df.describe()还是挺有用的，对应R的summary：

1、频数统计

R中的table真的是一个逆天的函数，那么python里面有没有类似的函数呢？

data2=pd.DataFrame([1,2,3,4,1],index=["a","b","c","d","e"]);data2
data2[0].value_counts()
Out[174]: 
1    2
4    1
3    1
2    1
Name: 0, dtype: int64

还有交叉计数的情况，直接看效果：

df = pd.DataFrame({'A':['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],'B':['one', 'one', 'two', 'three','two', 'two', 'one', 'three'],'C':np.arange(8),'D':np.arange(8,16)})
df
Out[200]: 
     A      B  C   D
0  foo    one  0   8
1  bar    one  1   9
2  foo    two  2  10
3  bar  three  3  11
4  foo    two  4  12
5  bar    two  5  13
6  foo    one  6  14
7  foo  three  7  15

以上是数据：

df.groupby('A').sum()#按照A列的值分组求和
Out[202]: 
      C   D
A          
bar   9  33
foo  19  59

df.groupby(['A','B']).sum()##按照A、B两列的值分组求和
Out[203]: 
           C   D
A   B           
bar one    1   9
    three  3  11
    two    5  13
foo one    6  22
    three  7  15
    two    6  22

还有分组计数：

groups['C'].count()##按照A列的值分组B组计数
Out[210]: 
A
bar    3
foo    5
Name: C, dtype: int64

import pandas as pd
import numpy as np
ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
         'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
         'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
         'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
         'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)

# 根据某一列汇总
df.groupby('Team')

# 查看分组
df.groupby('Team').groups


# 根据多列汇总
df.groupby(['Team','Year']).groups

# 遍历分组：
grouped = df.groupby('Team')
for name,group in grouped:
    print(name)
    print(group)


Devils
     Team  Rank  Year  Points
2  Devils     2  2014     863
3  Devils     3  2015     673
Kings
    Team  Rank  Year  Points
4  Kings     3  2014     741
6  Kings     1  2016     756
7  Kings     1  2017     788
Riders
      Team  Rank  Year  Points
0   Riders     1  2014     876
1   Riders     2  2015     789
8   Riders     2  2016     694
11  Riders     2  2017     690
Royals
      Team  Rank  Year  Points
9   Royals     4  2014     701
10  Royals     1  2015     804
kings
    Team  Rank  Year  Points
5  kings     4  2015     812

可以选取某个：

#选取某一个分组
grouped = df.groupby('Year')
print(grouped.get_group(2014))


     Team  Rank  Year  Points
0  Riders     1  2014     876
2  Devils     2  2014     863
4   Kings     3  2014     741
9  Royals     4  2014     701

如何groupby分组统计结果转换成Dataframe？

import pandas as pd
import numpy as np
# 创建dataframe
data = pd.DataFrame({"key": list("abbcaabac"),
                     "value": [1, 2, 3, 4, 5, 6, 7, 8, 9]})

# 按key分组
data_group = data.groupby(data["key"])

new_data = pd.DataFrame(columns=["key", "value"])
print(new_data)

# 循环拼接
for key, value in data_group:
    new_data = pd.concat([new_data, value])
print(new_data)

来看一下data.groupby(data["key"])之后，是一个LIST型，

类型是：（key1,dataframe1）,（key2,dataframe2）

如果要拼接起来，可以pd.concat起来

聚合函数Aggregations：

（可参考：https://www.tutorialspoint.com/python_pandas/python_pandas_groupby.htm）

聚合多个：

grouped = df.groupby('Team')
print(grouped['Points'].agg([np.sum, np.mean, np.std]))


         sum        mean         std
Team                                
Devils  1536  768.000000  134.350288
Kings   2285  761.666667   24.006943
Riders  3049  762.250000   88.567771
Royals  1505  752.500000   72.831998
kings    812  812.000000         NaN

Transformations

grouped = df.groupby('Team')
score = lambda x: (x - x.mean()) / x.std()*10
print(grouped.transform(score))

         Rank       Year     Points
0  -15.000000 -11.618950  12.843272
1    5.000000  -3.872983   3.020286
2   -7.071068  -7.071068   7.071068
3    7.071068   7.071068  -7.071068
4   11.547005 -10.910895  -8.608621
5         NaN        NaN        NaN
6   -5.773503   2.182179  -2.360428
7   -5.773503   8.728716  10.969049
8    5.000000   3.872983  -7.705963
9    7.071068  -7.071068  -7.071068
10  -7.071068   7.071068   7.071068
11   5.000000  11.618950  -8.157595

Filtration

print(df.groupby('Team').filter(lambda x: len(x) >= 3))


      Team  Rank  Year  Points
0   Riders     1  2014     876
1   Riders     2  2015     789
4    Kings     3  2014     741
6    Kings     1  2016     756
7    Kings     1  2017     788
8   Riders     2  2016     694
11  Riders     2  2017     690

文本聚合：

df = pd.DataFrame({'A':['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],'B':['one', 'one', 'two', 'three','two', 'two', 'one', 'three'],'C':np.arange(8),'D':np.arange(8,16)})
df.groupby(['B'])['A'].agg(','.join)

聚合之后为：

两个内容聚合合并：

这里的ID可能一个人有很多个，所以需要合并：

# 先groupby聚合起来
data1 = pd.DataFrame(  main_data.groupby(['hyper_id'])['id_type'].agg(dict )  )

# 然后合并
def dict2rbind(_dict):
    t_dict = {}
    for k1,v1 in _dict.items():
        for k2,v2 in v1.items():
            t_dict[k2] = v2
    return t_dict

list(data['id_type'].map(dict2rbind ))

2、Apply 函数

在向数据框的每一行或每一列传递指定函数后，Apply 函数会返回相应的值。

#Create a new function:
def num_missing(x):
  return sum(x.isnull())
 
#Applying per column:
print "Missing values per column:"
print data.apply(num_missing, axis=0) #axis=0 defines that function is to be applied on each column = rbind
 
#Applying per row:
print "nMissing values per row:"
print data.apply(num_missing, axis=1).head() #axis=1 defines that function is to be applied on each row =cbindaxis=0) #axis=0 defines that function is to be applied on each column = rbind
 
#Applying per row:
print "nMissing values per row:"
print data.apply(num_missing, axis=1).head() #axis=1 defines that function is to be applied on each row =cbind

可以传入函数，跟R里面apply一样。

————————————————————————————————————-

六、缺失值处理

df.isnull   #=R=is.na()
df.dropna   #去掉缺失值
df.fillna(value=None, method=None, axis=0)   #填充方法，method
df.notnull  #跟isnull一样，=R=is.na()axis=0)   #填充方法，method
df.notnull  #跟isnull一样，=R=is.na()

fillna() 函数可一次性完成填补功能。它可以利用所在列的均值/众数/中位数来替换该列的缺失数据。下面利用“Gender”、“Married”、和“Self_Employed”列中各自的众数值填补对应列的缺失数据。

from scipy.stats import mode
mode(data['Gender'])

输出结果为：ModeResult(mode=array([‘Male’], dtype=object), count=array([489]))

输出结果返回了众数值和对应次数。需要记住的是由于可能存在多个高频出现的重复数据，因此众数可以是一个数组。通常默认使用第一个众数值：

mode(data['Gender']).mode[0]

现在可以进行缺失数据值填补并利用#2方法进行检查。

#Impute the values:
data['Gender'].fillna(mode(data['Gender']).mode[0], inplace=True)
data['Married'].fillna(mode(data['Married']).mode[0], inplace=True)
data['Self_Employed'].fillna(mode(data['Self_Employed']).mode[0], inplace=True)
 
#Now check the #missing values again to confirm:
print data.apply(num_missing, axis=0)axis=0)

至此，可以确定缺失值已经被填补。请注意，上述方法是最基本的填补方法。包括缺失值建模，用分组平均数（均值/众数/中位数）。

————————————————————————————————————-

七、其他

1、组合相加

	两个数列，返回的Index是两个数据列变量名称的；value中重复数据有值，不重复的没有。

#series  dataframe的算术
foo = Series({'a':1,'b':2})
bar = Series({'b':3,'d':4})
foo+bar                                 #merge(foo,bar,by=index)匹配到的数字相加，未匹配到的用NaN表示

2、dataframe应用函数

#函数——apply族的用法
f = lambda x:x.max()-x.min()        #numpy的附函数
df.apply(f)                         #.apply(func,axis=0,args,kwds)默认为axis=0情况下按rbind操作函数faxis=0,args,kwds)默认为axis=0情况下按rbind操作函数f

3、inplace 用法

DataFrame(data,inplace=False)

Series 和 DataFrame 对象的方法中，凡是会对数组作出修改并返回一个新数组的，往往都有一个 replace=False 的可选参数。如果手动设定为 True，那么原数组就可以被替换。

参考文献：Python 数据分析包：pandas 基础

4、DataFrame转换为其他类型

参考：pandas.DataFrame.to_dict

df.to_dict(orient='dict')

outtype的参数为‘dict’、‘list’、‘series’和‘records’。 dict返回的是dict of dict；list返回的是列表的字典；series返回的是序列的字典；records返回的是字典的列表:

data2=pd.DataFrame([1,2,3,4],index=["a","b","c","d"])

data2.to_dict(orient='dict')
Out[139]: {0: {'a': 1, 'b': 2, 'c': 3, 'd': 4}}

data2.to_dict(orient='list')
Out[140]: {0: [1, 2, 3, 4]}

data2.to_dict(orient='series')
Out[141]: 
{0: a    1
 b    2
 c    3
 d    4
 Name: 0, dtype: int64}

data2.to_dict(orient='records')
Out[142]: [{0: 1}, {0: 2}, {0: 3}, {0: 4}]

单列数据转化类型，用astype函数：

data2=pd.DataFrame([1,2,3,4],index=["a","b","c","d"])
type(data2[0])
data2[0].astype(float)
Out[155]: 
a    1.0
b    2.0
c    3.0
d    4.0
Name: 0, dtype: float64

dict转化为dataframe:

example['a'] = {'bb':2, 'cc':3}
eee = pd.DataFrame(example)

numpy.ndarray转化为dataframe:

pd.DataFrame(example)

5、pandas中字符处理

pandas提供许多向量化的字符操作，你可以在str属性中找到它们

s.str.lower()
s.str.len()
s.str.contains(pattern)

6、时间序列

时间序列也是Pandas的一个特色。时间序列在Pandas中就是以Timestamp为索引的Series。

pandas提供to_datetime方法将代表时间的字符转化为Timestamp对象：

s = '2013-09-16 21:00:00'
ts = pd.to_datetime(s)

有时我们需要处理时区问题：

ts=pd.to_datetime(s,utc=True).tz_convert('Asia/Shanghai')

构建一个时间序列：

rng = pd.date_range('1/1/2012', periods=5, freq='M')
ts = pd.Series(randn(len(rng)), index=rng)

Pandas提供resample方法对时间序列的时间粒度进行调整：

ts_h=ts.resample('H', how='count')#M,5Min,1s

以上是将时间序列调整为小时，还可以支持月（M），分钟（Min）甚至秒（s）等。

参考博客：《Python中的结构化数据分析利器-Pandas简介》

几个时间序列处理的CASE：

action['end_date'] = '2017-02-01'

order['end_date'] = pd.to_datetime(order['end_date'])
action['end_date'] = pd.to_datetime(action['end_date'])
#实际购买时间和end_date相差的月数
order['date_diff'] = order['end_date']-order['o_date']
action['date_diff'] = action['end_date']-action['a_date']
#实际购买时间和end_date相差的月数
order['month_diff'] = (order['end_date'].dt.year - order['o_date_y'])*12+(order['end_date'].dt.month - order['o_date_m'])
action['month_diff'] = (action['end_date'].dt.year - action['a_date_y'])*12+(action['end_date'].dt.month - action['a_date_m'])

其中，字符型的时间格式是'2017-02-01'

order['end_date'].dt.year，就可以定位到年份，2017

如果是时序格式的时间差，只能这么：order['date_diff']<=timedelta(days=14)比大小；不能order['date_diff']<=14

6、Crosstab 函数

该函数用于获取数据的初始印象（直观视图），从而验证一些基本假设。例如在本例中，“Credit_History”被认为会显著影响贷款状态。这个假设可以通过如下代码生成的交叉表进行验证：

pd.crosstab(data["Credit_History"],data["Loan_Status"],margins=True)

以上这些都是绝对值。但百分比形式能获得更为直观的数据结果。使用 apply 函数可实现该功能：

def percConvert(ser):
  return ser/float(ser[-1])
  pd.crosstab(data["Credit_History"],data["Loan_Status"],margins=True).apply(percConvert, axis=1)axis=1)

————————————————————————————————————-

延伸应用一：dataframe如何横向、纵向合并？

1、横向合并，跟R一样，用merge就可以。

merge(data1,data2,on="id",, how='left'/'right')

merge(data1,data2，left_on='id1', right_on='id2', how='left'/'right') #如果两个数据集Key不一样，也可以合并

 D1 = pd.DataFrame({'id':[801, 802, 803,804, 805, 806, 807, 808, 809, 810], 'name':['Ansel', 'Wang', 'Jessica', 'Sak','Liu', 'John', 'TT','Walter','Andrew','Song']})
 D2 = pd.DataFrame({'id':[803, 804, 808,901], 'save': [3000, 500, 1200, 8800]})
 merge(D1, D2, on='id')

还可以：

user_fea=user_info.merge(user_fea,right_index=True,left_index=True,how='left')

2、纵向合并、堆砌——concat

concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,  
          keys=None, levels=None, names=None, verify_integrity=False, copy=True)axis=0, join='outer', join_axes=None, ignore_index=False,  
          keys=None, levels=None, names=None, verify_integrity=False, copy=True)

concat不会去重，要达到去重的效果可以使用drop_duplicates方法。

1、objs 就是需要连接的对象集合，一般是列表或字典；

2、axis=0 是连接轴向join='outer' 参数作用于当另一条轴的 index 不重叠的时候，只有 'inner' 和 'outer' 可选（顺带展示 ignore_index=True 的用法），axis=1，代表按照列的方式合并。
3、join_axes=[] 指定自定义索引

4、参数ignore_index=True 重建索引

同时，可以标识出来， keys=[ , ] 来标识出来，基本语句为：concat([D1,D2], keys=['D1', 'D2'] )

同时，concat也可以暴力的横向合并：concat([D1,D2], axis=1）

注意：

特别是参数ignore_index=True，一定要带上，因为不带上会出现索引都是0000，那么就不能方便地使用切片，而发生切片都是“0”

参考：【原】十分钟搞定pandas

————————————————————————————————————-

延伸二：DataFrame横向合并/拼接出现不可合并问题的

尤其是两个数据集需要横向合并的情况，索引一般会出现较大的问题。如果自定义了索引，自定的索引会自动寻找原来的索引，如果一样的，就取原来索引对应的值，这个可以简称为“自动对齐”。

那么这样的两列数：

data1=pd.Series([1,2,3,4],index=["a","b","c","d"])
data2=pd.Series([3,2,3,4],index=["e","f","g","h"])
pd.concat([pd.DataFrame(data1).T,pd.DataFrame(data2).T])
Out[11]: 
     a    b    c    d    e    f    g    h
0  1.0  2.0  3.0  4.0  NaN  NaN  NaN  NaN
0  NaN  NaN  NaN  NaN  3.0  2.0  3.0  4.0

那么由于索引不一样，就会出现合并起来的时候，不对齐。

这时候就需要对索引进行修改，以下就是纵向/横向修改：

data1.T.columns=["e","f","g","h"]
data1.index=["e","f","g","h"]

只有索引修改完之后才能进行合并，不然就会出现文不对题的情况。
其中注意：

series没有转置的情况

series没有转置的情况，我在尝试Series之间的横向合并的时候，只能纵向拼接。所以，需要转化成dataframe格式才能进行纵向拼接。

data1=pd.Series([1,2,3,4],index=["a","b","c","d"])
data2=pd.Series([3,2,3,4],index=["e","f","g","h"])
pd.concat([data1.T,data2.T])
Out[31]: 
a    1
b    2
c    3
d    4
e    3
f    2
g    3
h    4
dtype: int64

————————————————————————————————————-

延伸三：dataframe、series的索引删除与创建问题

可以看到，延伸三里面提到了因为索引而不方便进行数据操作的问题。那么如何在pandas进行索引操作呢？索引的增加、删除。

创建的时候，你可以指定索引。譬如：

pd.DataFrame([1,2],index=("a","b"),columns=("c"))
pd.Series([1,2],index=("a","b"))

从上面的内容，可以看出dataframe可以指定纵向、横向的索引。而series只能指定一个维度的索引。

（1）pd.DataFrame+pd.Series不能通过（index=None）来消除index：

所以，DataFrame/series也是不能通过以下的办法来取消索引：

data1=pd.Series([1,2,3,4],index=["a","b","c","d"])
pd.Series(data1,index=None)
Out[44]: 
a    1
b    2
c    3
d    4
dtype: int64

以及

data2=pd.DataFrame([1,2,3,4],index=["a","b","c","d"])
pd.DataFrame(data2,index=None,columns=None)
Out[45]: 
   0
a  1
b  2
c  3
d  4

（2）通过reset_index来消除index

官方地址

DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')
#inplace,是否删除原索引
#drop，删除原索引后，时候生成新的Index列

可以来看一下这个函数的效果：

data2=pd.DataFrame([1,2,3,4],index=["a","b","c","d"])
data2.reset_index(inplace=True,drop=False);data2
Out[125]: 
  index  0
0     a  1
1     b  2
2     c  3
3     d  4

来看看开启inplace+关闭drop的效果，把Index列单独加入了数列中。

data2=pd.DataFrame([1,2,3,4],index=["a","b","c","d"])
data2.reset_index(inplace=True,drop=True);data2
Out[126]: 
   0
0  1
1  2
2  3
3  4

inplace开启+开启drop的效果，单独把index都删除了。

————————————————————————————————————-

延伸四：使用 Cut 函数进行分箱

有时将数值数据聚合在一起会更有意义。例如，如果我们要根据一天中的某个时间段（单位：分钟）建立交通流量模型模型（以路上的汽车为统计目标）。与具体的分钟数相比，对于交通流量预测而言一天中的具体时间段则更为重要，如“早上”、 “下午”、“傍晚”、“夜晚”、“深夜（Late Night）”。以这种方式建立交通流量模型则更为直观且避免了过拟合情况的发生。

cut使用方式有以下几种（来源：pandas 数据规整）:

（1）按序列划分，序列：按序列的元素间隔划分 x，返回 x 各个元素的分组情况

>>> bins = [0,3,6,9]
  >>> ser = Series(np.random.randint(1,10,6))
  >>> ser
  0    5
  1    5
  2    1
  3    4
  4    3
  5    4
  dtype: int32
  >>> cats = pd.cut(ser,bins,labels=['small','middle','large'])
  >>> cats
   middle
   middle
    small
   middle
    small
   middle
  Levels (3): Index(['small', 'middle', 'large'], dtype=object)

（2）整数分段：整数：以 x 的上下界等长划分，可用 precision 参数调节精度

>>> ser = Series([2,6,7,3,8])
  >>> pd.cut(ser,3,precision=1)
   (2, 4]
   (4, 6]
   (6, 8]
   (2, 4]
   (6, 8]
  Levels (3): Index(['(2, 4]', '(4, 6]', '(6, 8]'], dtype=object)

（3）pd.qcut() 函数与 cut 类似，但它可以根据样本的分位数对数据进行面元划分：

>>> ser = np.random.randint(0,100,1000)
>>> cats = pd.qcut(ser,10)
>>> pd.value_counts(cats)
(61, 70]      112
(41, 52]      104
[0, 9]        104
(20.8, 31]    103
(77, 88]      102
(31, 41]      100
(88, 99]       97
(9, 20.8]      96
(52, 61]       94
(70, 77]       88
dtype: int64

一个案例：

下面的例子中定义了一个简单的可重用函数，该函数可以非常轻松地实现任意变量的分箱功能。

#Binning:
def binning(col, cut_points, labels=None):
  #Define min and max values:
  minval = col.min()
  maxval = col.max()
 
  #create list by adding min and max to cut_points
  break_points = [minval] + cut_points + [maxval]
 
  #if no labels provided, use default labels 0 ... (n-1)
  if not labels:
    labels = range(len(cut_points)+1)
 
  #Binning using cut function of pandas
  colBin = pd.cut(col,bins=break_points,labels=labels,include_lowest=True)
  return colBin
 
#Binning age:
cut_points = [90,140,190]
labels = ["low","medium","high","very high"]
data["LoanAmount_Bin"] = binning(data["LoanAmount"], cut_points, labels)
print pd.value_counts(data["LoanAmount_Bin"], sort=False)

参考：Python 数据处理：Pandas 模块的 12 种实用技巧

pd.qcut()和pd.cut()区别：

来源：Pandas —— qcut( )与cut( )的区别

qcut是根据这些值的频率来选择箱子的均匀间隔，即每个箱子中含有的数的数量是相同的

cut将根据值本身来选择箱子均匀间隔，即每个箱子的间距都是相同的

（1）qcut

参数	说明
x	ndarray或Series
q	integer，指示划分的组数
labels	array或bool，默认为None。当传入数组时，分组的名称由label指示；当传入Flase时，仅显示分组下标
retbins	bool，是否返回bins，默认为False。当传入True时，额外返回bins，即每个边界值。
precision	int，精度，默认为3

传入q参数

>>> pd.qcut(factors, 3) #返回每个数对应的分组
[(1.525, 2.154], (-0.158, 1.525], (1.525, 2.154], (-2.113, -0.158], (-2.113, -0.158], (1.525, 2.154], (-2.113, -0.158], (-0.158, 1.525], (-0.158, 1.525]]
Categories (3, interval[float64]): [(-2.113, -0.158] < (-0.158, 1.525] < (1.525, 2.154]]
 
>>> pd.qcut(factors, 3).value_counts() #计算每个分组中含有的数的数量
(-2.113, -0.158]    3
(-0.158, 1.525]     3
(1.525, 2.154]      3

传入lable参数

>>> pd.qcut(factors, 3,labels=["a","b","c"]) #返回每个数对应的分组，但分组名称由label指示
[c, b, c, a, a, c, a, b, b]
Categories (3, object): [a < b < c]
 
>>> pd.qcut(factors, 3,labels=False) #返回每个数对应的分组，但仅显示分组下标
[2 1 2 0 0 2 0 1 1]

传入retbins参数

>>> pd.qcut(factors, 3,retbins=True)# 返回每个数对应的分组，且额外返回bins，即每个边界值
[(1.525, 2.154], (-0.158, 1.525], (1.525, 2.154], (-2.113, -0.158], (-2.113, -0.158], (1.525, 2.154], (-2.113, -0.158], (-0.158, 1.525], (-0.158, 1.525]]
Categories (3, interval[float64]): [(-2.113, -0.158] < (-0.158, 1.525] < (1.525, 2.154],array([-2.113,  -0.158 ,  1.525,  2.154]))

如果有重复的问题：

qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')

Parameters
    ----------
    x : 1d ndarray or Series
    q : integer or array of quantiles
        Number of quantiles. 10 for deciles, 4 for quartiles, etc. Alternately
        array of quantiles, e.g. [0, .25, .5, .75, 1.] for quartiles
    labels : array or boolean, default None
        Used as labels for the resulting bins. Must be of the same length as
        the resulting bins. If False, return only integer indicators of the
        bins.
    retbins : bool, optional
        Whether to return the (bins, labels) or not. Can be useful if bins
        is given as a scalar.
    precision : int, optional
        The precision at which to store and display the bins labels
    duplicates : {default 'raise', 'drop'}, optional
        If bin edges are not unique, raise ValueError or drop non-uniques.

        .. versionadded:: 0.20.0

(2)cut函数

参数	说明
x	array，仅能使用一维数组
bins	integer或sequence of scalars，指示划分的组数或指定组距
labels	array或bool，默认为None。当传入数组时，分组的名称由label指示；当传入Flase时，仅显示分组下标
retbins	bool，是否返回bins，默认为False。当传入True时，额外返回bins，即每个边界值。
precision	int，精度，默认为3

传入bins参数

>>> pd.cut(factors, 3) #返回每个数对应的分组
[(0.732, 2.154], (-0.69, 0.732], (0.732, 2.154], (-0.69, 0.732], (-2.117, -0.69], (0.732, 2.154], (-0.69, 0.732], (-0.69, 0.732], (0.732, 2.154]]
Categories (3, interval[float64]): [(-2.117, -0.69] < (-0.69, 0.732] < (0.732, 2.154]]
 
>>> pd.cut(factors, bins=[-3,-2,-1,0,1,2,3])
[(2, 3], (0, 1], (1, 2], (-1, 0], (-3, -2], (2, 3], (-1, 0], (0, 1], (1, 2]]
Categories (6, interval[int64]): [(-3, -2] < (-2, -1] < (-1, 0] < (0, 1] (1, 2] < (2, 3]]
 
>>> pd.cut(factors, 3).value_counts() #计算每个分组中含有的数的数量
Categories (3, interval[float64]): [(-2.117, -0.69] < (-0.69, 0.732] < (0.732, 2.154]]
(-2.117, -0.69]    1
(-0.69, 0.732]     4
(0.732, 2.154]     4

传入lable参数

>>> pd.cut(factors, 3,labels=["a","b","c"]) #返回每个数对应的分组，但分组名称由label指示
[c, b, c, b, a, c, b, b, c]
Categories (3, object): [a < b < c]
 
>>> pd.cut(factors, 3,labels=False) #返回每个数对应的分组，但仅显示分组下标
[2 1 2 1 0 2 1 1 2]

传入retbins参数

>>> pd.cut(factors, 3,retbins=True)# 返回每个数对应的分组，且额外返回bins，即每个边界值
([(0.732, 2.154], (-0.69, 0.732], (0.732, 2.154], (-0.69, 0.732], (-2.117, -0.69], (0.732, 2.154], (-0.69, 0.732], (-0.69, 0.732], (0.732, 2.154]]
Categories (3, interval[float64]): [(-2.117, -0.69] < (-0.69, 0.732] < (0.732, 2.154]], array([-2.11664951, -0.69018126,  0.7320204 ,  2.15422205]))

有一种应用场景是分好类别之后，如何对新数据进行分类，切割：

'''
bins 

array([  0. ,   9.9,  19.8,  29.7,  39.6,  49.5,  59.4,  69.3,  79.2,
        89.1,  99. ])


qcut_data

[[0, [0.0, 9.9000000000000004]],
 [1, [9.9000000000000004, 19.800000000000001]],
 [2, [19.800000000000001, 29.700000000000003]],
 [3, [29.700000000000003, 39.600000000000001]],
 [4, [39.600000000000001, 49.5]],
 [5, [49.5, 59.400000000000006]],
 [6, [59.400000000000006, 69.300000000000011]],
 [7, [69.300000000000011, 79.200000000000003]],
 [8, [79.200000000000003, 89.100000000000009]],
 [9, [89.100000000000009, 99.0]]]

'''
import pandas as pd
y_train = list(range(100))
labels,bins = pd.qcut(y_train,10,labels = False,retbins = True)

def get_score(new_data,qcut_data):
    out = 0
    for qcd in qcut_data:
        if new_data == qcut_data[0][1][0]:
            out = qcut_data[0][0]
        elif new_data == qcut_data[-1][1][1]:
            out = qcut_data[-1][0]
        elif qcd[1][0] < new_data <= qcd[1][1]:
            out = qcd[0]
    return out

get_score(9,qcut_data)

——————————————————————————————

延伸五：实战中的内容拼接pd.concat

data=pd.concat([data,pd.DataFrame([list[i],] + temp[2].tolist()).T],ignore_index=True)

以上的语句中：concat需要用[]拼接起来，然后想“无缝”拼接两个list，如果不是list，需要data.tolist()进行格式转化。最后的ignore_index不能忘记，因为python里面对索引的要求很高，所以重叠的索引会删除新重复的内容。

ImageVector=pd.concat([data,pd.DataFrame([list[i],] + ('NA '*359).split(' ') ).T ],ignore_index=True)

其中这里想接入一条空白信息，但是没有R里面的rep函数，于是这边用了带空格的NA，最后用split隔开来达到批量获得某条符合要求的空白数据集。

————————————————————————————————————————————————————

延伸六：空缺值NaN如何填补

前面提到的dataframe中填补缺失值可以使用.fillna，除了缺失值其实还有NaN的形式，dataframe好像不是特别能处理，于是自己写了一个函数来处理。

输入dataframe，输出dataframe，用0填补。当然可以自己改一下，调整成自己的想要的数值。

def which_NaN(object_n):
    return object_n != object_n

def fillNaN(data):
    for i in range(data.shape[1]):
        data.ix[:,i][which_NaN(data.ix[:,i])] = 0
    return data

延伸七：dataframe去重

来源： Python对多属性的重复数据去重

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

keep : {‘first’, ‘last’, False}, default ‘first’ 删除重复项并保留第一次出现的项

>>> import pandas as pd  
>>> data={'state':[1,1,2,2],'pop':['a','b','c','d']}  
>>> frame=pd.DataFrame(data)  
>>> frame  
  pop  state  
0   a      1  
1   b      1  
2   c      2  
3   d      2  
>>> IsDuplicated=frame.duplicated()  
>>> print IsDuplicated  
0    False  
1    False  
2    False  
3    False  
dtype: bool  
>>> frame=frame.drop_duplicates(['state'])  
>>> frame  
  pop  state  
0   a      1  
2   c      2  
>>> IsDuplicated=frame.duplicated(['state'])  
>>> print IsDuplicated  
0    False  
2    False  
dtype: bool  
>>>

延伸八：read_csv，数据读入

http://pandas.pydata.org/pandas-docs/version/0.20/generated/pandas.read_table.html

pandas.read_table(filepath_or_buffer, sep='\t', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)

如果读入有问题，可以跳过：

设置：

error_bad_lines=False

如果报错：

ParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.

解决方式：

import pandas as pd
df = pd.read_csv(open('data.csv','rU'), sep="\t")

https://github.com/pandas-dev/pandas/issues/11166

延伸九：dataframe 抽样 sample

# n	要抽取的行数	
df.sample(n=3,random_state=1)

# 抽取行的比例
df.sample(frac=0.8, replace=True, random_state=1)

延伸十：跟mysql一样文字规则查询

dataframe['col'].str.contains('关键词')

dataframe['col'].str.contains('关键词|关键词3')  # 或

dataframe['col'].str.contains('关键词&关键词3')  # 并

其中该函数为：

参考：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html

Series.str.contains(self, pat, case=True, flags=0, na=nan, regex=True)

来看一下如何匹配多个字符，并且是按照，并集，或者交集的方式：

# 交集的方式
    ##可行的是下面的这种：

data[data['col'].str.contains('(?=.*组合)(?=.*衣物)^.*$' , regex=True )]****

    ##不可行的有：

data[data['col'].str.contains('组合(.*?)衣物' , regex=True )]
data[data['col'].str.contains('组合*衣物' , regex=True )]
data[data['col'].str.contains('组合+衣物' , regex=True )]
data[data['col'].str.contains('.*[(组合)(衣物)].*' , regex=True )]



# 并集的方式
select_dataframe[select_dataframe['original_src_text'].str.contains('组合|衣物' , regex=True )]

延伸十一：idxmin() 和 idxmax()

参考：Pandas 3个不为人知却好用的函数

Pandas 里面的 idxmin 、idxmax函数与Numpy中 argmax、argmin 用法大致相同，这些函数将返回第一次出现的最小/最大值的索引。在下面代码中，我们构建了一个DataFrame，通过idxmin() 函数帮助我们找到了每列的最小值所对应的索引。

import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(12).reshape(3,4),columns=list('abcd'))
df


df.idxmin(axis=0)

idxmin() 函数接受一个可选参数axis, 可以用来控制是按照行还是列的维度查找最小值的索引，默认是axis=0。

延伸十二：分组累加

参考：Pandas 3个不为人知却好用的函数

#cumcount() 和 cumsum()
data = {
    'Name': ['Bob','Bob','Bob', 'Mark', 'Jess', 'Jess','Jhon'],
    'Activity': ['A', 'A', 'B','A','C','C','D'],
    'Spend': [121, 98, 51,94,145,93,137],
}
df = pd.DataFrame(data)
df

df['Activity_count'] = df.groupby('Name')['Activity'].cumcount()
df['Activity_sum'] = df.groupby('Name')['Spend'].cumsum()
df

这是两个非常酷的内建函数，用于分组累加计数和累加求和，可以为您提供许多帮助。我们还是基于上一节中的活动费用表，来进行演示。

现在我们想完成以下几个功能：

•按照Name分组统计，每个人累计参加活动次数•按照Name分组统计，每个人累计参加活动费用

延伸十三：利用`isin`进行数据筛选与清理

参考：中文文档，https://www.pypandas.cn/docs/user_guide/indexing.html#用放大设定

考虑一下isin()方法Series，该方法返回一个布尔向量，只要Series元素存在于传递列表中，该向量就为真。这允许您选择一列或多列具有所需值的行：

s = pd.Series(np.arange(5), index=np.arange(5)[::-1], dtype='int64')


s.isin([2, 4, 6])
Out[157]: 
4    False
3    False
2     True
1    False
0     True
dtype: bool



s[s.isin([2, 4, 6])]
Out[158]: 
2    2
0    4
dtype: int64

Index对象可以使用相同的方法，当您不知道哪些搜索标签实际存在时，它们非常有用：

他可以，如果没有匹配到的，则不会显示；而reindex则不行！

In [159]: s[s.index.isin([2, 4, 6])]
Out[159]: 
4    0
2    2
dtype: int64

# compare it to the following
In [160]: s.reindex([2, 4, 6])
Out[160]: 
2    2.0
4    0.0
6    NaN
dtype: float64

DataFrame也有一个isin()方法。调用时isin，将一组值作为数组或字典传递。如果values是一个数组，则isin返回与原始DataFrame形状相同的布尔数据框，并在元素序列中的任何位置使用True。

In [165]: df = pd.DataFrame({'vals': [1, 2, 3, 4], 'ids': ['a', 'b', 'f', 'n'],
   .....:                    'ids2': ['a', 'n', 'c', 'n']})
   .....: 

In [166]: values = ['a', 'b', 1, 3]

In [167]: df.isin(values)
Out[167]: 
    vals    ids   ids2
0   True   True   True
1  False   True  False
2   True  False  False
3  False  False  False

通常，您需要将某些值与某些列匹配。只需将值设置dict为键为列的位置，值即为要检查的项目列表。

In [168]: values = {'ids': ['a', 'b'], 'vals': [1, 3]}

In [169]: df.isin(values)
Out[169]: 
    vals    ids   ids2
0   True   True  False
1  False   True  False
2   True  False  False
3  False  False  False

结合数据帧的isin同any()和all()方法来快速选择符合给定的标准对数据子集。要选择每列符合其自己标准的行：

In [170]: values = {'ids': ['a', 'b'], 'ids2': ['a', 'c'], 'vals': [1, 3]}

In [171]: row_mask = df.isin(values).all(1)

In [172]: df[row_mask]
Out[172]: 
   vals ids ids2
0     1   a    a

延伸十四：read_csv保存 - 读入报错不能转化成为数字

Pandas: ValueError: cannot convert float NaN to integer

看一下这篇文章：

https://blog.csdn.net/yhyr_ycy/article/details/80383060

所以在基于pandas操作csv文件时，需要特别注意这种情况。如果在后续的分析中，需要保留原始数据集中的数据类型，则在读取csv文件时，需要显示的指定dtype参数，从而保证数据类型的前后统一。

延伸十五：数据透视表

参考：https://www.cnblogs.com/huangchenggener/p/10983516.html

pd.pivot_table(df,index=["Manager","Rep"],values=["Price","Quantity"],
               columns=["Product"],aggfunc=[np.sum],fill_value=0)

其中，index是索引，values是数值；columns是横向的索引；fill_values是填补值

其中，aggfunc中的nunique：

temp.pivot_table(index='user_id',values='o_id',aggfunc={'o_id':'nunique'}) 
# 可直接统计dataframe中每列的不同值的个数,也可用于series,但不能用于list.返回的是不同值的个数.

你可能感兴趣的:(Python︱基础与数据处理)

python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接... 珍妮赵
一、爬取新浪新闻思路1、创建scrapy项目2、分析新浪新闻网站静态页面代码3、编写对应的xpath公式4、写代码二、项目代码步骤1、创建scrapy项目scrapystartprojectmycwpjt步骤2、分析新浪网站静态代码随便打开一个新浪新闻网，新闻可以看到地址为http://news.sina.com.cn/gov/xlxw/2018-03-21/doc-ifyskeue0491622
python图片分析中央气象台降水量预报_全国天气降水量预报图数据接口周美灵是我大姐头
全国天气降水量预报图接口免费在线测试此接口(需要登录)接口每两小时更新一次，一天调取1-2次即可，返回3张图:24、48、72小时，请勿频繁调用！。请求方式及url：请求方式：GET接口地址：https://tianqiapi.com/api请求示例https://tianqiapi.com/api?version=v8&appid=&appsecret=请求参数说明：参数名必选类型说明备注(示例
深度学习驱动的极端天气预测：时空数据异常检测与应用全解析（基于Python + TensorFlow） AI_DL_CODE 深度学习 python tensorflow 人工智能天气预测
摘要：时空数据异常检测在气象领域识别偏离正常模式的数据点，对极端天气预测至关重要。深度学习，尤其是LSTM网络，因其强大的特征学习能力在该领域显示出巨大潜力。通过整合多源气象数据，深度学习模型能够自动挖掘复杂模式和非线性关系，提高预测准确性。然而，挑战依然存在，包括数据质量问题、模型可解释性不足以及极端天气的内在复杂性和不确定性。未来，通过模型架构创新、训练算法优化以及探索深度学习在气候预测、气象
C++学习路线：从基础到精通 byte轻骑兵编程语言精要 #C++深度探索与实战专栏开发语言 c++
目录一、C++基础1.1.学习目标1.2.学习内容1.3.C++语言的特点二、面向对象编程（OOP）2.1.学习目标2.2.学习内容三、C++核心编程3.1.学习目标3.2.学习内容四、高级主题4.1.学习目标4.2.学习内容五、软件开发实践5.1.学习目标5.2.学习内容5.2.1.学习使用构建系统（如CMake）来组织和管理项目5.2.2.学习版本控制（如Git）来管理代码版本5.2.3.学习
Python 正则表达式 weixin_34319640 python 爬虫
最近研究Python爬虫，很多地方用到了正则表达式，但是没好好研究，每次都得现查文档。今天就专门看看Python正则表达式。本文参考了官方文档re模块。模式首先正则表达式的语法我就不说了，这玩意倒是不算难，用的时候现查就行了——正则表达式_百度百科。在很多编程语言中，由于有转义字符这么一种东西的存在，导致正则表达式需要使用两个斜杠来处理。如果编程语言支持原始字符串，那么就不需要两个斜杠了。在Pyt
华为OD机试E卷 --字符串分割--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 java 华为od javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述给定一个非空字符串S，其被N个-分隔成N+1的子串，给定正整数K，要求除第一个子串外，其余的子串每K个字符组成新的子串，并用-'分隔。对于新组成的每一个子串，如果它含有的小写字母比大写字母多，则将这个子串的所有大写字母转换为小写字母;反之，如果它含有的大写字母比小写字母多，则将这个子串的所
基于物联网的智能垃圾桶系统设计与实现-设计说明书黄油味椭圆基础版资料物联网
设计摘要：本设计是基于物联网的智能垃圾桶，旨在有效解决垃圾分类与垃圾清理的问题。该智能垃圾桶采用了多种传感器模块，如压力传感器模块、GPS定位模块、人体红外模块以及超声波测距模块等，以实现对垃圾桶内垃圾重量、位置、高度以及人体通过情况的实时监测和数据采集。同时，该智能垃圾桶还配备了电机模块，可以模拟垃圾桶的开盖和关闭，当垃圾桶装满时不会自动打开，而是当有人靠近时才会自动开启，并通过语音播报告知人们
linux 安装jupyter教程自定义配置 jupyter忘记密码重置密码 0x8g1T9E docker python DM ML DL
第一步检查Python环境python-V第二步通过pip安装jupyterpipinstalljupyter 第三步生成jupyter配置文件#root客户：jupyternotebook--generate-config--allow-root#非root客户jupyternotebook--generate-config值得一提的是：windows环境下，并没有jupyter_noteboo
【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！ YOLO大师 YOLO 网络 cnn 目标检测论文阅读 yolov8
YOLOv8目标检测创新改进与实战案例专栏专栏目录：YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv8基础解析+创新改进+实战案例介绍摘要视觉识别的“咆哮20年代”开始于视觉Transformer（ViTs）的引入，ViTs迅速取代了卷积神经网络（ConvNets）成为最先进的图像分类模型。然而，普通的ViT在应用于诸
如何利用OpenCV和yolo实现人脸检测音视频牛哥大牛直播SDK opencv 人工智能计算机视觉 yolo11 人脸检测 opencv人脸检测 yolo人脸检测
在之前的blog里面，我们有介绍OpenCV和yolo的区别，本文就人脸检测为例，分别介绍下OpenCV和yolo的实现方式。OpenCV实现人脸检测一、安装OpenCV首先确保你已经安装了OpenCV库。可以通过以下方式安装：使用包管理工具安装：在Python环境中，可以使用pip安装：pipinstallopencv-python。二、加载预训练的人脸检测模型OpenCV提供了基于Haar特征
CVE-2024-3094 XZ 后门：您需要了解的一切红云谈安全网络安全 linux 网络
3月29日，据报道，在XZUtils中检测到了允许未经授权的远程SSH访问的恶意代码，XZUtils是主要Linux发行版中广泛使用的软件包（最初托管于此的GitHub项目现已暂停）。幸运的是，OSS社区很快发现了该恶意代码，并且仅感染了该软件包的两个最新版本，即上个月发布的5.6.0和5.6.1。大多数Linux发行版的稳定版本均未受到影响。受影响的XZUtils版本附带的复杂恶意负载与Open
python捕获异常青云游子 python
try:name="aaa"id="aaa"exceptExceptionase:print("任务报错")print(str(e))print(str(traceback.print_exc()))spark.sql("""insertintotabledim.aaaselect'1','666','{name}','{id}',null,null,null,null,current_times
Keil5 的使用教程 max500600 开发工具个人开发
以下是Keil5的使用教程：一、安装与设置下载与安装：从Keil官方网站（https://www.keil.com/）下载KeilμVision5安装包。运行安装程序，按照提示逐步完成安装。注册与激活（如果需要）：部分版本可能需要注册和激活才能使用全部功能。按照软件提示进行注册和激活操作。安装芯片支持包：Keil5需要安装相应的芯片支持包才能对特定的微控制器进行开发。可以在Keil的官方网站或软件
python 代码实现了一个条件生成对抗网络（Conditional Generative Adversarial Network，CGAN），用于生成与给定的理化值相关的光谱数据 max500600 算法开发语言 python 生成对抗网络开发语言
importtensorflowastfimportnumpyasnpimportpandasaspdimportosimportmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_splitfromtensorflow.keras.layersimportAdd,BatchNormalizationos.enviro
Python字符串月挽星回# python java 服务器
一.字符串创建Python中，字符串可以使用单引号、双引号或三重引号来创建。使用单引号或双引号创建的字符串是一行字符串。使用三重引号创建的字符串可以包含多行文本。str1='Hello,World!'#单引号str2="Hello,World!"#双引号str3='''Hello,World!'''#三重引号str4="""Hello,World!"""#三重引号multiline_string=
拿下美赛M奖之必备软件和网站！东方建模. 数学建模
目录前言：一.题目翻译与理解：DeepL+知云文献翻译二.查找文献：国内外平台结合使用三.论文撰写：Word或LaTeX+Overleaf四.公式输入与思维导图：MathType+XMind五.阅读文献与文献管理：AdobeReader+Zotero六.模型求解与编程：MATLAB+Python+Lingo七.图形绘制与结果可视化：MATLAB+Python+Origin八.流程图与示意图：亿图图
单片机实物成品-010 智能宠物喂食系统（代码+硬件+论文）学个单片机单片机实物成品单片机宠物嵌入式硬件
项目介绍版本1：oled显示+定时投喂（舵机模拟）+声光报警+显示实时时间---演示视频：智能宠物喂食001_哔哩哔哩_bilibili1.STM32F103C8T6单片机进行数据处理2.OLED液晶显示3，按键1在数据显示界面时按下按键1切换下一个界面，在校准时间界面时按下按键1退出校准时间界面，在设置定时时间界面中如果是处于设置某个时间的状态按下按键1退出否则切换下一个页面。4.按键2数据显示
单片机实物成品-012 酒精监测学个单片机单片机实物成品单片机嵌入式硬件课程设计
项目介绍本项目以软硬件结合的方式，选择C语言作为程序硬件编码语言，以STM32单片机作为核心控制板，在数据传输节点上连接酒精传感器对酒精浓度进行实时检测，且对高浓度酒精采取强制干预和紧急预警，并将数据通过蓝牙无线通信技术传输至上位机，实现酒精浓度的24h远程监控，达到全自动的智能化管理目标。经过不断调试与验证，该系统成功通过测试，可以减少人工干预，提高准确性，有效保障环境安全，优化产品质量，推动科
Python 正则表达式详解（建议收藏！） m0_67402341 面试学习路线阿里巴巴 android 前端后端
目录match匹配字符串单字符匹配.匹配任意一个字符d匹配数字D匹配非数字s匹配特殊字符，如空白，空格，tab等S匹配非空白w匹配单词、字符，如大小写字母，数字，_下划线W匹配非单词字符[]匹配[]中列举的字符表示数量?*出现0次或无数次+至少出现一次?1次或则0次{m}指定出现m次{m,}至少出现m次{m,n}指定从m-n次的范围匹配边界$匹配结尾字符^匹配开头字符匹配一个单词的边界B匹配非单词
【宝藏级】PyEcharts 超详细的使用指南奇怪的大象前端 html echarts python 前端
Python可视化神器-pyecharts手册pyecharts简介优点：安装：官方文档：pyecharts快速开始在`Notebook`中创建一个条形图：链式调用：配置选项：全局配置项`AnimationOpts`：画图动画配置项`InitOpts`：初始化配置项`ToolBoxFeatureOpts`和`ToolboxOpts`：工具箱配置项`TitleOpts`：标题配置项`DataZoom
智能裂变引流系统：通过用户验证与分享激励获取目标手机号威哥说编程 c#
在现代数字营销中，快速增长用户并引导其主动分享，已经成为许多企业提高转化率和扩大市场份额的核心策略。尤其是在一些特定行业，如医疗、金融、电子商务等领域，精准获取用户信息（尤其是手机号）至关重要。这些信息是后续营销、数据分析、精准推送等活动的基础。而通过裂变营销，我们可以利用现有用户的社交网络，快速获取更多高质量的目标用户。本文将介绍如何设计和实现一个智能裂变引流系统，通过用户信息验证、手机号查询、
浅析NAT的类型-ZT icu 技术类网络服务器路由器防火墙 domain mobile
浅析NAT的类型何宝宏[1]摘要介绍了四种典型的NAT类型和两种典型的传统NAT类型。关键词NATNATP类型一、引言RFC1631以及相关RFC定义的网络地址翻译器(NAT)。IETF一直主张利用IPv6技术解决地址短缺问题，因此IETF虽然出版了几个与NAT相关的RFC，但对NAT技术(尤其是穿越问题)一直没有系统的标准化工作，如SIP和MobileIP就是NAT出现后设计的一些协议，都未考虑
【Markdown】【mermaid】Mermaid时序图基础语法Sequence Diagrams - Basic Syntax hmywillstronger microsoft mermaid
时序图-SequenceDiagrams简介-Introduction时序图是一种交互图，显示了流程如何相互操作以及它们的执行顺序。它可以用来描述用例场景或设计一个良好的面向对象系统。Sequencediagramsareatypeofinteractiondiagramthatillustratehowflowsoperatewithoneanotherandinwhatorder.Theyca
2024华为OD机试E卷-构成正方形的数量-（C++/Java/Python） 2024剑指offer python 华为od c++java
2024华为OD机试最新E卷题库-(C卷+D卷+E卷)-(JAVA、Python、C++)目录题目描述输入描述输出描述用例1用例2考点题目解析代码pythonc++题目描述输入N个互不相同的二维整数坐标，求这N个坐标可以构成的正方形数量。（内积为零的的两个向量垂直）输入描述第一行输入为N，N代表坐标数量，N为正整数N≤100之后的N行输入为坐标xy以空格分隔，x，y为整数-10≤x,y≤10<
【Astro】如何在Astro上借助Cloudflare D1和Drizzle ORM打造全栈应用？一文带你搞定！ eclipsercp 毕业设计开发环境搭建开发语言全栈
如何在Astro上借助CloudflareD1和DrizzleORM打造全栈应用？一文带你搞定！文章目录如何在Astro上借助CloudflareD1和DrizzleORM打造全栈应用？一文带你搞定！前言一、Astro简介与优势二、CloudflareD1简介三、DrizzleORM简介四、在Astro上实现全栈开发的步骤1.安装Astro2.添加Cloudflare适配器3.部署到Cloudfl
【机器学习】从零开始，用线性代数解锁智能时代的钥匙！ eclipsercp 工具毕业设计 python 机器学习线性代数人工智能
【机器学习】从零开始，用线性代数解锁智能时代的钥匙！文章目录【机器学习】从零开始，用线性代数解锁智能时代的钥匙！引言在这个数据驱动的时代，机器学习已经成为解锁智能科技的关键。但你是否曾被复杂的数学公式和算法搞得晕头转向？别担心，这篇文章将带你从零开始，用最直观的方式掌握线性代数——机器学习的核心武器！线性代数：机器学习的基石向量：数据的基本单元Python代码示例：向量操作矩阵：多维数据的集合Py
《我的编程之旅：起点与展望》 dmz521521_aa c++python
大家好，我是等天黑，一名对编程充满热情的初学者。我一直对科技领域有着浓厚的兴趣，喜欢探索各种新奇的软件和应用，也总是好奇它们背后是如何运作的。这种好奇心驱使我踏上了编程学习之路，希望能够深入了解这个充满魅力与挑战的世界，并且有朝一日能够用代码创造出有价值的东西。一、编程目标短期目标在接下来的三个月内，熟练掌握至少一种编程语言的基础语法，能够独立完成一些简单的编程项目。通过这些实践项目，积累代码编写
【星闪开发连载】WS63E开发板开箱与程序烧录神一样的老师星闪技术物联网 windows
前几天一直在外地，今天才有机会拿到开发板。此次星闪体验官活动，每人两款板子，一款是星闪派物联网开发套件，另一款是单独一个核心板。物联网套件的配置和润和的智能家居配置差不多，看上去连底板都是一样的，只有核心板不同。套件和核心板配置正好组成一队星闪通信设备。目前基于星闪的手机还很少见，海思也没有开放手机侧的资料，所以暂时只能做星闪设备之间的测试。给开发板加电之后，发现并没有像家居套件那样有演示程序，所
华为OD机试E卷 - 构成正方形的数量（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c语言 c++华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述输入N个互不相同的二维整数坐标，求这N个坐标可以构成的正方形数量。[内积为零的的两个向量垂直]输入描述第一行输入为N，N代表坐标数量，N为正整数。N<=100之后的K行输入为坐标xy以空格分隔，x，y为整数，-10<=x,y<=10输出描述输出可以构成的正方形数量。示例1输入3132431输出0说明（3个点不足以构成正
华为OD机试E卷 - 关联子串（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 java 华为od python javascript c++C语言华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述给定两个字符串str1和str2，如果字符串str1中的字符，经过排列组合后的字符串中，只要有一个字符串是str2的子串，则认为str1是str2的关联子串。若str1是str2的关联子串，请返回子串在str2的起始位置；若不是关联子串，则返回-1。输入描述输入两个字符串，分别为题目中描述的str1、str2。备注输入
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

一句Python，一句R︱pandas模块——高级版data.frame

一、Series 和 DataFrame构成

1、series构造

2、dataframe构造

二、以某规则重排列.reindex

1、series

2、dataframe

三、切片与删除、增加操作与选中

1、切片-定位

2、删除

3、增加

四、排序与排名

1、排序

2、排名rank

五、简单统计量/计数

Transformations

Filtration

六、缺失值处理

七、其他

1、组合相加

2、dataframe应用函数

3、inplace 用法

4、DataFrame转换为其他类型

5、pandas中字符处理

6、时间序列

延伸应用一：dataframe如何横向、纵向合并？

延伸二：DataFrame横向合并/拼接 出现不可合并问题的

延伸三：dataframe、series的索引删除与创建问题

延伸四：使用 Cut 函数进行分箱

pd.qcut()和pd.cut()区别：

延伸五：实战中的内容拼接pd.concat

延伸六：空缺值NaN如何填补

延伸七：dataframe去重

延伸八：read_csv，数据读入

延伸九：dataframe 抽样 sample

延伸十：跟mysql一样文字规则查询

延伸十一：idxmin() 和 idxmax()

延伸十二：分组累加

延伸十三：利用`isin`进行数据筛选与清理

延伸十四：read_csv保存 - 读入报错不能转化成为数字

延伸十五：数据透视表

你可能感兴趣的:(Python︱基础与数据处理)

延伸二：DataFrame横向合并/拼接出现不可合并问题的