学号_Y_1055

Pandas

Pandas是python里分析结构数据化的工具集
基础是numpy：高性能矩阵运算
图形库matplotlib：提供数据可视化

创建关键数据结构

s = pd.Series([1,2,3,np.NaN,8,4])
data = pd.DataFrame(np.random.randn(6,4),index = dates,cloums = list(“ABCD”))
d = {“A”:1,“B”:2,“C”:rang(4),“D”:arange(4)}

data.head() #默认查看前5行，括号中参数就是行数
data.tail() #默认查看后五行，括号中参数就是行数
data.tail(3)
data.index #查看行标签
data.sort_index(axis=1,ascending=Fales) #按顺序排序，axis = 1是列标签，默认=0行标签，ascending=Fales是降序，True是升序
data.columes #查看列标签
data.T #转置
data.sort_values(by = “a”) #列标签a进行排序

读取文件：
1.csv,tsv,txt用逗号。tan分割的纯文本文件：pd.read_csv
2.excle微软xls或者xlsx文件:pd.read_excel
3.musql关系型数据库表：pd.read_sql

读取csv

读取txt文件

读取excel文件

读取mysql表：

Pandas数据结构：
1.DataFrame：二维数组，整个表格，多行多列

2。Series:是一种类似一位数组的对象，由一组数据（不同数据类型）以及一组与之相关的数据标签（索引）组成。：一维数据，一行或者一列，
Series和DataFrame搭配使用：DataFrame查询出一个区块，仍然是一个二维表格，那么仍然是DataFrame，但是如果结果是一列或者一行，那么他的结构就是Series。
创建Series的方法：
1.s = pd.Series([1,“a”,5.2,7]) #类似于列表
s.index #获取索引
s.values #获取元素值的列表

2.s = pd.Series([1,“a”,5.2,7],index = [“d”,“b”,“a”,“c”])
s
d 1
b a
a 5.2
c 7
dtype:object

3.s1 = {“a”:30,“b”:24,“c”:52}
s = pd.Series(s1)
s
a 30
b 24
c 52
dtype:object

根据标签索引查询数据

类似于python的dict

s = pd.Series([1,“a”,5.2,7],index = [“d”,“b”,“a”,“c”])
s[“a”]
5.2
s[[“b”,“a”]]
a,5.2

DataFrame:
和series不同，dataframe有行索引index也有列索引columns。
可以被看做是有series组成的字典，创建dataframe最常用的方法就是上面提到的读取纯文本文件，excel和mysql数据库。
根据多个字典序列创建dataframe。

df.dypes
state object
year int64
pop float64
dtype:object
df.columns
state,year,pop
df.index
start = 0,stop=5,step =1

dataframe中查询出series

查询列：
df[’'year"] #series，查询一类，返回的是行的索引
df[“year”,“pop”] #dataframe
查询行：
df.loc[1] #series,需要用到loc方法，返回的索引是列名
df.loc[1:3] #查询多行，这里需要注意，这里都是闭区间，也就是包含第三行。这也是一个dataframe

pandas如何对数据进行查询（df.loc的5种方法）

5种方法分别是按数值，列表，区间，条件，函数
Pandas的查询方法：
1.df.loc方法，根据行，列的标签值查询（.loc既能查询，又能覆盖写入，强烈推荐！！）
df.loc的5个查询数据的方法：
1.使用单个label值查询数据
2.使用值列表批量查询
3.使用数值区间进行范围查询
4.使用条件表达式查询
5.调用函数查询
以上的查询方法，适用于各个维度。既适用于行，也适用于列，注意观察降维dataframe>Series>值
数据：
df.set_index(“ymd”,inplace=“True”) #改变行名，由0-1-2-3-4.。。。改变成日期，inplace：True是直接改变这个df。

把bwendu列的数据进行处理：
df.loc[:,“bwendu”] = df[“bwendu”].str.replace(“℃”，"").sdtype(“int32”)
df.loc[:,“ywendu”] = df[“ywendu”].str.replace(“℃”，"").sdtype(“int32”)

正题开始：
1.使用单个label值查询数据：行或者列，都可以值传入单个值，事先精准匹配
df.loc[“2018-01-03”,“bWendu”]
2
df.loc[“2018-01-03”,][“bWendu”,“yWendu”]
bWendu 2
yWendu -5
Name:2018-01-03,dtype:object
2.使用值列表进行批量查询
df.loc[[“2018-01-03”,“2018-01-04”,“2018-01-05”],[“bWendu”,“yWendu”]]

3.使用数值区间进行范围查询
df.loc[“2018-01-03”:“2018-01-05”,“bWendu”]

4.使用条件表达式查询，返回的是bool类型的数组，bool列表的长度等于行数或者列数。
例子1.查询全年最低温度低于-10度的列表：
df.loc[df[“bWendu”]<-10,:] #这个series传入df以后，只会返回结果为True的数据.后面的：表示从索引取所有行
观察返回的series，左侧返回的是ymd，右侧返回的是bool类型。

例子2.查询我心中的完美天气：
df.loc[(df[dWendu]>15)&(df[yWendu]<30)&(df[“tianqi”] == “晴”)&(df[“aqiLevel”] == 1),:]

5.调用函数查询
df.loc[lambda df :(df[“bWendu”]<=30)&df[“yWendu”]>=15,:]

2.df.iloc方法，根据行，列的数字位置查询
3.df.where方法（比较高级）
4.df.query方法（比较高级）

python新增数据列（直接赋值，apply，assign，分条件赋值）

pandas怎样新增数据列：
在进行数据分析时，经常按照一定条件创建新的数据列，然后进行进一步的分析。
直接赋值
apply:df.apply
assign:df,assign
分条件赋值:按条件选择分组分别赋值

1.直接赋值法（在上一小节，已经处理温度的时候，想把3℃变成int类型，这种方法就是直接赋值）：
df.loc[:,“bWendu”] = df[“bWendu”],str,replace(“℃”,"").astype(“int32”) #df.loc[:,“bWendu”]选择所有行数的bWendu这列，等于最低温度这一列的str形式的replace函数（这个函数是把逗号后面的“”中数据替换成前面的“”中的数据）。最后astype(转换类型，类型为astype后面引号中的数据类型)
df,loc[:,“yWendu”] = df[“yWendu”],str,replace(“℃”,"").astype(“int32”)
df.head()

df.loc[:,“wencha”] = df[“bWendu”] - df[“yWendu”]
#注意。df[“bWendu”]其实是一个Series，后面的减法返回的是Series。
df.head()

2.df.apply()
沿着df的某个轴，应用了一个函数，传入给函数的对象，是一个Series，这个Series 要么是df的index（axis = 0），要么是cloumns（axis = 1）
df.loc[:,“wendu_type”] = df.apply(get_wendu_type,axis = 1)
实例：添加一列温度类型：
def get_wendu_type(x):
if x[“bWendu”]>33:
return “高温”
elif x[“bWendu”]<-10:
return"低温"
else:
return"常温"
df.loc[:,“wendu_type”] = df.apply(get_wendu_type,axis = 1)
#查看温度类型的计数：
df[“wendu_type”].value_counts()

3.df.assign
和apply不同的是，assign可以一次增加多个列。assign是把cloumns传给函数。
df.assign(
yWendu_huashi = lambda x : x[“yWendu”]*9/5+32,
bWendu_huashi = lambda x : x[“bWendu”]*9/5+32)
#key就是我们要新增的列，value就是我们的函数
assign不会修改我们本来的df，会生成一个新的对象。

4.按条件选择分组分别赋值
按条件先选择数据，然后对这部分数据赋值新列。
实例：高低温差大于10度，则认为温差大
df[“wencha_type”] = “”
df.loc[df[“bWendu”]-df[“yWendu”]>10,“wemcja_type”] = “温差大”
df[“wencha_type”] = “”
df.loc[df[“bWendu”]-df[“yWendu”]<=10,“wemcja_type”] = “温差大”
df[“wencha_type”].value_counts()

Pandas数据统计函数（汇总类统计，唯一去重和按值计数，相关系数和斜方差）

1.汇总类统计(对于数字类型)
df.describe() #一下子提取所有数字列统计结果

也可以查看单个Serise的数据
df[“bWendu”].mean() #平均
df[“bWendu”].min() #最小
df[“bWendu”].max() #最大

2.对于非数字类型：唯一去重和按值计数
df[“fengji”].unique() #找到某一列的全部取值

df[“fengxiang”].value_counts() #查看每个值出现了多少次

3.相关系数和协方差

df.cov() #协方差矩阵,数据正负号，如果都为正，说明数据都是同向变化，比如对于空气质量指数，和高温低温都是正向变化。

df.corr() #相关系数矩阵，空气质量指数和高温低温是0，07和0.02，说明他们的相关性比较小。但是空气质量指数和空气质量等级是0.94。非常的相关

也可以只查看2个列之间的影响
df[“aqi”].corr[df[“yWendu”]] #空气质量和最低温度之间的相关系数
df[“aqi”].corr(df[“bWendu”]-df[“yWendu”]) #空气质量和温差之间的相关系数

Pandas对缺失值的处理

pandas使用这些函数处理缺失值：
isnull和notnull：检测是否是空值，可用于df和serier
dropna：丢弃，删除缺失值，他的参数:
axis：删除行还是列
how：如果等于any，则任何值为空都删除，如果等于all，则所有值都为空才删除
inplace：如果True，则修改当前df，否则返回新的df
fillna：填充空值:，他的参数:
vlaue：用于填充的值，可以是单个值，或者字典（key是列名，value是值）
method：等于ffill：使用前一个不为空的值填充forword fill，等于bfill：使用后一个不为空的值填充backword fidd
asix：按行还是按列填充
inplace：如果为True则修改当前df，否则返回新的df
练习：

1.导入文件 #skiprows = 2是让pandas略过前面2个空行，从第三行开始读取


studf.isnull()

studf[“分数”].notnull()

studf.loc[studf[“分数”].notnull(),:]

删除全是空值的列：
studf.dropna(axis = “columns”,how = “all”,inplace = True)

删除全是空值的行：
studf.dropna(axis = “index”,how = “all”,inplace = “True”)

将分数为空的值填充为0
studf.fillna({“分数”：0})
等同于studf.loc[:,“分数”] = studf[“分数”].fillna(0)

将姓名的缺失值进行填充
studf.loc[:,“姓名”] = studf[“姓名”].fillna(method = “ffill”)
保存文件，
index = False

pandas 的SettingWithCopyWarning

condition = df[“ymd”].str.startswith(“2018-03”)

Pandas 数据排序

Series的排序：
Series.sort_vlaue(ascending=True,inplace=False)
ascending:默认True（升序排列）
inplace:是否修改原始Series

DataFrame的排序：
DataFrame.sort_values(by,ascending=True,inplace=False)
by:字符串或者list<字符串>，单列排序或者多列排序
ascending：bool或者List，升序还是降序，如果是list对应by的多列
inplace：是否修改原始DataFrame

df[“aqi”].sort.values(asccnding = True)

df.sort_values(by = “aqi”)

df.sort_values(by = [“aqiLeve”,“bWendu”]，ascending = [True,False])

Pandas对字符串的处理

前面使用过的：
df.loc[:,“bWendu”] = df[“bWendu”].str.replace(“℃”,"").astype(“int32”)

Pandas的字符串处理：
1.使用方法：先获取Series的str属性，然后再属性上调用。
2.只能再字符串列上使用，不能数字列上使用。
3.Dataframe上没有str属性和处理方法。
4.Series.str不是Python的原生字符串，而实自己的一套方法，不过大部分和原生str相似。

df[“bWendu”].str #Series的str是series的一个类型



使用str的startwith，contains得到bool的Series可以做条件查询

需要处理多次str处理的链式操作
怎样提取201803这样的数字月份？
先将日期2018-03-31替换成20180331的形式
提取月份字符串201803
df[“ydm”].str.replace("-","")

使用正则表达式的处理：
添加一列中文日期：
def get_nianyueri(x):
year,month,dat = x[“ymd”].split("-")
return “f{year}年{month}月{day}日”
df[“中文日期”] = df.apply(get_nianyueri,axsi = 1)

如果想把年月日字符去除。有两种方法，1.使用replace，2.Series.str默认就开启了正则表达式模式
1.
df[“中文日期”].str.replace(“年”,"").str.replace(“月”,"").str.repalce(“日”,"")
2.
df[“中文日期”].str.replace("[年月日]","") #只要遇到了年月日三个字符的任意一种，都算匹配成功，替换成空字符串

Pandas的axis参数

axis = 0 or axis = “index”
如果是单行操作，指的就是某一行、
如果是聚合操作，指的就是跨行cross rows
axis = 1 or aixs = “cloumns”
如果是单列操作，值得就是某一列
如果是聚合操作，值得就是跨列cross columns

Pandas的索引index用途

把数据存储到columns中也可以进行数据查询，那使用index有什么好处呢：
1.更方便的数据查询
2.使用index可以获得性能提升
3.自动的数据对齐功能
4.更多更强大的数据结构支持

导入一个数据集，包含：用户id，电影id，评分，时间
这个数据的索引是自动生成的索引，我们可以使用set_inedx修改索引，把索引修改为我们有意义的数据列，比如uerID。
df.set_index(“userID”,inplace = True,drop = False) #drop的意思：是否将作为索引列的userID删除，True为删除，False为保留

使用index的查询方法：
df.loc[500].head(5) #查询用户ID等于500的用户的评分记录
df.loc[df[“userID”] == 500].head() #是用列查会比较麻烦

使用index会提升查询性能

实验1：完全随机的顺序查询
from sklearn.untils import shuffle
df_shuffle = shuffle(df)
df_shuffle.index.is_monotonic_increasing #判断索引是否递增，如果是返回True，pandas就会使用二分查询，不是返回False
df_shuffle.index.is_unique #判断是否使用哈希查询

实验2：将index排序后的查询
df_sort = df_shuffle.sort_index()
df_sort.index.is_monotonic_increasin

使用index能自动对齐数据
包括serise和dataframe

Pandas的merge

Pandas怎样实现DataFrame的Merge
pandas的merge相当于sql的join，将不同的表按key关联到一个表。
merge的语法：pd.merge(left,right,how = “inner”,on = None,left_on = None,right_on = None,lift_index = False,right_index = False,sort = True,suffixex = ("_x","_y"),copy = True,indicator = False,validata = None)

电影数据集的join实例
这个数据集包含3个文件：
1.用户对电影的评分数据 raings.dat
2.用户本身的信息数据user.dat
3.电影的数据movles.dat

df_rating_users = pd.merge(df_ratings,df_users,left_on = “UesrID”,right_on = “UserID”,how = “inner”) #inner:两边都有的数据才会保留

df_rating_user_movies = pd.merge(df_tating_users,df_movies,left_on = “MovieID”,right_on = “MovieID”,how = “inner”)

merge时数量的对齐关系

1对1

1对多

多对多：

理解left join,right join,inner join,outer join的区别


inner join：

left join：

right join：

out join：

如果出现非key字段重名：

会把重复的key字段标记_x,_y,也可以使用suffixes自己修改。

Pandas数据合并（concat）

使用某种合并方式（inner或者outer）
沿着某个轴向（axis = 0/1）
把多个Pandas对象（dataframe或者series）合并成一个。

使用场景：合并相同格式的Excel，给DataFrame添加行或者列
concat语法：pandas.concat(objs,axis = 0,join=“outer” ignore_index = False)

append语法：dataframe.append（other，ignoer_index = False）

df1 = DataFrame{“A”:[“A0”,“A1”,“A2”,“A3”]
“B”:[“B0”,“B1”,“B2”,“B3”]
“C”:[“C0”,“C1”,“C2”,“C3”]
“D”:[“D0”,“D1”,“D2”,“D3”]
“E”:[“E0”,“E1”,“E2”,“E3”]
}

df1 = DataFrame{“A”:[“A4”,“A5”,“A6”,“A7”]
“B”:[“B4”,“B5”,“B6”,“B7”]
“C”:[“C4”,“C5”,“C6”,“C7”]
“D”:[“D4”,“D5”,“D6”,“D7”]
“F”:[“F4”,“F5”,“F6”,“F7”]
}

pd.concat([df1,df2]) #默认axis = 0.join = outer，ignore_index = False

pd.concat([df1,df2],ignore_index = True)

使用join = inner过滤吊不匹配的列
pd.concat([df1,df2],ignore = True,join = “inner”)

axis = 1详单与添加新的列

添加一列新列series
s1 = pd.Series(lise(range(4)),name = “F”)
pd.concat([df1,s1],axis = 1)

append:
df = pd.DataFrame([[1,2],[3,4]],columns=list(“AB”))

df2 = pd.DataFrame([[5,6],[7,8]],columns = list(“AB”))

1.可以给1个dataframe添加另一个dataframe
df1.append(df2)

df1.append(df2,ignore_index = True)

可以一行一行的给DataFrame添加数据
#一个空的df
df = pd.DataFrame(columns = [“A”])

Pandas批量差分和和合并Excel文件

将一个打Excel拆分成多个excel
使用df.iloc，将一个大的dataframe拆分成多个小dataframe
将使用dataframe.to_excel保存每个小excel

1.计算拆分后每个excel的行数
user_names = [“xiaoshuai”,“xiaowang”,“xiaoming”,“xiaolei”,“xiaobo”,“xiaohong”]

2.拆分成多个dataframe

将每个dtaframe存入excel

合并多个小excel到大的excel
1.遍历文件夹，得到要合并的excel文件列表
2.分别读取dataframe，给每个df添加一列用于标记来源
3.使用pd.concat进行df批量合并
4.将合并后的dataframe输出到excel

Pandas怎样实现grouby分组统计

groupby: 转换函数

演示：1，分组使用聚合函数做数据统计
2，遍历groupby的结果理解实行流程
3，实例分组探索天气数据

1.分组使用聚合函数做数据统计：
单个groupby，查询所有数据列的统计
df.groupby(“A”).sum()

我们看到，groupby中的A变成了索引列，因为要统计sum，但B列不是数字，所以被自动忽略。

2.多个列groupby，查询所有数据列的统计
df.groupby([“A”],[“B”]).mean()
我们看到，（“A”,“B”）变成了二级索引

df.groupby(“A”.as_index = False).mean()
3.同时查看多种数据统计
df.groupby(“A”).agg([np.sum,np.mean,np.std])

4.查看单列的数据结果统计
df.groupby(“A”)[“C”].agg([np.sum,np.mean,np.std]) #取出C的sum，mean和std

5.不同列使用不同的聚合函数
df.groupby(“A”).agg(“C”:np.sum,“D”:np.mean)

遍历groupby的结果理解执行流程
for循环可以直接遍历每个groupby
g = df.groupby(“A”)
for name,group in g:
print(name)
print(group)
print()
可以获取单个分组的数据
g.get_group(“bar”)

Pandas的分层索引Multindex

stocks[“公司”],unique()
BAIDU,BABA,IQ,JD
stocks.groupby(“公司”)[“收盘”].mean #看这三家公司的收盘价格
1.Series的分层索引Multindex
ser = stocks.groupby(“公司”，“日期”)[“收盘”].mean()

我们可以看到这个series有两个索引，一个是日期，一个是公司名称，多维索引中，空白的意思是使用上面的值

可以使用方法unstack把二级索引变为一个列
ser.unstack()

这时候，series就变成了一个df。
还有一种方法，reset_index(),可以把索引都变成普通的列
ser.reset_index()

Series有多层索引MultiIndex筛选数据

ser.loc[“百度”]

set.loc[(“BAIDU”,“2019-10-02”)]

set.loc[(:,“2019-10-02”)]

DataFrame的多层索引MulitIndex

stock.set_index([“公司”，“日期”]，inplace = True)

DataFrame有多层索引MultiIndex筛选数据

重要指示：在选择数据时：
元组（key1，key2）代表筛选多层索引，其中key1是索引的第一级，key2是第二级，比如key1 = JD，key2 = 2019-10-02
列表[key1，key2]代表同一层的多个key，key1和key2是同级关系，比如key1 = JD
key2 = BAIDU

stock.loc[“BAIDU”]

stock.loc[(“BAIDU”,“2019-10-02”),"]

stock.loc[(“BAIDU”,“2019-10-02”),“开盘”]
100.85

stock.loc[[“BAIDU”,“JD”],"]

stock.loc[([“JD”,“BAIDU”],2019-10-03),:]

stock.reset_index() #reset_index方法可以把索引都变成普通的列

Pandas的数据转换函数 map，apply，applymap

数据转换函数对比：map。apply，applymap
1.map：只用于Series，实现每个值-》值的映射
2.apply：用于Series实现每个值的处理，用于DataFrame实现某个轴的Series的处理
3.applymap：只能用于Dataframe。用于处理DataFrame的每个元素

1.map用于Series值的转换
实例：将股票代码英文转换成中文

stocks[“公司”].unique()

dict_company_names = {
“baidu” :“百度”,
“baba”:“阿里巴巴”,
"iq::“爱奇艺”,
“jd”:“京东”
}
方法1：Series.map(dict)
stoks[“公司中文1”] = stock[“公司”].str.lowr().map(dict_company_names) #取stock的公司列，使用str的lowr方法把大写转换成小写，在这个字典中取出key和value。赋值给公司中文1
方法2：Series,map(function)
function的参数是Series的每个元素的值
stocks[“公司中文2”] = stock[“公司”].map(lamba x : dict_company_names[x.lower()])

apply用于series和DataFrame的转换
Series.apply（function），函数的参数是每个值
DataFrame.apply（function），函数的参数是Series

Series.apply(function):
stocks[“公司中文3”] = stocks[“公司”].apply(lambda x : doct_complay_names[x.lower()])
DataFrame.apply(function)所有值的转换（function的参数是对应轴的Series）
stocks[“公司中文4”] = stocks[“公司”].apply(lambda x:dict_company_names[x[“公司”].low()],axis = 1)

applymap用于DataFrame所有值的转换
sub_df = stocks[[“收盘”,“开盘”,“高”,“低”，“交易量”]]
sub_df.applymap(lambda x : int(x)) #作用所有元素的值
stocks.loc[:,[“收盘”,“开盘”,“高”,“低”，“交易量”]] = sub_df.applymap(lambda x :int(x)) #直接修改原df的这几列

Pandas怎样对每个分组应用apply函数

pandas的groupby遵从split，apply，combine模式

Groupby.apply(function)
function的第一个参数是dataframe
function的返回结果，可是dataframe，series，单个值甚至和输入dataframe完全没关系
本次实例演示：
1.怎样对数值案列分组的归一化
2.怎样取每个分组的topn数据

1.怎样对数值列按分组的归一化：

归一化 = (当前值-最小值)/(最大值-最小值)

min_value = df[“Rating”].min()
max_value = df[“Rating”].max() #获取最大值和最小值，分别赋值。
df[“Rating_norm”] = df[“Rating”].apply(lambda x :(x-min_value)/(max_value-min_value)) #对Rating_norm进行归一化

提取每个分组的TOPN数据
获取2018年每个月温度最高的两天数据

df.loc[:,“bWendu”] = df[“bWendu”].str.replace(“℃”,"").astype(“int32”)
df.loc[:,“yWendu”] = df[“yWendu”].str.replace(“℃”,"").astype(“int32”)
df[“month”] = df[“ymd”.str[:7]]# 新增一列为月份

def getWendutopN(df,topn):
return df.sort_value(by = “bWendu”)[[“ymd”,"bWendu”][-topn:]
df.groupby(month).apply(getWenduTopN,topn2),head()

可以看到，grouby的apply函数返回的dataframe和原来的dataframe完全不一样

Pandas使用stack和pivot实现数据透视

将列式数据变成而为交叉形式，便于分析，叫做重塑或者透视
1.经过统计得到多维度指标数据
2.使用unstack实现数据二位透视
3.使用pivot简化透视
4.stack，unstack，pivot的语法

1.经过统计得到多维度指标数据
非常场景的统计场景，指定多个维度，计算聚合后的指标
实例：统计得到电影评分数据集，每个月份的每个分数被评分多少次

df[“pdate”] = pd.to_datatime(df[“Timestamp”],unti = “s”)

df_group = df.groupby([df[“pdate”].dt/month.“Rating”])[“UserID”].agg(pv = np.sum)
使用unstack实现数据二维透视
df_stack = df_group.unstack()
df_stack.plot()

Pandas实现对日期的快速处理

Pandas日期处理的作用：
将2018-10-02或者1/1/2018等多种日期格式映射成统一的格式对象，几个概念：
1.pd.to_datatime:pandas的一个函数，能将子豆腐串，列表，series变成日期形式
2.Timestamp:pandas表示日期的对象行使
3.DatatimeIndex：pandas表示日期的对象行使列表

实例：怎么统计每周，每月，每季度最高温度

把日期列变为pandas对象的形式的好处：
方便对DatatimeIndex进行查询



方便获取周，月，季度

统计每周，每月，每季度的最高温度
df.groupby(df.index.week)[“bWendu”].max()

统计每个月的数据
df.groupby（df.index,month）[“bWendu”].max()

Pandas处理日期索引的缺失

按照日期统计的数据，缺失了某天，导致数据不全该怎么补充日期？
2中方法可以实现：
1.DataFrame.reinde,调整dataframe的索引以适应新的索引
2.DataFrame.resample，可以对时间序列重采样，支持补充缺失值

方法1，使用pandas.reindex方法
1.将df的索引变成日期索引
df_data = df.set_index(“pdata”)
df_data = df_data.set_index(pd.to_datatime(df_data.index))

使用pandas.reindex填充缺失的索引
pdates = pd.date_range(start = “2019-12-01”,end = “2019-12-05”)

你可能感兴趣的:(Pandas)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
python编写直方图和饼图 2301_80421078 python 开发语言
1.直方图#直方图的绘制#语法格式：plt.hist(x,bins),其中x:数据集；bins:统计数据的分布区间importmatplotlib.pyplotaspltimportpandasaspd#导入文件excel=pd.read_excel('成绩.xlsx')#print(excel)#避免乱码plt.rcParams['font.sans-serif']=['SimHei']x=ex
pythonpandas函数详解_Python pandas常用函数详解 Senvn
本文研究的主要是pandas常用函数，具体介绍如下。1import语句importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportdatetimeimportre2文件读取df=pd.read_csv(path='file.csv')参数：header=None用默认列名，0，1，2，3...names=['A','B','C'
python画出分子化学空间分布（UMAP） Sakaiay python
利用umap画出分子化学空间分布图安装pipinstallumap-learn下面是用一个数据集举的例子importtorchimportumapimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.manifoldimportTSNEfromrdkit.Chemimport
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
python如何更方便的处理日期和时间 openwin_top python编程示例系列 python编程示例系列二 python java 前端
Arrow是一个第三方Python库，提供了更加易用和方便的日期和时间处理接口。它的设计目标是提供一种简单、一致且易于使用的API，以替代Python内置的datetime模块。Arrow支持各种日期和时间的操作，包括时区转换、日期和时间格式化、日期和时间差计算等功能。它还支持与其他日期和时间库的互操作，例如datetime、dateutil和pandas等库。以下是一个使用Arrow库的简单示例
python下载pandas库镜像_下载pandas库 weixin_39791152
背景交代：在下载matplotlib库时，我已经将pip的下载源手动更改为清华的镜像，所以，如果有小伙伴在下载库遇到问题，如timeout，请先将下载源改为国内镜像，具体操作见我的另一篇文章：今天的主题是安装pandas库~首先，按田字格+R，打开cmd，输入：pipinstallpandas嗯，不出所料地报错了……主要原因：pip._vendor.urllib3.exceptions.ReadT
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
如何“选择不同的“?跨越 pandas 中的多个数据框列? 潮易 pandas
在pandas中，如果你想要选择不同的列，你可以使用DataFrame的loc属性和iloc属性的组合。loc属性是基于标签的，iloc属性则是基于索引的。如果你想要选择多个列，你只需要将它们放入一个列表即可。以下是一个代码示例：```pythonimportpandasaspd#创建一个数据框df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]
详解 Pandas 的 query 函数文刀小桂 Pandas pandas python 开发语言
Pandas的query()方法能够使用字符串表达式来筛选DataFrame数据的行，类似于SQL的where子句importpandasaspddf=pd.DataFrame({"A":[1,3,5,6,7],"B":[11,10,9,8,12],"C":["hello","pandas","python","java","shell"],"D":["2024-02-01","2023-12-1
详解 Pandas 的 isin 用法文刀小桂 Pandas pandas python
Pandas的isin()方法可以判断数据值是否在某个数据集合中，若与集合中的某个值相等则返回True，反之返回False。importpandasaspddf=pd.DataFrame({"title":["one","two","three","four"],"type":["small","common","middle","large"],"num":[10,20,30,40]})#1.判
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
groupby 中如何显示 tqdm 的进度条？ domodo2020
在循环时调用tqdm显示进度已经是一个常规操作，常见的方式是foriiintqdm(...):...while循环的情况类似，whileicntintqdm(range(n)):...icnt+=1这里记录没有显式循环时，在groupby中的用法：importpandasaspdimportnumpyasnpfromtqdmimporttqdmdf=pd.DataFrame(np.random.r
pandas读取xlsx文件使用sqlachemy写到数据库 hzw0510 pandas pandas 数据库
pandas读取xlsx文件使用sqlachemy写到数据库要使用pandas和SQLAlchemy将Excel文件中的数据读取到数据库中，你可以按照以下步骤进行操作：安装必要的库：确保你已经安装了pandas、SQLAlchemy和openpyxl（用于读取Excel文件）。可以使用以下命令安装：pipinstallpandassqlalchemyopenpyxl如果你使用的是特定的数据库（如S
python 问题 ‘list‘ object cannot be interpreted as an integer 和‘int‘ object is not iterable annekqiu python
访问同一个excel表格（含有多个sheet）importnumpyasnpimportpandasaspdimportxlrd#读取excel的库importxlwt#写excel的库data=xlrd.open_workbook('./161005.xlsx')#打开excel文件读取数据table=data.sheets()[0]#读取sheet1h=table.ncols#获得列表数目a1
【Python】写入Pandas DataFrame到CSV文件 civilpy python pandas 开发语言
基本原理Pandas是一个强大的Python数据分析库，它提供了许多用于数据处理和分析的功能。在处理数据时，我们经常需要将数据保存到文件中，以便后续使用或分享。CSV（Comma-SeparatedValues，逗号分隔值）文件是一种常见的数据交换格式，它以纯文本形式存储表格数据，每行表示一个数据记录，列之间用逗号分隔。DataFrame是Pandas中用于存储表格数据的主要数据结构。它类似于Ex
Python酷库之旅-第三方库Pandas(115) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲506、pandas.DataFrame.rank方法506-1、语法506-2、参数506-3、功能506-4、返回值506-5、说明506-6、用法506-6-1、数据准备506-6-2、代码示例506-6-3、结果输出507、pandas.DataFrame.round方法507-1、语法507-2、参数507-3、功能507-4、返回值507-5、说明507-6、用法507
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
pandas中的loc和iloc 白日与明月 python 数据挖掘 pandas
loc和iloc的比较.loc和.iloc是pandas提供的两种不同的索引方法，它们的主要区别在于索引数据的依据：.loc：基于标签的索引，使用DataFrame或Series的索引标签（即行名和列名）来获取数据。可以使用单个标签、标签列表、标签切片、布尔数组或者callable函数作为索引器。如果使用标签索引并且标签不存在，.loc会抛出一个KeyError。对于切片，包括两端的标签。.ilo
pandas loc与iloc的区别 authorized_keys 数据处理 python pandas loc iloc
目录一、二者的特点二、官网原文三、例子——总有一款适合你一、二者的特点loc可用“字符”、“整数”、“布尔值”作为索引，也就是标签索引注意：此处的“整数”将被解释为index的一个label而不是index的位置iloc只允许“整数”作为索引，也就是位置索引，和列表索引类似，里面只能是数字注意：此处的“整数”将被解释为index的位置，前闭后开其中，loc是指location的意思，iloc中的i
pandas中loc和iloc的区别林光虚霁晓数据分析 pandas
在Pandas中，loc和iloc是用于选择和过滤数据的两种主要方法，它们的区别在于使用的索引类型。1.loc：基于标签索引loc是基于行或列的标签（label）来选择数据。它可以按行或列的名称来访问数据，也可以通过布尔索引选择。支持的索引类型：行标签、列标签、布尔索引。语法：DataFrame.loc[row_indexer,column_indexer]示例importpandasaspd#创
seurat自学笔记1.0 单细胞数据导入 Sanye2022 python pandas
Python读取.h5ad文件importanndataimportpandasaspdadata=anndata.read("/home/R/R_data/Seurat/PBMC10/output/adata.h5ad")#adata.X.todense()#将稀疏矩阵转成普通矩阵#X=pd.DataFrame(adata.X.todense())#cell_name=adata.obs.ind
Pandas教程：详解Pandas数据清洗旦莫 Python Pandas python pandas 数据分析
目录1.引言2.Pandas基础2.1安装与导入2.2创建一个复杂的DataFrame3.数据清洗流程3.1处理缺失值3.1.1删除缺失值3.1.2填充缺失值3.2数据去重3.3数据类型转换4.数据处理与变换4.1添加与删除列4.2数据排序5.数据分组与聚合6.其他数据清洗方法6.1字符串处理6.2时间序列处理6.3数据类型转换1.引言数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质
python的pandas库帅维维 python pandas 开发语言
什么是pandasPandas是一个开源的第三方Python库，它从Numpy和Matplotlib的基础上构建而来，享有数据分析“三剑客之一”的盛名。Pandas已经成为Python数据分析的必备高级工具，目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。数据结构Pandas中除了Panel数据结构,还引入了两种新的数据结构——Series和DataFrame,这两种数据结构都建立在Nu
Python数据分析及可视化教程--商城订单为例-适用电商相关进行数据分析---亲测可用！！！！ Dreams°123 AIGC 机器学习 python 测试工具数据分析大数据
前言：Python是进行数据分析和可视化的强大工具，常用的库包括Pandas、NumPy、Matplotlib和Seaborn。以下是一个基本的教程概述，介绍了如何使用这些库来进行数据分析和可视化：Python数据分析及可视化教程1、环境准备2、数据准备3、开始数据分析3.1、导入库3.2、加载数据3.3、数据预处理3.4、数据分析3.5、数据可视化4、总结解释使用方法：5、错误处理和异常判断说明
python第三方库手动安装教程_为了应对异常情况，提供最原始的python第三方库的安装方法：手动安装。往往是Windows用户需要用到这种方法。... weixin_39735247
进入pypi.python.org，搜索你要安装的库的名字，这时候有3中可能：第一种是exe文件，这种最方便，下载满足你的电脑系统和python环境的对应的exe，再一路点击next就可以安装。第二种是.whl类文件，好处在于可以自动安装依赖包。第三种是源码，大概都是zip、tar.zip、tar.bz2格式的压缩包，这个方法要求用户已经安装了这个包所依赖的其他包。例如pandas依赖于numpy
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，