黄元帅

【Task Final】Pandas之综合练习2

前言

Mission04 显卡日志

下面给出了3090显卡的性能测评日志结果，每一条日志有如下结构：

Benchmarking #2# #4# precision type #1#
#1# model average #2# time : #3# ms

其中#1#代表的是模型名称，#2#的值为train(ing)或inference，表示训练状态或推断状态，#3#表示耗时，#4#表示精度，其中包含了float, half, double三种类型，下面是一个具体的例子：

Benchmarking Inference float precision type resnet50 resnet50 model
average inference time : 13.426570892333984 ms

请把日志结果进行整理，变换成如下状态，model_i用相应模型名称填充，按照字母顺序排序，数值保留三位小数：

数据查看

#略去前10行和后2行 不设置第一行数据为col值 引擎使用python
df = pd.read_table('./data/mission04/benchmark.txt',skiprows=10,skipfooter=2,header=None,engine='python')
df

完整解题代码

def my_func(x):
    list1 = x.iloc[1].split(' ')
    list2 = x.iloc[-1].split(' ')
    return pd.Series([list2[0],list1[1],float(list2[-2]),list1[2]],index=['model_name','data_type','time','state'])
#把df的每两行合并到一起，并用my_func方法提取4个参数并将time小数点后保留三位
df_demo = pd.concat([df[0::2].reset_index(),df[1::2].reset_index()],axis=1).apply(my_func,axis=1).round({
     'time': 3})
#进行长宽表转换
res = df_demo.pivot(index='model_name',columns=['data_type','state'],values='time')
#进行多级列索引合并
res.columns = res.columns.map(lambda x:(x[0]+'_'+x[1]))
#按要求排列列索引顺序
res = res[['Training_half','Training_float','Training_double','Inference_half','Inference_float','Inference_double']]
res.shape
(32, 6)
res

Mission05 水压站点的特征工程

df1和df2中分别给出了18年和19年各个站点的数据，其中列中的H0至H23分别代表当天0点至23点
df3中记录了18-19年的每日该地区的天气情况

请完成如下的任务：

1.通过df1和df2构造df，把时间设为索引，第一列为站点编号，第二列为对应时刻的压力大小，排列方式如下（压力数值请用正确的值替换）：

def process_df(my_df):
    df_demo = my_df.melt(id_vars=['Time','MeasName'],value_vars=df1.columns[2:],var_name='小时',value_name='压力')
    df_demo.Time = pd.to_datetime(df_demo.Time) + pd.to_timedelta(df_demo['小时'].apply(lambda x:x[1:]+'H'))
    df_demo.MeasName = df_demo.MeasName.apply(lambda x:int(x[2:]))
    df_demo.drop('小时',axis=1,inplace=True)
    return df_demo.sort_values(['Time','MeasName'])
df1 = pd.read_csv('./data/mission05/yali18.csv')
df2 = pd.read_csv('./data/mission05/yali19.csv')
df = pd.concat([process_df(df1),process_df(df2)])
df.reset_index(drop=True,inplace=True)
df.rename(columns = {
     'MeasName':'站点'},inplace=True)
df.set_index('Time',inplace=True)
df

2.在上一问构造的df基础上，构造下面的特征序列或DataFrame，并把它们逐个拼接到df的右侧

df3 = pd.read_csv('./data/mission05/qx1819.csv')
df3

1）当天最高温、最低温和它们的温差

def my_func(x):
    list2 = x[2].replace(' ','').split('～')
    a1 = int(list2[0][:-1]) if list2[0] not in '℃C' else 0
    a2 = int(list2[1][:-1]) if list2[1] not in '℃C' else 0
    a1 = a2 if a1 < a2 else a1
    return pd.Series([x[0],a1,a2,a1-a2],index=['日期','最高温','最低温','温差'])
df3.apply(my_func,axis=1)

2）当天是否有沙暴、是否有雾、是否有雨、是否有雪、是否为晴天

def my_func(x):
    return pd.Series(['沙' in x[1],'雾' in x[1],'雨' in x[1],'雪' in x[1],'晴天' in x[1]],index=['是否有沙暴','是否有雾','是否有雨','是否有雪','是否为晴天'])
df3.apply(my_func,axis=1)

3）选择一种合适的方法度量雨量/下雪量的大小（构造两个序列分别表示二者大小）

对不同的雨雪情况进行观察：

def my_func(x):
    if '雪' in x:
        return x
snow_list = list(df_weather.apply(my_func).drop_duplicates())[1:]
snow_list
['阴转小雪',
 '多云转小到中雪',
 '雨夹雪转阴',
 '多云转小雪',
 '阴转雨夹雪',
 '雨夹雪转多云',
 '大雪转多云',
 '阴转中到大雪',
 '小雪转晴',
 '扬沙转雨夹雪',
 '雨夹雪转大雪',
 '雾转雨夹雪']

def my_func(x):
    if '雨' in x:
        return x
rain_list = list(df_weather.apply(my_func).drop_duplicates())[1:]
rain_list
['雨夹雪转阴',
 '阴转雨夹雪',
 '小雨转阴',
 '多云转小雨',
 '阴转小雨',
 '中雨转小雨',
 '多云转雷阵雨',
 '雨夹雪转多云',
 '小雨',
 '多云转中到大雨',
 '阴转阵雨',
 '小雨转中雨',
 '阴转雷阵雨',
 '多云转小到中雨',
 '阴转小到中雨',
 '大雨转小雨',
 '阴转中雨',
 '雷阵雨',
 '小雨转雷阵雨',
 '雷阵雨转阴',
 '雷阵雨转多云',
 '阴转中到大雨',
 '中雨转暴雨',
 '小雨转多云',
 '阴转大雨',
 '中雨转多云',
 '多云转阵雨',
 '扬沙转雨夹雪',
 '雨夹雪转大雪',
 '多云转中雨',
 '雨转阴',
 '小雨转阵雨',
 '大雨转多云',
 '暴雨转雷阵雨',
 '晴转阵雨',
 '中雨转阴',
 '中雨转雷阵雨',
 '暴雨',
 '中雨转小到中雨',
 '雨转多云',
 '晴转小雨',
 '雾转小雨',
 '雾转雨夹雪']

观察后，将雨雪按照不同类别进行离散分类：

雨的种类	等级
小雨	1
中雨	2
大雨	3
阵雨	4
暴雨	5
雨夹雪	6

雪的种类	等级
小雪	1
中雪	2
大雪	3
雨夹雪	4

做一个说明，这里考虑到有不同的“转”的情况，比如“小雨转阵雨”，“阴转大雨”等，这里统一以强度最高的类别为主体：

def my_func(x):
    def judge(s,type):
        dict = snow_dict if type else rain_dict
        for x in dict:
            if x in s:
                return dict[x]
        return 0
    snow_dict = dict(zip(['小雪','中雪','大雪','雨夹雪'],range(1,5)))
    rain_dict = dict(zip(['小雨','中雨','大雨','阵雨','暴雨','雨夹雪'],range(1,7)))
    return pd.Series([judge(x[1],1),judge(x[1],0)],index=['雨量等级','雪量等级'])
df_weather_descibe = df3.apply(my_func,axis=1)
df_weather_descibe

4）限制只用4列，对风向进行0-1编码（只考虑风向，不考虑大小）

def my_func(x):
    def returnWindCode(s):
        res = [pd.NA,pd.NA]
        if '东' in s:
            res[0] = 1
        if '西' in s:
            res[0] = 0
        if '南' in s:
            res[1] = 1
        if '北' in s:
            res[1] = 0
        return res
    #list代表风向
    list = x[-1].split(' ')
    #提前补全
    if '转' not in list[0]:
        list[0] += '转'
    #list1为风向列表，可能为空
    list1 = list[0].split('转')
    res = []
    for x in list1:
        res += returnWindCode(x)
    return pd.Series(res,index=['前风 东1西0','前风 南1北0','后风 东1西0','后风 南1北0'])
df3.apply(my_func,axis=1).head(10)

验证：

5）统一连接表操作：

由于df与df3合并相当于是多对一合并，所以这里首选merge方法将上面4类额外数据进行统一合并操作：

先进行汇总：

def my_func(x):
    def getWeather():
        typeList = ['沙','雾','雨','雪','晴天']
        return [1 if item in x[1] else 0 for item in typeList]
    def getTemp():
        list2 = x[2].replace(' ','').split('～')
        a1 = int(list2[0][:-1]) if list2[0] not in '℃C' else 0
        a2 = int(list2[1][:-1]) if list2[1] not in '℃C' else 0
        a1 = a2 if a1 < a2 else a1
        return [a1,a2,a1-a2]
    def getWeatherDes():
        def judge(s,type):
            dict = snow_dict if type else rain_dict
            for x in dict:
                if x in s:
                    return dict[x]
            return 0
        snow_dict = dict(zip(['小雪','中雪','大雪','雨夹雪'],range(1,5)))
        rain_dict = dict(zip(['小雨','中雨','大雨','阵雨','暴雨','雨夹雪'],range(1,7)))
        return [judge(x[1],1),judge(x[1],0)]
    def getWindType():
        def returnWindCode(s):
            res = [pd.NA,pd.NA]
            if '东' in s:
                res[0] = 1
            elif '西' in s:
                res[0] = 0
            if '南' in s:
                res[1] = 1
            elif '北' in s:
                res[1] = 0
            return res
        #list代表风向
        list = x[-1].split(' ')
        #提前补全
        if '转' not in list[0]:
            list[0] += '转'
        #list1为风向列表，可能为空
        list1 = list[0].split('转')
        res = []
        for item in list1:
            res += returnWindCode(item)
        return res
    index = ['日期','最高温','最低温','温差','是否有沙暴','是否有雾','是否有雨','是否有雪','是否为晴天','雪量等级','雨量等级','前 东1西0','前 南1北0','后 东1西0','后 南1北0']
    return pd.Series([pd.to_datetime(x[0])]+getTemp()+getWeather()+getWeatherDes()+getWindType(),index=index)
df_total = df3.apply(my_func,axis=1)
df_total

然后进行merge：

df_demo = df
df_demo['日期'] = pd.to_datetime(df.index.date)
df_demo = df_demo.reset_index().merge(df_total,on='日期',how='left',validate='m:1').set_index('Time').drop('日期',axis=1)
df_demo

注意这里需要对日期列转成时序类型，并且要将merge方法中的validate参数设置为‘m:1’，否则右边会产生很多空值。而且因为合并后不保留行索引，所以在合并之前要把df_demo的行索引重置，在合并后删掉‘日期’列，效果如下：

3.对df的水压一列构造如下时序特征：

1）当前时刻该站点水压与本月的相同整点时间该站点水压均值的差，例如当前时刻为2018-05-20 17:00:00，那么对应需要减去的值为当前月所有17:00:00时间点水压值的均值

首先建立一个根据年、月、小时、站点分组的分组对象，然后求得压力均值，最后将行索引进行合并，存入df_table中：

def concatFourNum(a,b,c,d):
    return str(a)+'-'+str(b)+'-'+str(c)+'-'+str(d)
df_table = df.groupby([df.index.year,df.index.month,df.index.hour,'站点'])['压力'].mean()
df_table.index = df_table.index.map(lambda x:concatFourNum(x[0],x[1],x[2],x[3]))
df_table = df_table.to_frame().reset_index()
df_table

然后新建一个df的copy：df_demo，遍历每行建立与df_table的index列保持一致的列：

df_demo = df.copy()
df_demo['index'] = pd.to_datetime(df_demo.index)
df_demo['index'] = df_demo.apply(lambda x:concatFourNum(x[-1].year,x[-1].month,x[-1].hour,x[0]),axis=1)
df_demo

最后将两张表进行合并，合并后的效果为：

df_res = df_demo.merge(df_table,on='index',validate='m:1',how='left')
df_res

此时压力_x代表当前的压力，压力_y代表题目要求的当月相同整点的压力均值，相减即可得到结果：

res = df_res['压力_x'] - df_res['压力_y']
res
0         0.014988
1         0.000835
2         0.000738
3        -0.015472
4         0.001440
            ...   
525595   -0.004948
525596   -0.021786
525597   -0.009992
525598   -0.012544
525599   -0.011625
Length: 525600, dtype: float64

2）当前时刻所在周的周末该站点水压均值与工作日水压均值之差

首先增加额外信息列辅助判断，分别为站点+当前年份+周数，以及是否为周内：

df_demo = df.copy().reset_index()
# df_demo['weekInfo'] =
df_demo['weekInfo'] = df_demo.apply(lambda x:str(x[1])+'-'+str(x[0].year)+'-'+str(x[0].weekofyear),axis=1)
df_demo['isWeekdays'] =  df_demo.apply(lambda x:x[0].dayofweek < 5,axis=1)
df_demo

然后按weekInfo进行分组，利用isWeekdays列分别求均值：

s_wdays = df_demo[df_demo.isWeekdays].groupby('weekInfo')['压力'].mean()
s_wdays
weekInfo
1-2018-1     0.247120
1-2018-10    0.250056
1-2018-11    0.246278
1-2018-12    0.240869
1-2018-13    0.243756
               ...   
9-2019-52    0.210806
9-2019-6     0.265816
9-2019-7     0.239919
9-2019-8     0.250313
9-2019-9     0.254747
Name: 压力, Length: 3120, dtype: float64

s_wends = df_demo[~df_demo.isWeekdays].groupby('weekInfo')['压力'].mean()
s_wends
weekInfo
1-2018-1     0.251711
1-2018-10    0.251602
1-2018-11    0.237789
1-2018-12    0.242266
1-2018-13    0.241422
               ...   
9-2019-52    0.204203
9-2019-6     0.245734
9-2019-7     0.237219
9-2019-8     0.243523
9-2019-9     0.245055
Name: 压力, Length: 3120, dtype: float64

然后相减后转换成df类型准备拼接：

res = (s_wdays - s_wends).to_frame().reset_index()
res

最后利用df_demo进行拼接：

df_demo.merge(res,on='weekInfo',validate='m:1',how='left').set_index('Time')

压力_y即为所求。

这块也有一点点小问题，不是所有的日期所属的周都是按所在年计算：

pd.Timestamp('2021-01-01').weekofyear
53

pd.Timestamp('2019-12-31').weekofyear
1

解决思路：研究一下日历中不同日子所属周相对于年的关系，然后在上面生成weekIndex的代码中进行额外的逻辑判断。

3）当前时刻向前7日内，该站点水压的均值、标准差、0.95分位数、下雨天数与下雪天数的总和

df_demoda代表2问中求得的df

gb = df_demo.groupby('站点')
gb.rolling('7D')['压力'].mean()
站点  Time               
1   2018-01-01 00:00:00    0.288625
    2018-01-01 01:00:00    0.290313
    2018-01-01 02:00:00    0.290375
    2018-01-01 03:00:00    0.292656
    2018-01-01 04:00:00    0.294175
                             ...   
30  2019-12-31 19:00:00    0.276701
    2019-12-31 20:00:00    0.276730
    2019-12-31 21:00:00    0.276777
    2019-12-31 22:00:00    0.276824
    2019-12-31 23:00:00    0.276750
Name: 压力, Length: 525600, dtype: float64

gb.rolling('7D')['压力'].std()
站点  Time               
1   2018-01-01 00:00:00         NaN
    2018-01-01 01:00:00    0.002386
    2018-01-01 02:00:00    0.001691
    2018-01-01 03:00:00    0.004767
    2018-01-01 04:00:00    0.005346
                             ...   
30  2019-12-31 19:00:00    0.027159
    2019-12-31 20:00:00    0.027153
    2019-12-31 21:00:00    0.027120
    2019-12-31 22:00:00    0.027075
    2019-12-31 23:00:00    0.027063
Name: 压力, Length: 525600, dtype: float64

gb.rolling('7D')['压力'].quantile(0.95)
站点  Time               
1   2018-01-01 00:00:00    0.288625
    2018-01-01 01:00:00    0.291831
    2018-01-01 02:00:00    0.291850
    2018-01-01 03:00:00    0.298375
    2018-01-01 04:00:00    0.300100
                             ...   
30  2019-12-31 19:00:00    0.319988
    2019-12-31 20:00:00    0.319988
    2019-12-31 21:00:00    0.319988
    2019-12-31 22:00:00    0.319988
    2019-12-31 23:00:00    0.319988
Name: 压力, Length: 525600, dtype: float64

求7天内下雨，下雪天数：

df_res = df_demo.copy()
df_res['Date'] = pd.to_datetime(pd.to_datetime(df_res.index).date)
df_res = df_res[['站点','是否有雨','是否有雪','Date']]
df_res = df_res.groupby(['站点','Date']).agg(lambda x:1 if sum(x) > 0 else 0)
df_res.reset_index('站点').groupby('站点')[['是否有雨','是否有雪']].rolling('7D').sum().rename(columns={
     '是否有雨':'7天内有雨天数','是否有雪':'7天内有雪天数'})

这块已经求出了结果，但是有个细节要修改一下：

用主数据表进行merge合并。

4）当前时刻向前7日内，该站点同一整点时间水压的均值、标准差、0.95分位数

先求同一整点的水压的三个系数，然后再进行滑动窗口。

gb = df.groupby([df.index.year,df.index.month,df.index.hour,'站点']).rolling('7D')['压力']
gb.mean()
Time  Time  Time  站点
2018  1     0     1     0.288625
                  1     0.287688
                  1     0.289125
                  1     0.289563
                  1     0.288550
                          ...   
2019  12    23    30    0.286714
                  30    0.283821
                  30    0.284839
                  30    0.284679
                  30    0.282911
Name: 压力, Length: 525600, dtype: float64

gb.std()
Time  Time  Time  站点
2018  1     0     1          NaN
                  1     0.001326
                  1     0.002660
                  1     0.002342
                  1     0.003040
                          ...   
2019  12    23    30    0.006524
                  30    0.007718
                  30    0.007381
                  30    0.007127
                  30    0.007878
Name: 压力, Length: 525600, dtype: float64

gb.quantile(0.95)
Time  Time  Time  站点
2018  1     0     1     0.288625
                  1     0.288531
                  1     0.291663
                  1     0.291831
                  1     0.291775
                          ...   
2019  12    23    30    0.294450
                  30    0.293550
                  30    0.293550
                  30    0.292763
                  30    0.292763
Name: 压力, Length: 525600, dtype: float64

待修改的地方，虽然长度保持一致，但是行索引已经不同，需要修改。

5）当前时刻所在日的该站点水压最高值与最低值出现时刻的时间差

新增主键列index：

def concatFourNum(a,b,c,d):
    return str(a)+'-'+str(b)+'-'+str(c)+'-'+str(d)
df_demo = df.copy()
df_demo['index'] = pd.to_datetime(df_demo.index)
df_demo['index'] = df_demo.apply(lambda x:concatFourNum(x[-1].year,x[-1].month,x[-1].day,x[0]),axis=1)
df_demo = df_demo.reset_index()
df_demo

计算每个站点每日的最大压力和最小压力之间的时间差：

res = df.groupby([pd.to_datetime(df.index.date),'站点']).idxmax() - df.groupby([pd.to_datetime(df.index.date),'站点']).idxmin()
res.index = res.index.map(lambda x:concatFourNum(x[0].year,x[0].month,x[0].day,x[1]))
res = res.reset_index()
res

左连接两张表，并且更改列名：

res = df_demo.merge(res,how='left',on='index',validate='m:1')
res = res.set_index('Time')[['站点','压力_y']].rename(columns={
     '压力_y':'最高值与最低值出现时刻的时间差'})
res

参考文献

1.风向都有哪几种啊

https://zhidao.baidu.com/question/1732599155287606027.html

DataWhale Pandas数据分析 Task01：预备知识 Shawnxs_ DataWhale Pandas数据分类 python pandas
文章目录练习Ex1：利用列表推导式写矩阵乘法Ex2：更新矩阵Ex3：卡方统计量Ex4：改进矩阵计算的性能Ex5：连续整数的最大长度心得体会练习Ex1：利用列表推导式写矩阵乘法一般的矩阵乘法根据公式，可以由三重循环写出：In[138]:M1=np.random.rand(2,3)In[139]:M2=np.random.rand(3,4)In[140]:res=np.empty((M1.shape[
python管理——设置清华镜像站；安装pandas数据分析⼯具；安装pymysql连接器；python脚本冬冬的狼外婆 python pandas 数据分析
一、方法一指定pip从哪个源服务器下载和安装Python包pip3configsetglobal.index-url清华镜像站https://pypi.tuna.tsinghua.edu.cn/simple安装SQLAlchemyyum-yinstallsqlalchemy使用pip3安装pandas库pip3installpandas导入pandas作为pdimportpandasaspd创建数
Pandas教程15：多个DataFrame数据（保存+追加）为Excel表格数据我的Python教程我的Python教程 #Pandas pandas excel Python教程
---------------pandas数据分析集合---------------Python教程71：学习Pandas中一维数组SeriesPython教程74：Pandas中DataFrame数据创建方法及缺失值与重复值处理Pandas数据化分析，DataFrame行列索引数据的选取，增加，修改和删除操作Pandas教程05：DataFrame数据常用属性和方法汇总Pandas教程06：Da
Pandas教程12：常用的pd.set_option方法，显示所有行和列+不换行显示等等... 我的Python教程 #Pandas 我的Python教程 pandas 数据分析 Python教程
---------------pandas数据分析集合---------------Python教程71：学习Pandas中一维数组SeriesPython教程74：Pandas中DataFrame数据创建方法及缺失值与重复值处理Pandas数据化分析，DataFrame行列索引数据的选取，增加，修改和删除操作Pandas教程05：DataFrame数据常用属性和方法汇总Pandas教程06：Da
【Python】图解Pandas数据合并：concat、join、append 风度78 数据库人工智能 python 数据分析大数据
公众号：尤而小屋作者：Peter编辑：Peter图解pandas数据合并：concat+join+append在上一篇文章中介绍过pandas中最为常用的一个合并函数merge的使用，本文中介绍的是另外3个与合并操作相关的函数：concatjoinappend挑战SQL：图解Pandas的数据合并mergePandas连载本文是Pandas数据分析库的第15篇，欢迎阅读：模拟数据首先是模拟几份不同
Pandas数据分析详解（二）背水 pandas 数据分析数据挖掘
1.索引1.1重新设置索引importpandasaspds=pd.Series(data=[1,2,3],index=[0,1,2])print(s)#重新设置索引print(s.reindex(range(1,6)))#注意此时原数据行索引0被舍弃了，因为不匹配#多的用0填充print(s.reindex(range(1,6),fill_value=0))#向前/后填充print(s.rein
pandas数据分析详细解读（一）背水 pandas 数据分析数据挖掘 python
(一)Series对象类似于一维数组由一组数据以及与这种数据有管的标签（索引）组成1.1创建series对象pd.Series(data,index=index)importpandasaspddata=['赵','钱','孙']#数据为一维列表s=pd.Series(data=data)#这里没有设置索引，默认为从0开始print(s)print(type(s))运行结果下面是设置索引的s=pd
pandas数据分析，matplotlib绘图(折线图)，图片和数据批量写入excel 随时学丫数据分析 pandas excel matplotlib 折线图
pandas数据分析，matplotlib绘图并解决中文乱码问题批量将数据写入多个sheet的excel表，并将图片和数据写入同一个sheet，查了不少api，希望对大家有帮助代码就不一一解释了，自己看吧最终生成效果图#-*-coding:utf-8-*-#@File:data_statistics_and_draw_imgs.py#@Date:2023-03-27#@Author:jiangim
Pandas使用简介 ZShiJ Python 数据挖掘 pandas
Pandas相关题目【Python】——Pandas初体验（一）【Python】——Pandas初体验（二）【Python】——pandas数据分析【Python】——pandas数据处理Pandas是基于Numpy构建的、开源的Python数据分析工具包，借助高效的数据结构提供面向大规模数据的、高性能的数据分析操作。Pandas有两种重要的数据结构，Series和DataFrame。熟悉这两种数
Pandas数据分析15——pandas数据透视表和交叉表阡之尘埃 pandas数据分析 pandas 数据分析 python numpy
参考书目：《深入浅出Pandas：利用Python进行数据处理与分析》pandas对数据框也可以像excel一样进行数据透视表整合之类的操作。主要是针对分类数据进行操作，还可以计算数值型数据，去满足复杂的分类数据整理的逻辑。首先还是导入包：importnumpyasnpimportpandasaspd整理透视pivot首先介绍的是最简单的整理透视函数pivot，其原理如图'''pivot参数ind
python的pandas数据分析处理基础学习计算衎 python pandas 数据分析
pandas学习一、pandas基础1.什么是pandas？一个开源的python类库：用于数据分析、数据处理、数据可视化高性能容易使用的数据结构容易使用的数据分析工具很方便和其他类库一起使用：numpy：用于数学计算scikit-learn：用于机器学习2.pandas的安装方法一：pip3installpandas方法二：下载使用Python类库集成安装包：anacondalink：https
Pandas数据分析02——各类文件的读取和导出阡之尘埃 pandas数据分析 pandas 数据分析数据挖掘 python
参考书目：《深入浅出Pandas：利用Python进行数据处理与分析》pandas真的很强大，几乎什么格式的数据都能读取，什么csv，excel，spss，stata，json，html......连剪贴板的数据都能读.....本章教大家怎么读取数据，虽然简单读取就一句话，但是参数和功能还是很多的，都了解一下。读取CSV文件csv文件最基础的数据文件，介绍的最详细，因为别的文件的很多参数和csv读
Python中Pandas详解之数据结构一只小松许️ Python python pandas 数据结构
文章目录Pandas数据分析Pandas简介Pandas安装Series类型数据Series的创建Series的访问Series中向量化操作与布尔索引Series的切片Series的缺失值Series的增与删Series的nameDataFrame数据类型DataFrame的创建DataFrame的访问DataFrame的删除DataFrame的添加添加行添加列Pandas数据分析Pandas简介
【Python】—— pandas 数据分析 ZShiJ Python pandas python 开发语言数据分析
pandas数据分析相关知识了解1.数据清理2.探索性数据分析（EDA）3.数据过滤和选择4.数据分组和聚合5.数据合并和连接6.时间序列分析7.统计分析第1关：了解数据集特征第2关：DataFrame的CRUD第3关：利用pandas实现数据统计分析相关知识了解当涉及到数据分析时，Pandas提供了许多功能，使得数据清理、探索性数据分析（EDA）、统计分析和可视化变得更加容易。以下是一些主要关于
Pandas数据分析小森( ﹡ˆoˆ﹡ ) pandas 数据分析数据挖掘
分析前操作我们使用read读取数据集时，可以先通过info方法了解不同字段的条目数量，数据类型，是否缺失及内存占用情况案例：找到小成本高口碑电影思路：从最大的N个值中选取最小值movie2.nlargest(100,'imdb_score')#用nlargest方法，选出imdb_score分数最高的100个如果想从前100分数最高的中挑出预算最小的五部：movie2.nlargest(100,'
Python基础学习—Pandas数据分析实战剖析【文末送书-09】一见已难忘 IT分享/测评/交流 python 学习 pandas Pandas数据分析数据分析数据分析实战
文章目录一.Pandas数据分析1.1Pandas的主要应用包括：1.2Pandas核心数据结构1.3安装和导入Pandas二.Pandas数据分析实战：用Python进行数据分析1.数据集介绍2.数据加载与初步观察3.数据清洗4.数据分析4.1销售趋势分析4.2热门商品分析三.Pandas数据分析【文末送书-09】3.1粉丝福利：文末推荐与福利免费包邮送书！在当今信息时代，数据被认为是一种宝贵的
Python爬取数据分析秃头雨雨 python 数据分析数据挖掘爬虫大数据
一.python爬虫使用的模块1.importrequests2.frombs4importBeautifulSoup3.pandas数据分析高级接口模块二.爬取数据在第一个请求中时,使用BeautifulSoupimportrequests#引用requests库frombs4importBeautifulSoup#引用BeautifulSoup库res_movies=requests.get(
pandas数据合并：concat、join、append 皮皮大
公众号：尤而小屋作者：Peter编辑：Peter大家好，我是Peter~图解pandas数据合并：concat+join+append在上一篇文章中介绍过pandas中最为常用的一个合并函数merge的使用，本文中介绍的是另外3个与合并操作相关的函数：concatjoinappendimagePandas连载本文是Pandas数据分析库的第15篇，欢迎阅读：image模拟数据首先是模拟几份不同的数
19. Python 数据处理之 Pandas 有请小发菜 Python python pandas 开发语言
目录1.认识Pandas2.安装和导入Pandas3.Pandas数据结构4.Pandas基本功能5.Pandas数据分析1.认识PandasPandas是Python的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。Pandas的出现主要是为了解决其他编程语言、科研环境的痛点。它是处理数据的理想工具，处理数据的速度极快，使数据预处理、清洗、分析工作变
Python pandas数据分析冰露可乐国考数据挖掘 python pandas 数据分析国考网警
Pythonpandas数据分析：2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开测开的话，你就得学数据库，sql，oracle，尤其sql要学，当然，像很多金融企业、安全机构啥的，他们必须要用oracle数据库这oracle比sql安全，强大多了，所以你需要学习，最重要的，你要是考网络警察公务员，这玩意你不会就别去报名了，耽误时间！与此同时，
【Python与数据分析实验报告】Pandas数据分析基础应用 dyy7777777 学科资料数据分析 python 数据挖掘
目录任务内容(1)将数据进行转置，转置后型如eg.csv,缺失值用NAN代替。(2)对数据中的异常值进行识别并用NA代替。(3)计算每个用户用电数据的基本统计量，包括：最大值、最小值、均值、中位数、和、方差、偏度、峰度。（不包括空值）(4)每个用户用电数据按日差分，并计算差分结果的基本统计量，统计量同上述第3问。(5)计算每个用户用电数据的5%分位数。(6)对每个用户的用电数据按周求和并差分（一周
Pandas数据分析22——pandas时间序列阡之尘埃 pandas数据分析 pandas 数据分析 python numpy 机器学习
参考书目：《深入浅出Pandas：利用Python进行数据处理与分析》pandas的索引可以用时间来替代，然后基于时间序列数据会有很多用法，了解一下。时间对象有：还是先导入包：importnumpyasnpimportpandasaspdimportdatetime时序索引#创建时间索引pd里面的对象，或者字符串，np对象，和Python的datetime对象都可以直接创建时间索引。pd.to_d
【Python】数据分析案例：世界杯数据可视化 | 文末送书 bluetata 信息可视化 python 数据分析
文章目录前期数据准备导入数据分析：世界杯中各队赢得的比赛数分析：先打或后打的比赛获胜次数分析：世界杯中的抛硬币决策分析：2022年T20世界杯的最高得分者分析：世界杯比赛最佳球员奖分析：最适合先击球或追逐的球场案例分析总结文末送书《Pandas数据分析》送书参与方式每一场体育赛事都会产生大量数据，这些数据可用于分析运动员、球队表现以及比赛中的亮点。作为分析案例，我们使用T20世界杯的数据进行分析。
Pandas数据分析Pandas初体验在线闯关_头歌实践教学平台阿松爱学习 Python数据分析可视化 pandas 数据分析数据挖掘数据可视化 python
Pandas数据分析初体验第1关了解数据处理对象--Series第2关了解数据处理对象-DataFrame第3关读取CSV格式数据第4关数据的基本操作——排序第5关数据的基本操作——删除第6关数据的基本操作——算术运算第7关数据的基本操作——去重第8关数据重塑第1关了解数据处理对象–Series任务描述本关任务：仔细阅读编程要求，完成相关要求。编程要求根据提示，在右侧编辑器Begin-End内补充
Pandas数据分析Pandas进阶在线闯关_头歌实践教学平台阿松爱学习 Python数据分析可视化 pandas 数据分析数据挖掘 python 数据可视化
Pandas数据分析进阶第1关Pandas分组聚合第2关Pandas创建透视表和交叉表第1关Pandas分组聚合任务描述本关任务：使用Pandas加载drinks.csv文件中的数据，根据数据信息求每个大洲红酒消耗量的最大值与最小值的差以及啤酒消耗量的和。编程要求使用Pandas中的read_csv()函数读取step1/drinks.csv中的数据，数据的列名如下表所示，请根据continent
Python进阶教程：pandas数据分析实践示例总结只存在于虚拟的King python pandas 数据分析开发语言学习深度学习经验分享
文章目录前言一、分析数据文件二、数据预处理关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道前言在近日的python数据分析实战课中，我学习到使用python进行数据分析的流程、方法，对常使用的函数
pandas数据分析41——不同地区不同城市数据分级统计汇总阡之尘埃 pandas数据分析 pandas 数据分析数据挖掘 python
案例背景实习一段时间，发现很多领导用Excel喜欢添加一个汇总行，若只有一个类别的汇总很简单，但是多个类别嵌套，不同层级嵌套都要进行汇总行添加，那就有点麻烦了，这个案例就是教大家怎么模板化输出带汇总的表。代码实现生成数据先生成一个案例数据，不同地区，不同城市，不同销售商品：importpandasaspdfromfakerimportFakerimportrandomfake=Faker()#假设
《Pandas数据分析》（五）——数据可视化爱读Paper的Toby 数据分析数据分析
复习：回顾学习完第一章，我们对泰坦尼克号数据有了基本的了解，也学到了一些基本的统计方法，第二章中我们学习了数据的清理和重构，使得数据更加的易于理解；今天我们要学习的是第二章第三节：数据可视化，主要给大家介绍一下Python数据可视化库Matplotlib，在本章学习中，你也许会觉得数据很有趣。在打比赛的过程中，数据可视化可以让我们更好的看到每一个关键步骤的结果如何，可以用来优化方案，是一个很有用的
【西瓜书+花书】速通 NN今夜无眠人工智能机器学习 python 人工智能
参考：BV1qY4y187Ff第一部分：机器学习回归算法1.机器学习概述数据挖掘：大规模机器学习算法去计算用户情况计算机视觉：无人驾驶汽车推荐算法……预测样本->特征抽取（转换成计算机能够理解的数据，重要！提取特征）->学习函数->预测实用工具：Numpy科学计算pandas数据分析matplotlib数据可视化scikit-learn机器学习2.回归算法监督学习（有标签）、无监督学习（无标签）回
《Pandas数据分析实战》书籍推荐（包邮送书5本）袁袁袁袁满《极客日报》pandas 数据分析数据挖掘 Pandas数据分析实战
书籍介绍使用Python进行数据分析并不难。如果你会使用电子表格，就能学会Pandas！虽然它的网格样式布局可能会让你想起Excel，但Pandas要灵活和强大得多。Python库可以快速对数百万行数据执行操作，并且可以轻松地与Python数据生态系统中的其他工具进行交互。这是提升你的数据游戏的完美方式。《Pandas数据分析实战》介绍了使用令人惊叹的Pandas库在Python中进行数据分析。你
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http