GUAI_GUAI_daydayup

浅浅保存下

# -*- coding: utf-8 -*-
"""
Created on Fri Oct 28 09:11:05 2022

@author: Lenovo
"""

from sklearn.metrics import make_scorer
import os
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score,mean_squared_error
import shutil
import seaborn as sns  
from scipy.stats import gaussian_kde
from mpl_toolkits.axes_grid1 import make_axes_locatable
from sklearn.feature_selection import RFECV
from scipy.interpolate import griddata
from itertools import combinations
from operator import itemgetter
# path=r'D:\Fluxnet\try'
# outpath=r'D:\Fluxnet\OUTCOME\每种变量组合放在一起之前的仓库'

site_list=[]
year_list=[]
total_number=[]
post_dropna_number=[]
post_drop_le_abnormal_number=[]
test_number=[]
train_number=[]
N_estimators=[]
Max_depth=[]
Rmse_list=[]
R2_list=[]
Bias_list=[]
Drivers_column=[]
Filling_rate_list=[]
Feature_list=[]
# ==========================加NDVI
# path1=r'D:\Fluxnet\加了土壤水和土壤温度的\MDS_用'
# path2=r'D:\Fluxnet\ndvi777 - SHAOSHAOSHAO'  # 认真一点谢谢 别老粗心 改了上边不改下边 丢三落四的
# for s,j in zip(os.listdir(path1),os.listdir(path2)):   
#     print(os.listdir(path2))
#     print(s)
#     sole_s=pd.read_csv(os.path.join(path1,s))
#     sole_j=pd.read_csv(os.path.join(path2,j))       
#     sole_s['TIMESTAMP_START']=sole_s['TIMESTAMP_START'].astype('str') 
#     sole_s['TIMESTAMP_START']=pd.to_datetime(sole_s['TIMESTAMP_START'])         
#     sole_j=sole_j[['TIMESTAMP_START','NDVI']]
#     sole_j['TIMESTAMP_START'] = pd.to_datetime(sole_j['TIMESTAMP_START'])            
#     sole_j = sole_j.set_index('TIMESTAMP_START')
#     sole_j = sole_j.resample('1D').interpolate() # 30T 按分钟(T)插值  1D按天插值
#     sole_j = sole_j.reset_inde    
#     sole=pd.merge(sole_s, sole_j,how='left',on='TIMESTAMP_START')    
#     sole['NDVI']=sole['NDVI'].interpolate(method='pad') # 1天一个值
#     sole.to_csv(os.path.join(path3,s))
# ===========================分地类统计
# path0 = r'C:\Users\Lenovo\Desktop\分地类站点'
# path  = r'D:\Fluxnet\加了土壤水和土壤温度的\MDS_用666'
# count = 0 
# for folder in os.listdir(path0): 
#     for i in os.listdir(path):   
#         if i.split('_')[1] in folder:
#             print(i)
#             count+=1
#             shutil.copy(os.path.join(path,i)
#                         ,os.path.join(r'C:\Users\Lenovo\Desktop\分地类站点',folder))            
# print(count)
# =============================合并为一个csv     
# path = r'C:\Users\Lenovo\Desktop\四大类\GRA'
# path_fix = r'C:\Users\Lenovo\Desktop\四大类'
# crop = pd.DataFrame()
# for i in os.listdir(path):
#     sole = pd.read_csv(os.path.join(path,i))
#     crop = pd.concat([crop,sole])    
#     crop.to_csv(os.path.join(path_fix,'gra.csv'),index = False,encoding='utf-8-sig')

# path = r'C:\Users\Lenovo\Desktop\四大类\CSH_OSH_SAV_WAS_WET'
# path_fix = r'C:\Users\Lenovo\Desktop\四大类'
# crop = pd.DataFrame()
# for i in os.listdir(path):
#     sole = pd.read_csv(os.path.join(path,i))
#     crop = pd.concat([crop,sole])   
#     crop.to_csv(os.path.join(path_fix,'CSH_OSH_SAV_WAS_WET.csv'),index = False,encoding='utf-8-sig')
 
# path = r'C:\Users\Lenovo\Desktop\四大类\DBF_DNF_EBF_ENF_MF'
# path_fix = r'C:\Users\Lenovo\Desktop\四大类'
# crop = pd.DataFrame()
# for i in os.listdir(path):
#     sole = pd.read_csv(os.path.join(path,i))
#     crop = pd.concat([crop,sole])   
#     crop.to_csv(os.path.join(path_fix,'DBF_DNF_EBF_ENF_MF.csv'),index = False,encoding='utf-8-sig')
  
# =======================按照0.85/0.15划分train_test  留出MDS 画出九个核密度 插补率 泰勒图 
hou=37
count=0
path_concat = r'C:\Users\Lenovo\Desktop\四大类\REALTRY'
for dalei,count666,doubley in zip(os.listdir(path_concat),[1,2,3,4],[37,38,39,40]):
    sole = pd.read_csv(os.path.join(path_concat,dalei))
    
    site_list1=[]
    year_list1=[]
    test_number1=[]
    train_number1=[]
    rmse_list1=[]
    r2_list1=[]
    bias_list1=[]
    
    sole_raw = sole
    sole_copy = sole
    # sole_raw = sole_raw.dropna(axis=0
    print('原始数据：',sole.shape)
    
    sole.dropna(subset=['LE_F_MDS_QC'],axis=0,inplace=True) #删除LE_F_MDS_QC中含有空值的行 
    print('去掉没QC后的原始数据：',sole.shape)
    
    trainset=sole[sole['LE_F_MDS_QC']==0]
    print('观测数据量：',trainset.shape)
 
    #=================================以LE_F_MDS=20W/m² 为界 白天和晚上分别训练   
    # trainset=trainset[trainset['LE_F_MDS']>=20])
    
    gap=sole[sole['LE_F_MDS_QC']!=0]
    print('需要插补的数据量：',gap.shape)
    
    gap_drople=gap.drop(['LE_F_MDS','LE_F_MDS_QC'
                         ,'TIMESTAMP_START','TIMESTAMP_END']
                         # , 'SW_IN_F_MDS_QC', 'NETRAD'
                         ,axis=1)
    
    # gap_drople=gap_drop.drop(['SW_IN_F_MDS_QC', 'NETRAD'],axis=1)
    
    #===============================每行至少有一个/三个不是空值时保留
    
    # gap_dropna=gap_drople[gap_drople.isnull().T.sum()<=8] 
    gap_dropna=gap_drople.dropna(axis=0,thresh=3) 
    print('去空值后的插补数据：',gap_dropna.shape)
    
    dff=pd.DataFrame(gap_dropna.isna().sum().sort_values(ascending=False))
    print('测试集：',dff)
    
    #看下训练集的空值，可以看出跟插补集不太一样
    print('训练集：',trainset.drop(['LE_F_MDS','LE_F_MDS_QC'
                      ,'TIMESTAMP_START','TIMESTAMP_END']
                      ,axis=1).isna().sum().sort_values(ascending=False))
      
    #==========================获得所有变量组合
    
    def combine(list0,o):
        list1=[]
        for i in combinations(list0,o):
            list1.append(i)
        return list1
    
    #==========================遍历
    
    rmse_list=[]
    r2_list=[]
    bias_list=[]
    filling_rate_list=[]
    
    count =count666
 
    
    fig = plt.figure(figsize=(16,40),dpi=600)
    
    for u in reversed(range(4,13)): 
        
        fillrate_mid_list=[]
        col_list=[]
        list666=[]
        list666.extend(combine(dff.index,u))

        #===========================获取不同插补率的组合特征
        
        list_score=[]
        score=[]
        big_list=[]
        
        for i in range(0,len(list666)):
            
            sco=f'{gap_drople[list(list666[i])].dropna().shape[0] / gap_drople.shape[0]:.2f}'
            
            score+=[f'{gap_drople[list(list666[i])].dropna().shape[0] / gap_drople.shape[0]:.2f}']
            
            list_score+=[{'score':sco,'list':list666[i]}]
            
        # print(list_score)   # print(list_score)
        #=============================plot
        
        key_list=[a['list'] for a in list_score]
    
        len_list = [ len(i) for i in key_list ]
        
        score=[np.float64(i) for i in score]
        
        # plt.rc('font', family='Times New Roman',size=20)
        
        # plt.scatter(len_list,score)
        
        # plt.xlabel('Number of drivers', {'family':'Times New Roman','weight':'normal','size':20})
        
        # plt.ylabel('Filling rate',{'family':'Times New Roman','weight':'normal','size':20})


        #============================填充率最大对应去的变量列表
        
        sorted_list=sorted(list_score, key=lambda list_score: list_score['score'], reverse=True)
        print('********************')
        # print(sorted_list)   # 按降序排列
        
        biggest_score=[a['score'] for a in sorted_list][0]
        # print(biggest_score)
        
        biggest_score_feature_list=[a['list'] for a in sorted_list][0]
        # print(biggest_score_feature_list)
                
        Feature_list.append(biggest_score_feature_list)

        filling_rate_list.append(biggest_score)
        Filling_rate_list.append(biggest_score)
        # print(Feature_list,Filling_rate_list)
        
        #==============================建模准备================================
        
        train_copy=trainset.copy()
        
        print('===========')
        # print(train_copy)
        
        train_copy.drop(['LE_F_MDS_QC','TIMESTAMP_START','TIMESTAMP_END']
                   ,axis=1,inplace=True)#.isna().sum().sort_values(ascending=False)

        # print(train_copy)  #单纯看下
        
        feature=[x for x in biggest_score_feature_list]
        # print(feature)
        
        train_option=train_copy[feature]
        train_option['LE_F_MDS']=train_copy['LE_F_MDS']
            
        print(train_option.shape)#原始数值
        print(train_option.isna().sum().sort_values(ascending=True))
            
            #============================去除空值=======================================
        train_option_dropna=train_option.dropna() #训练数据去空值
        print('训练集去掉空值后： ',train_option_dropna.shape)
    
            #===========================去除LE异常值====================================
        # des=train_option_dropna.describe()
        # print(des)
        # shangxu=des.loc['75%']+1.5*(des.loc['75%']-des.loc['25%'])
        # xiaxu=des.loc['25%']-1.5*(des.loc['75%']-des.loc['25%'])
        # print(shangxu)
        # print(xiaxu)
        # c=train_option_dropna[(train_option_dropna['LE_F_MDS'] <=shangxu[-1])
        #         &(train_option_dropna['LE_F_MDS'] >=xiaxu[-1])]
        c=train_option_dropna    
        print(c.shape)
            
        Drivers=c.drop(['LE_F_MDS'],axis=1)
            
        Drivers_column+=[' '.join(Drivers.columns.tolist())]
            
        LE=c['LE_F_MDS']
        x_train,x_test,y_train,y_test=train_test_split(Drivers,LE
                                                        ,test_size=0.20
                                                        ,random_state=(0))                            
        print(x_train.shape)
        print(x_test.shape)
        print(y_train.shape)
        print(y_test.shape)
        
        #========================网格搜索+OOB 寻找最有超参数========================
        
        # # def simpleGridSearch(x_train, x_test, y_train, y_test):
    
        # # 使用for循环实现网格搜索
        # # grid search start
        # best_score = 100
        # rmse = []
        # for n_esti in [300,800,1100,1500]:
        #     for max_dep in [30,90,110]:
        #         rf = RandomForestRegressor(n_estimators=n_esti
        #                                    ,max_depth=max_dep
        #                                    ,oob_score=True
        #                                    ,random_state=(0)) # 对于每种参数可能的组合，进行一次训练；
        #         rf.fit(x_train,y_train)
        #         score = np.sqrt(mean_squared_error(y_train, rf.oob_prediction_))
        #         print(score)
                
        #         rmse+=[score]
                    
        #         if score < best_score:#找到表现最好的参数
                      
        #             n_estimators = n_esti
        #             max_depth = max_dep
                    
        #             best_score = score
        # print("Best score:{:.2f}".format(best_score))
        
            # return n_estimators,max_depth
        #========================GridsearchCV 寻找最优超参数=========================
        
        # rfr=RandomForestRegressor()
       
        # param_grid={'n_estimators':[300,800,1100]#300,500,700,900,1100,1300,1500,1700,1900,2100
        #             #500,800,1100,1400,1700,2000 1,2,3,4,5,6
        #           ,'max_depth':[30,80,110]}#30,50,70,90,110,150   30,50,70,90,110
        
        # gs=GridSearchCV(rfr 
        #                 ,param_grid=param_grid
        #                 ,scoring=make_scorer(mean_squared_error,greater_is_better=False) 
                          # ,score=['r2','neg_root_mean_squared_error']      # sklearn.metrics.SCORES.keys()       
                          #,refit='neg_root_mean_squared_error'
        #                 ,cv=2
        #                 ,verbose=1
        #                 ,n_jobs=-1) 
        
        # gs.fit(x_train,y_train)

        # max_depth=gs.best_params_['max_depth']
        # Max_depth+=[max_depth]
        # print(gs.best_params_)
        
        # n_estimators=gs.best_params_['n_estimators']
        # N_estimators+=[n_estimators]
        # print(np.sqrt(-1*gs.score(x_test,y_test)))
        
        # #设置字体格式
        # sns.set(style='ticks')
        # plt.rc('font', family='Times New Roman',size=20) 
        # # plt.rcParams["font.weight"] = "bold"
        # # plt.rcParams["axes.labelweight"] = "bold"
        
        # #=============================Heat map of RMSE=============================
        
        # gs_df=pd.DataFrame(gs.cv_results_)
        # gs_df['RMSE']=np.sqrt(-1*(gs_df['mean_test_score']))
        # gs_df[['MAX_DEPTH','N_ESTIMATORS']]=gs_df[['param_max_depth','param_n_estimators']]
        
        # heatmap_data=gs_df.pivot_table(index='MAX_DEPTH'
        #                                 ,columns='N_ESTIMATORS'
        #                                 ,values='RMSE')
        
        # plt.figure(figsize=(10, 10),dpi=500)
        
        # heat_map=sns.heatmap(data=heatmap_data
        #                       ,linewidths=.05 #单个格子边框宽度 linecolor格子边框颜色
        #                       ,fmt='.2f'
        #                       ,cmap='jet'#'PuBuGn_r'
        #                       ,cbar=True
        #                       ,cbar_kws={'label':'RMSE of Cross-validation (W/m²)'
        #                                 ,'orientation':'vertical'#默认竖直，水平为horizontal
        #                                 ,'format':'%.2f'
        #                                 ,'extend':'both'          
        #                                 }#'pad':colorbar与heatmap间的距离
        #                         )# cmap = 'PuBuGn'  'cubehelix_r' 'PuBuGn_r' 'YlGnBu_r'
        #                       #  mask=heatmap_data>10 数据掩膜
        #                       # ,annot=True #默认FALSE不显示单个格子数值
        #                       # ,annot_kws={'size':15,'weight':'normal','color':'black'}#单个格子字体设置
        #                       #  heat_map.figure.colorbar(heat_map.collections[0],extend='both').set_label('RMSE of Cross-validation (W/m²)',fontdict={'size':16})
        #                       # 'interpolation':'nearest'
        # plt.gca ().invert_yaxis ()                     
        # plt.savefig(os.path.join(r'D:\Fluxnet\PIC666\HeatMap1',s.split('_',6)[1])
        #             , bbox_inches='tight', dpi=500)
        
        # plt.show()
        # # plt.clf ()
        # # plt.close ()
        
        #==========================Interpolation map of RMSE=======================
       
        # y,x=np.mgrid[1500:300:4j,30:110:3j]#300:2100:10j,30:150:7j #1:10:10j,1:10:10j 500:2000:6j,30:110:5j

        # points=np.hstack((x.flatten()[:,None],y.flatten()[:,None]))
        
        # y1,x1=np.mgrid[300:1500:500j,30:110:500j]#300:2100:1000j,30:150:1000j 1:10:1000j,1:10:1000j
        
        # z1=griddata(points 
        #             ,np.array(rmse)
        #             ,(x1,y1)
        #             ,method='cubic')
        
        # plt.figure(figsize=(10,8),dpi=400)
        
        # plt.imshow(z1
        #           ,extent=[np.min(x),np.max(x),np.min(y),np.max(y)]
        #           ,cmap='jet'
        #           ,aspect='auto')
        
        # print(points)

        # plt.colorbar(extend='both', label='RMSE of OOB (W/m²)')
        
        # plt.xlabel('MAX_DEPTH') 
        # plt.ylabel('N_ESTIMATORS')
        # # a=[i for i in range(3,12)]
        # plt.savefig(os.path.join(r'D:\Fluxnet\PIC666\InterpolationMap1',s.split('_',6)[1])
        #             , bbox_inches='tight', dpi=500)
       
        # plt.show()
        # # plt.clf ()
        # # plt.close ()
            
            #==================================建模====================================
            
        rf=RandomForestRegressor(n_estimators=1100
                                      ,max_depth=80
                                       ,oob_score=True
                                      ,random_state=(0))   
        rf.fit(x_train,y_train)    
        # rf.fit(Drivers,LE)     


        # pred_oob = rf.oob_prediction_ #袋外预测值
        # print(len(pred_oob))
        # print(pred_oob)
        # rmse=np.sqrt(mean_squared_error(LE, pred_oob)) #袋外均方根误差
        # rmse_list.append(rmse)
        # Rmse_list.append(rmse)
        # rmse_df=pd.DataFrame({'rmse':rmse_list})
        # print(rmse_df)
        # print(rmse_list)
          
        rmse=np.sqrt(mean_squared_error(y_test,rf.predict(x_test)))
        rmse_list.append(rmse)
        Rmse_list.append(rmse)
        rmse_df=pd.DataFrame({'rmse':rmse_list})
        print(rmse_df)
        print(rmse_list)
        
        # r2=rf.oob_score_
        r2=r2_score(y_test,rf.predict(x_test))  
        r2_list.append(r2)
        R2_list.append(r2)
        r2_df=pd.DataFrame({'r2':r2_list})
        
        # bias=(pred_oob-LE).mean()
        bias=(rf.predict(x_test)-y_test).mean()
        bias_list.append(bias)
        Bias_list.append(bias)
        bias_df=pd.DataFrame({'bias':bias_list})
        
        #==============================复制一下整个的 插补 保存 比较 导出
        
        gap_dropna_copy=gap_dropna.copy()
        gap_dropna_copy=gap_dropna_copy[feature]
        gap_dropna_copy=gap_dropna_copy.dropna()
        gap_dropna_copy.loc[:, 'LE_gap_filled'] = rf.predict(gap_dropna_copy)

        
        le=sole.copy()
        le['LE_F_MDS_QC'].replace([1,2,3], np.nan, inplace=True)
        le['LE_F_MDS_QC'].replace(0, -9999, inplace=True)
        le['LE_F_MDS_QC'].fillna(gap_dropna_copy['LE_gap_filled'], inplace=True)
        le['RMSE']=[rmse]*sole.shape[0]
        
        dic={'TIMESTAMP_START':le['TIMESTAMP_START'].tolist()
            ,'TIMESTAMP_END':le['TIMESTAMP_END'].tolist() 
            ,'LE_Gap_filled': le['LE_F_MDS_QC'].tolist()
            ,'RMSE': le['RMSE']
            ,'Drivers': [' '.join(Drivers.columns.tolist())]*sole.shape[0]
            }
        print(le['TIMESTAMP_START'])
        print(le['TIMESTAMP_END'])
        
        dic_df = pd.DataFrame(dic)
        # pd.set_option('display.max_rows',None)
        # print(big_list)
        
        # dic_df.to_csv(os.path.join(outpath, str(dalei.split('_',6)[1])  +'.csv'),index = False)
        
        
        #==============================高斯核密度散点图==============================
            
        # post_gs=pd.DataFrame({'predict':pred_oob,'in_situ':LE,})
        post_gs=pd.DataFrame({'predict':rf.predict(x_test),'in_situ':y_test,}) 
        post_gs['index']=[i for i in range(post_gs.shape[0])]
        post_gs=post_gs.set_index('index')
        # print('实际的： ',pd.DataFrame(y_test))
        # print('预测的： ',pd.DataFrame(rf.predict(x_test)))
        # plt.scatter(post_gs['in_situ'],post_gs['predict'])
        # sns.jointplot(post_gs,x=post_gs['in_situ'],y=post_gs['predict'],kind='reg');
    
        x=post_gs['in_situ']
        y=post_gs['predict']
        xy = np.vstack([x,y])#计算点密度
        z = gaussian_kde(xy)(xy)#高斯核密度
        #根据密度对点进行排序，最密集的点在最后绘制
        idx = z.argsort()
        x, y, z = x[idx], y[idx], z[idx]
        
        fw = 800
   
    
        ax = fig.add_subplot(10,4,count)
        count += 4
        scatter = ax.scatter(x,y,marker='o',c=z,s=15,label='LST',cmap='PuBuGn_r') # o是实心圆，c=是设置点的颜色，cmap设置色彩范围，'Spectral_r'和'Spectral'色彩映射相反
        divider = make_axes_locatable(ax) #画色域图
        plt.scatter(x, y, c=z, s=7, cmap='jet')
        plt.axis([0, fw, 0, fw])  # 设置线的范围
        
        
        plt.title(10, 700, dalei, family = 'Times New Roman',size=21)
        plt.text(len(feature), family = 'Times New Roman',size=21)
        # plt.text(10, 600, 'Drivers = %s' % len(feature), family = 'Times New Roman',size=21)
        # plt.text(10, fw-18, 'Size = %.f' % len(y), family = 'Times New Roman',size=15) # text的位置需要根据x,y的大小范围进行调整。
        # plt.text(10, fw-26, 'RMSE = %.3f W/m²' % rmse, family = 'Times New Roman',size=15)
        # plt.text(10, fw-34, 'R² = %.3f' % r2, family = 'Times New Roman',size=15)
        # plt.text(10, fw-42, 'BIAS = %.3f W/m²' % bias, family = 'Times New Roman',size=15)
        ax.set_xlabel('Station LE (W/m²)',family = 'Times New Roman',size=21)
        ax.set_ylabel('Estimated LE (W/m²)',family = 'Times New Roman',size=21)
        plt.plot([0,fw], [0,fw], 'gray', lw=2)  # 画的1:1线，线的颜色为black，线宽为0.8
        plt.xlim([0,fw])
        plt.ylim([0,fw])
        plt.xticks(fontproperties='Times New Roman',size=20)
        plt.yticks(fontproperties='Times New Roman',size=20)
        
        plt.tight_layout()
        
     

        # site_list+=[dalei.split('_',6)[1]]
        # year_list+=[int(dalei.split('_',6)[5].split('-',1)[1])
        #             -int(dalei.split('_',6)[5].split('-',1)[0])+1]  
            
        # total_number.append(int(sole.shape[0]))
        # post_dropna_number.append(int(train_option_dropna.shape[0]))
        # post_drop_le_abnormal_number.append(int(c.shape[0]))
        # test_number.append(int(c.shape[0]*0.25))
        # train_number.append(int(c.shape[0]*0.75))
        # N_estimators.append(n_estimators)
        # Max_depth.append(max_depth)
        #===============================================导出
         
        # dic={'SITES':site_list,'YEAR':year_list,'原始数目':total_number
        #           ,'去掉空值后':post_dropna_number
        #           ,'去掉LE异常值后':post_drop_le_abnormal_number
        #           ,'TRAIN_NUMBER':train_number
        #           ,'TEST_NUMBER':test_number
        #           # ,'n_estimators':N_estimators,'max_depth':Max_depth
        #           ,'RMSE':Rmse_list,'R2':R2_list,'BIAS':Bias_list
        #           ,'Drivers_column':Drivers_column
        #           ,'Filling_rate' : Filling_rate_list
        #         }
            
        # dic=pd.DataFrame(dic)
        # # print(dic)
        # dic.to_csv(r'D:\Fluxnet\OUTCOME\RMSE_ALL\RMSE_All_Day.csv')
        
        # dic_sole={
        #           'RMSE':rmse_list,'R2':r2_list,'BIAS':bias_list
        #           } 
        # dic_sole=pd.DataFrame(dic_sole)
        # dic_sole.to_csv(os.path.join(r'D:\Fluxnet\OUTCOME\RMSE', str(dalei.split('_',6)[1])  +'.csv'),index = False)
        
                

        #============================================================MDS_GAP
        
    #     print('用来MDS原始数据集去掉空值后的值： ',sole_raw.shape)
    #     # all_year = int((dalei.split('_')[5]).split('-')[1])-int((dalei.split('_')[5]).split('-')[0])+1
        
    #     MDS_GAP=sole_raw

    #     MDS_GAP['Year']=MDS_GAP['TIMESTAMP_END']
    #     MDS_GAP['TIMESTAMP_END']=MDS_GAP['TIMESTAMP_END'].astype('str')
    #     MDS_GAP['TIMESTAMP_END']=pd.to_datetime(MDS_GAP['TIMESTAMP_END'])
    #     MDS_GAP['Year'] = MDS_GAP['TIMESTAMP_END'].dt.year  #老报错 Time stamp is not equidistant (half-)hours in rows: 35040, 35088, 52560, 52608, 70080, 70128, 87600, 87648
        
        
    #     MDS_GAP['DoY']=MDS_GAP['TIMESTAMP_END']
    #     MDS_GAP['TIMESTAMP_END']=MDS_GAP['TIMESTAMP_END'].astype('str')
    #     MDS_GAP['TIMESTAMP_END']=pd.to_datetime(MDS_GAP['TIMESTAMP_END'])
    #     doy=[]
    #     for i in MDS_GAP['TIMESTAMP_END']:
    #         doy += [i.strftime("%j")]
    #     MDS_GAP['DoY'] = doy  #老报错 Time stamp is not equidistant (half-)hours in rows: 35040, 35088, 52560, 52608, 70080, 70128, 87600, 87648


    #     MDS_GAP['Hour'] = MDS_GAP['TIMESTAMP_END']
    #     MDS_GAP['TIMESTAMP_END']=MDS_GAP['TIMESTAMP_END'].astype('str')
    #     MDS_GAP['TIMESTAMP_END']=pd.to_datetime(MDS_GAP['TIMESTAMP_END'])
    #     hour=[]
    #     for i in MDS_GAP['TIMESTAMP_END']:
    #         hour += [int(i.strftime('%H'))+float(i.strftime('%M'))/60]
    #     MDS_GAP['Hour'] = hour   
    #     # MDS_GAP['Hour'] = [MDS_GAP['TIMESTAMP_END'].dt.hour+MDS_GAP['TIMESTAMP_END'].dt.minute/60]
    #     #老报错 Time stamp i
    #     # doy_first=[1]*47
    #     # doy_then = []
        
    #     # for day in range(2,366):
            
    #     #     doy_then+=[day]*48
        
    #     # doy_last = [366]
        
    #     # doy = (doy_first + doy_then + doy_last) * 1 #第一年的hour 是从0.5开始的，故47天 分开算      
    #     # print(len(doy))
        
    #     # MDS_GAP=sole_raw
    #     # MDS_GAP=MDS_GAP[:len(17520*all_year)]
    
    #     # MDS_GAP['DoY']=doy *  all_year  
 
        
    #     # first_year = int((s.split('_')[5]).split('-')[0])
    #     # last_year = int((s.split('_')[5]).split('-')[1])
        
    #     # year=[]
    #     # for i in range(first_year , first_year+1):
        

    #     #     year +=[i] *17520
        
    #     # MDS_GAP['Year'] = year
    

    #     # hour_first=[]
    #     # hour_first+=[0.5*i for i in range(1,48)]
    #     # hour_then=[]
    #     # hour_then+=[0.5*i for i in range(48)]
    #     # hour_then = hour_then*364
    #     # hour_last = [0.0]
    #     # hour=hour_first + hour_then + hour_last
    #     # hour=hour * 1

    #     # MDS_GAP['Hour']=hour *  all_year 
  
    #     MDS_GAP.loc[:,'LE']=y_test
        
    #     MDS_GAP['LE'].to_csv(os.path.join(r'C:\Users\Lenovo\Desktop\R\用来rmse的原始值666', str(dalei.split('_',6)[1]) + '.txt'),sep='	',index = False)
    #     print('=======================',MDS_GAP['LE'])
        
    #     MDS_GAP['LE_F_MDS']=sole_raw['LE_F_MDS']
    #     # print('=======================',MDS_GAP['LE_F_MDS'])
        
    #     MDS_GAP.loc[MDS_GAP['LE']>=-9999,['LE']] = -9999
    #     print('=======================',MDS_GAP['LE'])
        
    #     MDS_GAP['LE'].fillna(MDS_GAP['LE_F_MDS'],inplace=True)
    #     # print('=======================',MDS_GAP['LE'])
    #     # MDS_GAP['rH']=MDS_GAP['RH']
    #     # MDS_GAP['Tsoil']=MDS_GAP['TS_F_MDS_1']
        
    #     MDS_GAP['Rg']=MDS_GAP['SW_IN_F_MDS']
       
    #     MDS_GAP['Tair']=MDS_GAP['TA_F_MDS']
       
    #     MDS_GAP['VPD']=MDS_GAP['VPD_F_MDS']
       
    #     MDS_GAP['NEE']=MDS_GAP['NEE_VUT_REF']
    #     MDS_GAP=MDS_GAP[['Year','DoY','Hour','NEE','LE','Rg','Tair','VPD']]#,'Tsoil','rH',
        
    #     # Drivers control Rg <= 1200W/m² Ta <= 2.5℃W/m² VPD <= 50hPa
    #     MDS_GAP.loc[MDS_GAP['Rg'] > 1200 , ['Rg']] = -9999
    #     # MDS_GAP.loc[MDS_GAP['Tair'] > 2.5 , ['Tair']] ==-9999
    #     MDS_GAP.loc[MDS_GAP['VPD'] > 50 , ['VPD']] = -9999
    #     #将单位插到第零行的位置上r
    #     row = 0  # 插入的位置
    #     value = pd.DataFrame([['-', '-', '-', 'umolm-2s-1','Wm-2', 'Wm-2', 'degC','hPa']],columns=MDS_GAP.columns)  # 插入的数据  'degC','%',
    #     df_tmp1 = MDS_GAP[:row]
    #     df_tmp2 = MDS_GAP[row:]
        
        

    #     # 插入合并数据表
    #     MDS_GAP = df_tmp1.append(value).append(df_tmp2)
        
    #     MDS_GAP = MDS_GAP.fillna(-9999)
    #     print(MDS_GAP.head())
        
    #     # MDS_GAP.to_csv(os.path.join(r'D:\Fluxnet\OUTCOME\MDS_TRY666', str(dalei.split('_',6)[1])  + '.txt'),sep='	',index = False)
    
    #     # else:
    #     #     pass
           
            
    #         # doy_first=[1]*47
    #         # doy_then = []
            
    #         # for day in range(2,366):
                
    #         #     doy_then+=[day]*48
            
    #         # doy_last = [366]
            
    #         # doy = (doy_first + doy_then + doy_last) * all_year #第一年的hour 是从0.5开始的，故47天 分开算      
    #         # print(len(doy))
            
            
    #         # MDS_GAP=sole_raw
    #         # MDS_GAP=MDS_GAP[:len(doy)]
        
    #         # MDS_GAP['DoY']=doy     
           
    #         # # MDS_GAP['Year']=MDS_GAP['TIMESTAMP_START']
    #         # # MDS_GAP['TIMESTAMP_START']=MDS_GAP['TIMESTAMP_START'].astype('str')
    #         # # MDS_GAP['TIMESTAMP_START']=pd.to_datetime(MDS_GAP['TIMESTAMP_START'])
    #         # # MDS_GAP['Year'] = MDS_GAP['TIMESTAMP_START'].dt.year  #老报错 Time stamp is not equidistant (half-)hours in rows: 35040, 35088, 52560, 52608, 70080, 70128, 87600, 87648
    #         # # MDS_GAP['Year'] = MDS_GAP['Year']
            
            
    #         # first_year = int((s.split('_')[5]).split('-')[0])
    #         # last_year = int((s.split('_')[5]).split('-')[1])
            
    #         # year=[]
    #         # for i in range(first_year , last_year + 1):
            
    
    #         #     year +=[i] *17520
            
    #         # MDS_GAP['Year'] = year
                
                
    
    #         # hour_first=[]
    #         # hour_first+=[0.5*i for i in range(1,48)]
    #         # hour_then=[]
    #         # hour_then+=[0.5*i for i in range(48)]
    #         # hour_then = hour_then*364
    #         # hour_last = [0.0]
    #         # hour=hour_first + hour_then + hour_last
    #         # hour=hour * all_year
            
    #         # MDS_GAP['Hour']=hour
         
            
    #         # MDS_GAP.loc[:,'LE']=y_test
            
    #         # MDS_GAP['LE'].to_csv(os.path.join(r'C:\Users\Lenovo\Desktop\R\用来rmse的原始值666', str(s.split('_',6)[1]) + '.txt'),sep='	',index = False)
    #         # print('=======================',MDS_GAP['LE'])
            
    #         # MDS_GAP['LE_F_MDS']=sole_raw['LE_F_MDS']
    #         # # print('=======================',MDS_GAP['LE_F_MDS'])
            
    #         # MDS_GAP.loc[MDS_GAP['LE']>=-9999,['LE']] = -9999
    #         # print('=======================',MDS_GAP['LE'])
            
    #         # MDS_GAP['LE'].fillna(MDS_GAP['LE_F_MDS'],inplace=True)
    #         # # print('=======================',MDS_GAP['LE'])
    #         # # MDS_GAP['rH']=MDS_GAP['RH']
    #         # # MDS_GAP['Tsoil']=MDS_GAP['TS_F_MDS_1']
            
    #         # MDS_GAP['Rg']=MDS_GAP['SW_IN_F_MDS']
           
    #         # MDS_GAP['Tair']=MDS_GAP['TA_F_MDS']
           
    #         # MDS_GAP['VPD']=MDS_GAP['VPD_F_MDS']
           
    #         # MDS_GAP['NEE']=MDS_GAP['NEE_VUT_REF']
    #         # MDS_GAP=MDS_GAP[['Year','DoY','Hour','NEE','LE','Rg','Tair','VPD']]#,'Tsoil','rH',
            
    #         # # Drivers control Rg <= 1200W/m² Ta <= 2.5℃W/m² VPD <= 50hPa
    #         # MDS_GAP.loc[MDS_GAP['Rg'] > 1200 , ['Rg']] = -9999
    #         # # MDS_GAP.loc[MDS_GAP['Tair'] > 2.5 , ['Tair']] ==-9999
    #         # MDS_GAP.loc[MDS_GAP['VPD'] > 50 , ['VPD']] = -9999
    #         # #将单位插到第零行的位置上r
    #         # row = 0  # 插入的位置
    #         # value = pd.DataFrame([['-', '-', '-', 'umolm-2s-1','Wm-2', 'Wm-2', 'degC','hPa']],columns=MDS_GAP.columns)  # 插入的数据  'degC','%',
    #         # df_tmp1 = MDS_GAP[:row]
    #         # df_tmp2 = MDS_GAP[row:]
            
            
    
    #         # # 插入合并数据表
    #         # MDS_GAP = df_tmp1.append(value).append(df_tmp2)
            
    #         # MDS_GAP = MDS_GAP.fillna(-9999)
    #         # print(MDS_GAP.head())
            
    #         # MDS_GAP.to_csv(os.path.join(r'D:\Fluxnet\OUTCOME\MDS_TRY666', str(s.split('_',6)[1])  + '.txt'),sep='	',index = False)
        
         
        
    #     #===============================================Various length of gap
        
    #     # for j,k in zip([0.05,0.075,0.125],[6,24,48]): #一天 七天 一月 一共占总数据的0.25
    #     # #48,336,720
          
    #     #   df0=sole.copy()
    #     #   print(len(df0))
    #     #   df=df0[df0['LE_F_MDS_QC']==0]
    #     #   print(df['LE_F_MDS_QC'])
    #     #   print(len(df))
    #     #   print('!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!')
          
          
          
    #     #   #可以开始make gap的位置区间
    #     #   start_point=np.arange(df['LE_F_MDS_QC'].index[0],df['LE_F_MDS_QC'].index[-1]-k+1) #k是gap长度 
         
    #     #   #gap的个数
    #     #   gap_number=int(len(df)*j/k)
    #     #   print(gap_number)
          
    #     #   # 随机选择开始的位置
    #     #   # np.random.seed(1) # 每次的随机数都是一样的
          
    #     #   gap_posi=np.random.choice(start_point,gap_number*3) #多一点选择的余地
          
    #     #   posi=sorted(gap_posi) # 排一下顺序}
    #     #   print(posi)
          
    #     #   count=0
    #     #   gap_qujian=[]
          
    #     #   # 并不是每个随机开始的位置都可以用，不能和以前的gap开始的位置重叠，gap的位置数据量也要充足

    #     #   for m,n in enumerate(posi): # m是索引 n是开始的位置（其实也是索引）
             
    #     #       # 单个gap的区间
    #     #       # 意思是从第多少位到多少位是gap区间
    #     #       gap_danqujian_list =[h for h in np.arange(n,n+k)]
    #     #       print(gap_danqujian_list)
    #     #       print('==')
    #     #       # 整个DataFrame中的gap
    #     #       gap_df = df0.iloc[gap_danqujian_list]
    #     #       # print(gap_df)
    #     #       # gap区间要在限定的范围内
    #     #       if np.isin(gap_danqujian_list,start_point).all():
                 
    #     #           # 不同长度gap不能重叠
    #     #           if m>0 and n-posi[m-1] <= k: 
    #     #               continue
    
    
    #     #           # gap区间内要有足够的原始数据
    #     #           if len(gap_df.dropna()) / len(gap_df) < 0.5:
    #     #               continue
         
    #     #           gap_qujian.extend(gap_danqujian_list)
    #     #           print(gap_qujian)
    #     #           count += 1

 
    #     #       if count == gap_number: # 每种gap的数目都要达到gap_number,达到规定的比例才会停止
                  
    #     #           print('@@@@@@@@@@@@@@@@@@@@@')
    #     #           print(count)
    #     #           break
          
    #     #   # 要去掉索引对应的le为空的suoyin
    
    #     #   test_df=df0.iloc[gap_qujian] # pd.iloc[[1,2,3]] 查找方括号内数字所在的行
    #     #   print(test_df)
    #     #   print(len(test_df))
         
    #     #   test=test_df.loc[test_df['LE_F_MDS_QC']==0,].dropna(axis=0) # pd.iloc[[1,2,3]] 查找方括号内数字所在的行
    #     #   print(test)
    #     #   print(len(test))
  
    #     #   train_index=np.setdiff1d(df0.index,test_df.index) # setdiff1d 前面那个数组有 后边那个没有的值
    #     #   print(train_index)
        
    #     #   train_df=df0.iloc[train_index] # # pd.iloc[[1,2,3]] 查找方括号内数字所在的行
    #     #   train=train_df.loc[train_df['LE_F_MDS_QC']==0,].dropna(axis=0)
    #     #   print(train)
    #     #   print(len(train))
        
        
    #     #   pd.set_option('display.max_columns', None)
    #     # # print(test.head(5))
    #     #   print(train.shape)
    #     #   print(test.shape)
        
    #     #   a=pd.DataFrame(test.isna().sum().sort_values(ascending=False))
            
    #     # # des=test.describe()
    #     # # shangxu=des.loc['75%']+1.5*(des.loc['75%']-des.loc['25%'])
    #     # # xiaxu=des.loc['25%']-1.5*(des.loc['75%']-des.loc['25%'])
    #     # # test=test[(test['LE_F_MDS'] <=shangxu[3])
    #     # #           &(test['LE_F_MDS'] >=xiaxu[3])]
     
        
    #     #  # print(des)
    #     #  # des=train.describe()
    #     #  # shangxu=des.loc['75%']+1.5*(des.loc['75%']-des.loc['25%'])
    #     #  # xiaxu=des.loc['25%']-1.5*(des.loc['75%']-des.loc['25%'])
    #     #  # train=train[(train['LE_F_MDS'] <=shangxu[3])
    #     #  #             &(train['LE_F_MDS'] >=xiaxu[3])]
    #     #  # print(xiaxu)
             
    #     #   train=train.drop(['TIMESTAMP_START','TIMESTAMP_END','LE_F_MDS_QC'],axis=1)
    #     #   test=test.drop(['TIMESTAMP_START','TIMESTAMP_END','LE_F_MDS_QC'],axis=1)
        
    #     #   # train_Drivers=train.drop(['LE_F_MDS'],axis=1)
    #     #   train_Drivers=train[feature]
    #     #   print(train_Drivers.index)
         
    #     #   # test_Drivers=test.drop(['LE_F_MDS'],axis=1) 
    #     #   test_Drivers=test[feature]
    #     #   print(test_Drivers.index)
         
    #     #   train_LE=train['LE_F_MDS']
    #     #   print(train_LE.index)
         
    #     #   test_LE=test['LE_F_MDS']
    #     #   print(test_LE.index)
         
    #     #   # x_train,x_test,y_train,y_test=train_test_split(Drivers,LE
    #     #   #                                                ,test_size=0.25
    #     #   #                                                ,random_state=(0))                            
    #     #   print(train_Drivers.shape)
    #     #   print(test_Drivers.shape)
    #     #   print(train_LE.shape)
    #     #   print(test_LE.shape)
     
    #     #   # ==============================建模====================================
         
    #     #   rf1=RandomForestRegressor(n_estimators=1100
    #     #                             ,max_depth=80
    #     #                             ,random_state=(0))   
    #     #   rf1.fit(train_Drivers,train_LE)    
         
    #     #   rmse1=np.sqrt(mean_squared_error(test_LE,rf1.predict(test_Drivers)))
         
  
    #     #   rmse_list1.append(rmse1)
    #     #   rmse_df=pd.DataFrame({'rmse':rmse_list1})
    #     #   print(rmse_df)
         
    #     #   r2=r2_score(test_LE,rf1.predict(test_Drivers))  
    #     #   r2_list1.append(r2)
    #     #   r2_df=pd.DataFrame({'r2':r2_list1})
         
    #     #   bias=(rf1.predict(test_Drivers)-test_LE).mean()
    #     #   bias_list1.append(bias)
    #     #   bias_df=pd.DataFrame({'bias':bias_list1})
         
    #     #   site_list1+=[s.split('_',6)[1]]
    #     #   year_list1+=[int(s.split('_',6)[5].split('-',1)[1])
    #     #               -int(s.split('_',6)[5].split('-',1)[0])+1]  
         
    #     #   # total_number.append(int(b.shape[0]))
    #     #   # post_dropna_number.append(int(a.shape[0]))
    #     #   # post_drop_le_abnormal_number.append(int(c.shape[0]))
    #     #   test_number1.append(int(test.shape[0]))
    #     #   train_number1.append(int(train.shape[0]))
         
   
    #     #   dic2={'SITES':site_list1,'YEAR':year_list1
    #     #         # ,'原始数目':total_number
    #     #         # ,'去掉空值后':post_dropna_number
    #     #         # ,'去掉LE异常值后':post_drop_le_abnormal_number
    #     #         ,'TRAIN_NUMBER':train_number1
    #     #         ,'TEST_NUMBER':test_number1
    #     #         # ,'n_estimators':N_estimators,'max_depth':Max_depth
    #     #         ,'RMSE':rmse_list1,'R2':r2_list1,'BIAS':bias_list1
               
    #     #       }
         
    #     #   dic2=pd.DataFrame(dic2)
    #     #   print(dic2)
    #     #   dic2.to_csv(os.path.join(r'D:\Fluxnet\OUTCOME\GAP_diff', str(s.split('_',6)[1]) + '.csv'),index = False)
        
    # #     plt.tight_layout()
    

    #===================================RMSE&FILLING RATE 双轴图
        
    #=============================== 变量个数 VS.插补率
    
    # fig = plt.subplot(8,5,36+dalei)    
    # plt.savefig(os.path.join(r'D:\Fluxnet\PIC666\DoubleY',s.split('_',6)[1])
    #             , bbox_inches='tight', dpi=500)
    
    x = [12,11,10,9,8,7,6,5,4] #reversed(range(len(df.index)+1))matplotlib does not support generators as input
    y1 = rmse_list
    y2 = filling_rate_list
    
    # fig = plt.figure(figsize=(12,8),dpi=400)

    ax = fig.add_subplot(10,4,doubley)

    
    line1=ax.plot(x, y1,color='red',linestyle='--',marker='o',linewidth=2.5)
    
    ax.set_ylabel('RMSE of 25% tesing set', {'family':'Times New Roman','weight':'normal','size':21},color='red')
    ax.set_xlabel('Number of drivers',{'family':'Times New Roman','weight':'normal','size':21})
    ax.tick_params(labelsize=20)
    
    # ax1.set_title("")
    ax2 = ax.twinx()  # this is a important function
    #ax2.set_ylim([-0.05,1.05]) # 设置y轴取值范围   
    # ax2.set_yticks([0.0,0.3,0.5,0.7,0.9]) # 设置刻度范围 
    # ax2.set_yticklabels([0.0,0.3,0.5,0.7,0.9]) # 设置刻度
    line2=ax2.plot(x, y2,color='blue',marker='o',linewidth=2.5)
    ax2.tick_params(labelsize=20)
    ax2.set_ylabel('Filling rate', {'family':'Times New Roman','weight':'normal','size':21},color='blue')
    # ax2.invert_yaxis() #invert_yaxis()翻转纵轴，invert_xaxis()翻转横轴
    
    plt.tick_params(labelsize=20)
    plt.xticks(np.arange(3, 13, 1),fontproperties='Times New Roman',size=20)
   
    # line=line1+line2
    # ax1.legend(line, [i.get_label() for i in line] ,loc='upper left')
    
    # for x,y in zip(x,y1):
    #     ax1.text(x,y,'%.0f' % y,fontdict={'fontsize:15'},color='red')
        
    # for x,y in zip(x,y2):
    #     ax2.text(x,y,'%.2f' % y,fontdict={'fontsize:15'},color='blue')
    
    # plt.savefig(os.path.join(r'D:\Fluxnet\PIC666\8280',dalei.split('_',6)[1])
    #                       , bbox_inches='tight', dpi=500)
    # plt.show()
    plt.savefig(os.path.join(r'D:\Fluxnet\PIC666\828','dalei')
                      , bbox_inches='tight', dpi=500)
    plt.show()
       
    #========================================读一下八个csv
    
    # dic_list=[]
    
    # for i in range(3,13):
        
    #     df=pd.read_csv(os.path.join(outpath,str(s.split('_',6)[1]) + str(i) + '.csv'))
        
    #     dic={'list_name':df, 'rmse':df['RMSE'][0]}
        
    #     dic_list+=[dic]
        
    #     # print(dic_list)
    # print('=============================================')
        
    # # df3=pd.read_csv(os.path.join(r'D:\Fluxnet\OUTCOME',str(s.split('_',6)[1]) + '3' +'.csv'))
    # # df4=pd.read_csv(os.path.join(r'D:\Fluxnet\OUTCOME',str(s.split('_',6)[1]) + '4' +'.csv'))
    # # df5=pd.read_csv(os.path.join(r'D:\Fluxnet\OUTCOME',str(s.split('_',6)[1]) + '5' +'.csv'))
    # # df6=pd.read_csv(os.path.join(r'D:\Fluxnet\OUTCOME',str(s.split('_',6)[1]) + '6' +'.csv'))
    # # df7=pd.read_csv(os.path.join(r'D:\Fluxnet\OUTCOME',str(s.split('_',6)[1]) + '7' +'.csv'))
    # # df8=pd.read_csv(os.path.join(r'D:\Fluxnet\OUTCOME',str(s.split('_',6)[1]) + '8' +'.csv'))
    # # df9=pd.read_csv(os.path.join(r'D:\Fluxnet\OUTCOME',str(s.split('_',6)[1]) + '9' +'.csv'))
    # # df10=pd.read_csv(os.path.join(r'D:\Fluxnet\OUTCOME',str(s.split('_',6)[1]) + '10' +'.csv'))
    # # df11=pd.read_csv(os.path.join(r'D:\Fluxnet\OUTCOME',str(s.split('_',6)[1]) + '11' +'.csv'))   
    
    # # dic=[{'list_name':df3, 'rmse':df3['RMSE'][0]}
    # #      ,{'list_name':df4, 'rmse':df4['RMSE'][0]}
    # #      ,{'list_name':df5, 'rmse':df5['RMSE'][0]}
    # #      ,{'list_name':df6, 'rmse':df6['RMSE'][0]}
    # #      ,{'list_name':df7, 'rmse':df7['RMSE'][0]}
    # #      ,{'list_name':df8, 'rmse':df8['RMSE'][0]}
    # #      ,{'list_name':df9, 'rmse':df9['RMSE'][0]}
    # #      ,{'list_name':df10, 'rmse':df10['RMSE'][0]}
    # #      ,{'list_name':df11, 'rmse':df11['RMSE'][0]}
    # #     ]
    
    # sorted_dic=sorted(dic_list, key=lambda dic_list: dic_list['rmse'], reverse=False)
    
    # list_name=[a['list_name'] for a in sorted_dic] # 打印出来的话就是整个dataframe

    # df=pd.concat(list_name,axis=1)
        
    # print(df.head(0))
    # df.to_csv(os.path.join(outpath, str(s.split('_',6)[1]) +'6666'+'.csv'))


    # a=pd.read_csv(os.path.join(outpath, str(s.split('_',6)[1]) +'6666'+'.csv'))

    # df=pd.DataFrame(a.isna().sum().sort_values(ascending=False))

    # # 直接用fillna来填，可行， 但还要填drivers!!!
    # # 找rmse最低值 对应的来开始填补

    # # 一
    # b=a.loc[a['LE_Gap_filled'] > -9999, ['LE_Gap_filled','Drivers','RMSE']]

    # a['Drivers']=a.loc[a['LE_Gap_filled'] == np.nan, ['Drivers']]
    # a['Drivers'].fillna( b['Drivers'] ,inplace = True ) # 自立门户 新建第一个模型的Drivers
    # print(a['Drivers'].describe())

    # a['RMSE']=a.loc[a['LE_Gap_filled'] == np.nan, ['RMSE']]
    # a['RMSE'].fillna( b['RMSE'] ,inplace = True ) # 自立门户 新建第一个模型的RMSE
    # print(a['RMSE'].describe())

    # b=a.loc[a['LE_Gap_filled.1'] > -9999, ['LE_Gap_filled.1', 'Drivers.1', 'RMSE.1']] # 只是有LE数值的地方，用来填充上边的空集

    # a['Drivers.1']=a.loc[a['LE_Gap_filled.1'] == np.nan, ['Drivers.1']]
    # a['Drivers.1'].fillna( b['Drivers.1'] ,inplace = True ) # 自立门户 新建第二个模型的Drivers
    # print(a['Drivers.1'].describe())

    # a['RMSE.1']=a.loc[a['LE_Gap_filled'] == np.nan, ['RMSE.1']]
    # a['RMSE.1'].fillna( b['RMSE.1'] ,inplace = True ) # 自立门户 新建第一个模型的RMSE
    # print(a['RMSE.1'].describe())

    # a['LE_Gap_filled'].fillna(a['LE_Gap_filled.1'], inplace=True) # LE Update
    # df1=pd.DataFrame(a.isna().sum().sort_values(ascending=False)) # 统计一下
    # print(df1)

    # a['Drivers'].fillna(a['Drivers.1'],inplace=True)  # Drivers Update
    # print(a['Drivers'].describe())

    # a['RMSE'].fillna(a['RMSE.1'],inplace=True)  # Rmse Update
    # print(a['RMSE'].describe())


    # # 二
    # b=a.loc[a['LE_Gap_filled.2'] > -9999, ['LE_Gap_filled.2', 'Drivers.2', 'RMSE.2']] # 只是有LE数值的地方，用来填充上边的空集

    # a['Drivers.2']=a.loc[a['LE_Gap_filled.2'] == np.nan, ['Drivers.2']]
    # a['Drivers.2'].fillna( b['Drivers.2'] ,inplace = True ) # 自立门户 新建第二个模型的Drivers
    # print(a['Drivers.2'].describe())

    # a['RMSE.2']=a.loc[a['LE_Gap_filled'] == np.nan, ['RMSE.2']]
    # a['RMSE.2'].fillna( b['RMSE.2'] ,inplace = True ) # 自立门户 新建第一个模型的RMSE
    # print(a['RMSE.2'].describe())

    # a['LE_Gap_filled'].fillna(a['LE_Gap_filled.2'], inplace=True) # LE Update
    # df2=pd.DataFrame(a.isna().sum().sort_values(ascending=False)) # 统计一下
    # print(df2)

    # a['Drivers'].fillna(a['Drivers.2'],inplace=True)  # Drivers Update
    # print(a['Drivers'].describe())

    # a['RMSE'].fillna(a['RMSE.2'],inplace=True)  # Rmse Update
    # print(a['RMSE'].describe())


    # # 三
    # b=a.loc[a['LE_Gap_filled.3'] > -9999, ['LE_Gap_filled.3', 'Drivers.3', 'RMSE.3']] # 只是有LE数值的地方，用来填充上边的空集

    # a['Drivers.3']=a.loc[a['LE_Gap_filled.3'] == np.nan, ['Drivers.3']]
    # a['Drivers.3'].fillna( b['Drivers.3'] ,inplace = True ) # 自立门户 新建第二个模型的Drivers
    # print(a['Drivers.3'].describe())

    # a['RMSE.3']=a.loc[a['LE_Gap_filled'] == np.nan, ['RMSE.3']]
    # a['RMSE.3'].fillna( b['RMSE.3'] ,inplace = True ) # 自立门户 新建第一个模型的RMSE
    # print(a['RMSE.3'].describe())

    # a['LE_Gap_filled'].fillna(a['LE_Gap_filled.3'], inplace=True) # LE Update
    # df3=pd.DataFrame(a.isna().sum().sort_values(ascending=False)) # 统计一下
    # print(df3)

    # a['Drivers'].fillna(a['Drivers.3'],inplace=True)  # Drivers Update
    # print(a['Drivers'].describe())

    # a['RMSE'].fillna(a['RMSE.3'],inplace=True)  # Rmse Update
    # print(a['RMSE'].describe())


    # # 四
    # b=a.loc[a['LE_Gap_filled.4'] > -9999, ['LE_Gap_filled.4', 'Drivers.4', 'RMSE.4']] # 只是有LE数值的地方，用来填充上边的空集

    # a['Drivers.4']=a.loc[a['LE_Gap_filled.4'] == np.nan, ['Drivers.4']]
    # a['Drivers.4'].fillna( b['Drivers.4'] ,inplace = True ) # 自立门户 新建第二个模型的Drivers
    # print(a['Drivers.4'].describe())

    # a['RMSE.4']=a.loc[a['LE_Gap_filled'] == np.nan, ['RMSE.4']]
    # a['RMSE.4'].fillna( b['RMSE.4'] ,inplace = True ) # 自立门户 新建第一个模型的RMSE
    # print(a['RMSE.4'].describe())

    # a['LE_Gap_filled'].fillna(a['LE_Gap_filled.4'], inplace=True) # LE Update
    # df4=pd.DataFrame(a.isna().sum().sort_values(ascending=False)) # 统计一下
    # print(df4)

    # a['Drivers'].fillna(a['Drivers.4'],inplace=True)  # Drivers Update
    # print(a['Drivers'].describe())

    # a['RMSE'].fillna(a['RMSE.4'],inplace=True)  # Rmse Update
    # print(a['RMSE'].describe())


    # # 五
    # b=a.loc[a['LE_Gap_filled.5'] > -9999, ['LE_Gap_filled.5', 'Drivers.5', 'RMSE.5']] # 只是有LE数值的地方，用来填充上边的空集

    # a['Drivers.5']=a.loc[a['LE_Gap_filled.5'] == np.nan, ['Drivers.5']]
    # a['Drivers.5'].fillna( b['Drivers.5'] ,inplace = True ) # 自立门户 新建第二个模型的Drivers
    # print(a['Drivers.5'].describe())

    # a['RMSE.5']=a.loc[a['LE_Gap_filled'] == np.nan, ['RMSE.5']]
    # a['RMSE.5'].fillna( b['RMSE.5'] ,inplace = True ) # 自立门户 新建第一个模型的RMSE
    # print(a['RMSE.5'].describe())

    # a['LE_Gap_filled'].fillna(a['LE_Gap_filled.5'], inplace=True) # LE Update
    # df5=pd.DataFrame(a.isna().sum().sort_values(ascending=False)) # 统计一下
    # print(df5)

    # a['Drivers'].fillna(a['Drivers.5'],inplace=True)  # Drivers Update
    # print(a['Drivers'].describe())

    # a['RMSE'].fillna(a['RMSE.5'],inplace=True)  # Rmse Update
    # print(a['RMSE'].describe())


    # # 六
    # b=a.loc[a['LE_Gap_filled.6'] > -9999, ['LE_Gap_filled.6', 'Drivers.6', 'RMSE.6']] # 只是有LE数值的地方，用来填充上边的空集

    # a['Drivers.6']=a.loc[a['LE_Gap_filled.6'] == np.nan, ['Drivers.6']]
    # a['Drivers.6'].fillna( b['Drivers.6'] ,inplace = True ) # 自立门户 新建第二个模型的Drivers
    # print(a['Drivers.6'].describe())

    # a['RMSE.6']=a.loc[a['LE_Gap_filled'] == np.nan, ['RMSE.6']]
    # a['RMSE.6'].fillna( b['RMSE.6'] ,inplace = True ) # 自立门户 新建第一个模型的RMSE
    # print(a['RMSE.5'].describe())

    # a['LE_Gap_filled'].fillna(a['LE_Gap_filled.6'], inplace=True) # LE Update
    # df6=pd.DataFrame(a.isna().sum().sort_values(ascending=False)) # 统计一下
    # print(df6)

    # a['Drivers'].fillna(a['Drivers.6'],inplace=True)  # Drivers Update
    # print(a['Drivers'].describe())

    # a['RMSE'].fillna(a['RMSE.6'],inplace=True)  # Rmse Update
    # print(a['RMSE'].describe())


    # # 七
    # b=a.loc[a['LE_Gap_filled.7'] > -9999, ['LE_Gap_filled.7', 'Drivers.7', 'RMSE.7']] # 只是有LE数值的地方，用来填充上边的空集

    # a['Drivers.7']=a.loc[a['LE_Gap_filled.7'] == np.nan, ['Drivers.7']]
    # a['Drivers.7'].fillna( b['Drivers.7'] ,inplace = True ) # 自立门户 新建第二个模型的Drivers
    # print(a['Drivers.7'].describe())

    # a['RMSE.7']=a.loc[a['LE_Gap_filled'] == np.nan, ['RMSE.7']]
    # a['RMSE.7'].fillna( b['RMSE.7'] ,inplace = True ) # 自立门户 新建第一个模型的RMSE
    # print(a['RMSE.7'].describe())

    # a['LE_Gap_filled'].fillna(a['LE_Gap_filled.7'], inplace=True) # LE Update
    # df7=pd.DataFrame(a.isna().sum().sort_values(ascending=False)) # 统计一下
    # print(df7)

    # a['Drivers'].fillna(a['Drivers.7'],inplace=True)  # Drivers Update
    # print(a['Drivers'].describe())

    # a['RMSE'].fillna(a['RMSE.7'],inplace=True)  # Rmse Update
    # print(a['RMSE'].describe())

    # # 八
    # b=a.loc[a['LE_Gap_filled.8'] > -9999, ['LE_Gap_filled.8', 'Drivers.8', 'RMSE.8']] # 只是有LE数值的地方，用来填充上边的空集

    # a['Drivers.8']=a.loc[a['LE_Gap_filled.8'] == np.nan, ['Drivers.8']]
    # a['Drivers.8'].fillna( b['Drivers.8'] ,inplace = True ) # 自立门户 新建第二个模型的Drivers
    # print(a['Drivers.8'].describe())

    # a['RMSE.8']=a.loc[a['LE_Gap_filled'] == np.nan, ['RMSE.8']]
    # a['RMSE.8'].fillna( b['RMSE.8'] ,inplace = True ) # 自立门户 新建第一个模型的RMSE
    # print(a['RMSE.8'].describe())

    # a['LE_Gap_filled'].fillna(a['LE_Gap_filled.8'], inplace=True) # LE Update
    # df8=pd.DataFrame(a.isna().sum().sort_values(ascending=False)) # 统计一下
    # print(df8)

    # a['Drivers'].fillna(a['Drivers.8'],inplace=True)  # Drivers Update
    # print(a['Drivers'].describe())

    # a['RMSE'].fillna(a['RMSE.8'],inplace=True)  # Rmse Update
    # print(a['RMSE'].describe())
    
    
    # # 九
    # b=a.loc[a['LE_Gap_filled.9'] > -9999, ['LE_Gap_filled.9', 'Drivers.9', 'RMSE.9']] # 只是有LE数值的地方，用来填充上边的空集

    # a['Drivers.9']=a.loc[a['LE_Gap_filled.9'] == np.nan, ['Drivers.9']]
    # a['Drivers.9'].fillna( b['Drivers.9'] ,inplace = True ) # 自立门户 新建第二个模型的Drivers
    # print(a['Drivers.9'].describe())

    # a['RMSE.9']=a.loc[a['LE_Gap_filled'] == np.nan, ['RMSE.9']]
    # a['RMSE.9'].fillna( b['RMSE.9'] ,inplace = True ) # 自立门户 新建第一个模型的RMSE
    # print(a['RMSE.9'].describe())

    # a['LE_Gap_filled'].fillna(a['LE_Gap_filled.9'], inplace=True) # LE Update
    # df8=pd.DataFrame(a.isna().sum().sort_values(ascending=False)) # 统计一下
    # print(df8)

    # a['Drivers'].fillna(a['Drivers.9'],inplace=True)  # Drivers Update
    # print(a['Drivers'].describe())

    # a['RMSE'].fillna(a['RMSE.9'],inplace=True)  # Rmse Update
    # print(a['RMSE'].describe())





    # # 加一下a的时间

    # so=pd.read_csv(os.path.join(path1,s))
    # so=so[['TIMESTAMP_START' ,'TIMESTAMP_END','LE_F_MDS']]

    # print(a['TIMESTAMP_START'])

    # print(a.shape)

    # a['QC'] = np.nan
    # a.loc[a['LE_Gap_filled'] > -9999, 'QC'] = 1
    # a.loc[a['LE_Gap_filled'] == -9999 , 'QC'] = 0
    
    # a['LE_Gap_filled'].replace(np.nan,-8888,inplace=True) # 原本是空值的部分  由于变量缺失过多，压根儿补不了的部分 在原数据集中，QC为3，表示的是ERA的数据
    # a['LE_Gap_filled'].replace(-9999,np.nan,inplace=True) #       |          空值还有种原因是 因为变量组合的原因，没有补到那一块，所以仍旧空
    # a['LE_Gap_filled'].fillna(sole['LE_F_MDS'],inplace=True)#  最后依旧是空值     
     
    # a.loc[a['LE_Gap_filled'] == -8888 , 'QC'] = -9999

    
    # print(a.dropna().shape[0]/a.shape[0])
    
    # a=a[[ 'TIMESTAMP_END', 'LE_Gap_filled', 'QC',  'Drivers', 'RMSE']]
    
    # a= pd.merge(so,a,how='outer',on='TIMESTAMP_END')

 
    # a['LE_Gap_filled'].fillna(a['LE_F_MDS'],inplace=True)   
    # a['LE_Gap_filled'].replace(-8888,np.nan,inplace=True)    
    
    # a=a[['TIMESTAMP_START', 'TIMESTAMP_END', 'LE_Gap_filled', 'QC',  'Drivers', 'RMSE']]
    
    
    # a['SW_IN_F_MDS']=np.nan
    # a['NETRAD']=np.nan
    # a['G_F_MDS']=np.nan
    # a['TA_F_MDS']=np.nan
    # a['RH']=np.nan
    # a['WD']=np.nan 
    # a['WS']=np.nan 
    
    # a['PA_F']=np.nan
    # a['VPD_F_MDS']=np.nan
    # a['NDVI']=np.nan
    # a['TS_F_MDS_1']=np.nan
    # a['SWC_F_MDS_1']=np.nan
    # a['TA_F_MDS']=np.nan
    
    # a['Drivers'].replace(np.nan,-9999,inplace=True)

    
    # b=a.loc[a['Drivers']!=-9999]
    # # print(b)
    
    # for i in b.columns[6:]:
        
    #     # print(i)
        
    #     c=b[b['Drivers'].str.contains(i)]

    #     c[i].replace(np.nan,'+',inplace=True)
        
    #     a[i]=c[i]
        
    # b=a.count(axis=1)-6
    # b=pd.DataFrame(b)
    
    # a['n_drivers']=b
    
    # a['n_drivers'].replace([-1,-2,-3],np.nan,inplace=True)
    
    # a['Drivers'].replace(-9999,np.nan,inplace=True)



    # # a.to_csv(os.path.join(path,sole+'.csv'),index = False)

    
    # a.to_csv(os.path.join(r'D:\Fluxnet\OUTCOME\FILLED',str(s.split('_',6)[1]) +'.csv'),index = False)
             



#  创造空列
# df["Empty_1"] = ""
# df["Empty_2"] = np.nan
# df['Empty_3'] = pd.Series()

你可能感兴趣的:(机器学习,python,sklearn)

华为OD机试 2025B卷 - 字符串序列判定(C++&Python&JAVA&JS&C语言) YOLO大师华为od 华为OD机试2025B卷华为OD2025B卷华为OD机试华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述：字符串序列判定/最后一个有效字符（本题分值100）输入两个字符串S和L，都只包含英文小写字母。S长度<=100，L长度<=500,000。判定S是否是L的有效子串。判定规则：S中的每个字符在L中都能找到（可以不连续），且S在Ｌ中字符的前后顺序与S中顺序要保持一致。（例如，S=”a
在Carla上应用深度强化学习实现自动驾驶（一）寒霜似karry 自动驾驶人工智能机器学习
carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据。以下代码参考自：（如有侵权，请联系我将立即删除）使用Carla和Python的自动驾驶汽车第2部分——控制汽车并获取传感器数据-CSDN博客1、导入carla（其中的路径根据自
华为OD机试E卷 - 分糖果（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java python javascript c++华为OD2025A卷华为od
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明从糖果盒中随意抓一把糖果，每次小明会取出一半的糖果分给同学们。当糖果不能平均分配时，小明可以选择从糖果盒中（假设盒中糖果足够）取出一个糖果或放回一个糖果。小明最少需要多少次（取出、放回和平均分配均记一次），能将手中糖果分至只剩一颗。输入描述抓取的糖果数（<10000000000）：15输出描述最少分至一颗糖果的次数
（Python基础篇）字符串的操作 EternityArt 基础篇 python 开发语言算法
目录引言一、字符串的基本定义与访问（一）字符串的定义（二）字符串的索引与切片二、字符串的常用操作方法（一）字符串的拼接与重复（二）字符串的大小写转换（三）字符串的去除空白（四）字符串的查找与替换（五）字符串的分割与连接（六）字符串的判断方法三、字符串的格式化（一）使用%运算符（二）使用str.format()方法（三）使用f-字符串（Python3.6+）四、字符串的不可变性五、总结引言在Pyth
华为OD机试 2025B卷 - 小明减肥(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD2025B卷华为OD机试华为机试2025B卷华为OD机试2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明有n个可选运动，每个运动有对应卡路里，想选出其中k个运动且卡路里和为t。k，t，n都是给定的。求出可行解数量输入描述第一行输入ntk第一行输入每个运动的卡路里按照空格进行分割备注00,00输出描述求出可行解
【华为OD机试真题 2025B卷】130、最多获得的短信条数、云短信平台优惠活动 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java javascript 华为OD机试真题 c语言最多获得的短信条数
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
【华为OD机试真题 2025B卷】128、判断一组不等式是否满足约束并输出最大差 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java 华为OD机试真题 c语言 javascript
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
Python Pandas库超详细教程：从入门到精通实战指南 stormsha Python python pandas 开发语言 python3.11 数据分析
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录Pyt
python中的元类Metaclass ReedSun python python
python中的元类Metaclass理解元类之前需要学习的知识如果说让我们创建一个类，最先想到的肯定是用class创建，当我们使用class创建类的时候，python解释器自动创建这个对象，但是python同样也提供了手动处理的方法来创建类，这就是用python的自建函数type()。我们所熟知的type()函数的作用是返回一个参数的类型，但是实际上，它也有一种完全不同的能力，即接受一个类的一些
python 元类的继承_Python学习_13_继承和元类五伤先生 python 元类的继承
继承继承的含义就是子类继承父类的命名空间，子类中可以调用父类的属性和方法，由于命名空间的查找方式，当子类中定义和父类同名属性或者方法时，子类的实例调用的是子类中的属性，而不是父类，这就形成了python中的多态：defSuperClass:defa_method:passdefSubClass(SuperClass):defa_method:passobj=SubClass()obj.a_meth
网络安全用什么编程语言_网络安全的5种最佳编程语言程序员羊羊 web安全网络安全开发语言数据库
网络安全用什么编程语言要成为网络安全专家，要取得成功，需要多种技能。全方位的专业人员可以放心地实施和监视安全措施，以保护计算机系统免受攻击和未经授权的访问。总部位于巴西的Python专家Henrique教人们如何使用该语言创建应用程序，他强调“除了紧跟网络安全领域的最新动态，您还需要熟悉各种编程语言。”这里有5种最佳编程语言，可帮助您提高网络安全职业的学习能力。1.C和C++C和C++是网络安全专
Python面试题：使用Python进行元编程：元类和元编程技巧
在Python中，元编程是一种编程技巧，它涉及到代码本身的结构和行为的编程。元编程允许你编写能够操作、修改或生成代码的代码。最常见的元编程技术包括使用元类、装饰器和类装饰器。以下是对Python元编程的详细讲解，包括元类和一些常用的元编程技巧。1.元类（Metaclasses）1.1定义和概念元类是用来创建类的类。换句话说，元类定义了类的行为，就像类定义了对象的行为一样。在Python中，type
Python元类基础知识示例深度剖析，从新手小白成为Python编程高手只存在于虚拟的King python 开发语言深度学习学习经验分享计算机网络程序人生
文章目录引言一、什么是元类？二、元类的工作原理三、如何定义元类四、元类的应用场景五、元类的注意事项六、结论关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道引言Python是一种强大的编程语言，一部
stm32 micropython vscode_VS Code 上最硬核的 MicroPython 插件 weixin_39968309 stm32 micropython vscode
介绍VSCode上最硬核的MicroPython插件——RT-ThreadMicroPython，为MicroPython开发提供了强大的开发环境，主要特性如下：设备快速连接(串口、网络、USB)支持基于MicroPython的代码智能补全与语法检查支持MicroPythonREPL交互环境提供丰富的代码示例与demo程序提供工程同步功能支持下载单个文件或文件夹至开发板支持在内存中快速运行代码文件
Python对JSON数据操作
在Python中，对JSON数据进行增删改查及加载保存操作，主要通过内置的json模块实现。一、基础操作1.加载JSON数据•从文件加载使用json.load()读取JSON文件并转换为Python对象（字典/列表）：importjsonwithopen('data.json','r',encoding='utf-8')asf:data=json.load(f)•从字符串加载使用json.load
【转载】python json
概念序列化（Serialization）：将对象的状态信息转换为可以存储或可以通过网络传输的过程，传输的格式可以是JSON、XML等。反序列化就是从存储区域（JSON，XML）读取反序列化对象的状态，重新创建该对象。JSON（JavaScriptObjectNotation）：一种轻量级数据交换格式，相对于XML而言更简单，也易于阅读和编写，机器也方便解析和生成，Json是JavaScript中的
Python os库完全指南：文件操作必备晨曦543210 Python启航之路 python 开发语言
一、简介Python的os库。这个库主要用于和操作系统交互，比如管理文件、目录、运行系统命令等。二、导入库importos三、基础操作获取当前工作目录current_dir=os.getcwd()print("当前目录:",current_dir)切换目录os.chdir("/path/to/new/directory")列出目录内容files=os.listdir()#不传参数则默认当前目录pr
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
Python JSON操作完全指南
目录一、简介二、JSON和Python的对应关系三、核心函数1.json.dumps()：将Python对象→JSON字符串2.json.loads()：将JSON字符串→Python对象3.json.dump()：将Python对象→JSON文件4.json.load()：从JSON文件→Python对象四、常见错误处理1.JSON解析错误2.类型不支持错误五、总结六、常用函数1️⃣json.d
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
华为OD机试 - 计算某字符出现次数（Python/JS/C/C++ 2025 B卷 100分）哪吒华为od python javascript 2025B卷华为OD机试
2025B卷华为OD机试统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述写出一个程序
华为OD机试 - 取零食 - 动态规划（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od 动态规划 python
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
华为OD机试 - 快速人名查找 - 深度优先搜索dfs（Python/JS/C/C++ 2025 B卷 200分）哪吒华为od 深度优先 python 2025A卷华为OD机试
一、题目描述给一个字符串，表示用","分开的人名。然后给定一个字符串，进行快速人名查找，符合要求的输出。快速人名查找要求：人名的每个单词的连续前几位能组成给定字符串，一定要用到每个单词。二、输入描述第一行是人名，用“，”分开的人名第二行是查找字符串。三、输出描述输出满足要求的人名。四、测试用例测试用例1：1、输入alicebob,charliedelta,alicecharlieac2、输出ali
2025上半年最新华为OD机试与面试指南，最新2025B卷独家总结上岸技巧，答读者问！必看！【万字长文，建议收藏】（Python/JS/C/C++）
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
Jetson Orin NX Super安装TensorRT-LLM u013250861 #LLM/部署&推理 elasticsearch 大数据搜索引擎
根据图片中显示的JetsonOrinNXSuper系统环境（JetPack6.2+CUDA12.6+TensorRT10.7），以下是针对该平台的TensorRT-LLM安装优化方案：一、环境适配调整基于你的实际配置：JetPack6.2（含CUDA12.6,TensorRT10.7）Python3.10.12aarch64架构需选择适配的TensorRT-LLM版本。由于官方预编译包可能未覆盖此
SpringBoot多数据源动态切换方案：AbstractRoutingDataSource详解 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot多数据源动态切换
「源力觉醒创作者计划」_以FastDeploy为例部署ERNIE-4.5-21B大模型全流程实践 cooldream2009 大模型基础 AI技术文心大模型 FastDeploy
目录前言1环境准备与依赖安装1.1硬件要求1.2Python环境与pip升级2下载ERNIE-4.5模型权重2.1安装HuggingFaceCLI工具2.2设置国内镜像加速（可选）2.3下载模型文件3安装FastDeploy与Paddle推理引擎3.1安装PaddlePaddle-GPU版本3.2安装FastDeploy-GPU4启动ERNIE-4.5本地服务4.1启动OpenAI兼容API服务4
Python打卡：Day46 剑桥折刀s python打卡 python
importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorchvisionfromtorchvisionimportdatasets,transformsfromtorch.utils.dataimportDataLoaderfromtorch.utils.tensorboardimportSummaryWriterimportnu
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，