阡之尘埃

Python数据分析案例17——电影人气预测(特征工程构建)

案例背景

本次案例是中国人民大学“人工智能与机器学习（2022年秋季）”课程的课堂竞赛。

比赛是根据有关电影的各种信息来预测电影的受欢迎程度，包括演员、工作人员、情节关键字、预算、收入、海报、上映日期、语言、制作公司、国家、TMDB 投票计数、平均投票等。

比赛是在kaggle上进行的，这是链接，可以下载数据

Movie Popularity Prediction | Kaggle

由于原始数据特征变量基本都是文本，本次案例最大价值在于特征工程的构建，即怎么把文本变为数值型变量。

数据读取

导入常用包

#导入数据分析常用包
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 

%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号

读取训练集和测试集

data=pd.read_csv('movies_train.csv')
data2=pd.read_csv('movies_test.csv')

查看数据前五行

data.head()

有点多就不展示完了

查看训练集和测试集数据基础信息

data=data.infer_objects()
data2=data2.infer_objects()
data.info() ,data2.info()

可以看到大部分变量都不是数值型，需要进行处理

变量信息解释

id- 电影ID。

title- 电影名称文本变量

homepage- 电影主页文本变量

genres- 电影类型分类型变量

overview- 电影概述文本变量

poster_path- 电影海报的位置图片文本

tagline- 电影标语文本变量

runtime- 电影的运行时间数值型变量

spoken_languages- 电影口语分类型变量

original_language- 电影原文分类型变量

original_title- 电影原名文本变量

production_companies- 电影制作公司分类型变量

production_countries- 电影的制作国家分类型变量

release_date- 电影上映日期时间变量

budget- 电影预算数值型变量

revenue- 电影收入数值型变量

status- 电影状态分类型变量

vote_count- 电影票数数值型变量

vote_average- 电影的平均票数数值型变量

keywords- 电影关键词文本变量

cast- 电影演员字典变量

crew- 电影剧组字典变量

popularity- 电影的人气评分目标变量，数值型

数据预处理

特征筛选

由于数据的文本型变量较多，较难处理。将一些没用的文本变量和难以提取信息的文本特征选择删除

这里先选择删除电影ID，电影主页，电影概述，电影海报的位置，电影标语，电影关键词,电影制作公司，电影的制作国家

#删除的变量
col_drop=['id','homepage','overview','poster_path','tagline','keywords','production_companies','production_countries']
#测试集ID留着后面提交
ID=data2['id']
data.drop(col_drop,axis=1,inplace=True)
data2.drop(col_drop,axis=1,inplace=True)

新特征构建

剩余的文本变量，一一进行处理，进行新的特征工程的构建。

首先对电影名称title和电影的原始名original_title称进行一个匹配，相同返回1，不相同返回0，从而构建一个新特征name_change。
通过对电影源语言spoken_languages是否含有英语(最通用的语言)，构建一个虚拟变量spoken，语言里面包含语言返回1，不包含返回0。
同样我们对电影语言original_language是否为英语，构建虚拟变量original，是英语返回1，不是英语返回0。
通过对上映日期release_date计算，得到该影片的年龄movie_age。使用2022(今年)-发行年份得到，并转化为整形数。由于计算过程中发行存在缺失值，对缺失值采用均值进行填充。
对电影演员cast、电影剧组crew的字典变量进行简单处理，计算它们的个数，构建新的特征——电影知名演员个数cast_num，电影剧组成员个数crew_num。
对于电影类别，进行虚拟变量处理。通过代码发现总共有20种电影类别。由于每个电影可能涉及不止一个类别，所以整体构建20个虚拟变量，如果电影类别存在这一类就为1，不存在就为0。
剩下的变量status表示电影的状态，直接进行独立热编码处理就行，生成5个虚拟变量。

首先对电影名称和电影的原始名称进行一个匹配，相同返回1，不相同返回0，从而构建一个新特征

data=data.assign(name_change=lambda d: (d.title==d.original_title)*1)
data2=data2.assign(name_change=lambda d: (d.title==d.original_title)*1)

def check_languages(txt):
    txt=eval(txt)
    if 'en'in txt:
        languages=1
    else:
        languages=0
    return languages

data['spoken']=data['spoken_languages'].apply(check_languages)
data2['spoken']=data2['spoken_languages'].apply(check_languages)

电影原文也是一样的处理

def check_languages2(txt):
    if  txt=='en':
        languages=1
    else:
        languages=0
    return languages

data['original']=data['original_language'].apply(check_languages2)
data2['original']=data2['original_language'].apply(check_languages2)

通过对发行日期计算，得到该影片的年龄, 缺失值采用均值填充

data['movie_age']=(2022-pd.to_datetime(data['release_date']).dt.year).fillna((2022-pd.to_datetime(data['release_date']).dt.year).mean()).astype('int')
data2['movie_age']=(2022-pd.to_datetime(data2['release_date']).dt.year).fillna((2022-pd.to_datetime(data2['release_date']).dt.year).mean()).astype('int')

对电影演员、电影剧组的字典变量进行简单处理，计算它们的个数，构建一个新的特征

def check(d):
    return len(d)
data['cast_num']=data['cast'].apply(check)
data2['cast_num']=data2['cast'].apply(check)

data['crew_num']=data['crew'].apply(check)
data2['crew_num']=data2['crew'].apply(check)

对于电影类别，进行虚拟变量处理，由于一个电影可能属于多个类别，不能直接独立热编码，需要进行处理。

首先得到所有类别的名称列表

all_kind=[]
for a in [eval(i)for i in data['genres'].unique()]:
    for a1 in a:
        all_kind.append(a1)
set_kind=list(set(all_kind))

定义处理函数，生成虚拟变量

def check2(txt):
    txt=eval(txt)
    dummys=[]
    for k in set_kind:
        if k in txt:
            dummys.append(1)
        else:
            dummys.append(0)
    return np.array(dummys)
def check3(col,data):
    all_kind=[]
    for a in [eval(i)for i in data[col].unique()]:
        for a1 in a:
            all_kind.append(a1)
    set_kind=list(set(all_kind))
    print(f'{col}特征里面有{len(set_kind)}个类别，生成{len(set_kind)}个虚拟变量')
    dummys_max=np.array([np.array(arr) for arr in data[col].apply(check2).to_numpy()])
    for i,kind in enumerate(set_kind):
        data[f'{col}_{kind}']=dummys_max[:,i]

应用函数

check3('genres',data)
check3('genres',data2)

这样每个电影对应20个类别特征，如果它属于这个类别，取值为1，不属于取值为0。

将构建完的旧特征进行删除

#删除的变量
col_drop2=['original_title','title','release_date','cast','crew','genres','spoken_languages','original_language']
data.drop(col_drop2,axis=1,inplace=True)
data2.drop(col_drop2,axis=1,inplace=True)

剩下的变量status是典型的分类变量，可以直接进行虚拟变量独热处理

data=pd.get_dummies(data)
data2=pd.get_dummies(data2)

再次查看所有变量的信息

data.info()
data2.info()

可以看到所有的特征变量都是数值型，可以进行模型运算了。

但是电影时间一列还有缺失值，需要填充,采用均值进行填充。

data['runtime']=data['runtime'].fillna(data['runtime'].mean())
data2['runtime']=data2['runtime'].fillna(data2['runtime'].mean())

status这个变量测试集独热出来多了一列，由于训练集的status没有status_Canceled这个情况，我们选择进行删除这个虚拟变量特征

data2.drop(columns=['status_Canceled'],inplace=True)

最后我们将训练集的y——popularity作为响应变量提取出来，完成特征工程的构建。

取出y

y=data['popularity']
data.drop(columns=['popularity'],inplace=True)

取出X

X=data.copy()
X2=data2[data.columns]

查看训练集，测试集，y的形状

print(X.shape,y.shape,X2.shape)

可以看到最终训练集和测试集都是36个变量，训练集31801条，测试集13629条，下面开始数据探索分析机器学习的模型构建。

数据探索

特征变量分布探索

#查看特征变量的箱线图分布
columns = data.columns.tolist() # 列表头
dis_cols = 6                   #一行几个
dis_rows = len(columns)
plt.figure(figsize=(4 * dis_cols, 4 * dis_rows))
 
for i in range(len(columns)):
    plt.subplot(dis_rows,dis_cols,i+1)
    sns.boxplot(data=data[columns[i]], orient="v",width=0.5)
    plt.xlabel(columns[i],fontsize = 20)
plt.tight_layout()
#plt.savefig('特征变量箱线图.jpg',dpi=512)
plt.show()

可以看到分类型的虚拟变量较多，数值型变量——budget,revenue,runtime的极大值较多

#画密度图，训练集和测试集对比

dis_cols = 6                   #一行几个
dis_rows = len(columns)
plt.figure(figsize=(4 * dis_cols, 4 * dis_rows))
 
for i in range(len(columns)):
    ax = plt.subplot(dis_rows, dis_cols, i+1)
    ax = sns.kdeplot(data[columns[i]], color="Red" ,shade=True)
    ax = sns.kdeplot(data2[columns[i]], color="Blue",warn_singular=False,shade=True)
    ax.set_xlabel(columns[i],fontsize = 20)
    ax.set_ylabel("Frequency",fontsize = 18)
    ax = ax.legend(["train", "test"])
plt.tight_layout()
#plt.savefig('训练测试特征变量核密度图.jpg',dpi=500)
plt.show()

训练集和测试集数据的分布还是较为一致

异常值处理

y异常值处理

y是数值型变量，画其箱线图直方图密度图

# 查看y的分布
#回归问题
plt.figure(figsize=(6,2),dpi=128)
plt.subplot(1,3,1)
y.plot.box(title='响应变量箱线图')
plt.subplot(1,3,2)
y.plot.hist(title='响应变量直方图')
plt.subplot(1,3,3)
y.plot.kde(title='响应变量核密度图')
#sns.kdeplot(y, color='Red', shade=True)
#plt.savefig('处理前响应变量.png')
plt.tight_layout()
plt.show()

可以看到y有很严重的异常值，要筛掉，将y大于50的样本都筛掉

#处理y的异常值
y=y[y <= 50]
plt.figure(figsize=(6,2),dpi=128)
plt.subplot(1,3,1)
y.plot.box(title='响应变量箱线图')
plt.subplot(1,3,2)
y.plot.hist(title='响应变量直方图')
plt.subplot(1,3,3)
y.plot.kde(title='响应变量核密度图')
#sns.kdeplot(y, color='Red', shade=True)
#plt.savefig('处理后响应变量.png')
plt.tight_layout()
plt.show()

可以看到极端值情况好了一些，然后将筛出来的样本赋值给x

#筛选给x
X=X.iloc[y.index,:]
X.shape

31801数据变成了31771条。

X异常值处理

#X异常值处理，先标准化

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_s = scaler.fit_transform(X)
X2_s = scaler.fit_transform(X2)

#然后画图查看

plt.figure(figsize=(20,8))
plt.boxplot(x=X_s,labels=data.columns)
plt.hlines([-20,20],0,len(columns))
plt.xticks(rotation=40)
#plt.savefig('特征变量标准化箱线图.png',dpi=256)
plt.show()

可以看到budget,revenue,runtime,vote_count,genres_Family,status_In Production,status_Planned这几个特征都有严重的异常值，超过了20倍的方差，需要进行筛除。

#异常值多的列进行处理

def deal_outline(data,col,n):   #数据，要处理的列名，几倍的方差
    for c in col:
        mean=data[c].mean()
        std=data[c].std()
        data=data[(data[c]>mean-n*std)&(data[c]

 
  超过10倍方差进行删除 
  X=deal_outline(X,['budget','revenue','runtime','vote_count','genres_Family','status_In Production','status_Planned'],10)
y=y[X.index]
X.shape,y.shape 
   
  还剩31536个样本 
    
  相关系数矩阵 
  corr = plt.subplots(figsize = (18,16),dpi=128)
corr= sns.heatmap(data.assign(Y=y).corr(method='spearman'),annot=True,square=True)
#plt.savefig('训练集特征热力图.png',dpi=512) 
   
   特征有点多，可能不是很清楚 
  可以看到y与budget,revenue,cast_num,crew_num,vote_count这几个变量的相关性高，说明这几个变量对于y的影响较大。 
   
   
  机器学习 
  划分训练集和验证集,80%训练，20%进行验证 
  from sklearn.model_selection import train_test_split
X_train,X_val,y_train,y_val=train_test_split(X,y,test_size=0.2,random_state=0) 
  数据标准化 
  from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train_s = scaler.transform(X_train)
X_val_s = scaler.transform(X_val)
X2_s=scaler.transform(X2)
print('训练数据形状：')
print(X_train_s.shape,y_train.shape)
print('验证测试数据形状：')
(X_val_s.shape,y_val.shape,X2_s.shape) 
   
    
  模型选择 
  采用十种模型，对比验证集精度 
  from sklearn.linear_model import LinearRegression
from sklearn.linear_model import ElasticNet
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from xgboost.sklearn import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.svm import SVR
from sklearn.neural_network import MLPRegressor 
   
  定义评估函数 
  from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error,r2_score
 
def evaluation(y_test, y_predict):
    mae = mean_absolute_error(y_test, y_predict)
    mse = mean_squared_error(y_test, y_predict)
    rmse = np.sqrt(mean_squared_error(y_test, y_predict))
    #mape=(abs(y_predict -y_test)/ y_test).mean()
    r_2=r2_score(y_test, y_predict)
    return mae, rmse, r_2  #mse 
  模型实例化 
  #线性回归
model1 = LinearRegression()
 
#弹性网回归
model2 = ElasticNet(alpha=0.05, l1_ratio=0.5)
 
#K近邻
model3 = KNeighborsRegressor(n_neighbors=10)
 
#决策树
model4 = DecisionTreeRegressor(random_state=77)
 
#随机森林
model5= RandomForestRegressor(n_estimators=500,  max_features=int(X_train.shape[1]/3) , random_state=0)
 
#梯度提升
model6 = GradientBoostingRegressor(n_estimators=500,random_state=123)
 
#极端梯度提升
model7 =  XGBRegressor(objective='reg:squarederror', n_estimators=1000, random_state=0)
 
#轻量梯度提升
model8 = LGBMRegressor(n_estimators=1000,objective='regression', # 默认是二分类
                      random_state=0)
 
#支持向量机
model9 = SVR(kernel="rbf")
 
#神经网络
model10 = MLPRegressor(hidden_layer_sizes=(16,8), random_state=77, max_iter=10000)
 
model_list=[model1,model2,model3,model4,model5,model6,model7,model8,model9,model10]
model_name=['线性回归','惩罚回归','K近邻','决策树','随机森林','梯度提升','极端梯度提升','轻量梯度提升','支持向量机','神经网络'] 
  拟合训练模型，计算模型误差指标  
  df_eval=pd.DataFrame(columns=['MAE','RMSE','R2'])
for i in range(10):
    model_C=model_list[i]
    name=model_name[i]
    model_C.fit(X_train_s, y_train)
    pred=model_C.predict(X_val_s)
    s=evaluation(y_val,pred)
    df_eval.loc[name,:]=list(s) 
  查看不同模型的评价指标 
  df_eval 
   
   画图查看 
  bar_width = 0.4
colors=['c', 'b', 'g', 'tomato', 'm', 'y', 'lime', 'k','orange','pink','grey','tan']
fig, ax = plt.subplots(3,1,figsize=(6,12))
for i,col in enumerate(df_eval.columns):
    n=int(str('31')+str(i+1))
    plt.subplot(n)
    df_col=df_eval[col]
    m =np.arange(len(df_col))
    
    #hatch=['-','/','+','x'],
    plt.bar(x=m,height=df_col.to_numpy(),width=bar_width,color=colors)
    
    #plt.xlabel('Methods',fontsize=12)
    names=df_col.index
    plt.xticks(range(len(df_col)),names,fontsize=14)
    plt.xticks(rotation=40)
    
    if col=='R2':
        plt.ylabel(r'$R^{2}$',fontsize=14)
    else:
        plt.ylabel(col,fontsize=14)
plt.tight_layout()
#plt.savefig('柱状图.jpg',dpi=512)
plt.show() 
   
   我们采用三种最优的模型进一步搜索最优超参数：随机森林，梯度提升，轻量梯度，然后进行预测和存储。 
   
   
  超参数搜索  
  轻量梯度超参数优化 
  #利用K折交叉验证搜索最优超参数
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.model_selection import GridSearchCV,RandomizedSearchCV 
  # Choose best hyperparameters by RandomizedSearchCV
#随机搜索决策树的参数
param_distributions = {'max_depth': range(4, 10), 'subsample':np.linspace(0.5,1,5 ),'num_leaves': [15, 31, 63, 127],
                       'colsample_bytree': [0.6, 0.7, 0.8, 1.0]}
                        # 'min_child_weight':np.linspace(0,0.1,2 ),
kfold = KFold(n_splits=3, shuffle=True, random_state=1)
model =RandomizedSearchCV(estimator= LGBMRegressor(objective='regression',random_state=0),
                          param_distributions=param_distributions, n_iter=200)
model.fit(X_train_s, y_train) 
   
  #查看最优参数
model.best_params_  
   
  最优参数赋值给模型，然后拟合评价 
  model = model.best_estimator_
model.score(X_val_s, y_val) 
    
  可以看到拟合优度上升了一点 
  #利用找出来的最优超参数在所有的训练集上训练，然后预测 
  model=LGBMRegressor(objective='regression',subsample=0.625,learning_rate= 0.01,n_estimators= 1000,num_leaves=15,
                    max_depth= 4,colsample_bytree=1.0,random_state=0)
model.fit(np.r_[X_train_s,X_val_s],np.r_[y_train,y_val])
print(model.score(np.r_[X_train_s,X_val_s],np.r_[y_train,y_val]))
pred=model.predict(X2_s) 
  储存预测结果 
  df=pd.DataFrame(ID)
df['popularity']=pred
df.to_csv('LGBM预测结果.csv',index=False) 
  #梯度提升和随机森林也是一样搜索超参数，然后训练和预测 
  #梯度提升
param_distributions = {'max_depth': range(4, 10), 'subsample':np.linspace(0.5,1,5 ),'learning_rate': np.linspace(0.05,0.3,6 ), 'n_estimators':[100,500,1000,1500, 2000]}
                        # 'min_child_weight':np.linspace(0,0.1,2 ),
kfold = KFold(n_splits=3, shuffle=True, random_state=1)
model =RandomizedSearchCV(estimator= GradientBoostingRegressor(n_estimators=500,random_state=123),param_distributions=param_distributions, n_iter=5)
model.fit(X_train_s, y_train)
model = model.best_estimator_
model.fit(np.r_[X_train_s,X_val_s],np.r_[y_train,y_val])
print(model.score(np.r_[X_train_s,X_val_s],np.r_[y_train,y_val]))
pred=model.predict(X2_s)
df['popularity']=pred
df.to_csv('梯度提升预测结果.csv',index=False) 
   
  #随机森林
param_distributions = {'max_depth': range(4, 10), 'n_estimators':[100,500,1000,1500, 2000]}
kfold = KFold(n_splits=3, shuffle=True, random_state=1)
model =RandomizedSearchCV(estimator=RandomForestRegressor(n_estimators=500,  max_features=int(X_train.shape[1]/3) , random_state=0),param_distributions=param_distributions, n_iter=5)
model.fit(X_train_s, y_train)
model = model.best_estimator_
model.fit(np.r_[X_train_s,X_val_s],np.r_[y_train,y_val])
print(model.score(np.r_[X_train_s,X_val_s],np.r_[y_train,y_val]))
pred=model.predict(X2_s)
df['popularity']=pred
df.to_csv('随机森林提升预测结果.csv',index=False) 
    
  下面就可以将这三个预测结果题kaggle提交了！！！ 
   
  变量重要性 
  以LGBM为例，画出每个特征变量对响应变量影响程度的图。 
  model=LGBMRegressor(objective='regression',subsample=0.5,learning_rate= 0.01,n_estimators= 1000,num_leaves=127,
                    max_depth= 4,colsample_bytree=1.0,random_state=0)
model.fit(np.r_[X_train_s,X_val_s],np.r_[y_train,y_val])
plt.figure(figsize=(4,8))
sorted_index = model.feature_importances_.argsort()
plt.barh(range(data.shape[1]), model.feature_importances_[sorted_index])
plt.yticks(np.arange(data.shape[1]), data.columns[sorted_index])
plt.xlabel('Feature Importance')
plt.ylabel('Feature')
plt.show() 
   
    
  可以看到影响y变量最重要的是vote_count,movie_age,cast_num,crew_num等变量，  
  movie_age,cast_num,crew_num变量是自己构建的变量，说明这几个特征还是很有效的。 
   
   
  目前在kaggle上能得到最好的预测结果的最好的模型参数。 
  model=LGBMRegressor(objective='regression',subsample=0.65,learning_rate= 0.01,n_estimators= 800,num_leaves=127,
                    max_depth= 5,colsample_bytree=0.75,random_state=10)
model.fit(np.r_[X_train_s,X_val_s],np.r_[y_train,y_val])
print(model.score(np.r_[X_train_s,X_val_s],np.r_[y_train,y_val]))
pred=model.predict(X2_s)
df['popularity']=pred
df.to_csv('LGBM2.csv',index=False)

【Python】执行脚本的时，如何指定运行根目录，而不是指定脚本的父级目录 jwensh #Python python
author:jwensh&gptdate:2024.09.23python执行脚本的时，如何指定运行根目录，而不是指定脚本的父级目录prompt：python执行脚本的时候，如何指定他的运行根目录，而不是指定脚本的父级目录在执行Python脚本时，如果你想指定一个自定义的运行根目录，而不是默认的脚本所在目录，可以使用以下几种方式：1.通过os.chdir()修改当前工作目录在脚本中使用os.ch
python系列：解决：ModuleNotFoundError: No module named ‘exceptions’ 坦笑&&life #python python 开发语言
解决：ModuleNotFoundError:Nomodulenamed‘exceptions’解决：ModuleNotFoundError:Nomodulenamed‘exceptions’背景报错问题报错位置代码报错原因解决方法其他解决办法注意：此时有以下几种解决办法：1.升级代码或模块以支持Python3。2.如果你必须使用Python2，请确保你的代码或模块与Python2兼容。3.如果你
使用Python Flask构建Web应用程序代码快速拳 python flask 前端 Python
Flask是一个轻量级的PythonWeb框架，它提供了构建Web应用程序所需的基本功能。它简单易用，非常适合小型项目和原型开发。本文将介绍如何使用Flask构建一个简单的Web应用程序，并提供相应的源代码。首先，我们需要安装Flask。可以使用以下命令使用pip安装Flask：pipinstallflask一旦安装完成，我们就可以开始构建我们的Web应用程序了。首先，创建一个Python文件，命
2024年一文1800字从0到1使用Python Flask实战构建Web应用(1) 2401_84564025 程序员 python flask 前端
现在我也找了很多测试的朋友，做了一个分享技术的交流群，共享了很多我们收集的技术文档和视频教程。如果你不想再体验自学时找不到资源，没人解答问题，坚持几天便放弃的感受可以加入我们一起交流。而且还有很多在自动化，性能，安全，测试开发等等方面有一定建树的技术大牛分享他们的经验，还会分享很多直播讲座和技术沙龙可以免费学习！划重点！开源的！！！qq群号：110685036第三部分：运行Flask应用在app.
OpenStack Heat模板实战：快速创建用户、容器、网络与云主机类型冯·诺依曼的 openstack 网络 ssh 运维云计算
Heat是OpenStack中的编排服务，通过YAML模板自动化资源管理。本文通过4个实战案例，详解如何用Heat模板创建用户体系、Swift容器、网络资源及云主机类型。一、创建用户、Domain、租户及用户绑定目标：在chinaskillsDomain下创建beijing_group租户，并创建用户cloud。#user_create.ymlheat_template_version:2016-
【python web】一文掌握 Flask 的基础用法数据知道 python 前端 flask
文章目录一、Flask介绍1.1安装Flask二、Flask的基本使用2.1创建第一个Flask应用2.2路由与视图函数2.3请求与响应2.4响应对象2.5模板渲染2.6模板继承2.7静态文件管理2.8Blueprint蓝图2.9错误处理三、Flask扩展与插件四、部署Flask应用五、总结Flask是一个轻量级的PythonWeb框架，因其简单易用、灵活性高而受到广泛欢迎。本文将全面介绍Flas
python绘制密度散点图龟速前进 anaconda 可视化 python
头大，外行人做个图咋这么难，趋势线还没有研究出来怎么加上去，哎importmatplotlib.pyplotaspltfromscipy.statsimportgaussian_kdefrommpl_toolkits.axes_grid1importmake_axes_locatableimportnumpyasnpimportpandasaspdfromdbfreadimportDBFdata=
python colorama_Python colorama 模块使用说明 weixin_39682697 python colorama
1Colorama模块说明在上篇博客我们了解了prettytable的使用,如下：https://www.cndba.cn/cndba/dave/article/3564使用prettytable模块之后，输出的内容格式看上去会非常整齐，但如果我们想要对部分内容重点显示，那么可以使用两种方法：1)直接使用Python控制输出颜色2)使用colorama模块Colorama是一个python专门用来
python colorama模块失效怎么办_python – 由于模块colorama,无法使用aws CLI 金牛远望号 python colorama模块失效怎么办
我已经安装了AWSCLI,并尝试在MacOSSierra上使用它.它抱怨没有模块colorama：$awsTraceback(mostrecentcalllast):File"/usr/local/bin/aws",line19,inimportawscli.clidriverFile"/Library/Python/2.7/site-packages/awscli/clidriver.py",l
数据可视化：python画散点图scatter 西红柿爱吃小番茄 python python 数据可视化 matplotlib
数据可视化：python画散点图scatter我想遍历一幅图的所有像素的h分量的值，然后用散点图表示出来。观察这幅图的h分量的值得变化范围。scatter函数的原型matplotlib.pyplot.scatter(x,y,s=20,c='b',marker='o',cmap=None,norm=None,vmin=None,vmax=None,linewidths=None,vert=None,
Python Colorama 库详解：终端输出美化的神器萧鼎 python基础到进阶教程 python
PythonColorama库详解：终端输出美化的神器在开发命令行工具或调试程序时，我们可能会希望通过颜色来区分重要信息，比如警告、错误、提示等。而Colorama是一个简单易用的Python库，可以帮助我们轻松地为终端输出添加颜色，提升用户体验。1.Colorama是什么？Colorama是一个Python库，用于在终端中实现跨平台的彩色文本输出。它主要提供以下功能：为文本添加前景色、背景色。控
Python之colorama PlutoZuo Python python 开发语言
Python之colorama文章目录Python之colorama1.安装Colorama库2.导入Colorama库3.初始化Colorama4.设置文本颜色和样式5.自定义颜色和样式Colorama是一个Python库，用于在控制台（终端）上输出彩色文本。它提供了一些方便的函数和类，用于在命令行界面中添加颜色和样式。以下是一些使用Colorama库的详细示例：1.安装Colorama库首先，
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
python进阶语法，函数的基本使用胡萝卜糊了 python java 服务器
#函数定义：#格式：def函数标识符（参数列表）：#定义无参函数defsay_hello():print("helloworld!")print("helloeveryone!")#定义有参函数defmymax(a,b):ifa>b:print("最大值是",a)else:print("最大值是",b)#函数调用#格式：函数名（实际参数列表）#函数调用时需要注意实参要和形参数量一致say_hell
请编写一个Python程序，实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络多输入单输出回归预测功能。 2301_81121233 算法神经网络 python mongodb storm zookeeper spark
实现一个基于鲸鱼优化算法（WOA）优化的卷积双向长短期记忆神经网络（CNN-BiLSTM）的多输入单输出回归预测功能是一个复杂的任务，涉及到多个步骤和组件。由于完整的实现会非常冗长，我将提供一个简化的框架和关键部分的代码示例，帮助你理解如何实现这个功能。请注意，这个示例不会包含所有细节，比如数据集的准备、鲸鱼优化算法的具体实现（WOA是一个元启发式算法，需要单独实现或引用现有库），以及CNN-Bi
Python软件和搭建运行环境办公小百知软件技术 python 开发语言
目录一、Python安装全流程（Windows/Mac/Linux）1.下载官方安装包2.详细安装步骤（以Windows为例）3.环境变量配置（Mac/Linux）二、虚拟环境管理（关键！）为什么需要虚拟环境？1.使用venv（Python内置）2.使用conda（推荐数据科学方向）三、开发工具推荐与配置1.IDE选择2.VSCode配置指南四、常见问题解决方案1.python命令无效？2.pip
python读取海康RGBD感知相机并解析图像数据我认为可以！ python 开发语言相机
python读取海康RGBD感知相机情景：相机：MV-EB435i海康提供的C++SDK比较完善，但是python的比较粗糙，给的demo只能得到他自己定义的数据帧需求：基于海康提供的pythonSDK，进一步开发读取RGB和Depth图，并转换成后续任务需要的numpy数组形式相机分析：可以使用HiViewer先调试相机，确认相机读取RGBD没问题：下载地址这些参数可以跟着相机的指南挑一挑，调到
使用 Supervisor 管理 Gunicorn 实现高可用 Python Web 应用莫忘初心丶 gunicorn python
前言在生产环境中，部署PythonWeb应用时，我们通常使用Gunicorn（GreenUnicorn）作为WSGI服务器。为了确保应用能够稳定运行，能够在崩溃后自动重启，Supervisor是一个常用的进程管理工具，它可以很好地与Gunicorn配合使用，实现进程监控、自动重启等功能。本文将详细介绍如何使用Supervisor来管理Gunicorn，确保PythonWeb应用在生产环境中的高可用
系统架构师备考——系统架构设计篇（软件架构）牛马程序员小邓系统架构师备考笔记系统架构
系统架构师备考日记（2.24）第7章系统架构篇（一）——软件架构文章目录系统架构师备考日记（2.24）考点一、软件架构定义二、软件架构设计与生命周期2.1生命周期2.1.1需求分析阶段2.1.2设计阶段2.1.3实现阶段2.1.4构件组装阶段2.1.5部署阶段2.1.6后开发阶段三、软件架构的重要性总结考点单项选择题（约占8～15分）和下午案例题（25分），论文一、软件架构定义软件体系结构是指系统
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
如何使用 Python 实现生成对抗网络 NoABug python 生成对抗网络 tensorflow
如何使用Python实现生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是一种能够生成高质量、逼真图像的深度学习模型。GAN模型由两个神经网络组成：一个生成器和一个判别器。生成器的任务是以噪声为输入，生成看似真实的图像；而判别器则需要根据输入的图像，判断该图像是真实的还是由生成器生成的。下面我们将通过Python代码来实现一个简单的GAN模型。首先，我们
GAN模型的Python应用——生成对抗网络代码编织匠人 python 生成对抗网络开发语言
GAN模型的Python应用——生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是深度学习中的一种重要模型，已经被广泛应用于图像、文本生成等领域。GAN模型由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。生成器用于生成假样本，判别器用于评估真实性。两个神经网络相互博弈，通过一次次迭代训练，最终生成器可以生成足以骗过
嵌入式开发中的Doxygen注释规范实践剁椒鱼头炖香菇 c语言 stm32 单片机
目录一、为什么需要规范的注释？二、Doxygen注释规范详解1.文件注释2.函数注释3.宏定义注释4.结构体注释三、注释规范最佳实践1.文件注释模板2.函数注释模板3.代码注释原则四、常见注释误区与解决方案误区1：过度注释误区2：过时注释误区3：模糊注释五、工具推荐六、项目实践案例七、总结一、为什么需要规范的注释？在嵌入式开发中，规范的代码注释如同精密仪器的说明书，具有以下重要作用：提高可读性：使
如何使用Python实现生成对抗网络（GAN）「已注销」互联网前沿技术韩进的创作空间全栈开发知识库 python 生成对抗网络 tensorflow 深度学习数据分析
生成对抗网络（GAN）是一种深度学习模型，由两个部分组成：生成器和判别器。生成器负责生成与训练数据相似的新数据，而判别器负责判断输入数据是真实的还是由生成器生成的。这两个部分不断相互博弈，直到生成器能够生成非常逼真的数据，使判别器难以区分生成数据和真实数据。下面是一个简单的Python实现，使用TensorFlow和Keras库。在开始之前，请确保已经安装了TensorFlow和Keras。imp
《动态磁盘RAID阵列：深度解析与实战指南》懂技术的小又又计算机服务器 linux 数据库运维 windows 计算机网络
目录一、RAID技术概述常见RAID级别RAID0：条带化，提升读写性能，无冗余RAID1：镜像，数据冗余，提供数据保护RAID5：奇偶校验，提供冗余和负载均衡RAID10：镜像+条带化，兼具数据保护和高性能二、动态磁盘管理动态磁盘的优势三、动态磁盘RAID阵列实战实验环境搭建（vmvareworkstation）四、实际应用案例五、RAID技术的优化与维护六、RAID技术的未来发展七、软RAID
Python在股票数据分析中的应用有哪些？如何用Python获取股票数据并进行可视化财云量化 python炒股自动化量化交易程序化交易 python python股票数据分析数据获取可视化股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
蓝桥杯网络安全春秋赛 Crypto RSA 叁Three 蓝桥杯密码学
蓝桥杯网络安全春秋赛CryptoRSA题目某公司为了保护其重要数据，使用了RSA加密算法。该公司以同一个N为模数，为Alice和Bob分别生成了不同的公钥和与之相应的私钥。Alice和Bob都使用自己的公钥对同一条明文m进行加密，分别得到密文c1和c2。假设你是一名密码安全研究者，你已获取了N值、两个密文和公钥，能否使用RSA的相关知识还原出明文m呢？#!python3.9fromCrypto.U
Python 数据分析实战：电商平台用户行为洞察与营销策略优化萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1用户行为随时间的变化2.4.2商品关联分析2.4.3用户购买转化率分析2.4.4用户价值分析（RFM模型）三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-时间戳处理3.3数据分析-商品关联分析3.4数据分析-用户购买转化率分析3.5数据分析-用户价值分析（RFM模型）四、可能改进的代
用Java爬虫轻松获取微店店铺所有商品信息数据小爬虫@ java 爬虫开发语言
在当今电商蓬勃发展的时代，微店作为一个轻量级且功能强大的电商平台，吸引了众多商家和消费者。无论是进行市场调研、数据分析，还是寻找热门商品，获取微店店铺的所有商品信息都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫获取微店店铺的所有商品信息。一、为什么选择Java爬虫？Jav
open-webui使用searXNG插件连接自定义的联网搜索服务程序 chinayeren 教程 python ai llama chatgpt
项目背景因为国内无法访问内置的一些免费搜索插件，安装完searXNG本地服务端后根据教程中连接始终无法连接，docker方案国内也无法使用的情况下，本地使用python写一个Flask服务程序使用爬虫技术提供联网搜索数据。下面是实现代码V1#!/usr/bin/python3#_*_coding:utf-8_*_##Copyright(C)2025-2025#@Title:这是一个模拟searXN
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

Python数据分析案例17——电影人气预测(特征工程构建)

案例背景

数据读取

变量信息解释

数据预处理

特征筛选

新特征构建

数据探索

特征变量分布探索

异常值处理

y异常值处理

X异常值处理

相关系数矩阵

机器学习

模型选择

超参数搜索

轻量梯度超参数优化

变量重要性

你可能感兴趣的:(Python数据分析案例,python,数据分析,电影预测,LGBM)