YCH带带我

大数据分析练习-第八届泰迪杯A题-基于数据挖掘的上市公司高送转预测

报告书-pdf
本实验在Anaconda环境下进行编程，使用jupyter。具体有以下注意点：

文件结构：
主文件目录 — |—— Main.ipynb 主文件

|—— ReadMe.md

|—— Moldels文件夹模型保存

|—— OriginData文件夹源数据和处理后数据的保存

|—— Requires文件夹实验的具体要求

所用的库及版本（不一定非得按照这个版本）：

名称	版本
python	3.8
jupyter	1.1.0
matplotlib	3.5.2
numpy	1.23.1
seaborn	0.11.2
pandas	1.4.3
scikit-learn	1.1.1
lightgbm	3.3.2
xgboost	1.6.2

安装命令 pip install XXX -i https://pypi.tuna.tsinghua.edu.cn/simple

源数据来源
安装LigthLGB库时可能出现Not Moudle的情况，原因是LightLGB基于C++的，可能安装在原python环境中

请参考：https://blog.csdn.net/qq_40902709/article/details/123992651
安装XGBoost时也可能出现4.中的错误，删除本本机python环境变量可能有效，实在不行就Goggle一下
为了更好的阅读体验，启动jupyter目录功能

参考：https://blog.csdn.net/weixin_43707402/article/details/126393455
关于调参问题：

很多模型中有n_jobs参数，该参数使用CPU全部线程，可能导致计算机卡顿。

模型调参花费大量时间，自己调参时请注意时间。
LightLGB中文参考文档：https://lightgbm.cn/

XGBoost参考文档：https://xgboost.readthedocs.io/en/stable/index.html（内网较慢）

下面是正文

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing
import warnings


warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False  #?来正常显示负号

model_data_save_path = "OriginData/年数据-feature-out.csv"
day_year_processed_path = "OriginData/年数据-out.csv"

1.数据预处理

1.1数据读取

# from google.colab import drive
# drive.mount('/content/drive')
#读取基础数据
data_basic = pd.read_csv('OriginData/基础数据.csv', encoding='GBK')
#读取年数据
data_year = pd.read_csv('OriginData/年数据.csv', encoding='GBK')
# data_year = pd.read_csv('OriginData/年数据.csv', encoding='GBK', nrows=2000)

# 读取日数据
data_day = pd.read_csv('OriginData/日数据.csv', encoding='GBK')
# data_day = pd.read_csv('OriginData/日数据.csv', encoding='GBK', nrows=10000)

1.2 数据基本信息

data_year.head(1)

	股票编号	年份（年末）	固定资产合计	无息流动负债	无息非流动负债	带息流动负债	带息债务	净债务	有形净资产	营运资本	...	现金及现金等价物净增加额	加:期初现金及现金等价物余额	现金及现金等价物净增加额的特殊项目	现金及现金等价物净增加额的调整金额	期末现金及现金等价物余额	高转送预案公告日	高转送股权登记日	高转送除权日	每股送转	是否高转送
0	1	1	86912289.26	1.422495e+09	160019158.3	819855100.3	827188433.6	357874692.1	892930787.2	590497018.1	...	-76152852.96	545466594.5	NaN	NaN	469313741.6	3月30日	NaN	NaN	NaN	0

1 rows × 362 columns

# print("数据的确实比例")
# # temp = ((data_day.isnull().sum()) / data_day.shape[0]).sort_values(ascending=False).map(lambda x: "{:.2%}".format(x))
# print("数据的缺失比例")
# temp = ((data_basic.isnull().sum()) / data_basic.shape[0]).sort_values(ascending=False).map(lambda x: "{:.2%}".format(x))
print("数据的缺失比例")
temp = ((data_year.isnull().sum()) / data_year.shape[0]).sort_values(ascending=False).map(lambda x: "{:.2%}".format(x))
pd.DataFrame(temp, columns=["缺失率"])

pd.set_option('display.width', 10)  # 设置字符显示宽度
pd.set_option('display.max_rows', None)  # 设置显示最大

1.3 特征的处理

# 对基础数据中的的所属行业特征编码
# 参考:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/115856585
le = preprocessing.LabelEncoder()
le.fit(data_basic['所属行业'].values)
data_basic['所属行业id'] = le.transform(data_basic['所属行业'].values) 
# 生成新特征
data_basic["所属概念板块_n"] = data_basic["所属概念板块"].apply(lambda x: len(x.split(";")) if x is not np.nan else 0)
data_basic["是否为国企"] = data_basic["所属概念板块"].apply(lambda x: 1 if (x is not np.nan) and "国企" in x else 0)
data_basic["是否为下盘"] = data_basic["所属概念板块"].apply(lambda x: 1 if (x is not np.nan) and "小盘" in x else 0)
# 删除一些不必要变量
data_basic.drop(columns=["所属行业", "所属概念板块"], inplace=True)

data_basic

	股票编号	上市年限	所属行业id	所属概念板块_n	是否为国企	是否为下盘
0	1	26	7	10	1	1
1	2	1	4	5	0	0
2	3	17	4	5	0	0
3	4	22	8	2	1	0
4	5	1	4	1	0	0
...	...	...	...	...	...	...
3461	3462	18	4	1	0	0
3462	3463	7	4	2	0	1
3463	3464	19	4	7	1	0
3464	3465	11	17	17	0	0
3465	3466	4	4	2	0	0

3466 rows × 6 columns

# 利用groupBy函数生成每一年的特征的异常系数
# 异常系数：https://baike.baidu.com/item/%E5%8F%98%E5%BC%82%E7%B3%BB%E6%95%B0/6463621?fr=aladdin
data_temp = data_day.groupby(["股票编号", "年"])
data  =(data_temp.std())/data_temp.mean()
data.reset_index(inplace=True)
data = data.iloc[:, 0:9]
data.rename(columns={'年':'年份（年末）', "开盘价":"开盘价-异常系数",
                     "最高价":"最高价-异常系数", "最低价":"最低价-异常系数",
                     "收盘价":"收盘价-异常系数", "成交量":"成交量-异常系数"},inplace=True)
data.drop(columns=["月", "日"], inplace=True)
data.head(5)

	股票编号	年份（年末）	开盘价-异常系数	最高价-异常系数	最低价-异常系数	收盘价-异常系数	成交量-异常系数
0	1	1	0.202121	0.207503	0.200785	0.204572	0.826434
1	1	2	0.121020	0.122397	0.117884	0.120320	0.948339
2	1	3	0.094508	0.096999	0.094107	0.095576	0.727320
3	1	4	0.138225	0.144623	0.133310	0.139903	0.993973
4	1	5	0.238421	0.241245	0.232125	0.237291	0.616736

# 将生成的的数据按照 股票编号和年份 与 年数据进行内连接
data_year = data_year.merge(data_basic, on=["股票编号"], how="left")
data_year = data_year.merge(data, on=["股票编号", "年份（年末）"], how="left")
data_year.head(5)

	股票编号	年份（年末）	固定资产合计	无息流动负债	无息非流动负债	带息流动负债	带息债务	净债务	有形净资产	营运资本	...	上市年限	所属行业id	所属概念板块_n	是否为国企	是否为下盘	开盘价-异常系数	最高价-异常系数	最低价-异常系数	收盘价-异常系数	成交量-异常系数
0	1	1	86912289.26	1.422495e+09	160019158.3	819855100.3	827188433.6	357874692.1	8.929308e+08	5.904970e+08	...	26	7	10	1	1	0.202121	0.207503	0.200785	0.204572	0.826434
1	1	2	78878168.21	1.903724e+09	148736391.3	374909888.3	394226555.0	-403497756.4	1.190906e+09	9.114353e+08	...	26	7	10	1	1	0.121020	0.122397	0.117884	0.120320	0.948339
2	1	3	75301015.72	1.447218e+09	141831622.4	364316666.6	480560018.6	-496611795.6	1.501162e+09	1.333070e+09	...	26	7	10	1	1	0.094508	0.096999	0.094107	0.095576	0.727320
3	1	4	64069233.96	1.388840e+09	136730134.5	105000000.0	282613352.0	-526350024.7	1.755344e+09	1.697810e+09	...	26	7	10	1	1	0.138225	0.144623	0.133310	0.139903	0.993973
4	1	5	85929516.37	1.870206e+09	134704875.2	129243352.0	274083358.8	-671656616.9	1.764907e+09	1.665822e+09	...	26	7	10	1	1	0.238421	0.241245	0.232125	0.237291	0.616736

5 rows × 372 columns

# 观察 data_year中含有一些object特征，将日期提取出来月
data_year_copy = data_year.copy()
names = []
for name in data_year_copy.columns:
    if data_year_copy[name].dtype == object:
        names.append(name)
data_year_copy["高转送预案公告月"] = data_year_copy["高转送预案公告日"].apply(lambda x: x if pd.isnull(x) else int((x.split("月")[0])))
data_year_copy["高转送股权登记月"] = data_year_copy["高转送股权登记日"].apply(lambda x: x if pd.isnull(x) else int((x.split("月")[0])))
data_year_copy["高转送除权月"] = data_year_copy["高转送除权日"].apply(lambda x: x if pd.isnull(x) else int((x.split("月")[0])))

# 删除一些无意义的特征， 即只有一类的特征
for name in data_year_copy.columns:
    if len(data_year_copy[name].value_counts(normalize=True)) == 1:
        if name not in names:
            names.append(name)
            print(name)
data_year_copy = data_year_copy.drop(labels=names, axis=1)

会计区间
合并标志，1-合并，2-母公司
预提费用
所有者权益(或股东权益)特殊项目
负债和所有者权益(或股东权益)特殊项目

# seaborn 画出一个有异常值的特征分布
fig, ax = plt.subplots(figsize=(8,5))
# sns.set_theme(style="whitegrid")  
ax = sns.boxplot(x="会计区间",data=data_year)

1.4数据异常值处理

1.4.1正态分布检验以及异常值处理3σ原则

# 参考： https://blog.csdn.net/u013421629/article/details/103870567
import numpy as np
import pandas as pd
from scipy.stats import kstest

# 判断是否为正态分布
def KsNormDetect(df, column_name):
    # 计算均值
    u = df[column_name].mean()
    # 计算标准差
    std = df[column_name].std()
    res = kstest(df[column_name][df[column_name].notnull()], 'norm', (u, std))[1]
    if res <= 0.05:
        return 1
    else:
        return 0


def OutlierDetection(df, column_name, ks_res):
    # 计算均值
    u = df[column_name].mean()
    # 计算标准差
    std = df[column_name].std()
    # print(u, std)
    if ks_res == 0:
        print(column_name, "不服从正态分布")
        return
    for row in range(len(df)):
        if df[column_name][row] is np.nan:
            continue
        else:
            if np.abs(df[column_name][row] - u) > 3 * std:
#                 print(column_name)
                df.loc[row, column_name] = np.nan

# seaborn 画出一个有异常值的特征分布
fig, ax = plt.subplots(figsize=(8,5))
# sns.set_theme(style="whitegrid")  
ax = sns.boxplot(x="基本每股收益",data=data_year_copy)

for column_name in data_year_copy.columns:
    if len(list(data_year_copy[column_name].value_counts())) < len(data_year_copy) * 0.05:
        continue
    ks_res = KsNormDetect(data_year_copy, column_name)
    OutlierDetection(data_year_copy, column_name, ks_res)
data_year_copy.shape

(24262, 365)

# seaborn 画出一个有异常值的特征分布
fig, ax = plt.subplots(figsize=(8,5))
# sns.set_theme(style="whitegrid")  
ax = sns.boxplot(x="基本每股收益",data=data_year_copy)
ax.set(xlim=(-5, 20))

[(-5.0, 20.0)]

1.5数据填充

# 参考：https://blog.csdn.net/jingyi130705008/article/details/82670011

1.5.1缺失数据较多的删除

## 删除缺失值较大的特征
f_not_null = (data_year_copy.notnull().sum() /
              data_year_copy.shape[0]).sort_values(ascending=True).to_dict()
# f_not_null
for name in data_year_copy.columns:
    if f_not_null[name] < 0.75:
        data_year_copy = data_year_copy.drop(labels=name, axis=1)

f_not_null = (data_year_copy.notnull().sum() /
              data_year_copy.shape[0]).sort_values(ascending=True).to_dict()
f_not_null

# seaborn 绘制一个特征缺失值的情况
fig, ax = plt.subplots(figsize=(8,5))
plt.pie(x=[f_not_null["每股收益(期末摊薄，元/股)"], 1 - f_not_null["每股收益(期末摊薄，元/股)"]],
                     labels = ["未缺失", "缺失"])
plt.title("每股收益(期末摊薄，元/股)数据情况")
plt.legend()
plt.show()

1.5.2中位数、众数填充

# 按变量缺失程度进行分类
f_not_null = (data_year_copy.notnull().sum() /
              data_year_copy.shape[0]).sort_values(ascending=True).to_dict()
fill_names_year = [[], [], []]
for name in data_year_copy.columns:
    # 缺失值较多,且是数值类型，随机森林填充
    if f_not_null[name] < 0.9:
        fill_names_year[0].append(name)
    else:
        fill_names_year[1].append(name)
# 对缺失数据较少的类别特征进行众数替换
for name in fill_names_year[1]:
    if len(list(data_year_copy[name].value_counts())) < 100:
        data_year_copy[name].fillna(data_year_copy[name].mode()[0]
                                    , inplace=True)
    else:
        data_year_copy[name].fillna(data_year_copy[name].median()
                                    , inplace=True)

1.5.3决策树填充

# 参考：https://blog.csdn.net/ZackSock/article/details/122200619
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor


def RandomForeFill(data):
    #用随机森林预测填补缺失值
    X_missing_reg = data.copy()
    #特征缺失值累计，按索引升序排序
    sortindex = np.argsort(X_missing_reg.isnull().sum(axis=0)).values
    #循环，按缺失值累计升序，依次填补不同特征的缺失值
    for i in sortindex:
        #构建我们的新特征矩阵和新标签
        #含缺失值的总数据集
        df = X_missing_reg
        #要填充特征作为新标签列
        fillc = df.iloc[:, i]
        #新的特征矩阵=其余特征列+原来的标签列Y
        df = df.iloc[:, df.columns != i]
        #在新特征矩阵中，对含有缺失值的列，进行0的填补
        df_0 = SimpleImputer(missing_values=np.nan, strategy='constant',
                             fill_value=0).fit_transform(df)
        #找出我们的训练集和测试集
        Ytrain = fillc[fillc.notnull()]
        Ytest = fillc[fillc.isnull()]
        Xtrain = df_0[Ytrain.index, :]
        Xtest = df_0[Ytest.index, :]
        # 有一些不需要填充
        if len(Ytest) == 0:
            continue
        if(len(Xtrain)) == 0:
            print(data.columns[i])
        #用随机森林回归预测缺失值
        rfc = RandomForestRegressor(n_estimators=10, n_jobs=-1)
        rfc = rfc.fit(Xtrain, Ytrain)
        Ypredict = rfc.predict(Xtest)
        #填入预测值
        X_missing_reg.iloc[X_missing_reg.iloc[:, i].isnull(), i] = Ypredict
    return X_missing_reg

data_year_copy = RandomForeFill(data_year_copy)
# data_day_copy = RandomForeFill(data_day_copy)

# seaborn 绘制一个特征缺失值的情况
f_not_null_after = (data_year_copy.notnull().sum() /
              data_year_copy.shape[0]).sort_values(ascending=True).to_dict()
f_not_null_after
fig, ax = plt.subplots(figsize=(8,5))
plt.pie(x=[f_not_null_after["每股收益(期末摊薄，元/股)"], 1 - f_not_null_after["每股收益(期末摊薄，元/股)"]],
                     labels = ["未缺失", "缺失"])
plt.legend()
plt.title("每股收益(期末摊薄，元/股)数据情况")
plt.show()

# 生成新的特征变量 总股本  送股能力
data_year_copy["总股本"] = data_year_copy["未分配利润"] / data_year_copy["每股未分配利润(元/股)"]
data_year_copy["送股能力"] = data_year_copy["负债合计"] / data_year_copy["资产总计"]
# 保存数据
data_year_copy.to_csv(day_year_processed_path)
((data_year_copy.isnull().sum()) / data_year_copy.shape[0]).sort_values(ascending=False).map(lambda x: "{:.2%}".format(x))

股票编号           0.00%
货币资金/总资产(%)    0.00%
预付账款/总资产(%)    0.00%
存货/总资产(%)      0.00%
流动资产/总资产(%)    0.00%
               ...  
速动必率           0.00%
保守速动必率         0.00%
营业利润/流动负债      0.00%
营业利润/负债合计      0.00%
送股能力           0.00%
Length: 229, dtype: object

1.6特征选择 Filter(过滤法)

# 参考 https://blog.csdn.net/jingyi130705008/article/details/82670011

data_year = pd.read_csv(day_year_processed_path, index_col=0)
# 设置基本要包含的特征个数
feature_number = 30
feature_name = []
# data_year

1.6.1互信息法

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import mutual_info_classif

m = SelectKBest(mutual_info_classif, k=feature_number)
mm = m.fit_transform(data_year, data_year['是否高转送'])
feature_choose = m.get_support()
for i in range(len(data_year.columns)):
    if feature_choose[i]:
        feature_name.append(data_year.columns[i])
feature_name

1.6.2方差选择法

## 未使用 原因：各种数据的数量级不一定相同

# from sklearn.feature_selection import VarianceThreshold  
#   # 方差选择法，返回值为特征选择后的数据
#   # 参数threshold为方差的阈值
# v = VarianceThreshold(threshold=10)  # 指定方差大于30
# vv = v.fit_transform(data_year) # 拟合选取特征
# vv.shape,v.get_support(),vv  # 维度 是否为选取的特征  提取后的数据
# feature_choose = v.get_support()
# for i in range(len(data_year.columns)):
#     if feature_choose[i]:
#         feature_name.append(data_year.columns[i])
# feature_name

1.6.3相关系数法

import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns

#线性相关
pears = data_year.corr(method='pearson', min_periods=1)  # 相关系数
temp = list((abs(pears.loc["是否高转送"])).sort_values(ascending=False).index)
for i in range(10):
    if temp[i] not in feature_name:
        feature_name.append(temp[i])
pears = data_year[feature_name].corr(method='pearson', min_periods=1)  # 相关系数
plt.figure(figsize=(10,10))
plt.title("pearson_线性相关",fontsize=25)
sns.heatmap(pears,cmap='coolwarm') # 相关系数热力图

#非线性相关
pears = data_year.corr(method='spearman', min_periods=1)  # 相关系数
temp = list((abs(pears.loc["是否高转送"])).sort_values(ascending=False).index)
for i in range(10):
    if temp[i] not in feature_name:
        feature_name.append(temp[i])
pears = data_year[feature_name].corr(method='spearman', min_periods=1)  # 相关系数
plt.figure(figsize=(10,10))
plt.title("spearman_非线性相关",fontsize=25)
sns.heatmap(pears,cmap='coolwarm') # 相关系数热力图

print("所选特征数： ", len(feature_name))

所选特征数：  40

1.7数据保存

feature_name.append("年份（年末）")
data_year[feature_name].to_csv(model_data_save_path)
data_year = data_year[feature_name]

2.嵌入法选择特征（模型）

2.1 训练数据的预处理

from sklearn import metrics
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
import joblib 

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import math
import sklearn
%matplotlib inline
import numpy as np
import warnings

warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False  #⽤来正常显示负号

# from google.colab import drive
# drive.mount('/content/drive')
#读取年数据
data = pd.read_csv(model_data_save_path, index_col=0)
# data = data_year

Y_pd = data["是否高转送"]
X_pd = data.drop(columns=["是否高转送"], axis=1).copy()
# X_pd = X_pd.drop(columns=["股票编号"], axis=1).copy()

if "年份（年末）" in X_pd.columns:
    X_pd = X_pd.drop(columns=["年份（年末）"], axis=1)
    
X_shape = X_pd.shape

X = X_pd.to_numpy()
mm = MinMaxScaler()
X = mm.fit_transform(X)
scaler = StandardScaler()
X = scaler.fit_transform(X)

y = Y_pd.to_numpy()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size=0.3)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((16983, 39), (7279, 39), (16983,), (7279,))

trian_size = int(X_train.shape[0]/3)
test_size = int(X_test.shape[0]/3)
trian_size

2.2 Lightgbm 模型

# !pip install lightgbm -i https://pypi.tuna.tsinghua.edu.cn/simple
# # 关于安装的问题 Lightgbm 基于C++ pip 安装可能存在到 本机的python环境中
# # 建议参考：https://blog.csdn.net/qq_40902709/article/details/123992651（删除环境变量也行）
import lightgbm as lgb
from sklearn.model_selection import GridSearchCV

2.2.1 Lightgbm 调参

### 数据转换
lgb_train = lgb.Dataset(X_train, y_train, free_raw_data=False, feature_name=list(X_pd.columns))
lgb_eval = lgb.Dataset(X_test,
                       y_test,
                       reference=lgb_train,
                       free_raw_data=False)
lgb_train2 = lgb.Dataset(X_train[0*trian_size:trian_size*1], y_train[0*trian_size:trian_size*1], free_raw_data=False, feature_name=list(X_pd.columns))
lgb_eval2 = lgb.Dataset(X_test[0*test_size:test_size*1],
                       y_test[0*test_size:test_size*1],
                       reference=lgb_train,
                       free_raw_data=False)

# # 这一块计算量大，容易卡死
# # 参考：https://zhuanlan.zhihu.com/p/372206991
# #     https://lightgbm.readthedocs.io/en/v3.3.2/Parameters.html -含有具体参数的意义

lgb_parameters = {
    'max_depth': range(10, 101, 10),
    'learning_rate': [1e-4, 1e-3, 1e-2, 0.1, 0.2, 0.5],
    'feature_fraction': [0.6, 0.7, 0.9, 0.95],
    'bagging_fraction': [0.6, 0.7, 0.9, 0.95],
    'lambda_l1': [1e-4, 1e-3, 0.1, 0.4, 0.6],
    'lambda_l2': [0.1, 1, 1.5, 3, 5],
    'num_leaves': range(10, 50, 5),
    "min_data_in_leaf":[1, 16, 31, 46, 61, 76, 91], 
    "max_bin":range(50,255,20),
    "n_estimators":[450,500,550,600,650,700,750]
}
gbm = lgb.LGBMClassifier(boosting_type='gbdt',
                         objective='binary',
                         metric='auc',
                         verbose=-1,
                         learning_rate=0.001,
                         num_leaves=30,
                         feature_fraction=0.8,
                         bagging_fraction=0.9,
                         lambda_l1=0.2,  
                         lambda_l2=0,
                         n_jobs=-1,
                         seed=0,
                         )
# 训练取消注释
# lgb_gsearch = GridSearchCV(gbm, param_grid=lgb_parameters, scoring='auc', cv=3, verbose=0)
# lgb_gsearch.fit(X_train, y_train)
# print("Best score: %0.3f" % lgb_gsearch.best_score_)
# print("Best parameters set:")
# best_parameters = lgb_gsearch.best_estimator_.get_params()
# for param_name in sorted(lgb_parameters.keys()):
#     print("\t%s: %r" % (param_name, best_parameters[param_name]))

2.2.2 LightGBM 模型预测

# # 调好的参数，又手调了一下

lgb_params = {
    'boosting_type': 'gbdt',
#     'objective': 'binary',
    "objective":'cross_entropy',
    'num_leaves': 30,
    'metric': 'binary_logloss',
#     'metric': 'auc',
    'max_depth':20,
    'learning_rate': 0.01,
    'feature_fraction': 0.8,
    'bagging_fraction': 0.8,
    "min_data_in_leaf":61,
    "max_bin":195,
    "lambda_l1":1e-4,
    "lambda_l2":0.1,
    "n_estimators":650,
    "verbose":-1
}

evals_result = {}  # 记录训练结果所用
lgb_model = lgb.train(lgb_params,
                lgb_train,
                num_boost_round=600,
                valid_sets=[lgb_train, lgb_eval],
                evals_result=evals_result,
                verbose_eval=-1
                )

#模型保存 
lgb_train_pre = lgb_model.predict(X_train)
lgb_pre = lgb_model.predict(X_test)

lgb_model2 = lgb.train(lgb_params,
                lgb_train,
                num_boost_round=600,
                valid_sets=[lgb_train, lgb_eval],
                evals_result=evals_result,
                verbose_eval=-1
                )
joblib.dump(lgb_model2,"Models/lgb_model.dat")

['Models/lgb_model.dat']

2.3 Xgboost 模型

2.3.1 Xgboost 调参

from sklearn.model_selection import GridSearchCV
from sklearn import metrics
# !pip install xgboost -i https: // pypi.tuna.tsinghua.edu.cn / simple
# # 关于安装的问题 Xgboost 基于C++ pip 安装可能不太行，建议删除本机的环境变量，自己打一下import xgboost
import xgboost as xgb
import pandas as pd

xgb_train = xgb.DMatrix(X_train, y_train, feature_names=list(X_pd.columns))
xgb_eval = xgb.DMatrix(X_test,y_test, feature_names=list(X_pd.columns))
xgb_train2 = xgb.DMatrix(X_train[1*trian_size:trian_size*2], y_train[1*trian_size:trian_size*2], feature_names=list(X_pd.columns))
xgb_eval2 = xgb.DMatrix(X_test[1*test_size:test_size*2],y_test[1*test_size:test_size*2], feature_names=list(X_pd.columns))

# # 这一块计算量大，容易卡死
# # 参考：https://juejin.cn/post/6844903661013827598
# #      https://xgboost.readthedocs.io/en/stable/parameter.html -含有具体参数的意义

xgb_parameters = {
    'max_depth': [i for i in range(6, 20, 2)],
    'learning_rate': [1e-5, 1e-4, 1e-3, 1e-2, 0.1, 0.2, 0.5],
    'min_child_weight': [0, 2, 5, 8, 15],
    'subsample': [0.6, 0.7, 0.8, 0.85, 0.95],
    'colsample_bytree': [0.5, 0.6, 0.7, 0.8, 0.9],
    'reg_alpha': [1e-5, 1e-2, 0.1, 0.4, 0.6, 0.8],
    'reg_lambda': [0.01, 0.1, 0.2, 0.8, 1],
    "predictor": ["gpu_predictor"],
    "n_estinators":[i for i in range(600, 800, 20)]
}
xlf = xgb.XGBClassifier(
                        max_depth=30,
                        learning_rate=0.01,
                        n_estimators=200,
                        silent=True,
                        objective='binary:logistic',
                        nthread=-1,
                        gamma=0,
                        min_child_weight=1,
                        max_delta_step=0,
                        subsample=0.85,
                        colsample_bytree=0.7,
                        colsample_bylevel=1,
                        reg_alpha=0,
                        reg_lambda=1,
                        scale_pos_weight=1,
                        seed=0,
                        missing=None,
)
# xgb_gsearch = GridSearchCV(xlf, param_grid=xgb_parameters, scoring='neg_log_loss', cv=3, verbose=0, n_jobs=-1)
# xgb_gsearch.fit(X_train, y_train)
# print("Best score: %0.3f" % xgb_gsearch.best_score_)
# print("Best parameters set:")
# best_parameters = xgb_gsearch.best_estimator_.get_params()
# for param_name in sorted(xgb_parameters.keys()):
#     print("\t%s: %r" % (param_name, best_parameters[param_name]))

2.3.2 Xgboost 模型预测

xgb_params={
#     "objective":"binary:hinge",
    "objective":"binary:logistic",
    "n_estinators:":500,
    "min_child_weight":8,
    "gamma" : 0.7,
    "learning_rate":0.01,
    "subsample":0.8,
    "colsample_bytree":0.8,
    "reg_alpha": 1e-5,
    "reg_lambda":0.01,
    "max_depth":12,
    'seed': 0,
    "verbosity":0,
    'metric':['auc', "logloss"],
}
xgb_evals_result = {}
xgb_model = xgb.train(
    xgb_params,xgb_train,
    evals=[(xgb_train, 'dtrain'), (xgb_eval, 'dtest')],
    num_boost_round=600, evals_result=xgb_evals_result
)
xgb_train_pre = xgb_model.predict(xgb_train)
xgb_pre = xgb_model.predict(xgb_eval)

#模型保存
xgb_model2 = xgb.train(xgb_params,xgb_train2,evals=[(xgb_train2, 'dtrain'), (xgb_eval2, 'dtest')], num_boost_round=600, evals_result=xgb_evals_result)
joblib.dump(xgb_model2,"Models/xgb_model.dat")

2.4 SVM 模型

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import plot_roc_curve
from sklearn.svm import SVC
import numpy as np

2.4.1 SVM 调参

# 调参慢，训练时取消注释
# SVM_params = [{'kernel': ['rbf'], 'C': list(np.linspace(0.2,20,5))},
#               {'kernel': ['linear'], 'C': list(np.linspace(0.2,20,5))}]
# svm_model = GridSearchCV(SVC(), SVM_params, cv=3,
#                        scoring="roc_auc", n_jobs=-1)
# svm_model.fit(X_train, y_train)
# print(svm_model.best_params_)

2.4.2 SVM 模型预测

svc_model = SVC(kernel="rbf", C=12, probability=True)
svc_model.fit(X_train, y_train)
svc_train_pre = svc_model.predict_proba(X_train)[:, 1]
svc_pre = svc_model.predict_proba(X_test)[:, 1]

# #模型保存
# svc_model2 = SVC(kernel="rbf", C=12, probability=True)
# svc_model2.fit(X_train[0*trian_size:4*trian_size], y_train[2*trian_size:3*trian_size])
# joblib.dump(svc_model2,"Models/svc_model.dat")

2.5 模型评价

# # 参考 https://lightgbm.readthedocs.io/en/v3.3.2/Python-API.html

evals_result

2.5.2 log_loss 曲线

if "training" in xgb_evals_result:
    evals_result["LGB_train"] = evals_result.pop("training")
if "valid_1" in xgb_evals_result:
    evals_result["LGB_test"] = evals_result.pop("valid_1")
if "dtrain" in xgb_evals_result:
    xgb_evals_result["XGB_train"] = xgb_evals_result.pop("dtrain")
if "dtest" in xgb_evals_result:
    xgb_evals_result["XGB_test"] = xgb_evals_result.pop("dtest")

fig, ax = plt.subplots(figsize=(8,6))
ax = lgb.plot_metric(evals_result, metric='binary_logloss', ax=ax) 
ax = lgb.plot_metric(xgb_evals_result, metric='logloss',ax= ax) 
plt.show()

2.5.3 auc 曲线

def get_fptr_tpr(y_test, y_pre):
    fpr, tpr, thresholds = metrics.roc_curve(y_test, y_pre)
    AUC = metrics.auc(fpr, tpr)
    return fpr, tpr, AUC

fig, ax = plt.subplots(figsize=(10,8))
plt.xlim([0-.1, 1.0])
plt.ylim([-0.1, 1.05])
plt.title("各种模型测试集的AUC曲线")
fpr, tpr, AUC = get_fptr_tpr(y_test, lgb_pre)
plt.plot(fpr,tpr, label="LGB_AUC")
fpr, tpr, AUC = get_fptr_tpr(y_test, xgb_pre)
plt.plot(fpr,tpr, label="XGB_AUC")
fpr, tpr, AUC = get_fptr_tpr(y_test, svc_pre)
plt.plot(fpr,tpr, label="SVC_AUC")
plt.xlabel("FPR")
plt.ylabel("TPR")
plt.legend()

2.6 特征选择

# 创建两个子图 -- 图3
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['figure.autolayout'] = False
fig, ax = plt.subplots(figsize=(11,7))
lgb.plot_importance(lgb_model, max_num_features=20, title="LGB特征权重(前20)", ax=ax) 
# max_features表示最多展示出前10个重要性特征，可以自行设置
plt.show()
fig, ax = plt.subplots(figsize=(11,7))
xgb.plot_importance(xgb_model, max_num_features=20,  title="XGB特征权重(前20)", ax=ax)
plt.show()

xgb_feature_importance             = pd.DataFrame()
xgb_feature_importance['xgb_fea_name'] = X_pd.columns
xgb_feature_importance['xgb_fea_imp']  = xgb_model.get_fscore().values()
xgb_feature_importance             = xgb_feature_importance.sort_values('xgb_fea_imp',ascending = False)
lgb_feature_importance             = pd.DataFrame()
lgb_feature_importance['lgb_fea_name'] = X_pd.columns
lgb_feature_importance['lgb_fea_imp']  = lgb_model.feature_importance()
lgb_feature_importance             = lgb_feature_importance.sort_values('lgb_fea_imp',ascending = False)
lgb_feature_importance.head(20)

	lgb_fea_name	lgb_fea_imp
2	稀释每股收益	1556
15	归属于母公司净利润同必增长(%)	1527
16	基本每股收益同必增长(%)	1499
1	每股收益(期末摊薄，元/股)	1170
17	稀释每股收益同必增长(%)	834
3	每股净资产(元/股)	681
37	实收资本(或股本)	641
21	每股净资产相对年初增长(%)	615
14	营业总额同必增长(%)	612
23	净资产收益率(扣除加权平均，%)	555
38	资本公积	543
6	每股营业利润(元/股)	511
11	每股未分配利润(元/股)	498
0	股票编号	475
9	每股盈余公积(元/股)	471
20	归属于母公司的股东权益相对年初增长(%)	459
8	每股资本公积(元/股)	437
13	每股现金流量净额(元/股)	409
10	每股公积金(元/股)	405
22	净资产收益率(平均，%)	369

# fig, ax = plt.subplots(figsize=(16,9))
# plt.pie(lgb_feature_importance["lgb_fea_imp"][0:20], labels = lgb_feature_importance["lgb_fea_name"][0:20],
#         counterclock = True, wedgeprops = {'width' : 0.6}, autopct = '%0.0f%%');

fig, ax = plt.subplots(figsize=(16,9))
plt.pie(lgb_feature_importance["lgb_fea_imp"][0:20], labels = lgb_feature_importance["lgb_fea_name"][0:20],
        counterclock = True, autopct = '%0.0f%%',radius=1.1);
plt.title("lgb特征比重图")
# plt.legend()
plt.show()


# plt.legend(lgb_feature_importance["lgb_fea_name"][0:20],loc="upper right")

# xgb_feature_importance.loc[6]["xgb_fea_name"] = "其他"
xgb_feature_importance[0:20]

	xgb_fea_name	xgb_fea_imp
15	归属于母公司净利润同必增长(%)	3135.0
16	基本每股收益同必增长(%)	3125.0
2	稀释每股收益	2904.0
1	每股收益(期末摊薄，元/股)	2110.0
17	稀释每股收益同必增长(%)	1966.0
14	营业总额同必增长(%)	1764.0
37	实收资本(或股本)	1546.0
3	每股净资产(元/股)	1460.0
21	每股净资产相对年初增长(%)	1454.0
38	资本公积	1385.0
23	净资产收益率(扣除加权平均，%)	1246.0
10	每股公积金(元/股)	1218.0
9	每股盈余公积(元/股)	1215.0
0	股票编号	1197.0
18	总资产相对年初增长(%)	1171.0
8	每股资本公积(元/股)	1167.0
31	ebit利息保障倍数(倍)	1138.0
13	每股现金流量净额(元/股)	1115.0
11	每股未分配利润(元/股)	1069.0
19	净资产相对年初增长(%)	994.0

# fig, ax = plt.subplots(figsize=(10,10))
# plt.pie(xgb_feature_importance["xgb_fea_imp"][0:20], labels = xgb_feature_importance["xgb_fea_name"][0:20],
#         counterclock = False, wedgeprops = {'width' : 0.6}, autopct = '%0.0f%%');
# plt.legend()

fig, ax = plt.subplots(figsize=(16,9))
# fig, ax = plt.subplots(figsize=(10,10))
plt.pie(xgb_feature_importance["xgb_fea_imp"][0:20], labels = xgb_feature_importance["xgb_fea_name"][0:20],
        counterclock = True, autopct = '%0.0f%%');
plt.title("xgb特征比重图")
# plt.legend()
plt.show()

3 Stacking 集成学习模型

3.1 模型训练

# # 利用逻辑回归的原因是 防止再次利用 复杂模型导致过拟合 我这里没有弄交叉验证
# # 参考：https://blog.csdn.net/chensq_yinhai/article/details/115341870
from sklearn.linear_model import LogisticRegression
newfeature = np.concatenate((lgb_train_pre.reshape(-1, 1),xgb_train_pre.reshape(-1, 1), svc_train_pre.reshape(-1, 1)), axis=1)
newtestdata = np.concatenate((lgb_pre.reshape(-1, 1),xgb_pre.reshape(-1, 1), svc_pre.reshape(-1, 1)), axis=1)
sigmoid_model = LogisticRegression(random_state=0).fit(newfeature, y_train)
joblib.dump(sigmoid_model, "Models/sigmoid_model.dat")
stacking_pre = sigmoid_model.predict_proba(newtestdata)[:, 1]

3.2 模型评价

fig, ax = plt.subplots(figsize=(10,8))
plt.xlim([0-.1, 1.0])
plt.ylim([-0.1, 1.05])
plt.title("各种模型测试集的AUC曲线")
fpr, tpr, lgb_AUC = get_fptr_tpr(y_test, lgb_pre)
plt.plot(fpr,tpr, label="LGB_AUC")
fpr, tpr, xgb_AUC = get_fptr_tpr(y_test, lgb_pre)
plt.plot(fpr,tpr, label="XGB_AUC")
fpr, tpr, svc_AUC = get_fptr_tpr(y_test, svc_pre)
plt.plot(fpr,tpr, label="SVC_AUC")
fpr, tpr, stacking_AUC = get_fptr_tpr(y_test, stacking_pre)
plt.plot(fpr,tpr, label="Stacking_AUC")
plt.xlabel("FPR")
plt.ylabel("TPR")
plt.legend()

fig, ax = plt.subplots(figsize=(8,6))
labels = ["Lightgbm","Xgboost", "SVC", "Stacking"]
colors = ['r', 'g', 'b', 'orange']
AUC = [lgb_AUC, xgb_AUC, svc_AUC, stacking_AUC]
name = ["Lightgbm", " Xgboost", "SVC", "Stacking"]
# plt.barh(name, AUC, color = ['r', 'g', 'b', 'orange'], label=labels)
plt.barh(name[0], AUC[0], label=labels[0])
plt.barh(name[1], AUC[1], label=labels[1])
plt.barh(name[2], AUC[2], label=labels[2])
plt.barh(name[3], AUC[3], label=labels[3])
plt.xlabel("AUC")
plt.title("各种模型测试集的AUC")
plt.xlim(0.9,0.98)
plt.legend()
plt.show()

3.3 预测第 8 年上市公司实施高送转的情况

import pandas as pd

data = pd.read_csv(model_data_save_path, index_col=0)
X_pd = data[data["年份（年末）"]==7].drop("年份（年末）",axis=1)
Y_pd = X_pd["是否高转送"]
X_pd = X_pd.drop("是否高转送",axis=1)
# if "股票编号" in X_pd.columns:
#     X_pd = X_pd.drop(columns=["股票编号"], axis=1)
X = X_pd.to_numpy()
mm = MinMaxScaler()
X = mm.fit_transform(X)
scaler = StandardScaler()
Xtest = scaler.fit_transform(X)
Ytest = Y_pd.to_numpy()
X_pd

	股票编号	每股收益(期末摊薄，元/股)	稀释每股收益	每股净资产(元/股)	每股营业总收入(元/股)	每股营业收入(元/股)	每股营业利润(元/股)	每股息税前利润(元/股)	每股资本公积(元/股)	每股盈余公积(元/股)	...	息税折旧摊销前利润/负债合计	息税折旧摊销前利润/带息债务	ebit利息保障倍数(倍)	营业总成本/营业总收入(%)	经营活动净收益/营业总收入(%)	净利润/营业总收入(%)	ebitda/营业总收入(%)	归属于母公司的股东权益/总资产(%)	实收资本(或股本)	资本公积
6	1	1.0453	1.0453	4.9023	4.8738	4.8738	1.3972	1.3439	0.1996	0.5027	...	0.342635	36129.451033	0.001536	75.0113	24.9887	21.4468	29.14510	54.1723	5.959791e+08	1.189381e+08
13	2	0.4044	0.3200	5.2170	3.1745	3.1745	0.4523	0.4363	2.1735	0.1827	...	0.921912	32569.789224	-0.000708	86.6884	13.3116	12.7387	17.76480	89.5053	8.311760e+07	1.806529e+08
20	3	-0.0042	-0.0042	1.7783	0.7710	0.7710	-0.0138	-0.0056	0.6971	0.0644	...	0.117351	0.218691	-0.671924	103.1180	-3.1180	-0.6438	6.81430	79.4992	1.510550e+09	1.053069e+09
27	4	0.0943	0.0943	3.3428	5.7990	5.7990	0.0995	0.2383	0.7376	0.4322	...	0.108892	0.263176	1.842629	99.9246	0.0754	1.5143	10.86020	34.2258	1.745754e+08	1.287605e+08
34	5	0.7780	0.9100	7.8629	4.3329	4.3329	0.8718	0.9004	3.6358	0.1073	...	1.224130	10.474077	300.501017	80.5242	19.4758	17.9560	28.05800	88.7859	6.800000e+07	2.472332e+08
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
24233	3462	0.5770	0.5770	6.1199	11.6987	11.6987	0.7360	0.9682	1.9218	0.4831	...	0.307567	0.483046	4.104014	94.5760	5.4240	5.0022	15.56200	50.0662	1.167561e+09	2.243767e+09
24240	3463	0.5804	0.5831	10.6666	7.1831	7.1831	0.6956	0.7307	8.2990	0.1982	...	0.244503	1.011356	16.769062	91.4106	8.5894	7.7843	13.46950	72.7819	5.170313e+08	4.311292e+09
24247	3464	0.1937	0.1900	3.1109	9.9443	9.9443	0.5566	1.4168	1.0209	0.3887	...	0.087313	0.116342	1.261007	95.1713	4.8287	1.6218	21.29650	10.9624	1.900500e+09	1.940141e+09
24254	3465	0.8860	0.9900	7.4300	2.3815	2.3815	1.0814	0.0002	2.0756	0.6454	...	-0.000027	-0.000231	0.000097	54.5906	44.8653	37.4993	0.01245	7.5047	2.114300e+10	4.891240e+08
24261	3466	0.3931	0.2800	6.1511	3.8495	3.8495	0.4306	0.4224	2.9481	0.3422	...	0.237832	1.485498	336.019747	90.7982	9.2018	10.0824	18.17590	67.5468	8.000000e+07	2.358505e+08

3466 rows × 39 columns

log_model = joblib.load('Models/lgb_model.dat')
lgb_pre2 = lgb_model.predict(Xtest)
xgb_model = joblib.load('Models/xgb_model.dat')
xgb_eval2 = xgb.DMatrix(Xtest, Ytest, feature_names=list(X_pd.columns))
xgb_pre2 = xgb_model.predict(xgb_eval2)
svc_model = joblib.load('Models/svc_model.dat')
svc_pre2 = svc_model.predict(Xtest)

testdata = np.concatenate((lgb_pre2.reshape(-1, 1),xgb_pre2.reshape(-1, 1), svc_pre2.reshape(-1, 1)), axis=1)
sigmoid_model = joblib.load('Models/sigmoid_model.dat')
stacking_pre2 = sigmoid_model.predict_proba(testdata)[:, 1]

countN = (stacking_pre2>0.5).astype(int).sum()
countSum = (stacking_pre2>0).astype(int).sum()
print("高送转公司数：", countN)
print("高送转占比：{:.2f} %".format(countN / countSum * 100))

高送转公司数： 329
高送转占比：9.49 %

fig, ax = plt.subplots(figsize=(6,6))
plt.pie([countSum-countN, countN], labels=["未高送转","高送转"], autopct= '%1.2f%%')
plt.title("高送转公司占比图")
plt.legend()
plt.show()

你可能感兴趣的:(人工智能,python,数据分析)

华为OD机试 - 手机App防沉迷系统（Python/JS/C/C++ 2024 D卷 100分）哪吒华为od python javascript 算法七日集训
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机Ap
探索未来视频创作：Tune-A-Video项目深度解析刘通双Elsie
探索未来视频创作：Tune-A-Video项目深度解析Tune-A-Video[ICCV2023]Tune-A-Video:One-ShotTuningofImageDiffusionModelsforText-to-VideoGeneration项目地址:https://gitcode.com/gh_mirrors/tu/Tune-A-Video在数字艺术与人工智能的交汇点上，Tune-A-Vi
对于编程零基础，第一个语言是 Python 的人有什么建议？ cda2024 python 开发语言
在当今数字化时代，编程已成为一项必备技能。无论你是想成为一名专业的软件开发人员，还是希望在数据分析、人工智能等领域有所建树，掌握一门编程语言都是至关重要的第一步。对于许多初学者来说，Python是一个理想的选择。它不仅语法简洁易懂，而且拥有强大的社区支持和丰富的库资源。那么，对于编程零基础且选择Python作为第一门语言的人，有哪些实用的建议呢？1.建立正确的学习心态1.1持之以恒学习编程并不是一
通达信Python语言接口：如何轻松获取并高效利用？ cda2024 python 开发语言
在量化投资和股票分析领域，Python已经成为不可或缺的工具。然而，如何将Python与国内最流行的股票交易软件之一——通达信相结合，成为许多投资者和开发者关心的问题。本文将详细介绍如何获取通达信的Python语言接口，并提供一些实用的技巧和示例代码，帮助你在量化交易中更上一层楼。什么是通达信Python接口？通达信Python接口是通达信官方提供的一个API，允许用户通过Python脚本调用通达
OpenAI进军实体机器人：GPT赋能的智能未来前端
近年来，人工智能技术飞速发展，深刻地改变着我们的生活。而OpenAI作为人工智能领域的领军者，其最新动作更是引人注目：进军实体机器人领域！这不仅标志着人工智能技术应用场景的重大拓展，也预示着未来智能机器人时代的加速到来。本文将深入探讨OpenAI的实体机器人战略，分析其背后的深层逻辑，并展望其未来发展趋势与挑战。OpenAI的战略布局：从AI模型到实体机器人OpenAI在人工智能领域已取得了令人瞩
华为OD机试E卷 - 手机App防沉迷系统（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python c语言 c++javascript 华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：在一天24小时内，可以注册每个App的允许使用时段一个时间段只能使用一个AppApp有优先级，数值越高，优先级越高。注册使用时段时，如果高优先级的App
PyCharm安装PyQt5及工具详细教程 JustLikeRun pycharm qt ide pyqt
PyCharm安装PyQt5及工具详细教程PyCharm是一款功能强大的Python集成开发环境（IDE），而PyQt5是一个用于创建GUI应用程序的流行Python库。在本教程中，我将指导您如何在PyCharm中安装PyQt5及其相关工具，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要下载并安装PyCharm。您可以从JetBrains官方网站（https://www.jetbr
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
华为OD机试E卷 --第k个排列 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码java算法源码python算法源码c算法源码c++算法源码题目描述给定参数n，从1到n会有n个整数:1,2,3,…,n,这n个数字共有nl种排列。按大小顺序升序列出所有排列的情况，并——标记，当n=3时,所有排列如下:“123"“132”“213”“231"“312"“321”给定n和k，返回第k个排列。输入描述输入两行，第一行为n，第二行
期末python试卷（1）泰山小张只吃荷园 python 网络开发语言开源汇编程序人生学习方法
目录一、判断题二、选择题三、填空题一、判断题1.Python是一种解释型、面向对象的编程语言。2.Python中的变量名只能由字母、下划线、数字组成，且不能以数字开头。3.Python中多分支可使用IF-ELIF和SWITCH-CASE语句来实现。4.表达式中包含多个运算符时，计算顺序取决于运算符的结合顺序和优先级。5.x=’Tom’，那么执行语句x+=’Tom’之后，x的id不变。6.Pytho
Python调用另一个py文件并传递参数的全面解析 cda2024 python java 服务器
在Python编程的世界里，模块化和代码复用是提高开发效率的重要手段。当你面对复杂的项目时，将功能拆分成多个文件不仅有助于团队协作，还能提升代码的可读性和可维护性。然而，如何在一个py文件中调用另一个py文件，并且能够传递参数呢？这正是本文要探讨的核心问题。通过本文，你将了解到几种常见的方法及其应用场景，帮助你在实际开发中更加游刃有余。1.使用import语句1.1基本用法最直观的方法就是使用im
使用Python开发SolidWorks API SolidWorksAPI SolidWorks 二次开发 Solidworks API python
使用Python开发SolidWorksAPI介绍本文介绍了如何使用Python与SolidWorksAPI进行交互，创建零件草图、特征及插入文本。我们将通过一个简单的示例，展示如何在SolidWorks中进行自动化操作，利用Python脚本创建一个带有矩形特征的零件，并向草图中插入文本。前提条件安装了SolidWorks和Python。配置了pywin32库来与SolidWorks进行交互。可以
库存python whl文件免费下载（2）科技小游侠 python python
库存pythonwhl文件免费下载（1）库存pythonwhl文件免费下载（2）库存pythonwhl文件免费下载（3）库存pythonwhl文件免费下载（4）库存pythonwhl文件免费下载（5）最近发现收藏的whl下载链接https://www.lfd.uci.edu/~gohlke/pythonlibs/已经走丢了，网上检索了下，还可以下载到历史的whl文件，为了防止下载链接再次失效，索性
Python处理Excel数据王肇朋 excel Excel EXCEL office python Python
Python处理Excel数据2012-08-0210:07:32我来说两句收藏我要投稿前段时间做了个小项目，帮个海洋系的教授做了个数据处理的软件。基本的功能很简单，就是对Excel里面的一些数据进行过滤，统计，对多个表的内容进行合并等。之前没有处理Excel数据的经验，甚至于自己都很少用到Excel。记得《Python核心编程》的最后一章里有讲到用Win32COM操作office，看了一下讲的不
python正则表达式re关于数字、字母、特殊字符、汉字的匹配方式乙龙 python 开发语言
在Python中，正则表达式是通过re模块来实现的。正则表达式是一种强大的文本处理工具，用于匹配、搜索、替换或分割字符串。以下是一些基本的正则表达式模式，用于筛选不同类型的字符：数字(\d):匹配任意数字（0-9）。示例：\d可以匹配“123”中的每个‘1’,‘2’,‘3’。字母([a-zA-Z]):匹配任意大小写的英文字母。示例：[a-zA-Z]可以匹配“HelloWorld”中的每个‘H’,‘
国产海光CPU平台兼容性指南-基础软件分册-20231013（附各系统下载链接）技术瘾君子1573 服务器&存储服务器兼容列表海光 CPU 云计算大数据操作系统
目录声明一、操作系统二、虚拟化和云2.1虚拟化和云2.2虚拟机上的操作系统2.2.1VMwarevSphere上的虚拟机操作系统2.2.2KVM上的虚拟机操作系统2.2.3WindowsHyper-V上的虚拟机操作系统2.2.4VirtualBox上的虚拟机操作系统三、分布式存储四、数据库五、中间件六、大数据七、平台组件7.1云平台7.2大数据平台7.3人工智能平台7.4科学与工程计算平台八、其它
企业如何打造高效智能问答系统？一文详解架构与实现！功城师大语言模型自然语言处理 LLM 人工智能智能问答 RAG Agent
随着人工智能技术的不断发展，智能问答系统成为越来越多企业提升客户服务、知识管理与内部沟通的关键工具。今天我们将深入解析一套智能问答系统的设计思路与技术架构，帮助大家更好地理解如何利用这一系统在实际场景中高效运作。一、智能问答系统的整体架构这套智能问答系统分为前台、AI服务和后台三个核心部分，每个部分承担着不同的职责，分别负责用户交互、问题处理与数据支持。通过这种模块化的设计，整个系统的工作流程得以
python中的两种循环怎么昵称都被占用啊 python 练习 python
python中的两种循环for循环（计数循环）while循环（条件循环）两种循环的区别range函数跳出循环break示例continue示例循环嵌套循环练习循环，三大语言结构之一，当它满足条件时反复执行某一段代码的过程，在python中有两种循环命令，分别为for循环和while循环for循环（计数循环）python中常用的循环结构之一，可以遍历一个可迭代对象中的元素。因为for循环的循环次数是
《python基于时间序列分析的降雨量预测系统》毕业设计项目陈辰学长 python 课程设计开发语言
大家好，我是陈辰学长，一名在Java圈辛勤劳作的码农。今日要和大家分享的是一款《python基于时间序列分析的降雨量预测系统》毕业设计项目。项目源码以及部署相关事宜，请联系陈辰学长，文末会附上联系信息哦。作者：陈辰学长个人简介：在Java领域已沉浸十余年，对Java、微信小程序、Python、Android等技术颇为精通。若大家在这些领域有任何问题，欢迎一起交流探讨！各类成品Java毕业设计丰富多
dlib库的whl文件下载杭林菲
dlib库的whl文件下载【下载地址】dlib库的whl文件下载dlib库的whl文件下载项目地址:https://gitcode.com/open-source-toolkit/f2aaf资源文件介绍本仓库提供了一个dlib库的whl文件下载，文件名为：dlib-19.7.0-cp36-cp36m-win_amd64.rar。该文件适用于Windows64位系统，Python版本为3.6。文件描
chatgpt赋能python：用Python安装Jupyter：让数据科学变得更加高效！ aijinglingchat ChatGpt python chatgpt jupyter 计算机
用Python安装Jupyter：让数据科学变得更加高效！对于数据科学家而言，jupyter是不可或缺的工具之一。它是一个基于web的交互式计算环境，可以帮助我们在Python中以一种轻松、方便、可交互的方式进行编程和数据分析。今天，我们将向您介绍在Python中如何安装jupyter。安装Python要安装jupyter，首先需要安装Python。如果您已经安装了Python，请跳到下一步。您可
与机器学习的邂逅--自适应神经网络结构的深度解析想成为高手499 机器学习与人工智能机器学习神经网络人工智能
引言随着人工智能的发展，神经网络已成为许多应用领域的重要工具。自适应神经网络（AdaptiveNeuralNetworks，ANN）因其出色的学习能力和灵活性，逐渐成为研究的热点。本文将详细探讨自适应神经网络的基本概念、工作原理、关键技术、C++实现示例及其应用案例，最后展望未来的发展趋势。自适应神经网络的基本概念什么是自适应神经网络？自适应神经网络是一种能够根据输入数据的变化和环境的动态特性自动
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
[dlib][python]dlib所有whl文件下载地址汇总 Xiao张不会深度学习 python 开发语言深度学习
dlib库的wheel文件3.7-3.12GitHub-z-mahmud22/Dlib_Windows_Python3.x:Dlibcompiledbinary(.whl)forPython3.7-3.12andWindowsx64这里存储了适用于python3.7-3.12的wheel文件下载wheel文件之后，比如：dlib-19.22.99-cp310-cp310-win_amd64.whl
Python剪辑视频小妙招（moivepy库）对不起，我辜负了你 python
起因最近一直在b站上投稿喜羊羊与灰太狼的视频，但是苦于需要手动裁剪视频的片头和片尾，裁剪的多了就发现喜羊羊与灰太狼的视频片头几乎都是1分25秒结束，也就是持续85秒，片尾也差不多是持续1分02秒差不多也就是62秒，于是开始思考有没有什么方法可以替代人类进行自动化批量裁剪？思路发展迭代与确定一开始是想使用Premier里面的预设来做的，结果发现Premier里面高版本的导出变成了各种网站的标准，相比
深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
Python 实战-优化排班表节省成本奔向理想的星辰大海技术研发 python ios objective-c
1.基础概念：理解排班表排班表，顾名思义，就是安排员工工作时间的表格。在餐馆中，它通常需要考虑员工的可用性、工作时间限制、用餐高峰时段等因素。2.使用列表存储员工信息首先，我们需要一个数据结构来存储员工信息。Python中的列表是一个不错的选择。#员工信息列表，包括姓名、可用时间段employees=[{"name":"张三","available":[(9,17),(20,23)]},{"nam
No module named ‘moviepy.editor‘ weixin_66009678 python
python3.7版本后不支持frommoviepy.editor引用方式，由于是moviepy2.0.0版本修改方法：frommoviepy.editorimportVideoFileClip,clips_array改为frommoviepyimport*
安装python3.12.2环境（实验机器银河麒麟高级服务器） Red丶哞桌面运维 Python linux 运维服务器
1.下载官网Python安装包wgethttps://www.python.org/ftp/python/3.12.2/Python-3.12.2.tar.xz1.1解压tar-xfPython-3.12.2.tar.xz解压完后切换到Python-3.12.2文件夹(这里根据自己解压的文件夹路径)cd/usr/packages/Python-3.12.2/1.2升级软件包管理器CentOS系统：
自己动手写CPU - 6 qq85058522 自己动手写CPU fpga开发
自己动手写CPU_qq85058522的博客-CSDN博客CPU不加功能了，但汇编器可以有。下面写一个把汇编（助记符）翻译成机器码的小工具。Python熟些，就用它了。很简单，就是字符串替换。直接上代码。importsysiflen(sys.argv)!=2:print("usage:pythonassemblerxxx.asm")exit(0)code_path=sys.argv[1]print
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息