温欣2030

【Python】上市公司数据进行经典OLS回归实操

一、题目
二、数据合并、清洗、描述性统计
- 1、数据获取
- 2、数据合并
- 3、选择董监高薪酬作为解释变量的理论逻辑分析
三、多元回归模型的参数估计、结果展示与分析
- 1、描述性统计分析
- 2、剔除金融类上市公司
- 3、对所有变量进行1%缩尾处理
- 4、0-1标准化，所有解释变量
- 5、绘制热力图
- 6、逐步加入关键解释变量
- 7、制作显著性表格
- 8、经典logit回归

首先，一件非常崩溃的事情，昨天晚上使用jupyter notebook跑的数据、代码全部没了，非常难受。
不过好在自己~~足够坚强~~ ，反思了一下，当时要关闭的时候显示未保存，但是明明自己保存了，所以还是自己的问题。其次，我懂得了以后使用jupyter notebook 会更加小心谨慎。
过一段重装一下，看看是什么原因导致无法正常保存。

一、题目

四个文件的资料已经放在Q群里面了

二、数据合并、清洗、描述性统计

1、数据获取

从CSMAR【国泰安金融数据库】数据库下载上市公司基本信息、个股日度收益率、公司董监高等高管个人资料(含个人特征、兼任信息、总经理变更等)、关联交易or股权质押or交叉持股情况、财务指标（包括比率结构、相对价值指标、盈利能力指标)
当然，我实际用到的数据没有那么多，就4个表格。

df1数据如下：

df2数据如下：

df3数据如下：

df4数据如下：

df4的数据我只使用了报告期薪酬这列数据，与上面的三张表格的部分数据进行合并。
此外发现统计截止日期都是同一个日期，因此需要进行处理。

2、数据合并

from scipy.stats.mstats import winsorize
import statsmodels.api as sma
from sklearn.preprocessing import MinMaxScaler # min-max 标准化
import pandas as pd
import numpy as np

df1=pd.read_excel("比例结构.xlsx")
df2=pd.read_excel("相对价值指标.xlsx")
df3=pd.read_excel("盈利能力.xlsx")
df4=pd.read_excel("副本董监高个人特征文件.xlsx")

# 删除'报告期报酬总额'列为空的行
df4 = df4[df4['报告期报酬总额']>0]

import pandas as pd

# 假设df1, df2, df3已经被创建并且包含了相应的列

# 首先，合并df1和df2
data1 = pd.merge(df1[['Stkcd', '股票简称', '统计截止日期', '流动资产比率', '现金资产比率', '固定资产比率', '无形资产比率', '有形资产比率', '资产负债率','归属于母公司净利润占比', '主营业务利润占比']], 
               df2[['Stkcd', '股票简称', '统计截止日期', '市盈率（PE）1', '市净率母公司（PB）', '托宾Q值B', '账面市值比A']], 
               on=['Stkcd', '股票简称', '统计截止日期'], 
               how='inner')

# 然后，将df4与df3合并
data1 = pd.merge(data1, 
               df3[['Stkcd', '股票简称', '统计截止日期', '销售费用率', '管理费用率', '总资产净利润率(ROA)A']], 
               on=['Stkcd', '股票简称', '统计截止日期'], 
               how='inner')

# 现在df4包含了所有需要的列

# 缺失值直接去除
data1=data1.dropna()
data1

# 对df4的数据进行处理，使用groupby和agg进行聚合操作
df44 = df4.groupby(['Stkcd', '统计截止日期']).agg({'报告期报酬总额': ['sum', 'count']})

# 重命名列名
df44.columns = ['总和', '计数']

# 计算均值
df44['均值'] = df44['总和'] / df44['计数']

# 重置索引以获得所需的结果
df44.reset_index(inplace=True)
df44 = pd.DataFrame(df44)
df44

# 然后，将df4与df3合并
data1 = pd.merge(data1, 
               df44[['Stkcd', '均值']], 
               on=['Stkcd'], 
               how='inner')
data1

data1.rename(columns={'均值': '董监高报告期报酬均值'}, inplace=True)
data1.columns
data1.isnull().sum()

被解释变量：

总资产净利润率(ROA)A ：指的是企业总资产的净利润率，是一种衡量公司经营效率的财务指标。

解释变量：

流动资产比率：流动资产比率是指企业流动资产与总资产的比例，反映了企业流动性的程度。
现金资产比率：现金资产比率是指企业现金资产与总资产的比例，反映了企业现金储备的情况。
固定资产比率：固定资产比率是指企业固定资产与总资产的比例，反映了企业固定资产在总资产中的占比。
有形资产比率：有形资产比率是指企业有形资产与总资产的比例，有形资产指的是可以触摸和看到的资产，如土地、建筑物等。
无形资产比率：无形资产比率是指企业无形资产与总资产的比例，无形资产指的是无形的资产，如专利、商标等。
资产负债率：资产负债率是指企业负债总额与总资产的比例，反映了企业负债的程度。
管理费用率：管理费用率是指企业管理费用与营业收入的比例，反映了企业管理费用在营业收入中的占比。
销售费用率：销售费用率是指企业销售费用与营业收入的比例，反映了企业销售费用在营业收入中的占比。
归属于母公司净利润占比：归属于母公司净利润占比是指企业归属于母公司的净利润与净利润的比例，反映了母公司对净利润的占有程度。
主营业务利润占比：主营业务利润占比是指企业主营业务利润与净利润的比例，反映了主营业务对净利润的贡献程度。
董监高报告期报酬均值：董监高报告期报酬均值是指企业董事、监事和高级管理人员在报告期内的平均报酬水平。

3、选择董监高薪酬作为解释变量的理论逻辑分析

吴育辉（2010）以 2004—2008 年我国全部 A 股上研究对象，发现高管薪酬与公司 ROA 显著正相关。张燕红（2016）和蒋泽芳（2019）的研究结果也证明高管薪酬激励对企业经营业绩存在显著正向影响。
[1] 吴育辉，吴世农.高管薪酬：激励还是自利[J].会计研究，2010(11):40-48+96-97.
[2]张燕红.高管薪酬激励对企业绩效的影响[J].经济问题,2016(06):116-120.
[3]蒋泽芳,陈祖英.高管薪酬、股权集中度与企业绩效[J].财会通讯,2019(18):64-68.

三、多元回归模型的参数估计、结果展示与分析

1、描述性统计分析

xVars =['流动资产比率', '现金资产比率', '固定资产比率', '有形资产比率', '无形资产比率',
       '资产负债率', '管理费用率', '销售费用率', '归属于母公司净利润占比', '主营业务利润占比', '董监高报告期报酬均值']
yVar = ['总资产净利润率(ROA)A']
xyVars = yVar + xVars

perct = [0.005,0.01,0.02,0.03, 0.04, 0.05, 0.1,0.15,0.25]
perct += [1-a for a in perct]
perct += [0.5]
sorted(perct)
data1[xVars].describe(percentiles = perct)

结合上面的描述性统计结果，可以看出：

流动资产比率：流动资产比率最小值为0.008334，最大值为0.996918，中位数为0.639045。
现金资产比率：现金资产比率最小值为-0.123399，最大值为0.865536，中位数为0.139831。
固定资产比率：固定资产比率最小值为0.000025，最大值为0.907087，中位数为0.144974。
有形资产比率：有形资产比率最小值为0.061408，最大值为1，中位数为0.964118。
无形资产比率：无形资产比率最小值为0，最大值为0.938592，中位数为0.0277。
资产负债率：资产负债率最小值为0.013898，最大值为1.00818，中位数为0.365849。最大值接近1可能表示某些公司存在高度杠杆，这可能是金融机构的特点。因此，剔除上市公司当中的金融机构以减小金融机构对分析的影响。
管理费用率：管理费用率最小值为-0.002573，最大值为412041.4711，中位数为0.056456。
销售费用率：销售费用率最小值为-0.07824，最大值为160.163763，中位数为0.026863。
归属于母公司净利润占比：归属于母公司净利润占比最小值为-49.539184，最大值为217.579751，中位数为1。
主营业务利润占比：主营业务利润占比最小值为-1837.701639，最大值为1860.04866，中位数为2.173424。
董监高报告期报酬均值：董监高报告期报酬均值最小值为4.46E+01，最大值为7734582.353，中位数为4.89E+05。

2、剔除金融类上市公司

data1 = data1[~data1['股票简称'].str.contains('金融')]
data1

注：其实就减少了几条数据而已

3、对所有变量进行1%缩尾处理

cols_to_winsorize = ['流动资产比率', '现金资产比率', '固定资产比率', '有形资产比率', '无形资产比率',
                    '资产负债率', '管理费用率', '销售费用率', '归属于母公司净利润占比', '主营业务利润占比', '董监高报告期报酬均值']

# 对每个变量进行缩尾处理
for col in cols_to_winsorize:
    data1[col] = winsorize(data1[col], limits=(0.01, 0.01))

data1[xVars].describe(percentiles = perct)

4、0-1标准化，所有解释变量

data1[xVars] = MinMaxScaler().fit_transform(data1[xVars])
data1[xVars].describe()

5、绘制热力图

import matplotlib.pyplot as plt
import seaborn as sns # 画热度图
plt.rcParams["font.sans-serif"] = ["SimHei"] #设置字体
plt.rcParams["axes.unicode_minus"] = False #该语句解决图像中的“-”负号的乱码问题
a = data1[xVars].corr()
plt.figure(figsize=(10, 8))  # 调整图的大小为10x8
sns.heatmap(a, vmin=-1, vmax=1, annot=True, fmt=".2f", cmap="coolwarm", annot_kws={"size": 12, "color": "red"})
plt.show()

从解释变量之间的相关性分析可以看出：解释变量中（正/负）高相关性的变量需要从解释变量剔除

“有形资产比率”与“无形资产比率”的相关系数为-0.77，考虑保留“无形资产比率”,同时删除“有形资产比率”
“流动资产比率”与“固定资产比率”的相关系数为-0.67，考虑保留“流动形资产比率”,同时删除“固定资产比率”

xVars =['流动资产比率', '现金资产比率',  '无形资产比率',
                    '资产负债率', '管理费用率', '销售费用率', '归属于母公司净利润占比', '主营业务利润占比', '董监高报告期报酬均值']

xd = data1[xVars]
xdcons = sma.add_constant(xd)
yd = data1[yVar]

# 参数估计
model = sma.OLS(yd, xdcons).fit()
model.summary2().tables[1]

根据给出的回归系数和统计显著性水平，对每个解释变量进行分析：

流动资产比率（Coefficient: -0.004911, P-value: 0.000554）：流动资产比率的增加与因变量的减少呈负相关关系，且统计上显著。
现金资产比率（Coefficient: 0.024404, P-value: 3.653465e-51）：现金资产比率的增加与因变量的增加呈正相关关系，且统计上显著。
无形资产比率（Coefficient: 0.005387, P-value: 0.011765）：无形资产比率的增加与因变量的增加呈正相关关系，但统计上显著性较低。
资产负债率（Coefficient: -0.040177, P-value: 5.507828e-201）：资产负债率的增加与因变量的减少呈负相关关系，且统计上显著。
管理费用率（Coefficient: -0.009757, P-value: 7.784131e-05）：管理费用率的增加与因变量的减少呈负相关关系，且统计上显著。
销售费用率（Coefficient: -0.026514, P-value: 2.484850e-71）：销售费用率的增加与因变量的减少呈负相关关系，且统计上显著。
归属于母公司净利润占比（Coefficient: 0.004800, P-value: 0.056812）：归属于母公司净利润占比的增加与因变量的增加呈正相关关系，但统计上显著性较低。
主营业务利润占比（Coefficient: -0.027229, P-value: 1.294914e-25）：主营业务利润占比的增加与因变量的减少呈负相关关系，且统计上显著。
董监高报告期报酬均值（Coefficient: 0.046787, P-value: 1.142120e-150）：董监高报告期报酬均值的增加与因变量的增加呈正相关关系，且统计上显著。
结论：流动资产比率、资产负债率、管理费用率、销售费用率和主营业务利润占比对因变量有显著影响，而现金资产比率、无形资产比率、归属于母公司净利润占比和董监高报告期报酬均值对因变量的影响可能较弱。

model.summary()

6、逐步加入关键解释变量

# 需要逐步加入的变量
xStepVars = ['流动资产比率', '现金资产比率', '无形资产比率', '管理费用率', '销售费用率', '归属于母公司净利润占比', '主营业务利润占比', '董监高报告期报酬均值']

# 始终保留的变量（控制变量）
x0Vars = ['资产负债率']

sts = ['Coef.', 'Std.Err.', 'P>|t|']
dst = ['Adj.$R^2$', 'AIC', 'BIC','Log-Likelihood']
step_res = pd.DataFrame(columns = pd.MultiIndex.from_product([xStepVars + ['整体回归'], sts]), # 最后加上一列，全部变量的整体回归
                        index = xVars + dst )
for xsv in xStepVars:
    xns = [xsv] +  x0Vars
    res = sma.OLS(yd, xdcons[xns]).fit()
    t_res = res.summary2().tables[1]
    t_res = t_res[sts]
    step_res[xsv] = t_res
    
    # 取出诊断统计量，放在 Coef. 列
    t_res = res.summary2().tables[0] 
    for i in range(len(dst)):
        step_res[xsv, 'Coef.'][dst[i]] = t_res.iloc[i,3]
        # print(dst[i], ' = ', t_res.iloc[i + 1,3], '填充后 ', step_res[xsv, 'Coef.'][dst[i]])
        
# 全部变量的整体回归结果
res = sma.OLS(yd, xdcons[xStepVars + x0Vars]).fit()
t_res = res.summary2().tables[1] # 取出系数估计结果
step_res['整体回归'] = t_res[sts] # 自动按照 index 匹配赋值

# 取出诊断统计量，放在 Coef. 列
t_res = res.summary2().tables[0] 
for i in range(len(dst)):
    step_res['整体回归', 'Coef.'][dst[i]] = t_res.iloc[i,3]
step_res

7、制作显著性表格

# 制作显著性表格
df = step_res
rows = df.index

dfres = pd.DataFrame(index = rows, columns = xStepVars + ['整体回归'])

for xsv in xStepVars + ['整体回归']:
    coef = df[xsv].astype(float)['Coef.'].map(lambda x:  '' if np.isnan(x) else ('%.3f') % x )
    pvs = df[xsv]['P>|t|'].map(lambda x: '***' if x<=0.01 else '**' if x<=0.05 else '*' if x<=0.1 else '')
    dfres[xsv] = coef + pvs
dfres.loc['Adj.$R^2$',:] = dfres.loc['Adj.$R^2$',:].map(lambda x: '' if np.isnan(float(x)) else ('%.3f%%') % (float(x)*100) )    
dfres

由上述显著性表格可知：

流动资产比率：流动资产比率与整体回归呈显著正相关。
现金资产比率：现金资产比率与整体回归呈显著正相关。
无形资产比率：无形资产比率与整体回归呈显著正相关。
资产负债率：资产负债率与整体回归呈显著负相关。
管理费用率：管理费用率与整体回归呈显著负相关。
销售费用率：销售费用率与整体回归呈显著负相关。
归属于母公司净利润占比：归属于母公司净利润占比与整体回归呈显著正相关。
主营业务利润占比：主营业务利润占比与整体回归呈显著正相关。
董监高报告期报酬均值：董监高报告期报酬均值与整体回归呈显著正相关。

8、经典logit回归

# 将因变量归一化
yd = MinMaxScaler().fit_transform(yd)

import statsmodels.api as sma

# 将自变量和因变量赋值给Xbs和ybs
Xbs = xdcons[xStepVars + x0Vars]
ybs = yd

# 为自变量添加常数列
Xbs_cons = sma.add_constant(Xbs)

# 创建logit回归模型并拟合
lr = sma.Logit(ybs, Xbs_cons)
logit_res = lr.fit(method='lbfgs', maxiter=500)

# 打印logit回归结果
logit_res.summary()

描述：

No. Observations: 25885 - 观测样本的数量是25885。
Model: Logit - 使用的模型是逻辑回归模型。
Df Residuals: 25875 - 残差的自由度是25875。
Method: MLE - 使用的估计方法是最大似然估计。
Df Model: 9 - 模型的自由度是9，表示有9个自变量。
Pseudo R-squ.: -299.0 - 伪R平方值为-299.0，表示模型拟合效果较差。 Time: 11:28:05 - 模型拟合的时间是上午11:28:05。
Log-Likelihood: -10041. - 对数似然值为-10041.，表示模型的对数似然函数值。
converged: False - 模型是否收敛，False表示模型未收敛。
LL-Null: -33.464 - 空模型的对数似然值为-33.464。
Covariance Type: nonrobust - 协方差类型为非鲁棒性。
LLR p-value: 1.000 - 对数似然比检验的p值为1.000，表示模型的拟合效果不显著。

lr = sma.Logit(ybs, Xbs_cons)
# logit_res = lr.fit(method = 'lbfgs', maxiter = 500)
logit_res = lr.fit_regularized(method = 'l1', maxiter = 500, alpha = 1, trim_mode = 'size')
logit_res.summary()
res = logit_res.summary2().tables[1]

logit_res.summary2().tables[0]

round(res.loc[xVars,:],4)

pytesseract，一个超强的 Python 库！大模型开发 python 开发语言
大家好，今天为大家分享一个超强的Python库-pytesseract。在当今数字化时代，文字识别技术扮演着越来越重要的角色。Pythonpytesseract库是一个强大的工具，能够帮助开发者轻松实现图像中文字的识别。本文将深入探讨pytesseract库的原理、功能、使用方法以及实际应用场景，并提供丰富的示例代码，让读者更全面地了解这个工具库。什么是Pythonpytesseract库？Pyt
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
3月TIOBE编程语言排行：Python稳居榜首，C++和Java市场份额稳步上升朱公子的Note 编程语言 python c++java TIOBE编程语言排行
TIOBE编程语言排行榜是一个基于全球程序员数量、课程数量和第三方供应商数量的指标，旨在反映编程语言的流行度。根据TIOBEIndex，它每月更新一次，计算方法基于搜索引擎（如Google、Bing、Wikipedia等）的查询结果，涵盖专业开发者的兴趣和需求。需要注意的是，TIOBE指数不代表“最佳”编程语言或代码量最多的语言，而是反映语言在开发者社区中的热度。2025年3月的排行榜特别提到Py
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
Python第六章03：列表的常用操作苹果.Python.八宝粥 python windows 开发语言
#列表的常用操作"""如:定义、下标索引获取数据、插入元素、删除元素、清空列表、修改元素、统计修改元素个数在Python中，如果将函数定义为class的成员，那么函数称为方法函数：defadd(x,y):returnx+y方法：classStudent:defadd(self,x,y):returnx+y方法和函数的功能一样，可以传入参数，有返回值，方法调用使用格式不同：函数的使用：num=add
Python第六章01：列表（lsit）定义语法苹果.Python.八宝粥 python 开发语言
#列表（list）的定义语法#基本语法：#字面量：#[元素1，元素2，元素3，元素4，......]#定义变量#变量名称=[元素1，元素2，元素3，元素4，......]#定义空列表#变量名称=[]#变量名称=list[]#列表内的每一个数据，称之为元素#1.以[]作为标识#2.列表内每一个元素直接用，逗号隔开#3.列表可以一次存储多个数据，且可以为不同的数据类型，支持嵌套。#定义一个列表my_l
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
31天Python入门——第5天:循环那些事儿安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.while循环1.1while循环的嵌套1.2补充学习:print函数2.for循环2.1range函数2.2for循环2.3continue和break以及return2.4for循环的嵌套3.补充学习3.1enumerate函数3.2zip函数3.3不要在遍历列表的过程中删除元素循环是编程语言常见的一种流程控制所谓循环就是反复的执行一段代码我们人类语言要让别人反
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
ArkTS 基础语法介绍怀男孩笔记 harmonyos
ArkTS基础语法编程语言介绍什么是ArkTS？ArkTS是HarmonyOS生态的应用开发语言。它基于TypeScript（TS），并在此基础上进行了增强和优化，提供了声明式UI范式、状态管理支持等能力，帮助开发者以更简洁、自然的方式开发应用。ArkTS强化了静态类型检查，支持并发编程增强，并与TS/JS生态高效互操作，兼容性良好。ArkTS的主要特点包括：静态类型检查：在编译阶段检测更多错误，
Python的那些事第四十六篇：基于属性的测试库hypothesis研究暮雨哀尘 Python的那些事 python 开发语言属性测试库 hypothesis 执行流程构建
一、引言（一）研究背景随着软件系统复杂性的不断增加，软件测试在确保软件质量方面的重要性愈发凸显。传统测试方法在面对大规模、复杂软件系统时，往往存在测试用例设计不全面、测试执行效率低下等问题。基于属性的测试作为一种新兴的测试方法，通过定义软件系统的属性来指导测试用例的设计与执行，为解决上述问题提供了新的思路。（二）研究意义本研究旨在深入探讨基于属性的测试库的构建与应用，以提高软件测试的效率和质量，降
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
3月20日复盘四万二千正式复盘 python 前端机器学习
挑战全栈第八天！今天更新Python中的迭代器和生成器，以及函数式编程的内容。8.3super().init()super().__init__()是Python中用于调用父类（基类）构造函数的一种方式。它通常用于子类的构造函数中，以确保父类的构造函数被正确调用和初始化。这在继承（inheritance）中尤为重要，因为父类的初始化代码可能包含设置实例变量或执行其他重要的初始化任务。classPa
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
Pycharm python解释器 unsupported python 3.1 解决大表哥在曾母暗沙 Python PyCharm python pycharm ide 解释器模式
Pycharm环境unsupportedpython3.1解决1.问题重现2.原因分析3.解决方法1.问题重现之前使用Pycharm2024.1.1的时候，环境配置的Python3.11.9，现在改成使用Pycharm2020.2.2，结果Python解释器显示“unsupportedpython3.1”，如下图：2.原因分析因为Pycharm2020.2.2支持的Python最高版本就是Pyth
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人南七小僧人工智能网站开发 AI技术产品经理服务器数据库 windows
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
python之gmsh划分网格老歌老听老掉牙 python有限元分析 python 开发语言 gmsh 划分网格
Gmsh（GeometryModelingandMeshingSuite）是一个开源的三维有限元网格生成器，它集成了内置的CAD引擎和后处理器。Gmsh的设计目标是提供一个快速、轻量级且用户友好的网格工具，同时具备参数化输入和高级可视化能力。Gmsh围绕几何（geometry）、网格（mesh）、求解器（solver）和后处理（post-processing）四个模块构建，用户可以通过图形用户界面
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
输入某年某月某日，判断这一天是这一年的第几天python 发现文化fu python python
题目：输入某年某月某日，判断这一天是这一年的第几天python输入某年某月某日，判断这一天是这一年的第几天python思路：*判断闰年能被4整除但不能被100整除，年份能被400整除#方法1sum=0if(year%4==0andyear%100!=0)oryear%400==0:feb=29else:feb=28month_day=[0,31,feb,31,30,31,30,31,31,30,3
python练习3：输入某年某月某日，判断这一天是这一年的第几天？柯.姐姐 python
#输入某年某月某日，判断这一天是这一年的第几天？list=[0,31,59,90,120,151,181,212,243,273,304,334]year=int(input('请输入年份：'))month=int(input('请输入月份：'))day=int(input('请输入天：'))ifmonth>0andmonth2:result=result+1print("这是第%d天"%resu
初学python100例-案例4 计算一年第几天多种不同解法少儿编程案例讲解小兔子编程初学python100例 python学习 python100例 python计算天数 python算法 python案例
题目输入某年某月某日，判断这一天是这一年的第几天？解法1程序分析1、以5月2日为例，应该先把前四个月的加起来，2、然后再加上2天即本年的第几天，3、特殊情况，闰年且输入月份大于2时需考虑多加一天：4、闰年1、年份能被4整除；2、年份若是100的整数倍的话需被400整除，否则是平年。程序源代码：year=int(input('year:\n'))month=int(input('month:\n')
Python 的类中，self 是一个特殊的参数可可乐不加冰知识学习专栏 python 开发语言
在Python的类中，self是一个特殊的参数，它代表类的实例本身。self是方法的第一个参数，用于访问实例的属性和方法。下面我将从多个角度解释self的含义、作用以及如何使用它。1.self表示类的实例本身在Python中，当你创建一个类的实例时，实际上是在内存中创建了一个对象。self参数代表的就是这个对象本身。通过self，你可以在类的方法中访问和修改实例的属性。2.为什么需要self？se
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

【Python】上市公司数据进行经典OLS回归实操

一、题目

二、数据合并、清洗、描述性统计

1、数据获取

2、数据合并

3、选择董监高薪酬作为解释变量的理论逻辑分析

三、多元回归模型的参数估计、结果展示与分析

1、描述性统计分析

2、剔除金融类上市公司

3、对所有变量进行1%缩尾处理

4、0-1标准化，所有解释变量

5、绘制热力图

6、逐步加入关键解释变量

7、制作显著性表格

8、经典logit回归

你可能感兴趣的:(#,【大数据分析】,【Phthon】,#,【机器学习】,python,回归,开发语言)