程序员老冉

Python数据分析从入门到进阶：模型评估和选择（含详细代码）

引言

之前我们介绍了机器学习的一些基础性工作，介绍了如何对数据进行预处理，接下来我们可以根据这些数据以及我们的研究目标建立模型。那么如何选择合适的模型呢？首先需要对这些模型的效果进行评估。本文介绍如何使用sklearn代码进行模型评估

模型评估对模型评估的基本步骤如下：

首先将要将数据集分为训练集和测试集
对训练集进行模型拟合
确定合适的评估指标
计算在测试集上的评估指标

1 数据集划分

在机器学习问题中，从理论上我们需要对数据集划分为训练集、验证集、测试集。

训练集：拟合模型（平常的作业和测试）
验证集：计算验证集误差，选择模型（模拟考）
测试集：评估模型（最终考试）但是在实际应用中，一般分为训练集和测试集两个。其中训练集：70%，测试集：30%.这个比例在深度学习中可以进行相应的调整。我们可以使用sklearn中的train_test_split划分数据集

# 导入相关库
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import metrics
from sklearn.model_selection import KFold, cross_val_score
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
import pandas as pd

# 导入数据
df = pd.read_csv(r'C:\Users\DELL\data-science-learning\seaborn-data\iris.csv')
df.shape

(150, 5)

# 划分数据集和测试集
train_set, test_set = train_test_split(df, test_size=0.3,
random_state=12345)

train_set.shape, test_set.shape

((105, 5), (45, 5))

可以看出此时训练集只有105个数据，测试集有45个数据。

️2.交叉验证模型

评估模型时，我们最常用的方法之一就是交叉验证，具体原理看看我这篇文章统计学习导论（ISLR）（五）：重采样方法（交叉验证和bootstrap），下面以一个具体案例来看如何实现，代码如下

# 加载数据
digits = datasets.load_digits()

# 创建特征矩阵
features = digits.data
target = digits.target

# 进行标准化
stand = StandardScaler()

# 创建logistic回归器
logistic = LogisticRegression()

# 创建一个包含数据标准化和逻辑回归的流水线
pipline = make_pipeline(stand, logistic)# 先对数据进行标准化，再用logistic回归拟合

# 创建k折交叉验证对象
kf = KFold(n_splits=10, shuffle=True, random_state=1)

使用shuffle打乱数据，保证我们验证集和训练集是独立同分布的(IID)的

# 进行k折交叉验证
cv_results = cross_val_score(pipline,
                            features,
                            target,
                            cv=kf,
                            scoring='accuracy',#评估的指标
                            n_jobs=-1)#调用所有的cpu

cv_results.mean()

0.9693916821849783

使用pipeline方法可以使得我们这个过程很方便，上述我们是直接对数据集进行了交叉验证，在实际应用中，建议先对数据集进行划分，再对训练集使用交叉验证。

from sklearn.model_selection import train_test_split

# 划分数据集
features_train, features_test, target_train, target_test = train_test_split(features, 
                                                                            target,
                                                                            test_size=0.1,random_state=1)

# 使用训练集来计算标准化参数
stand.fit(features_train)

StandardScaler()

# 然后在训练集和测试集上运用
features_train_std = stand.transform(features_train)
features_test_std = stand.transform(features_test)

这里之所以这样处理是因为我们的测试集是未知数据，如果使用测试集和训练集一起训练预处理器的话，测试集的信息有一部分就会泄露，因此是不科学的。在这里我认为更general的做法是先将训练集训练模型，用验证集评估选择模型，最后再用训练集和验证集一起来训练选择好的模型，再来在测试集上进行测试。

pipeline = make_pipeline(stand, logistic)

cv_results = cross_val_score(pipline,
                            features_train_std,
                            target_train,
                            cv=kf,
                            scoring='accuracy',
                            n_jobs=-1)

cv_results.mean()

0.9635112338010889

3.回归模型评估指标

评估回归模型的主要指标有以下几个

MAE:平均绝对误差: MAE=1m∑i=1N∣yi−yi∣MAE=\frac{1}{m}\sum_{i=1}{N}|y_i-\hat{y}_i|MAE=m1∑i=1N∣yi−y^i∣
MSE:均方误差： MSE=1m∑i=1N(yi−yi)2MSE=\frac{1}{m}\sum_{i=1}{N}(y_i-\hat{y}_i)2MSE=m1∑i=1N(yi−yi)2
RMSE: RMSE=1m∑i=1N(yi−yi)2RMSE=\sqrt{\frac{1}{m}\sum_{i=1}{N}(y_i-\hat{y}_i)2}RMSE=m1∑i=1N(yi−yi)2
r2: R2=ESSTSSR^2 = \frac{ESS}{TSS}R2=TSSESS 下面我们来看看具体代码

# 导入相关库
from sklearn.datasets import make_regression
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn import metrics

# 建立模拟数据集
features, target = make_regression(n_samples=100,
                                   n_features=3,
                                   n_informative=3,
                                   n_targets=1,
                                   noise=50,
                                   coef=False,
                                   random_state=1)

# 创建LinerRegression回归器
ols = LinearRegression()

metrics.SCORERS.keys()

dict_keys(['explained_variance', 'r2', 'max_error', 'neg_median_absolute_error', 'neg_mean_absolute_error', 'neg_mean_absolute_percentage_error', 'neg_mean_squared_error', 'neg_mean_squared_log_error', 'neg_root_mean_squared_error', 'neg_mean_poisson_deviance', 'neg_mean_gamma_deviance', 'accuracy', 'top_k_accuracy', 'roc_auc', 'roc_auc_ovr', 'roc_auc_ovo', 'roc_auc_ovr_weighted', 'roc_auc_ovo_weighted', 'balanced_accuracy', 'average_precision', 'neg_log_loss', 'neg_brier_score', 'adjusted_rand_score', 'rand_score', 'homogeneity_score', 'completeness_score', 'v_measure_score', 'mutual_info_score', 'adjusted_mutual_info_score', 'normalized_mutual_info_score', 'fowlkes_mallows_score', 'precision', 'precision_macro', 'precision_micro', 'precision_samples', 'precision_weighted', 'recall', 'recall_macro', 'recall_micro', 'recall_samples', 'recall_weighted', 'f1', 'f1_macro', 'f1_micro', 'f1_samples', 'f1_weighted', 'jaccard', 'jaccard_macro', 'jaccard_micro', 'jaccard_samples', 'jaccard_weighted'])

# 使用MSE对线性回归做交叉验证
cross_val_score(ols, features, target, scoring='neg_mean_squared_error', cv=5)

array([-1974.65337976, -2004.54137625, -3935.19355723, -1060.04361386,
       -1598.74104702])

cross_val_score(ols, features, target, scoring='r2')

array([0.8622399 , 0.85838075, 0.74723548, 0.91354743, 0.84469331])

4.创建一个基准回归模型

from sklearn.datasets import load_boston
from sklearn.dummy import DummyRegressor
from sklearn.model_selection import train_test_split

# 加载数据
boston = load_boston()

features, target = boston.data, boston.target

# 将数据分为测试集和训练集
features_train, features_test, target_train, target_test = train_test_split(features, target,
                                                                           random_state=0)

# 创建dummyregression对象
dummy = DummyRegressor(strategy='mean')

# 训练模型
dummy.fit(features_train, target_train)

DummyRegressor()

dummy.score(features_test, target_test)

-0.001119359203955339

# 下面我们训练自己的模型进行对比
from sklearn.linear_model import LinearRegression
ols = LinearRegression()
ols.fit(features_train, target_train)

LinearRegression()

ols.score(features_test, target_test)

0.6354638433202129

通过与基准模型的对比，我们可以发现我们线性回归模型的优势

5.混淆矩阵

评估分类器性能一个重要方法是查看混淆矩阵。一般的想法是计算A类实例被分类为B类的次数，以及B类被预测为A类的个数。要计算混淆矩阵，首先需要有一组预测，以便与实际目标进行比较。混淆矩阵如下图所示：

其中：

TP：正确预测正类的个数
FP：错误预测正类的个数
TN：正确预测负类的个数
FN：错误预测负类的个数

下面我们来看如何使用具体的代码得到混淆矩阵

# 导入相关库
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
import pandas as pd

# 加载数据
iris = load_iris()

features = iris.data

target = iris.target

class_names = iris.target_names

features_train, features_test, target_train, target_test = train_test_split(
features, target, random_state = 1)

classfier = LogisticRegression()

target_predicted = classfier.fit(features_train, target_train).predict(features_test)

# 创建一个混淆矩阵
matrix = confusion_matrix(target_test, target_predicted)

df = pd.DataFrame(matrix, index = class_names, columns=class_names)

sns.heatmap(df, annot=True, cbar=None, cmap='Blues')
plt.ylabel('True Class')
plt.xlabel('Predict Class')
plt.title('Confusion matrix')

Text(0.5, 1.0, 'Confusion matrix')

6.分类评估指标

对于分类问题的评估指标主要包含以下几个：

F1-score：21prection+1recall\frac{2}{\frac{1}{prection}+\frac{1}{recall}}prection1+recall12
准确率: TP+TNFP+TP+FN+TN\frac{TP + TN}{FP + TP + FN + TN}FP+TP+FN+TNTP+TN
召回率：TPTP+FN\frac{TP}{TP+FN}TP+FNTP
精确率：TPTP+FP\frac{TP}{TP+FP}TP+FPTP

其中，对于非均衡数据，使用F1-score比较合理。下面我们来看具体如何得到这些评估指标

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

# 创建模拟数据集
X, y = make_classification(random_state=1,
                          n_samples=1000,
                          n_features=3,
                          n_informative=3,
                          n_redundant=0,
                          n_classes=2)

# 创建逻辑回归器
logit = LogisticRegression()

# 使用准确率对模型进行交叉验证
cross_val_score(logit, X, y, scoring='accuracy')

array([0.87, 0.88, 0.85, 0.93, 0.9 ])

cross_val_score(logit, X, y, scoring='f1')

array([0.87735849, 0.88235294, 0.85849057, 0.92708333, 0.90384615])

cross_val_score(logit,X,y,scoring='precision')

array([0.83035714, 0.86538462, 0.8125    , 0.9673913 , 0.86238532])

其中，我们可以看出，召回率和精确率两个往往不会同时增加(增加样本量可能可以让两个指标同时增加)，这里有点像我们假设检验中的第一类错误和第二类错误。因此，我们要保证这两个指标都不能太小。下面我们介绍ROC和AUC

7.ROC和AUC

7.1 ROC曲线

RUC曲线是用于二分类器的另一个常用工具。它与精密度/召回率非常相似，但不是绘制精密度与召回率的关系，而是绘制真阳性率（召回率的另一个名称）与假阳性率（FPR）的关系。FPR是未正确归类为正的负实例的比率。通过ROC曲线来进行评估，计算出每个阈值下的真阳性率和假阳性率

TPR=TP/(TP+FN)TPR = TP/(TP + FN)TPR=TP/(TP+FN)
FPR=FP/(FP+TN)FPR = FP/(FP + TN)FPR=FP/(FP+TN)

# 导入相关库
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score
from sklearn.model_selection import train_test_split

features, target = make_classification(n_samples=1000,
                                      n_features=10,
                                      n_classes=2,
                                      n_informative=3,
                                      random_state=3)

features_train, features_test, target_train, target_test = train_test_split(features,
                                                                            target,
                                                                           	test_size=.1,
                                                                           	random_state=1)

logit.fit(features_train, target_train)

LogisticRegression()

# 预测为1的概率
target_probabilities = logit.predict_proba(features_test)[:,1]

target_test

array([0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1,
       1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0,
       0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0,
       1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0,
       1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1])

这里我们选取所有第二列的概率的值，也就是所有为正类的值

false_positive_rate, true_positive_rate, thresholds = roc_curve(target_test,target_probabilities)

我们默认是将概率大于50%的判断为正类，但当我们实际应用时，可以对阈值进行相应的调整，例如我们可以增加阈值，保证正类的准确度更高，如下所示

y_predict = target_probabilities>0.6
y_predict

array([False, False,  True, False,  True,  True, False,  True, False,
       False, False,  True, False, False, False,  True, False, False,
       False, False,  True,  True,  True, False,  True,  True,  True,
       False,  True, False,  True, False,  True,  True, False, False,
        True,  True,  True,  True,  True, False, False,  True, False,
        True,  True, False, False, False, False,  True, False, False,
        True,  True,  True, False,  True, False,  True, False, False,
        True,  True, False,  True,  True,  True,  True,  True,  True,
       False,  True, False, False,  True, False, False, False, False,
        True,  True, False,  True, False,  True, False,  True, False,
       False,  True, False, False,  True, False,  True, False, False,
        True])

# 绘制AUC曲线
plt.plot(false_positive_rate, true_positive_rate)
plt.plot([0, 1], ls='--')
plt.plot([0, 0], [1, 0], c='.7')
plt.plot([1,1], c='.7')

# 我们可以通过predict_proba 查看样本的预测概率
logit.predict_proba(features_test)[2]

array([0.02210395, 0.97789605])

logit.classes_

array([0, 1])

7.2 AUC值

比较分类器的一种方法是测量曲线下面积（AUC）。完美分类器的AUC等于1，而适当的随机分类器的AUC等于0.5。Sklearn提供了一个计算AUC的函数roc_auc_score

计算AUC值

 roc_auc_score(target_test,target_probabilities)

0.9747899159663865

可以看出该分类器的AUC值为0.97，说明该模型的效果很好。

由于ROC曲线与精度/召回（PR）曲线非常相似，您可能想知道如何决定使用哪一条曲线。根据经验，当阳性类别很少，或者当你更关心假阳性而不是假阴性时，你应该更喜欢PR曲线。否则，使用ROC曲线。

8.创建一个基准分类模型

from sklearn.datasets import load_iris
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split

iris = load_iris()

features, target = iris.data, iris.target

# 划分数据集
features_train, features_test, target_train, target_test = train_test_split(features, target,
                                                                           random_state=0)

dummy = DummyClassifier(strategy='uniform', random_state=1)

dummy.fit(features_train, target_train)

DummyClassifier(random_state=1, strategy='uniform')

dummy.score(features_test, target_test)

0.42105263157894735

# 接下来我们创建自己的模型

from sklearn.ensemble import RandomForestClassifier#随机森林分类，考虑在后面分享

classfier = RandomForestClassifier()

classfier.fit(features_train, target_train)

RandomForestClassifier()

classfier.score(features_test, target_test)

0.9736842105263158

可以看出，随机森林模型效果更好

9.可视化训练集规模的影响

我们都知道，只要给我们足够多的数据集，那我们基本能训练一个效果很好的模型，接下来我们来看看如何绘制训练集大小对模型效果的影响(learning curve)

import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import learning_curve

digits = load_digits()

features, target = digits.data, digits.target

# 使用交叉验证为不同规模的训练集计算训练和测试得分
train_sizes, train_scores, test_scores = learning_curve(RandomForestClassifier(),
                                                       features,
                                                       target,
                                                       cv=10,
                                                       scoring='accuracy',
                                                       n_jobs=-1,
                                                       train_sizes=np.linspace(0.01,1,50))

# 计算训练集得分的平均值和标准差
train_mean = np.mean(train_scores, axis=1)
train_std = np.std(train_scores, axis=1)

test_mean = np.mean(test_scores, axis=1)
test_std = np.std(test_scores, axis=1)

plt.plot(train_sizes, train_mean, '--', color='black', label='Training score')
plt.plot(train_sizes, test_mean, color='black', label='Cross-validation score')
plt.fill_between(train_sizes, train_mean-train_std,
                train_mean + train_std, color='#DDDDDD')
plt.fill_between(train_sizes, test_mean-test_std,
                test_mean + test_std, color='#DDDDDD')
plt.title('learning_curve')
plt.xlabel('Training Set Size')
plt.ylabel('Accuracy Score')
plt.legend(loc='best')
plt.tight_layout()
plt.show()

10. 生成评估指标报告

from sklearn.metrics import classification_report

iris = datasets.load_iris()

features = iris.data

target = iris.target

class_names = iris.target_names

features_train, features_test, target_train, target_test = train_test_split(
features, target, random_state = 1)

classfier = LogisticRegression()

model = classfier.fit(features_train, target_train)
target_predicted = model.predict(features_test)

# 生成分类器的性能报告
print(classification_report(target_test,
                           target_predicted,
                           target_names=class_names))

              precision    recall  f1-score   support
      setosa       1.00      1.00      1.00        13
  versicolor       1.00      0.94      0.97        16
   virginica       0.90      1.00      0.95         9
    accuracy                           0.97        38
   macro avg       0.97      0.98      0.97        38
weighted avg       0.98      0.97      0.97        38

---------------------------END---------------------------

#学习资源推荐

零基础Python学习资源介绍

Python学习路线汇总
Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（学习教程文末领取哈）

Python必备开发工具

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

Python学习视频600合集
观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

实战案例
光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

100道Python练习题
检查学习结果。

面试刷题

资料领取

上述这份完整版的Python全套学习资料已经上传CSDN官方，朋友们如果需要可以微信扫描下方CSDN官方认证二维码输入“领取资料” 即可领取。

你可能感兴趣的:(python,数据分析,开发语言)

tf.Keras (tf-1.15)使用记录4-model.fit方法及其callbacks参数普通攻击往后拉 NN技巧 tf.keras keras 人工智能深度学习
model.fit()方法是TensorFlowKeras中用于训练模型的核心方法。其中里面的callbacks参数是实现模型保存、监控、以及和tensorboard联动的重要API1model.fit()方法的参数及使用必需参数x:训练数据的输入。可以是NumPy数组、TensorFlowtf.data.Dataset、Python生成器或keras.utils.Sequence实例。y:训练数
macbook自带python保存文件夹_在mac下查找python包存放路径site-packages的实现方法在Mac系统下python如何安装第三方函数库?... Charnychi
mac怎么查看python的site-package位置世界上最伤心的事，不是你爱的人不爱你，而是他爱你过后，最后却不爱你。可以通过find命令查看，参考demo如下：sudofind/-name"site-package"小编们总是对最亲近的家人视而不见，甚至还有许多抱怨，却对外人”的一点小惠感激不已。mac自带的python安装在/usr/bin/python目录下进入终端直接键入python
python exe site-package weixin_33735077 python
2019独角兽企业重金招聘Python工程师标准>>>pythonexesite-package:http://www.lfd.uci.edu/~gohlke/pythonlibs/#pillow转载于:https://my.oschina.net/zuoan001/blog/346126
python 分享site-package CbdFocus Python
导出列表pipfreeze>requirements.txt安装列表pipinstall-rrequirements.txt
Python 框架之 Anaconda 下 Django 环境的快速搭建与验证的相关说明仙魁XAN python python anaconda django
Python框架之Anaconda下Django环境的快速搭建与验证的相关说明目录Python框架之Anaconda下Django环境的快速搭建与验证的相关说明一、简单介绍二、实现原理三、环境四、涉及命令五、搭建具体步骤1、打开AnacondaNavigator2、Create构建一个环境，选择自己需要的python版本即可3、AnacondaPrompt打开命令行操作4、condainfo--e
SQLAlchemy 介绍与实践 cliffordl python python 数据库
postgresql实践pydantic实践1.SQLAlchemy介绍SQLAlchemy是一个ORM框架。SQLAlchemy是一个用于Python的SQL工具和对象关系映射（ORM）库。它允许你通过Python代码来与关系型数据库交互，而不必直接编写SQL语句。简单介绍一下对象关系映射吧，对象关系映射（英语：ObjectRelationalMapping，简称ORM，或O/RM，或O/Rma
python dist-packages 和 site-packages ECHOutopia linux python site-packages dist-packages ubuntu python
dist-packages和site-packages在我的ubuntu12上都在/usr/local/lib/python2.7目录下今天安装django时发现一个奇怪的现象：我使用pipinstallDjango==1.8.4安装的django，安装成功，直接在终端使用django-admin也成功，但是进入python：importdnango，却提示nomodulenameddjango，
编程语言“鄙视链”：为何Python会处于这样的位置？宝码香车 #话题 python 开发语言
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录编程语言“鄙视链”：为何Python会处于这样的位置？引言一、Python被视为新手友好型语言的原因（二）丰富的学习资源（三）广泛的应用领域二、Python在某些方面被“轻视”的因素（一）性能方面的局限（二）代码的安全性与保密性（三）行业传统
python 安装包 site-packages cliffordl 综合 python python 开发语言
1.site-packages文件夹的位置当我们通过pip或其他方式安装一个Python包时，这些包的文件就会被复制到site-packages文件夹下。site-packages文件夹通常位于Python的安装目录下的Lib文件夹内。具体的路径会根据你使用的操作系统和Python版本的不同而有所不同。下面是一些常见操作系统下site-packages文件夹的默认位置：1.1.在Windows系统
基于TensorFlow 2.0的DBN故障诊断程序 ydlhnust 深度学习
以下是一个基于TensorFlow2.0的DBN故障诊断程序，包含特征可视化和结果分析。程序使用合成振动数据进行演示，可直接运行。```pythonimportnumpyasnpimportmatplotlib.pyplotaspltimporttensorflowastffromtensorflow.kerasimportlayers,modelsfromsklearn.model_select
kylin套_Apache Kylin（一）Kylin介绍 weixin_39898011 kylin套
1.传统大数据分析的问题在基于Hadoop生态的传统大数据分析中，主要使用的技术是MPP(MassivelyParallelProcessing)大规模并行处理和列式存储。MPP使用线性增加计算资源换取计算时间的线性下降，列式存储可以提高读取数据的速率。两者结合可以使得基于Hadoop的SQL查询速度从小时级降为分钟级。不过分钟级别的查询响应仍未达到交互式分析级别，主要问题在于：MPP以及列式存储
使用PyInstaller将Python项目代码打包成exe 培根芝士 Python python 开发语言
PyInstaller是一个非常强大的工具，用于将Python脚本打包成独立的可执行文件（如.exe文件），使得Python应用程序可以在没有安装Python环境的机器上运行。工作原理PyInstaller的核心目标是将Python脚本及其依赖的模块打包成一个独立的可执行文件。它的工作原理可以分为以下几个步骤：（1）分析脚本依赖PyInstaller会分析你的Python脚本，找出所有导入的模块（
python yfinance 下载金融数据，股票数据 waterHBO python 金融开发语言 1024程序员节
起因，目的:代码比较少，但是估计很常用。需要开启全局代理:1.获取国内股票数据tushareimporttushareasts#pipinstalltushare#设置Tusharetoken，需要在Tushare官网注册并获取，免费的ts.set_token('22b5a5b550------****23f815a22c97')#初始化pro接口pro=ts.pro_api()#股票代码stoc
yfinance的使用 ilikework python 量化交易
最近想学习一下量化交易，就找了些python的库，yfinance这个是比较靠谱的库。功能有哪些还不是太清楚，似乎不支持多年的PE指标获取。下面是外汇历史数据的取得data=yf.download(tickers='USDJPY=X',#通貨ペアperiod='1d',#データ取得期間interval='1m',#データ表示間隔)下面是股票数据的取得tickers=['600875.SS']for
基于python的Kimi AI 聊天应用 hunter206206 python python 自然语言处理
因为这几天deepseek有点状况，导致apikey一直生成不了，用kimi练练手。这是一个基于MoonshotAI的Kimi接口开发的聊天应用程序，使用PythonTkinter构建图形界面。项目结构项目由三个主要Python文件组成：1.main_kimi.py主程序入口文件，继承了ChatWindow类并实现了问答逻辑：创建主应用程序窗口初始化聊天逻辑实现提交问题的处理函数2.gui.py图
Command ‘“/opt/homebrew/opt/[email protected]/bin/python3.9“ -u build.py build‘ failed with exit code 1. hunter206206 python ubuntu chrome linux
这个错误表明在安装wxPython时遇到了问题。wxPython是一个用于创建图形用户界面（GUI）的Python库，但由于其依赖的复杂性，安装时可能会失败。以下是解决此问题的几种方法：1.确保Python和pip是最新版本wxPython可能需要较新版本的Python和pip。运行以下命令更新pip：python-mpipinstall--upgradepip2.安装依赖库wxPython依赖于
可视化大屏梦屿千寻！！信息可视化
可视化大屏是一种利用计算机图形学技术，将复杂的数据和信息转换为直观的可视化图形，以呈现数据信息的工具。它不仅在电影中常见，而且已经实实在在地被应用在商业、金融、制造等各个行业的业务场景中，成为大数据分析和展示的重要工具。一、可视化大屏的特点直观性：通过图形、图表、地图等可视化元素，将复杂的数据直观展示出来，便于用户快速理解。实时性：支持实时更新数据，使用户能够随时掌握最新情况。高效性：一次性处理大
从零开始构建一个简单的Python Web爬虫实战指南与技巧一键难忘 python 前端爬虫 Python Web
从零开始构建一个简单的PythonWeb爬虫实战指南与技巧随着数据科学和大数据分析的快速发展，网络爬虫（WebScraping）成为了获取互联网数据的重要工具。通过爬虫，我们可以自动化地从网页上获取各种信息，如新闻、产品价格、社交媒体内容等。本文将带您从零开始，使用Python构建一个简单的Web爬虫，抓取网页内容并保存数据。Web爬虫的基本概念什么是Web爬虫？Web爬虫（也称为网络蜘蛛或抓取器
Python面试宝典13 | Python 变量作用域，从入门到精通多森AI Python面试题 python 面试开发语言
今天，我们来深入探讨一下Python中一个非常重要的概念——变量作用域。理解变量作用域对于编写清晰、可维护、无bug的代码至关重要。什么是变量作用域？简单来说，变量作用域就是指一个变量在程序中可以被访问的范围。Python中有四种作用域：局部作用域（Local）：在函数或代码块内部定义的变量，只能在该函数或代码块内部访问。局部变量的作用域范围最小，只能在定义它们的函数或代码块内部使用。defmy_
详解python的单例模式 hunter206206 python python
单例模式是一种设计模式，它确保一个类只有一个实例，并提供一个全局访问点来获取这个实例。在Python中实现单例模式有多种方法，下面我将详细介绍几种常见的实现方式。1.使用模块Python的模块天然就是单例的，因为模块在第一次导入时会被加载到内存中，之后的导入都是直接使用内存中的模块对象。因此，你可以通过模块来实现单例模式。#singleton.pyclassSingletonClass:def__
Python数据的筛选、排序与聚合大数据张老师 Python程序设计 python 开发语言 Python数据处理
Python数据的筛选、排序与聚合在数据分析过程中，我们常常需要对数据进行筛选、排序和聚合操作，以便从数据集中提取有价值的信息。这些操作是数据预处理和分析的基础，尤其在处理大型数据集时，能够帮助我们快速定位关键数据，进行进一步的分析。Pandas提供了强大的工具来支持这些操作，主要通过对Series和DataFrame的相关方法进行操作来实现。本节将详细讲解如何使用Pandas的Series和Da
Python默认值参数橙橙的橙橙子 python
示例1：可变对象作为默认值参数defdemo(newitem,old_list=[]):old_list.append(newitem)returnold_listprint(demo('5',[1,2,3,4]))print(demo('aaa',['a','b']))print(demo('a'))print(demo('b'))[1,2,3,4,'5']['a','b','aaa']['a'
python 函数默认参数夏华东的博客 python 开发语言后端
python函数默认参数defadd(a=1,b=2):#a,b设置默认参数c=a+breturncc=add(a=2)#如果不填，就是默认参数print(c)4
弄懂这56个Python使用技巧，秒变Python大神！追梦IT男 Python Python基础数据挖掘爬虫编程语言
1.枚举-enumerate可以有参数哦之前我们这样操作：i=0foriteminiterable:printi,itemi+=1现在我们这样操作：fori,iteminenumerate(iterable):printi,itemenumerate函数还可以接收第二个参数。就像下面这样：>>>list(enumerate('abc'))[(0,'a'),(1,'b'),(2,'c')]>>>li
Python机器学习实战：人脸识别技术的实现和挑战 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,应用场景1.背景介绍1.1问题的由来随着科技的进步和互联网的普及，人脸识别技术因其在安全验证、生物特征识别、智能监控等多个领域的广泛应用而迅速崛起。从传统的门禁系统到现代的人脸支付、社交媒体的自动登
python GUI 编程 AICVer Python python 开发语言
界面程序"""测试一个经典的GUI程序的写法，使用面向对象的方式"""importtimefromtkinterimport*fromtkinterimportmessageboxfromtkinterimportfiledialogimportthreadingfromcut_brickimportcal_brickclassApplication(Frame):"""一个经典的GUI程序的类的
Python中的函数默认参数 NoABug python java 前端 Python
在Python中，函数是一种重要的编程结构，它允许我们封装一段可重复使用的代码，并通过参数来接收不同的输入。在定义函数时，我们可以为参数提供默认值，这些默认值在调用函数时可以被省略。本文将详细介绍Python中的默认参数，并提供相应的源代码示例。函数的默认参数是指在定义函数时为参数提供的预设值。当函数被调用时，如果没有为该参数提供实际值，将使用默认值来代替。这对于那些在大多数情况下都使用相同值的参
Python函数参数 - 默认参数:在Python中，可以给函数参数指定默认值，从而使其成为可选参数伯乐 IAN python java 前端
Python函数参数-默认参数在Python中，函数是一种非常重要的概念，它们可以让你封装可重复使用的代码块。函数参数是函数定义中的变量，用于接收调用函数时传递的值。Python提供了灵活的方式来定义函数参数，其中之一就是默认参数。默认参数的概念默认参数是指在定义函数时为参数指定了一个默认值。这意味着在函数调用时，如果不提供该参数的值，则会使用默认值。默认参数可以使函数更加灵活，允许用户在需要时传
blender 相机参数 AI算法网奇 3d渲染数码相机 blender
目录设置相机参数：3.设置相机参数示例4.相机透视与正交5.额外的高级设置设置相机参数：设置渲染器：设置相机参数：3.设置相机参数示例假设你有一个相机，并希望设置它的焦距和位置，可以通过Python脚本来设置这些参数：pythonimportbpy#获取当前场景中的相机camera=bpy.context.scene.camera#设置相机的位置(外参)camera.location=(0,0,1
探索神经网络的奥秘：从基础理论到Python实践仲毓俏Alanna
探索神经网络的奥秘：从基础理论到Python实践【下载地址】第一章神经网络如何工作附Python神经网络编程.pdf分享本资源文件提供了关于神经网络基础知识的详细介绍，并附带了一个Python神经网络编程的PDF文件。通过学习本资源，您将能够理解神经网络的基本工作原理，并掌握如何使用Python进行神经网络编程项目地址:https://gitcode.com/Resource-Bundle-Col
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开