休耕

Sklearn工具包及模型评估

一、Sklearn工具包介绍

　　scikit-learn，又写作sklearn，是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用，并且涵盖了几乎所有主流机器学习算法。

　　官网：https://scikit-learn.org/stable/index.html

1、常用模块

　　Sklearn中常用模块：分类(Classification)、回归(Regression)、聚类(Clustering)、降维(Dimensionality reduction)、模型选择(Model selection)、数据预处理(Preprocessing)。

　　分类：识别某个对象属于哪个类别，常用的算法有：SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林)，常见的应用有：垃圾邮件识别、图像识别。

　　回归：预测与对象相关联的连续值属性，常见的算法有：SVR(支持向量机)、 ridge regression(岭回归)、Lasso，常见的应用有：药物反应，预测股价。

　　聚类：将相似对象自动分组，常用的算法有：k-Means、 spectral clustering、mean-shift，常见的应用有：客户细分，分组实验结果。

　　降维：减少要考虑的随机变量的数量，常见的算法有：PCA(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(非负矩阵分解)，常见的应用有：可视化，提高效率。

　　模型选择：比较，验证，选择参数和模型，常用的模块有：grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)。它的目标是通过参数调整提高精度。

　　预处理：特征提取和归一化，常用的模块有：preprocessing，feature extraction，常见的应用有：把输入数据(如文本)转换为机器学习算法可用的数据。

2、模型评估: 量化预测的质量

　　有 3 种不同的 API 用于评估模型预测的质量：

Estimator score method(估计器得分的方法): Estimators(估计器)有一个 score(得分) 方法，为其解决的问题提供了默认的 evaluation criterion (评估标准)。在这个页面上没有相关讨论，但是在每个 estimator (估计器)的文档中会有相关的讨论。
Scoring parameter(评分参数): Model-evaluation tools (模型评估工具)使用 cross-validation (如 model_selection.cross_val_score 和 model_selection.GridSearchCV) 依靠 internal scoring strategy (内部 scoring(得分) 策略)。这在 scoring 参数: 定义模型评估规则部分讨论。
Metric functions(指标函数): metrics 模块实现了针对特定目的评估预测误差的函数。这些指标在以下部分部分详细介绍分类指标, 多标签排名指标, 回归指标和聚类指标。

二、SciKit-Learn数据集

　　sklearn.datasets 模块包含加载数据集的实用程序，包括加载和获取流行引用数据集的方法。它还具有一些人工数据生成器。

　　更多细节查看： Dataset loading utilities

1、加载数据集

　　数据科学的第一步通常是加载数据，首先需要学会如何使用SciKit-Learn来加载数据集。

　　数据集的来源通常是自己准备或第三方处获取。非研究人员，通常是从第三方获取数据。可以下载获取数据集的网站：

openml
UCI 机器学习库
Kaggle

　　SciKit-Learn库中，也有自带一些数据集可以尝试加载。

　　datasets模块中也包含了获取其他流行数据集的方法，例如datasets.fetch_openml可以从openml存储库获取数据集。

　　在sklearn的0.2版本中，fetch_mldata函数已经被fetch_openml函数取代，例如加载MNIST数据集。

def get_data():
    """
    Get MNIST data ready to learn with.
    :return:
    """
    # 在sklearn的0.2版本中，fetch_mldata函数已经被fetch_openml函数取代
    from sklearn.datasets import fetch_openml     # 通过名称或数据集ID从openml获取数据集

    # 查询到我电脑上的scikit data home目录
    from sklearn.datasets.base import get_data_home
    print(get_data_home())             # C:\Users\hqs\scikit_learn_data

    # Mnist 数据是图像数据：(28,28,1)的灰度图
    mnist = fetch_openml('mnist_784')
    # print(mnist)

    X, y = mnist["data"], mnist["target"]
    X.shape    # (70000, 784)
    y.shape    # (70000,)

2、数据集切分

　　将数据集切分为训练集、测试集。

def get_data():
    """
    Get MNIST data ready to learn with.
    :return:
    """
    # 在sklearn的0.2版本中，fetch_mldata函数已经被fetch_openml函数取代
    from sklearn.datasets import fetch_openml     # 通过名称或数据集ID从openml获取数据集

    # 查询到我电脑上的scikit data home目录
    from sklearn.datasets.base import get_data_home
    print(get_data_home())             # C:\Users\hqs\scikit_learn_data

    # Mnist 数据是图像数据：(28,28,1)的灰度图
    mnist = fetch_openml('mnist_784')
    # print(mnist)

    X, y = mnist["data"], mnist["target"]
    X.shape    # (70000, 784)
    y.shape    # (70000,)

    # 切分为训练集和测试集
    X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

    # 洗牌操作，打乱当前数据集顺序
    shuffle_index = np.random.permutation(60000)
    X_train, y_train = X_train[shuffle_index], y_train[shuffle_index]   # 索引值回传相当于洗牌操作

    print(X_train, y_train)
    """
    [[0. 0. 0. ... 0. 0. 0.]
     [0. 0. 0. ... 0. 0. 0.]
     [0. 0. 0. ... 0. 0. 0.]
     ...
     [0. 0. 0. ... 0. 0. 0.]
     [0. 0. 0. ... 0. 0. 0.]
     [0. 0. 0. ... 0. 0. 0.]] ['7' '3' '8' ... '0' '0' '4']
    """

三、模型评估——交叉验证(cross validation)

1、交叉验证定义

　　交叉验证是用来验证分类器的性能一种统计分析方法，基本思想是把在某种意义下将原始数据(data set)进行分组，一部分做为训练集(training set)，另一部分做为测试集(validation set)，首先用训练集对分类器进行训练，在利用测试集来测试训练得到的模型(model)，以此来做为评价分类器的性能指标。

2、三种实现方法

(1)留出法(holdout cross validation)

　　将原始数据集分为三部分：训练集、验证集和测试集。训练集用于训练模型，验证集用于模型的参数选择配置，测试集对于模型来说是未知数据，用于评估模型的泛化能力。

　　优点：操作简单
　　缺点：样本数比例，模型对数据划分敏感，分成三部分使得训练数据变少。

(2)k折交叉验证(k-fold cross validation)

　　将数据集无替换的随机分为k份，k-1份用来训练模型，剩下一份用来模型性能评估。重复k次，得到k个模型和性能评估结果。得到k个性能评估后，取平均求出最终性能评估。即：

　　第一步：不重复抽样将原始数据随机分为k份。
　　第二步：每一次挑选其中 1 份作为测试集，剩余k-1份作为训练集用于模型训练。
　　第三步：重复第二步k次，每个子集都有一次作为测试集，其余子集作为训练集。在每个训练集上训练后得到一个模型，用这个模型在相应测试集上测试，计算并保存模型的评估指标。
　　第四步：计算k组测试结果的平均值作为模型精度的估计，并作为当前k折交叉验证下模型的性能指标。

　　优点：分组后取平均减少方差，使得模型对数据划分不敏感。
　　缺点：k取值需要尝试。

　　分成五份，示例如下所示：

(3)留一法(leave one out cross validation)

　　当k折交叉验证法的k=m，m为样本总数时，称为留一法，即每次的测试集都只有一个样本，要进行m次训练和预测。

　　优点：适合数据缺乏时使用
　　缺点：计算繁琐，训练复杂度增加。

3、交叉验证代码实现

import numpy as np
import os

import matplotlib as mpl
import matplotlib.pyplot as plt
import warnings

mpl.rcParams['axes.labelsize'] = 14
mpl.rcParams['xtick.labelsize'] = 12
mpl.rcParams['ytick.labelsize'] = 12

warnings.filterwarnings('ignore')
np.random.seed(42)

# 保存图片的地址
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "classification"def sort_by_target(mnist):
    reorder_train = np.array(sorted([(target, i) for i, target in enumerate(mnist.target[:60000])]))[:, 1]
    reorder_test = np.array(sorted([(target, i) for i, target in enumerate(mnist.target[60000:])]))[:, 1]
    mnist.data[:60000] = mnist.data[reorder_train]
    mnist.target[:60000] = mnist.target[reorder_train]
    mnist.data[60000:] = mnist.data[reorder_test + 60000]
    mnist.target[60000:] = mnist.target[reorder_test + 60000]


def get_data():
    """
    Get MNIST data ready to learn with.
    :return:
    """
    # 在sklearn的0.2版本中，fetch_mldata函数已经被fetch_openml函数取代
    from sklearn.datasets import fetch_openml     # 通过名称或数据集ID从openml获取数据集

    # 查询到我电脑上的scikit data home目录
    from sklearn.datasets.base import get_data_home
    print(get_data_home())             # C:\Users\hqs\scikit_learn_data

    # Mnist 数据是图像数据：(28,28,1)的灰度图
    """注意：
    fetch_openml返回的是未排序的MNIST数据集。
    fetch_mldata返回按目标排序的数据集。
    在SciKit-Learn 0.20后已经弃用fetch_mldata(),需要使用fetch_openml()。
    如果要得到和之前相同的结果，需要排序数据集。
    """
    mnist = fetch_openml('mnist_784', version=1, cache=True)   # fetch_openml返回一个未排序的数据集
    mnist.target = mnist.target.astype(np.int8)
    sort_by_target(mnist)
    # print(mnist.data.shape)    # (70000, 784)

    X, y = mnist["data"], mnist["target"]
    print(X.shape)    # (70000, 784)
    print(y.shape)    # (70000,)

    # 切分为训练集和测试集
    X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

    # 洗牌操作，打乱当前数据集顺序
    shuffle_index = np.random.permutation(60000)
    X_train, y_train = X_train[shuffle_index], y_train[shuffle_index]   # 索引值回传相当于洗牌操作
    print(X_train, y_train)

    # 训练二分类器
    y_train_5 = (y_train == 5)   # 修改便签为是否等于5
    y_test_5 = (y_test == 5)

    from sklearn.linear_model import SGDClassifier     # 引入线性分类器

    # 使用scikit-learn的SGDClassifier类来创建分类器，区分图片是否是数字5
    sgd_clf = SGDClassifier(
        max_iter=5,       # 训练迭代次数
        tol=-np.infty,
        random_state=42   # 传入随机种子，每次随机结果一样
    )
    # fit方法:用随机梯度下降法拟合线性模型
    sgd_clf.fit(X_train, y_train)

    # predict方法:预测当前的结果
    sgd_clf.predict([X[35000]])

    # 采用准确率为衡量指标查看交叉验证的结果
    from sklearn.model_selection import cross_val_score
    cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring='accuracy')
    """
    [0.96225 0.9645  0.94765]
    """

    # StratifiedKFold方法：按自己的想法平均切割数据集
    from sklearn.model_selection import StratifiedKFold
    from sklearn.base import clone         # 引入克隆可以在估算器中对模型进行深层复制，构造一个具有相同参数的新估算器

    skfolds = StratifiedKFold(
        n_splits=3,
        random_state=42     # 设置随机种子
    )
    for train_index, test_index in skfolds.split(X_train, y_train_5):     # 切割训练的数据集和标签集
        clone_clf = clone(sgd_clf)    # 克隆构建模型
        X_train_folds = X_train[train_index]
        y_train_folds = y_train_5[train_index]
        X_test_folds = X_train[test_index]
        y_test_folds = y_train_5[test_index]

        # fit方法:用随机梯度下降法拟合线性模型
        clone_clf.fit(X_train_folds, y_train_folds)
        # 预测
        y_pred = clone_clf.predict(X_test_folds)
        # 做对了的个数
        n_correct = sum(y_pred == y_test_folds)
        print(n_correct / len(y_pred))
        """
        0.96225
        0.9645
        0.94765
        """


get_data()

　　上面先是使用了sklearn.model_selection.cross_val_score()方法查看了交叉验证结果。

　　随后使用StratifiedKFold方法按自己的想法平均切割数据集，计算做对了的个数/预测数，计算得到交叉验证结果。

(1)cross_val_score函数

　　使用交叉检验最简单的方法是在估计器上调用cross_val_score函数。该函数可返回交叉验证每次运行的评分数组。

def cross_val_score(estimator, X, y=None, *, groups=None, scoring=None,
                    cv=None, n_jobs=None, verbose=0, fit_params=None,
                    pre_dispatch='2*n_jobs', error_score=np.nan):

　　参数：

estimator：数据对象
X：数据
y：预测数据
scoring：定义模型评估规则
cv：交叉验证生成器或可迭代的次数
n_jobs：同时工作的cpu个数(-1代表全部)
verbose：详细程度
fit_params：传递给估计器的拟合方法的参数
pre_dispatch：控制并行执行期间调度的作业数量。减少这个数量对于避免在CPU发送更多作业时CPU内存消耗的扩大是有用的。该参数可以是：

没有，在这种情况下，所有的工作立即创建并产生。将其用于轻量级和快速运行的作业，以避免由于按需产生作业而导致延迟

一个int，给出所产生的总工作的确切数量

一个字符串，给出一个表达式作为n_jobs的函数，如'2 * n_jobs'

　　参数介绍详见：https://blog.csdn.net/marsjhao/article/details/78678276

(2)StratifiedKFold函数

　　分层K折交叉验证器：提供训练/测试索引以将数据拆分为训练/测试集。此交叉验证对象是KFold的变体，它返回分层的折叠。折叠是通过保留每个类别的样品百分比来进行的。

class StratifiedKFold(_BaseKFold):
    @_deprecate_positional_args
    def __init__(self, n_splits=5, *, shuffle=False, random_state=None):
        super().__init__(n_splits=n_splits, shuffle=shuffle,
                         random_state=random_state)

　　参数：

n_splits：折数(int数据类型)，默认为5，至少为2。(0.22版本中，将默认值从3改为5)
shuffle：bool数据类型，默认为False。在拆分成批次之前是否对每个样本进行混洗。
random_state：int或RandomState实例，默认为None。当shuffle为True时，random_state会影响索引的顺序，从而控制每个类别的每个折叠的随机性。否则，保留random_state为None。为多个函数调用传递可重复输出的int值。

四、模型评估——混淆矩阵(Confusion Matrix)

　　混淆矩阵是机器学习中总结分类模型预测结果的情形分析表，以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。

　　其中矩阵的行表示真实值，矩阵的列表示预测值。

1、案例

　　已知条件：班级总人数100人，其中男生80人，女生20人。

　　目标：找出所有的女生。

　　结果：从班级中选择了50人，其中20人是女生，还错误的把30名男生挑选出来了。

	相关(Relevant),正类	无关(NonRelevant),负类
被检索到(Retrieved)	true positives(TP 正类判定为正类，例子中就是正确的判定“这位是女生”)	false positives(FP 负类判定为正类，“存伪”，例子就是分明是男生却判断为女生，当下伪娘横行)
未被检索到(Not Retrieved)	false negatives(FN正类判定为负类，“去真”，例子中就是，分明是女生，这哥们却判断为男生)	true negatives(TN 负类判定为负类，也就是一个男生判断为男生)

　　通过这张表,我们可以很容易得到这几个值：TP=20;FP=30;FN=0;TN=50;

　　1)TP(True Positive)：将正类预测为正类数，positive 表示他判定为女生。 true表示，判定是对的。 TP=20

　　2)FN(False Negative)：将正类预测为负类数，negative 表示他判定为男生。 false表示，判定是错的。 FN=0

　　3)FP(False Positive)：将负类预测为正类数， positive 表示他判定为女生。 false表示，判定是错的。 FP=30

　　4)TN(True Negative)：将负类预测为负类数，negative 表示他判定为男生。 true表示，他的判定是对的。 TN=50

2、混淆矩阵代码实现

import numpy as np
import os

import matplotlib as mpl
import matplotlib.pyplot as plt
import warnings

mpl.rcParams['axes.labelsize'] = 14
mpl.rcParams['xtick.labelsize'] = 12
mpl.rcParams['ytick.labelsize'] = 12

warnings.filterwarnings('ignore')
np.random.seed(42)

# 保存图片的地址
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "classification"


def sort_by_target(mnist):
    reorder_train = np.array(sorted([(target, i) for i, target in enumerate(mnist.target[:60000])]))[:, 1]
    reorder_test = np.array(sorted([(target, i) for i, target in enumerate(mnist.target[60000:])]))[:, 1]
    mnist.data[:60000] = mnist.data[reorder_train]
    mnist.target[:60000] = mnist.target[reorder_train]
    mnist.data[60000:] = mnist.data[reorder_test + 60000]
    mnist.target[60000:] = mnist.target[reorder_test + 60000]


def get_data():
    """
    Get MNIST data ready to learn with.
    :return:
    """
    # 在sklearn的0.2版本中，fetch_mldata函数已经被fetch_openml函数取代
    from sklearn.datasets import fetch_openml     # 通过名称或数据集ID从openml获取数据集

    # 查询到我电脑上的scikit data home目录
    from sklearn.datasets.base import get_data_home
    print(get_data_home())             # C:\Users\hqs\scikit_learn_data

    # Mnist 数据是图像数据：(28,28,1)的灰度图
    """注意：
    fetch_openml返回的是未排序的MNIST数据集。
    fetch_mldata返回按目标排序的数据集。
    在SciKit-Learn 0.20后已经弃用fetch_mldata(),需要使用fetch_openml()。
    如果要得到和之前相同的结果，需要排序数据集。
    """
    mnist = fetch_openml('mnist_784', version=1, cache=True)   # fetch_openml返回一个未排序的数据集
    mnist.target = mnist.target.astype(np.int8)
    sort_by_target(mnist)
    # print(mnist.data.shape)    # (70000, 784)

    X, y = mnist["data"], mnist["target"]
    print(X.shape)    # (70000, 784)
    print(y.shape)    # (70000,)

    # 切分为训练集和测试集
    X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

    # 洗牌操作，打乱当前数据集顺序
    shuffle_index = np.random.permutation(60000)
    X_train, y_train = X_train[shuffle_index], y_train[shuffle_index]   # 索引值回传相当于洗牌操作
    print(X_train, y_train)

    # 训练二分类器
    y_train_5 = (y_train == 5)   # 修改便签为是否等于5
    y_test_5 = (y_test == 5)

    from sklearn.linear_model import SGDClassifier     # 引入线性分类器

    # 使用scikit-learn的SGDClassifier类来创建分类器，区分图片是否是数字5
    sgd_clf = SGDClassifier(
        max_iter=5,       # 训练迭代次数
        tol=-np.infty,
        random_state=42   # 传入随机种子，每次随机结果一样
    )
    # fit方法:用随机梯度下降法拟合线性模型
    sgd_clf.fit(X_train, y_train)

    from sklearn.model_selection import cross_val_predict

    y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
    print(y_train_pred.shape)     # (60000,)：60000个样本的预测结果
    print(X_train.shape)       # (60000, 784)：训练样本也是60000个，与预测结果数量一致

    from sklearn.metrics import confusion_matrix

    confusion_matrix(y_train_5, y_train_pred)
    """
    array([[53417  1162],
           [1350  4071]], dtype=int64)
    """


get_data()

(1)cross_val_predict函数

　　得到经过K折交叉验证计算得到的每个训练验证的输出预测。

　　分别在K-1上训练模型，在余下的1折上验证模型，并将余下1折中样本的预测输出作为最终输出结果的一部分

def cross_val_predict(estimator, X, y=None, *, groups=None, cv=None,
                      n_jobs=None, verbose=0, fit_params=None,
                      pre_dispatch='2*n_jobs', method='predict'):

　　cross_val_predict 与cross_val_score 很相像，不过不同于返回的是评测效果，cross_val_predict 返回的是estimator 的分类结果(或回归值)，这个对于后期模型的改善很重要，可以通过该预测输出对比实际目标值，准确定位到预测出错的地方，为我们参数优化及问题排查十分的重要。

　　参数详情：https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_predict.html#sklearn.model_selection.cross_val_predict

(2)confusion_matrix函数

　　计算混淆矩阵以评估分类的准确性。

def confusion_matrix(y_true, y_pred, *, labels=None, sample_weight=None,
                     normalize=None):

　　y_true:是样本真实分类结果，y_pred 是样本预测分类结果，labels是所给出的类别，通过这个可对类别进行选择，sample_weight 是样本权重。

(3)confusion_matrix返回结果解析

　　返回结果是：array([[53417 1162],[1350 4071]], dtype=int64)。

　　negative class [[true negative, false posotives],

　　positive class [false negative, true positives]]

true negatives: 53417个数据被正确的分为非5类别
false positves: 1162个被错误的分为5类别
false negatives: 1350个被错误的分为非5类别
true positives: 4071个被正确的分为5类别

　　一个完美的分类器应该只有true positives 和 true negatives，即主对角线元素不为0，其余元素为0。

五、模型评价指标——Precision/Recall

　　机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的工作,而其评价指标往往有如下几点：准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。

1、准确率、精确率、召回率、F值对比

　　准确率/正确率(Accuracy)= 所有预测正确的样本 / 总的样本 (TP+TN)

　　精确率(Precision) = 正类预测为正类(TP) / 所有预测为正类(TP+TN)

　　召回率(Recall) = 正类预测为正类(TP) / 所有真正的正类(TP+FN)

　　F值(F-Measure) = 精确率 * 召回率 * 2 / (精确率 + 召回率) —— F值即为精确率和召回率的调和平均值

2、精确率、召回率计算公式

(1)精确率计算公式

理解：

　　TP+FP: 也就是全体Positive，也就是预测的图片中是正类的图片的数目

　　TP: 也就是正类也被预测为正类的图片的个数

　　总之：预测正确的图片个数占总的正类预测个数的比例(从预测结果角度看，有多少预测是准确的)

(2)召回率计算公式

理解：

　　TP+FN: 也就是全体完全满足图片标注的图片的个数

　　TP：正类被预测为正类的图片个数

　　总之：确定了正类被预测为正类图片占所有标注图片的个数(从标注角度看，有多少被召回)

3、F1 score指标

　　P和R指标有时候会出现的矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure(又称为F-Score)。

　　将Precision 和 Recall 结合到一个称为F1 score 的指标，调和平均值给予低值更多权重。因此，如果召回和精确度都很高，分类器将获得高F1分数。

　　F-Measure是Precision和Recall加权调和平均：

　　当参数α=1时，就是最常见的F1，也即

　　可知F1综合了P和R的结果，当F1较高时则能说明试验方法比较有效。

4、代码实现

def get_data():
    """代码略"""

    # 准确率(Precision)和召回率(Recall)
    from sklearn.metrics import precision_score, recall_score

    print(precision_score(y_train_5, y_train_pred))   # 0.7779476399770686
    print(recall_score(y_train_5, y_train_pred))      # 0.7509684560044272

    # F1 score
    from sklearn.metrics import f1_score

    print(f1_score(y_train_5, y_train_pred))          # 0.7642200112633752

get_data()

(1)precision_score函数

　　计算精确率。精度是 TP/(TP+FP) 比率，TP是 true positives 与 FP是 false positives。

def precision_score(y_true, y_pred, *, labels=None, pos_label=1,
                    average='binary', sample_weight=None,
                    zero_division="warn"):

　　参数：

　　y_true：真实标签

　　y_pred：预测标签

　　average：评价值的平均值的计算方式。

(2)recall_score函数

　　计算召回率。召回率是 TP/(TP+FN)的比率，FN是false negatives。

def recall_score(y_true, y_pred, *, labels=None, pos_label=1, average='binary',
                 sample_weight=None, zero_division="warn"):

　　参数：

　　y_true：真实标签

　　y_pred：预测标签

　　average：评价值的平均值的计算方式。

(3)f1_score函数

　　计算F1 score，也称为F-score或F-measure。

　　F1 = 2 * (precision * recall) / (precision + recall)

def f1_score(y_true, y_pred, *, labels=None, pos_label=1, average='binary',
             sample_weight=None, zero_division="warn"):

六、模型评价——选择合适阈值

　　Scikit-Learn不允许直接设置阈值，但它可以得到决策分数，调用其decision_function()方法，而不是调用分类器的predict()方法，该方法返回每个实例的分数，然后使用想要的阈值根据这些分数进行预测。

对于这种分类问题，不同的分类阈值可以给出不同的输出结果，但是在sklearn中，无法直接通过直接修改阈值而输出结果，但是我们可以首先得到决策函数得到的结果，然后再手动确定阈值，得到预测的结果。
为了使得模型更加完善，我们需要选择合适的阈值，即使得准确率和召回率都比较大，因此在这里我们可以首先绘制出准确率和召回率随阈值的变化关系，然后再选择合适的阈值。

1、选择阈值示例

def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):
    plt.plot(
        thresholds,
        precisions[:-1],
        "b--",
        label="Precision"
    )
    plt.plot(
        thresholds,
        recalls[:-1],
        "g-",
        label="Recall"
    )
    plt.xlabel("Threshold", fontsize=16)
    plt.legend(loc="upper left", fontsize=16)
    plt.ylim([0, 1])


def get_data():
    """代码略"""

    # 阈值
    # y_scores = sgd_clf.decision_function([X[35000]])
    y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, method="decision_function")
    print(y_scores)

    t = 5000
    y_pred = (y_scores > t)
    print(y_pred)

    print(y_train_5.shape)
    print(y_scores.shape)

    from sklearn.metrics import precision_recall_curve

    precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)
    # print(precisions, recalls, thresholds)

    plt.figure(figsize=(8, 4))
    plot_precision_recall_vs_threshold(precisions, recalls, thresholds)
    plt.xlim([-700000, 700000])
    plt.show()

　　执行后显示效果：

　　随着阈值变化，precision和recall值变化情况。

2、recall变化precision的变化情况

def plot_precision_vs_recall(precisions, recalls):
    plt.plot(
        recalls,
        precisions,
        "b-",
        linewidth=2
    )
    plt.xlabel("Recall", fontsize=16)
    plt.ylabel("Precision", fontsize=16)
    plt.axis([0, 1, 0, 1])


def get_data():
    """代码略"""

    # 随着recall变化precision的变化情况
    plt.figure(figsize=(8, 6))
    plot_precision_vs_recall(precisions, recalls)
    plt.show()

　　执行后显示效果：

七、模型评价——ROC curves

　　receiver operating characteristic(ROC)曲线是二元分类中的常用评估方法。

它与精确度/召回曲线非常相似，但ROC曲线不是绘制精确度与召回率，而是绘制true positive rate(TPR)与false positive rate(FPR)
要绘制ROC曲线，首先需要使用roc_curve()函数计算各种阈值的TPR和FPR：
- TPR = TP / (TP + FN)(Recall)
- FPR = FP / (FP + TN)

　　TPR：在所有实际为阳性的样本中，被正确地判断为阳性的比率 TRP = TP / (TP + FN)。TPR也被称为正样本的召回率，或者覆盖率。

　　FPR：在所有实际为阴性的样本中，被错误地判断为阳性的比率 FPR = FP / (FP + TN)。FPR也被称为负样本的召回率，或者取伪率。

1、绘制ROC曲线示例

def plot_roc_curve(fpr, tpr, label=None):
    plt.plot(fpr, tpr, linewidth=2, label=label)
    plt.plot([0, 1], [0, 1], 'k--')
    plt.axis([0, 1, 0, 1])
    plt.xlabel('False Positive Rate', fontsize=16)
    plt.ylabel('True Positive Rate', fontsize=16)


def get_data():
    """略"""

    # ROC 曲线
    from sklearn.metrics import roc_curve
    fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

    plt.figure(figsize=(8, 6))
    plot_roc_curve(fpr, tpr)
    plt.show()

　　执行得到绘图如下所示：

　　虚线表示纯随机分类器的ROC曲线：一个好的分类器应尽可能远离该线(左上角最优)。

2、ROC-AUC(ROC曲线下面积)

　　AUC(Area Under Curve) 被定义为ROC曲线下的面积，因为ROC曲线一般都处于y=x这条直线的上方，所以取值范围在0.5和1之间，使用AUC作为评价指标是因为ROC曲线在很多时候并不能清晰地说明哪个分类器的效果更好，而AUC作为一个数值，其值越大代表分类器效果更好。

　　AUC是一个概率值，当随机挑选一个正样本以及一个负样本，当前的分类算法根据计算得到的分数将这个正样本排在负样本前面的概率就是AUC值。所以，AUC的值越大，当前的分类算法越有可能将正样本排在负样本值前面，既能够更好的分类。

# AUC曲线下面积
from sklearn.metrics import roc_auc_score

print(roc_auc_score(y_train_5, y_scores))      # 0.9562435587387078

　　测量曲线下面积(AUC)是比较分类器的一种方法。完美分类器的ROC AUC等于1，而纯随机分类器的ROC AUC等于0.5。

你可能感兴趣的:(算法,python,机器学习,人工智能,深度学习)

008、Python+fastapi，第一个后台管理项目走向第8步：ubutun 20.04下配置远程桌面、安装vscode+python环境配置浪淘沙jkp 学习 fastapi
一、说明白飘了3个月无影云电脑，开始选了个windowsserver非常不好用，后台改为ubuntu想升级到22，没成功，那就20.04吧。今天先安装下开发环境，后续2个月就想把他当做开发服务器，不知道行不行，公网ip是否可以外部链接。本来想装个宝塔面板直接管理，不过那玩意用了一次，决定说方便也不方便，还是放弃，要用也搞个掏钱的，你懂的，免费的不放心啊那我们就一个一个安装好了，大概要安装mysql
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
python爬大学生就业信息报告_Python语言爬虫——Python 岗位分析报告 weixin_39578457
本文主要向大家介绍了Python语言爬虫——Python岗位分析报告，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。前两篇我们分别爬取了糗事百科和妹子图网站，学习了Requests,BeautifulSoup的基本使用。不过前两篇都是从静态HTML页面中来筛选出我们需要的信息。这一篇我们来学习下如何来获取Ajax请求返回的结果。本篇以拉勾网为例来说明一下如何获取Ajax请求内容
InPixio Photo Maximizer(图片无损放大软件) v5.3.8625 便携版
InPixioPhotoMaximizer是一款用于放大和增强照片的软件。它提供了一系列功能和特点，使用户能够通过增大分辨率和细节来改善照片的质量和清晰度。软件功能图像放大：通过使用高级算法，可以将照片放大到原始分辨率的4倍，而保持良好的清晰度和细节。细节增强：通过增加图像的细节和锐度，可以改善照片的质量，并使图像更加清晰和逼真。手动调整：用户可以使用软件的手动调整工具，根据自己的需求进行尺寸和细
快速入门Robocorp：用Python构建和操作工作流 jaioyfpo python 开发语言
快速入门Robocorp：用Python构建和操作工作流引言在现代开发环境中，自动化是提高效率和降低成本的关键。Robocorp作为一个强大的平台，它帮助您使用Python构建和操作工作流，无论在何地运行都可以保持无缝连接和高扩展性。本文将带领您快速入门Robocorp的基本安装和设置，并展示如何使用ActionServer进行项目的创建和管理。主要内容1.安装和设置要开始使用Robocorp，首
Python关于pandas的基础知识 WeiJingYu. python pandas 开发语言
一.扫盲（一）、pandas是什么pandas是Python的一个第三方数据处理库，它提供了高效、灵活的数据结构（如Series和DataFrame），能方便地对结构化数据进行清洗、转换、分析和处理。（二）、pandas与NumPy的关系NumPy是Python中用于科学计算的基础库，主要用于存储和处理数值型数组。但它有一个局限，就是不能直接存储和处理字符串等非数值类型的数据。而pandas是在N
Python 爬虫——Pyppeteer
Python爬虫——PyppeteerPythonSpider——Pyppeteer一、爬虫的两种方式二、Pyppeteer三、爬虫实现PythonSpider——Pyppeteer爬虫具有时效性，该文产生于2023年末一、爬虫的两种方式爬虫大致可以分为两类方式：直接请求直接请求的方式一般是使用python的HTTP请求库发起HTTP请求，然后接收返回的数据再进行解析，这种方式存在很大的局限性。当
Python关于numpy的基础知识数组的升维 WeiJingYu. python numpy 开发语言
在Python数据处理中，numpy是常用的科学计算库，数组操作是其核心内容之一。下面通过代码示例，展示如何从Python自带列表构建numpy一维数组，再进一步升维构建二维数组。\importnumpyasnp#一维数组构建：从Python列表到numpy一维数组list1=[1,2,3,4,5]#Python自带的列表数据类型print("Python列表list1:",list1)v=np.
Selenium Python 代码之打开网页自动填充内容并搜索 iCloudEnd
SeleniumPython代码之打开网页自动填充内容并搜索流程通过id找到文本框inputElement.send_keys(Keys.BACK_SPACE)发送删除键，清除一下之前文字inputElement.send_keys(Keys.BACK_SPACE)发送需要查询对内容并送个回车inputElement=driver1.find_element_by_id("TextBox1")in
python双引号打不出来_在python 3中使用单引号和双引号时出错 - python weixin_39897749 python双引号打不出来
使用os.system（）函数时，我在python中遇到了EOL错误。以下是代码行生成错误：os.system("catsubdomains.txt|cut-d'"'-f1")基本上，我试图使用分号[“]修改输出字符串（双引号）参考方案如果需要在带"的字符串中编写"，则可以将其写为\""catsubdomains.txt|cut-d'\"'-f1"在PythonCloudFunction中使用错误
python办自动化--读取邮箱中特定的邮件，并下载特定的附件宝山哥哥 python办公自动化 python 自动化信息可视化
系列文章目录python办公自动化–数据可视化（pandas+matplotlib）–生成条形图和饼状图python办公自动化–数据可视化（pandas+matplotlib）–生成折线图python办公自动化–数据可视化（pandas读取excel文件，matplotlib生成可视化图表）python办公自动化-openpyxl学习-工资表生成工资条python办公自动化–使用将csv大文件分割
Here-Document的`＜＜` 与 `＜＜-` 与 `＜＜＜` 多解说笔记250722 kfepiza #Linux #控制台命令行 Shell bash cmd 等笔记 linux bash
Here-Document的poem.txt静夜思床前明月光疑是地上霜FORMATTED#2.空格敏感的配置catconfig.ymlindentation:level:4#必须4空格SPACE何时用tabs.txt重要制表符:→这里Tab会被保留但行首Tab会被移除TABS#2.空格缩进的环境#（如Python脚本）技术原理图解HereDocumentquery.sqlSELECT*FROM${
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
第二阶段-第二章—8天Python从入门到精通【itheima】-133节（SQL——DQL——基础查询） Patrick_kafka sql python 数据库开发语言学习 android 程序人生
目录133节——DQL：基础查询1.学习目标2.基础数据查询：select3.进行过滤的基础数据查询：where4.代码演练5.小节总结6.关于MySQL和SQL的DDL、DML、DCL、DQL的最底层逻辑MySQL与SQL的底层逻辑：从磁盘到内存的数据流解析一、DDL（数据定义语言）：构建数据大厦的蓝图二、DML（数据操作语言）：数据流动的三重关卡三、DCL（数据控制语言）：权限的多维管控四、D
Python爬虫教程：抓取地方政府网站的公开文件与政策信息 Python爬虫项目 python 爬虫开发语言数据分析 mysql
1.引言在信息化时代，政府网站已成为信息公开的重要渠道。各级地方政府网站上发布的政策、公告和公开文件，通常包含了政府决策、法律法规等关键信息。爬取这些公开数据，可以为研究人员、政策分析师、企业决策者等提供有价值的数据支持。本文将通过Python爬虫技术，展示如何抓取地方政府网站上的公开文件、政策等信息。我们将使用最新的爬虫技术，如requests、BeautifulSoup、Selenium等工具
Python 库手册：xml.etree.ElementTree 处理 XML 数据模块
xml.etree.ElementTree（简称ElementTree）是Python标准库中用于解析、创建和操作XML数据的模块。它提供了一种轻量、易用的方式来读取、修改和写入XML文件，适用于配置文件处理、数据交换、网络通信等应用场景。常见应用场景：（1）读取XML配置文件并提取参数。（2）修改XML数据结构（如节点属性、内容）。（3）创建新的XML文档并保存。（4）从WebAPI获取的XML
“专属私有云”或“行业公有云（逻辑隔离的公共云专区）”两种主流部署模式到底有什么区别？政务云不就应该是专属的私有云么？政务云是不是不能混用？
一、安全合规性要求分层，驱动部署模式分化核心敏感系统需物理隔离（专属私有云）涉及公民隐私、国家安全（如公安、财政、医保核心数据库）的系统，必须通过物理隔离的专属私有云保障绝对控制权。例如：浦东新区公安局的涉密数据采用自建私有云，确保数据完全自主管控3。某省地市政务云要求核心业务部署在信创私有云，满足等保三级和国密算法评估要求5。非敏感公共服务适用逻辑隔离（行业公有云）面向公众的服务（如社保查询、线
[学习] 笛卡尔坐标系的任意移动与旋转详解极客不孤独学习算法信号处理
笛卡尔坐标系的任意移动与旋转详解文章目录笛卡尔坐标系的任意移动与旋转详解**1.笛卡尔坐标系基础****2.坐标变换原理****2.1平移变换****2.2旋转变换****3.组合变换**Python仿真与动态展示**动画说明**：**关键数学原理**：1.笛卡尔坐标系基础笛卡尔坐标系用(x,y)(x,y)(x,y)表示平面内任意点的位置，原点为(0,0)(0,0)(0,0)。几何图形可视为点的集
第二阶段-第二章—8天Python从入门到精通【itheima】-134节（SQL——DQL——分组聚合） Patrick_kafka sql 数据库 mysql 大数据开发语言 python pycharm
目录134节——DQL：分组聚合1.学习目标2.分组聚合3.论MySQL中GROUPBY和WHERE的异同MySQL中GROUPBY和WHERE的异同：一、相同点：都是“筛数据”的工具二、不同点：筛的时机和对象完全不一样1.作用时机不同：先筛行，再分组2.作用对象不同：筛单行vs筛分组3.不能混搭的“规矩”三、一句话总结4.小节总结编辑好了，又一篇博客和代码写完了，励志一下吧，下一小节等等继续：1
python库下载超时_Python pip使用超时问题解决方案 weixin_39597318 python库下载超时
Pythonpip使用超时问题解决方案引言之前有位群友在群里发了个问题，说使用pip安装第三方包遇到"Readtimeout"。我相信很多时候，大家在使用pip都会遇到这个问题，所以，我想有必要写一遍文章来总结一下。具体如下：解决方案在这之前，你要明白一点，直接使用pip安装超时，绝大多数原因是pip源在外国，所以国内使用，网络就算稳定，也有一定超时。要想解决pip安装软件包超时问题，目前只有两种
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
AES加密算法简要介绍 ° 安如少年初如梦662 Java学习记录后端前端
前言项目中需要在接口中添加加密，简单了解关于AES的有关知识，低质低创见谅。什么是AESAES（AdvancedEncryptionStandard，高级加密标准）是一种对称加密算法，被广泛应用于数据加密领域。它是由美国国家标准与技术研究院（NIST）于2001年发布，作为一种公开标准，用于保护电子数据的安全。值得一提的是微信小程序的加密传输就是用这个加密算法基本原理和加解密过程由于站内有很详细，
python基础变量之---集合暴龙胡乱写博客 python基础 python chrome 开发语言
python基础变量之—集合文章目录python基础变量之---集合一、集合1.集合介绍2.集合创建3.集合操作4.集合常见API二，可变与不可变类型1.可变2.不可变3.二者区别三，类型转换一、集合1.集合介绍在Python中，集合（set）是一种无序的、不重复的数据结构，用于存储唯一的元素，支持数学集合的一些操作，如交集、并集、差集等。集合中的元素是无序的，即不记录元素的插入顺序，且每个元素只
对话谷歌前 CEO Eric Schmidt：数字超智能将在十年内到来，AI 将创造更多更高薪的工作 AI科技大本营人工智能
责编|王启隆出品|CSDN（ID：CSDNnews）投稿或寻求报道|[email protected]科技巨擘、谷歌前CEOEricSchmidt最近做客PeterDiamandis的Moonshots播客，与主持人PeterDiamandis及DaveLondon展开了一场关于人工智能未来的深度对话。全世界都在为AI的飞速发展感到兴奋又焦虑时，这位曾经执掌谷歌帝国长达十年、亲眼见证并推动了这场技术
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
解决pip指令超时问题好学近乎知o pip python
用pip指令，在安装Django3.2时报错，询问ChatGpt后得到的解决方案pip下载超时——是当前网络连接到PyPI官方源太慢或不稳定，甚至可能连不上了，而pip默认的超时时间又太短，就导致了中途失败：ReadTimeoutError:HTTPSConnectionPool(host='files.pythonhosted.org',port=443):Readtimedout.解决方案：换
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方