算法小陈

机器学习(十一)：Scikit-learn库的基础与使用

全文共15000余字，预计阅读时间约30~50分钟 | 满满干货，建议收藏！

本文涉及的代码下载地址

一、介绍

1. 1 Scikit-learn的发展历程及定义

Scikit-learn的发展始于2007年，由David Cournapeau在Google Summer of Code项目中启动。项目后续得到了许多开发者的贡献，包括INRIA（法国国家信息与自动化研究所），Waikato大学和其他机构。

项目之所以取名为Scikit-Learn，也是因为该算法库是基于SciPy来进行的构建，而Scikit则是SciPy Kit（SciPy衍生的工具套件）的简称

Scikit-learn是目前机器学习领域最完整、同时也是最具影响力的算法库。它基于Numpy, Scipy和matplotlib，包含了大量的机器学习算法实现，包括分类、回归、聚类和降维等，还包含了诸多模型评估及选择的方法。Scikit-learn的API设计的非常清晰，易于使用和理解，适合于新手入门，同时也满足了专业人士在实际问题解决中的需求。

1.2 理解算法包、算法库及算法框架之间的区别和联系

算法包：包含预先编写的，针对特定问题或一系列相关问题的算法实现。算法包可以用于执行特定的任务或操作，例如数值分析、机器学习、图像处理等。使用者可以直接调用这些算法，而不需要自己从零开始编写。如表格数据分析包Pandas

算法库：算法库和算法包非常相似，通常可以互换使用。它也是包含了预先编写的，用于解决特定问题的一系列算法的集合，主要指代封装程度更高、对机器学习这一大类算法功能实现更加完整、甚至是定义了一类数据结构的代码模块，如科学计算库NumPy

算法框架：算法框架则是一个更大的概念，它提供了一个用于开发、构建和实现算法的系统，通常包含了一套标准的编程接口（API）、工具、库和规范。它的主要目的是简化和标准化开发过程，使得开发者可以更专注于实现特定的功能或算法，而不需要处理大量的基础设施问题。如机器学习算法库Scikit-Learn

通俗的理解一下：用一个餐厅的比喻来理解这三个概念：

算法包（Algorithm Package）：就像餐厅菜单上的某个具体的菜品。每个菜品都有特定的制作方法，各种食材以特定的方式搭配，制作出特定的菜。比如你想吃鱼香肉丝，你可以直接点这道菜，而不需要告诉厨师应该怎么做。
算法库（Algorithm Library）：就像整个餐厅的菜单。菜单包含了很多菜品，不论你想吃主食、汤还是甜点，你都可以在菜单上找到。你只需要从菜单中选择你想要的菜，而不需要知道具体的做法。
算法框架（Algorithm Framework）：就像整个餐厅的运营模式。这不仅仅包括菜单，还有餐厅的装修风格，服务员的服务态度，烹饪食物的方式，以及提供食物的时间等等。它提供了一种方便的方式，使得你可以在一个地方享受到完整的用餐体验，而不仅仅是食物本身。

所以在编程中，直接使用算法包来解决特定的问题，使用算法库可以解决一系列的问题，而使用算法框架则可以帮助我们更好地组织和构建代码，更有效地解决问题。

二、Scikit-learn官网结构

对于大多数流行的开源项目，官网都是学习的绝佳资源。而对于Scikit-Learn来说尤其是如此。哪怕是顶级开源项目盛行的当下，Scikit-Learn官网在相关内容介绍的详细和完整程度上，都是业内首屈一指的。无论是Scikit-Learn的安装、更新，还是具体算法的使用方法，甚至包括算法核心原理的论文出处以及算法使用的案例，在Scikit-Learn官网上都有详细的介绍。其官网地址：

Scikit-Learn官网，主要功能介绍如下：

导航栏

六大功能模块

Scikit-learn将所有的评估器和函数功能分为六大类，分别是分类模型（Classification）、回归模型（Regression）、聚类模型（Clustering）、降维方法（Dimensionality reduction）、模型选择（Model selection）和数据预处理六大类。

六个功能模块的划分其实是存在很多交叉的，对于很多模型来说，既能处理分类问题、同时也能处理回归问题，而很多聚类算法同时也可以作为降维方法实用。例如线性回归对用评估器可从Regression进入进行查找，而对用模型评估指标，由于评估指标最终是指导进行模型选择的，因此模型评估指标计算的实用函数的查找应该从Model selection入口进入。

User Guide：sklearn所有内容的合集文档

在最上方的User Guide一栏进入sklearn所有内容的合集页面，其中包含了sklearn的所有内容按照使用顺序进行的排序。如果点击左上方的Other versions，则可以下载sklearn所有版本的User Guide的PDF版本。

API：按照二级模块首字母排序的接口查询文档

如果想根据评估器或实用函数的名字去查找相关API说明文档，则可以点击最上方的API一栏进入到根据二极模块首字母排序的API查询文档中。其中二级模块指的是类似包含线性回归的linear_model模块或者包含MSE的metrics模块。

三、安装与设置

3.1 Python环境的安装与配置

如果您还不知道怎么安装Python基础环境，建议您阅读此文，详解了Anaconda的下载、安装与启动，Jupyter的基本操作及其强大的Notebook编辑环境及轻松升级Python版本、维护和管理Python的第三方库，满满干货！

Python包的安装和部署的几种方式 | 满满干货

3.2 Scikit-learn的安装

在完成Python环境的安装和配置后，可以进行Scikit-learn的安装，在官网上对应的位置如下：

Scikit-learn需要Python (>= 3.6) 和pip。

安装Scikit-learn的依赖包，包括NumPy和SciPy。如果已经安装了这些包，可以跳过此步。如果还没有，可以使用以下命令来安装：

pip install numpy scipy

接下来，可以安装Scikit-learn了。使用以下命令来安装：

pip install -U scikit-learn

这个命令将会安装或者升级Scikit-learn到最新版本。

如果使用的是Anaconda，那么安装Scikit-learn更加简单，直接使用以下命令：

conda install scikit-learn

确认Scikit-learn是否已经成功安装，可以尝试在Python环境中导入它：

import sklearn
sklearn.__version__

如果没有出现任何错误信息，那么就说明Scikit-learn已经成功安装了。

以上是基本的安装步骤，不同的操作系统和Python环境可能会有一些差异。需要根据自己的实际情况进行调整。如果在安装过程中遇到任何问题，可以查阅Scikit-learn的官方文档或者在网上搜索解决方案。

版本更新：

pip install --upgrade sklearn

四、Scikit-learn的快速入门

4.1 数据集的导入和处理

Scikit-learn提供了非常多的内置数据集，并且还提供了一些创建数据集的方法，这些数据集常用于演示各种机器学习算法的使用方法。这些数据集分为两种类型：小规模的玩具数据集（Toy Datasets）和大规模的真实世界数据集（Real-World Datasets）。

以下是几个常见的玩具数据集：

Iris（鸢尾花）：一个分类问题的数据集，包含了三种鸢尾花的四个特征，目标是根据这些特征预测鸢尾花的种类。
Digits（手写数字）：一个多分类问题的数据集，包含了手写数字的8x8像素图像，目标是识别这些图像对应的数字。
Boston House Prices（波士顿房价）：这是一个回归问题的数据集，包含了波士顿各个区域的房价和其他13个特征，目标是预测房价。
Breast Cancer（乳腺癌）：这是一个二分类问题的数据集，包含了乳腺肿瘤的30个特征，目标是预测肿瘤是良性还是恶性。

sklearn中的数据集相关功能都在datasets模块下，可以通过API文档中的datasets模块所包含的内容对所有的数据集和创建数据集的方法进行概览。

要在Scikit-learn中加载这些数据集，可以使用sklearn.datasets模块中的相关函数，例如：

from sklearn.datasets import load_iris

iris = load_iris()

这个函数会返回一个Bunch对象，包含了数据、目标和其他信息。例如，iris.data是一个包含了特征的二维数组，iris.target是一个包含了目标的一维数组。

名称	描述
data	数据集特征矩阵
target	数据集标签数组
feature_names	各列名称
target_names	各类别名称
frame	当生成对象是DataFrame时，返回完整的DataFrame

对应的可以使用如下代码查看：

# 数据集包含四个特征
print("Features: ", iris.feature_names)
# 数据集有三种分类标签
print("Labels: ", iris.target_names)

# 将数据转换为DataFrame以便于查看
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

# 添加分类标签到DataFrame
iris_df['label'] = iris.target

# 显示数据的前五行
print(iris_df.head())

Scikit-learn也提供了一些真实世界的数据集，但由于规模较大，通常需要下载。这些数据集可以用于更复杂的任务和算法的测试。例如，fetch_20newsgroups函数可以下载20 Newsgroups文本数据集，用于文本分类等任务。

4.2 数据集切分

在Scikit-learn中，通常将原始数据集切分为训练集和测试集，这样做可以评估模型在未见过的数据上的性能。数据集切分的目的是为了更好的进行模型性能评估，而更好的进行模型性能评估则是为了更好的进行模型挑选，Scikit-learn提供了train_test_split函数来帮助完成这一任务，train_test_split在model_selection模块下。

可以这样调用并使用它：

from sklearn.model_selection import train_test_split

# 假设X是特征，y是目标
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

train_test_split函数的主要参数有：

X, y：需要被切分的数据。
test_size：代表测试集的比例。在上面的例子中，我们将20%的数据用作测试集。
random_state：随机种子，可以确保每次运行代码时数据的切分方式相同。

在代码上，可以使用?的方式来查看函数的详细信息：

# 查阅该函数的帮助文档
train_test_split?

这里面有两个参数需要关注一下：

随机数种子的设置，random_state取值不同，切分结果就会各有不同
stratify参数是控制训练集和测试集不同类别样本所占比例的参数，若希望切分后的训练集和测试集中0、1两类的比例和原始数据相同（1:1），则可另stratify=y。

4.3 数值数据的标准化

Scikit-learn中的预处理模块sklearn.preprocessing提供了许多实用的特征缩放功能，包括数据归一化（Normalization）和标准化（Standardization）。这两种技术都用于改变特征的尺度，以便在训练机器学习模型时保证它们在相同的范围内。

此处需要注意一点：从功能上划分，Scikit-learn中的归一化其实是分为标准化（Standardization）和归一化（Normalization）两类。Z-Score标准化和0-1标准化，都属于Standardization的范畴，Normalization则特指针对单个样本（一行数据）利用其范数进行放缩的过程。

数据归一化：归一化通常意味着将数据缩放到[0, 1]的范围内，或者使得所有数据的范围都在[-1, 1]之间。可以使用Scikit-learn的MinMaxScaler来实现。

from sklearn.preprocessing import MinMaxScaler

X = np.arange(30).reshape(5, 6)

X_train, X_test = train_test_split(X)

scaler = MinMaxScaler()
X_train_normalized = scaler.fit_transform(X_train)
X_test_normalized = scaler.transform(X_test)

X_test_normalized

这段代码首先创建了一个MinMaxScaler对象，然后使用fit_transform方法对训练数据进行拟合和转换，最后使用transform方法对测试数据进行转换。

数据标准化：标准化则是将数据缩放，使得它们的均值为0，标准差为1。这可以通过Scikit-learn的StandardScaler来实现。

X = np.arange(30).reshape(5, 6)

X_train, X_test = train_test_split(X)

scaler = StandardScaler()

X_train_standardized = scaler.fit_transform(X_train)

# 利用训练集的均值和方差对测试集进行标准化处理
X_test_standardized = scaler.transform(X_test)

X_test_standardized

需要解释的一个点：为什么对训练集要使用fit_transform，而对测试级只使用transform?**

这是因为：在机器学习中，训练集和测试集应当是分开处理的。具体地说，应当在训练集上训练模型，而测试集应当模拟真实世界中模型未曾见过的数据，以此来评估模型的真实性能。因此，任何形式的预处理（包括特征缩放）都应当只以训练集的数据为基准来完成。

当在训练集上调用fit_transform方法时，fit方法会计算训练集数据的均值和标准差，然后transform方法会使用这些计算出的参数（均值和标准差）来对训练集进行标准化。

然后，当在测试集上调用transform方法时，Scikit-learn会使用之前在训练集上计算得到的均值和标准差来进行标准化。这样做的原因是，假设测试集是模型未曾见过的新数据，因此，不能使用测试集数据的任何信息（包括它的均值和标准差）来影响模型。换句话说，必须假设在预处理阶段，测试集数据是不可见的。

总的来说，在预处理数据时，训练集应当使用fit_transform方法，而测试集应当只使用transform方法，这样可以保证不会在预处理阶段就“泄露”测试集的信息。

4.4 数值数据的归一化

在Scikit-learn中，preprocessing.normalize是另一种类型的"归一化"。

preprocessing.normalize的功能是按照向量空间模型（Vector Space Model）对特征向量进行转换，使得每个特征向量的欧几里得长度（L2范数）等于1，或者每个元素的绝对值之和（L1范数）等于1。换句话说：和标准化不同，Scikit-learn中的归一化特指将单个样本（一行数据）放缩为单位范数（1范数或者2范数为单位范数）的过程，该操作常见于核方法或者衡量样本之间相似性的过程中。

假设向量 $x = [x_1, x_2, ..., x_n]^T$ ，则向量x的1-范数的基本计算公式为：
$||x||_1 = |x_1|+|x_2|+...+|x_n| \tag{1}$
在数学中，范数（Norm）是一个函数，其将向量映射为非负值。直观上，范数可以理解为向量的“长度”或“大小”。

即各分量的绝对值之和。而向量x的2-范数计算公式为：

$||x||_2=\sqrt{(|x_1|^2+|x_2|^2+...+|x_n|^2)} \tag{2}$

即各分量的平方和再开平方。

而Scikit-learn中的Normalization过程，实际上就是将每一行数据视作一个向量，然后用每一行数据去除以该行数据的1-范数或者2-范数。具体除以哪个范数，以preprocessing.normalize函数中输入的norm参数为准。

from sklearn.preprocessing import normalize
import numpy as np

# 创建一个numpy数组
X = np.array([[1., -1., 2.],
              [2., 0., 0.],
              [0., 1., -1.]])

# 对数据进行归一化处理，使用默认的L2范数
X_normalized = normalize(X, norm='l2')

在上面的代码中，每一行的特征向量被归一化为单位范数（长度为1）。这就意味着每一个样本的所有特征值的平方和为1。也可以通过设置norm参数为’l1’，来进行L1范数归一化，使得每个样本的所有特征值的绝对值和为1。

4.4 核心对象类型：评估器（estimator）

许多功能强大的第三方库都定义了自己的核心对象类型，这些对象类型实际上都是源码中定义的特定类的实例。例如，NumPy的核心是数组（Array），Pandas的核心是DataFrame，PyTorch的核心则是张量（Tensor）。这些对象类型为数据分析和机器学习提供了强大的工具。

对于Scikit-learn来说，它的核心对象类型是评估器（Estimator）。可以将评估器看作是一种封装了各种机器学习模型的工具。在Scikit-learn中进行模型训练的过程，其核心就是围绕着这些评估器展开的。

总的来说，这些不同库的核心对象类型都为处理特定任务提供了便捷，使得可以更加专注于问题的解决，而不需要深入底层去处理复杂的细节。"

围绕评估器的使用也基本分为两步，其一是实例化该对象，其二则是围绕某数据进行模型训练。

4.5 高级特性-管道（Pipeline）

在Scikit-learn中，Pipeline是一种方便地将多个步骤组织在一起的工具，常常用于包含多个步骤的数据预处理和建模过程。Pipeline在确保步骤顺序执行，代码整洁，并在进行交叉验证时防止数据泄露方面有很大的优势。

Pipeline工作流程类似于生产线，每个步骤都是独立的，但所有的步骤都依次串联起来，上一步的输出作为下一步的输入。一个典型的Pipeline可能包括数据的缩放（如归一化或标准化）、特征选择、降维以及最后的模型训练等步骤。

直接来看下代码：

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split

# 加载糖尿病数据集
diabetes = load_diabetes()
X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, random_state=0)

# 创建一个Pipeline
pipe = Pipeline([
    ('scaler', StandardScaler()),  # 第一步是标准化
    ('regressor', LinearRegression())  # 第二步是线性回归
])

# 使用Pipeline进行训练
pipe.fit(X_train, y_train)

# 使用Pipeline进行预测
y_pred = pipe.predict(X_test)

y_pred

在这个例子中，创建了一个Pipeline，它包含两个步骤：一个是StandardScaler，用于对数据进行标准化处理；另一个是LinearRegression，用于进行回归预测。然后在训练集上调用fit方法，Pipeline会依次对每个步骤进行训练（也就是说，它首先在数据上进行标准化，然后使用标准化的数据训练回归模型）。当在测试集上调用predict方法时，Pipeline会依次对每个步骤进行预测（即先进行标准化，然后使用训练好的回归模型进行预测）。

4.6 模型保存

模型保存（model persistence）是一种将训练好的机器学习模型保存到磁盘，然后在以后的时间点（可能是在不同的环境中）加载和使用的技术。这是非常有用的，因为通常训练一个好的模型可能需要大量的时间和计算资源。一旦模型被训练，我们可能希望在未来重新使用它，而不是每次需要时都重新训练。

在Scikit-learn中，可以使用Python的内置库pickle，或者joblib库（一种特别针对大数据的pickle）来实现模型保存和加载。

直接上代码：演示如何使用joblib保存和加载模型：

pythonCopy codefrom sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from joblib import dump, load

# 加载iris数据集并训练一个随机森林分类器
iris = load_iris()
clf = RandomForestClassifier()
clf.fit(iris.data, iris.target)

# 将模型保存到磁盘
dump(clf, 'randomforest_model.joblib') 

# 在需要的时候加载模型
clf_loaded = load('randomforest_model.joblib') 

# 使用加载的模型进行预测
y_pred = clf_loaded.predict(iris.data)

以上代码中，dump函数将模型保存到指定的文件中，而load函数则从文件中加载模型。注意，保存和加载模型的代码通常不会在同一脚本或同一会话中运行，这里只是为了演示。

如果模型包含了大量的numpy数组（例如，神经网络或随机森林等模型），使用joblib可能比使用pickle更高效。因此，Scikit-learn官方文档推荐使用joblib来保存和加载模型。

五、实操：使用Scikit-learn实现线性回归建模

5.1 建模流程

Step 1：准备数据，生成1000个基本规律满足 $y=2x_1-x_2+1$ 分布回归类数据集

# 科学计算模块
import numpy as np
import pandas as pd

# 绘图模块
import matplotlib as mpl
import matplotlib.pyplot as plt

# 回归数据创建函数
def arrayGenReg(num_examples = 1000, w = [2, -1, 1], bias = True, delta = 0.01, deg = 1):
    """回归类数据集创建函数。

    :param num_examples: 创建数据集的数据量
    :param w: 包括截距的（如果存在）特征系数向量
    :param bias：是否需要截距
    :param delta：扰动项取值
    :param deg：方程最高项次数
    :return: 生成的特征张和标签张量
    """
    
    if bias == True:
        num_inputs = len(w)-1                                                           # 数据集特征个数
        features_true = np.random.randn(num_examples, num_inputs)                       # 原始特征
        w_true = np.array(w[:-1]).reshape(-1, 1)                                        # 自变量系数
        b_true = np.array(w[-1])                                                        # 截距
        labels_true = np.power(features_true, deg).dot(w_true) + b_true                 # 严格满足人造规律的标签
        features = np.concatenate((features_true, np.ones_like(labels_true)), axis=1)    # 加上全为1的一列之后的特征
    else: 
        num_inputs = len(w)
        features = np.random.randn(num_examples, num_inputs) 
        w_true = np.array(w).reshape(-1, 1)         
        labels_true = np.power(features, deg).dot(w_true)
    labels = labels_true + np.random.normal(size = labels_true.shape) * delta
    return features, labels

这段代码的目的是创建一个回归类数据集。它定义了一个函数arrayGenReg，用于生成具有特定规律的回归类数据集。该函数根据给定的参数生成特征和标签数据，并可以选择是否添加截距项。特征数据根据正态分布随机生成，而标签数据根据设定的规律进行计算，并添加了服从正态分布的扰动项。这个函数的目的是方便生成用于回归问题的人工数据集。

Step 2 : 根据函数生成特征和标签数据。

# 设置随机数种子
np.random.seed(24)   

# 扰动项取值为0.01
features, labels = arrayGenReg(delta=0.01)

在这一步中，通过使用np.random.seed(24)设置了随机数种子为24。这样做的目的是确保接下来的随机生成过程可重复，即每次运行代码都会得到相同的随机数序列。然后，调用arrayGenReg函数生成回归类数据集的特征和标签。在这个例子中，将扰动项的取值设置为0.01，即delta=0.01。

Step3 : 绘制两个子图，观察数据集在不同特征维度上的分布情况

# 可视化数据分布
plt.subplot(121)
plt.plot(features[:, 0], labels, 'o')
plt.subplot(122)
plt.plot(features[:, 1], labels, 'o')

分别绘制特征矩阵features的第一列（features[:, 0]）、第二列（features[:, 1]）与标签列labels之间的关系。

Step 4：调用Scikit-learn中的线性回归评估器

首先，从Scikit-learn库中导入线性回归评估器，使用LinearRegression评估器进行线性回归建模。

from sklearn.linear_model import LinearRegression

然后，创建一个线性回归模型对象，被赋值给名为model的变量。

model = LinearRegression()

接下来，从之前生成的数据集中提取特征矩阵和标签，特征矩阵选取了前两个特征（features[:, :2]），并将其赋值给X变量。将标签数组赋值给y变量。

codeX = features[:, :2]  # 特征矩阵，选择前两个特征
y = labels  # 标签数组

最后，通过调用评估器中的fit()方法对模型进行训练：

model.fit(X, y)

通过这些步骤，线性回归模型将被训练并学习数据集中的模式和关联。

在机器学习中，评估器（Estimator）是用于学习数据模式和进行预测的对象。线性回归评估器（LinearRegression）是一种用于拟合线性模型的评估器。

实例化评估器是为了创建一个可供使用的评估器对象。通过实例化，可以设置评估器的参数和属性，以便进行后续的训练和预测操作。在这段代码中，通过使用LinearRegression()创建了一个线性回归评估器的实例，并将其赋值给model变量。

fit()方法是评估器的一个重要方法，用于对模型进行训练。在训练过程中，评估器根据提供的特征矩阵和标签数据，通过最小化损失函数来调整模型的参数，使其能够更好地拟合数据。通过训练过程，模型能够学习特征与标签之间的关系，并建立一个预测模型。

综上所述，通过实例化评估器、提供特征矩阵和标签数据，以及调用fit()方法来进行模型训练，才能够使用评估器拟合数据，并得到一个能够预测未知样本的线性回归模型。

Step 5：查看模型训练参数

print("自变量参数:", model.coef_)
print("模型截距:", model.intercept_)

返回参数如下：

Step 6: 结果解读

自变量参数：模型学习到的自变量参数为 [[1.99961892, -0.99985281]]，接近于基本规律中的 [2, -1]。这表示模型能够很好地学习到数据生成的规律，并对特征之间的关系进行准确建模。

模型截距：模型学习到的截距为 [0.99970541]，接近于基本规律中的 1。这意味着即使没有特征输入时，模型预测的输出值仍接近于1。

因此，根据模型的自变量参数和截距结果，可以得出结论：线性回归模型成功地学习到了基本规律中的特征之间的关系，并能够对未知样本进行准确的预测。

Step 7: 使用MSE做模型评估

可以使用Scikit-learn库中的均方误差（Mean Squared Error，MSE）计算函数，计算了预测值和真实标签之间的均方误差。

# 在metrics模块下导入MSE计算函数
from sklearn.metrics import mean_squared_error

# 输入数据，进行计算
mean_squared_error(model.predict(X), y)

至此就完成了调用Scikit-learn的线性回归模型进行建模的流程

5.2 什么是超参数

重要：你必须要知道的概念：超参数

超参数，指的是无法通过数学过程进行最优值求解、但却能够很大程度上影响模型形式和建模结果的因素，例如线性回归中，方程中自变量系数和截距项的取值是通过最小二乘法或者梯度下降算法求出的最优解，而是否带入带入截距项、是否对数据进行归一化等，这些因素同样会影响模型形态和建模结果，但却是“人工判断”然后做出决定的选项，而这些就是所谓的超参数。

而Scikit-learn中，对每个评估器进行超参数设置的时机就在评估器类实例化的过程中。可以查看LinearRegression评估器的相关说明，其中Parameters部分就是当前模型超参数的相关说明：

在上述Step 4过程中，直接使用的是：

model = LinearRegression()

这是因为使用的都是默认的参数，这些超参数可以在实例化过程中进行设置和修改，例如可以创建一个不包含截距项的线性方程模型：

model1 = LinearRegression(fit_intercept=False)
model1.get_params()

对于一个已经实例化好的评估器，可以通过get_params来获取其建模所用的参数

在实例化模型的过程中必须谨慎的选择模型超参数，以达到最终模型训练的预期。不同的模型，有不同的超参数，这也是在后面学习建模过程中非常重要的一点。

5.3 如何在官网中找到模型操作文档

在官网中找到相关评估器（模型）说明，对于理解模型的原理及使用方法等是非常重要的。以LinearRegression评估器为例：

实现线性回归参数计算的方法有很多种，可以通过最小二乘法进行一步到位的参数求解，同时也能够通过梯度下降进行迭代求解，如果要详细了解训练过程的参数求解方法，就需要回到官网中查阅评估器的相关说明。首先我们已经知道了。

LinearRegression是一个回归类模型，所以肯定在sklearn官网说明Regression板块中。

点进去就可以看到，在该模块的1.1.1.Ordinary Least Squares中，就是关于LinearRegression评估器的相关说明。对于任何一个评估器（算法模型），说明文档会先介绍算法的基础原理、算法公式（往往就是损失函数计算表达式）以及一个简单的例子，必要时还会补充算法提出的相关论文链接，带领用户快速入门。

还会对算法的某些特性进行探讨（往往都是在使用过程中需要注意的问题），例如对于普通最小二乘法，最大的问题还是在于特征矩阵出现严重多重共线性时，预测结果会出现较大的误差。然后，说明文档会例举一个该算法的完整使用过程，也就是穿插在说明文档中的example。再然后，说明文档会讨论几个在模型使用过程中经常会比较关注的点，对于线性回归，此处列举了两个常见问题，其一是非负最小二乘如何实现，以及最小二乘法的计算复杂度。

Scikit-learn官网说明文档非常细致并且非常完整，当使用其他模型，按照相同的方式进行学习、检索，就能充分理解模型的原理和使用。

六、总结

本文详细解释了Scikit-learn的一些基础用法，包括它的定义、安装、核心对象类型（评估器）和关键特性（如数据预处理，数据集切分，数据标准化和归一化），并学习了如何实现线性回归模型，包括了解超参数的概念，以及如何保存和加载模型，希望通过本文，能帮助大家对Scikit-learn有一个更深入的认识。

最后，感谢您阅读这篇文章！如果您觉得有所收获，别忘了点赞、收藏并关注我，这是我持续创作的动力。您有任何问题或建议，都可以在评论区留言，我会尽力回答并接受您的反馈。如果您希望了解某个特定主题，也欢迎告诉我，我会乐于创作与之相关的文章。

谢谢您的支持，期待与您共同成长！

你可能感兴趣的:(机器学习秘籍：探索算法原理,scikit-learn,机器学习,sklearn,Scikit-learn安装,评估器,Scikit-learn建模,Scikit-learn入门)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
openssl+keepalived安装部署 _小亦_ 项目部署 keepalived openssl
文章目录OpenSSL安装下载地址编译安装修改系统配置版本Keepalived安装下载地址安装遇到问题安装完成配置文件keepalived运行检查运行状态查看系统日志修改服务service重新加载systemd检查配置文件语法错误OpenSSL安装下载地址考虑到后面设备可能没法连接到外网，所以采用安装包的方式进行部署，下载地址：https://www.openssl.org/source/old/
STM32中的计时与延时 lupinjia STM32 stm32 单片机
前言在裸机开发中，延时作为一种规定循环周期的方式经常被使用，其中尤以HAL库官方提供的HAL_Delay为甚。刚入门的小白可能会觉得既然有官方提供的延时函数，而且精度也还挺好，为什么不用呢？实际上HAL_Delay中有不少坑，而这些也只是HAL库中无数坑的其中一些。想从坑里跳出来还是得加强外设原理的学习和理解，切不可只依赖HAL库。除了延时之外，我们在开发中有时也会想要确定某段程序的耗时，这就需要
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin