Laurel1115

七步利用Sklearn实现加州房产价格预测,学习了解机器学习项目的整个流程

Sklearn实现加州房产价格预测

一、导入需要用到的库
二、编写获取加州房产数据的函数
三、编写读取housing.csv的函数
四、利用Sklearn分割数据，获得训练数据集和测试数据集

(一)利用train_test_split
(二）利用StratifiedShuffleSplit

五、数据处理整个过程只关注分割得到的训练数据

(一）拆分数据
(二)清洗数据
(三)添加特征列
(四）特征缩放
(五）利用sklearn的Pipeline流水线化

六、选择并训练模型

(一)利用线性回归模型
(二)利用决策树回归模型
(三）利用随机森林回归模型

六、模型调参

(一)网格搜索
(二)随机搜索

七、用测试集评估模型
八、总结

一、导入需要用到的库

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import os
import tarfile
from six.moves import urllib

二、编写获取加州房产数据的函数

fetch_housing_data(),获取housing.csv数据，当调用fetch_housing_data（）,就会在工作空间创建一个datasets/housing目录，并且下载housing.tgz,解压housing.tgz


DOWNLOAD_ROOTDOWNLOA  = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = "datasets/housing"
HOUSING_URL = DOWNLOAD_ROOT + HOUSING_PATH + "/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()
    
fetch_housing_data()

三、编写读取housing.csv的函数

load_housing_data()，加载加州房产数据

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

housing=load_housing_data()

四、利用Sklearn分割数据，获得训练数据集和测试数据集

(一)利用train_test_split

关于train_test_split常用参数说明（详细可见sklearn文档说明)：

test_size : float, int or None, optional (default=0.25)
random_state :用于设置随机数生成器的种子，目的是保证当多次运行此段代码能够得到完全一样的分割结果，常设为42
shuffle:布尔值。默认为True,设为True时代表在分割数据集前先对数据进行洗牌（随机打乱数据集）
stratify：默认为None.当shuffle=True时，才能不为None,如果不是None,则数据集以分层方式拆分，并使用此作为类标签。

from sklearn.model_selection import train_test_split
train_set,test_set=train_test_split(housing,test_size=0.2,random_state=42)

(二）利用StratifiedShuffleSplit

关于StratifiedShuffleSplit说明（详细可见sklearn文档说明)：
这个函数主要是为了用于实现交叉验证（见后续），实现分层方式分割。
其创建的每一组划分将保证每组类比例相同与原数据集中各类的比例保持相同，即第一组训练数据类别比例为2:1，则后面每组类别都满足这个比例参数说明：
n_splits是将训练数据分成train/test对的组数，可根据需要进行设置，默认为10
(分层方式是指保持原数据集各个类的比例进行分割。比如原来数据集有两类A和B，A：B=5：2,那么在分割后训练数据集和测试数据集中A和B的比例也各自均为5：2。这样利用分层采样可以避免产生严重偏差）
为了进行分层分割，首先我们的数据集应该有类别。假设收入中位数是预测房价中位数非常重要的属性，我们根据多种收入分类。
首先看一下原数据的收入中位数分布
然后我们对收入中位数进行处理：
(1)首先将每个收入中位数除以1.5（用于限制收入分类的数量），用ceil对值舍入，向上取整（以产生离散的分类）
(2)将所有大于5的收入中位数归入到类别5，小于5的收入中位数保持对应的数值作为其类别（1,2,3,4).关于where的使用见http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.where.html （需要尤其注意它的other参数，对于不满足cond参数的部分的值将变为other参数的值5.0）

housing["income_cat"] = np.ceil(housing["median_income"] / 1.5)
# print (housing["income_cat"])
# print (type(housing["income_cat"]))
housing["income_cat"].where(housing["income_cat"] < 5, 5.0, inplace=True)
# print (housing["income_cat"])

经过处理后的收入中位数分布：

from sklearn.model_selection import StratifiedShuffleSplit
ss=StratifiedShuffleSplit(n_splits=1,test_size=0.2,random_state=42)
for train_index,test_index in ss.split(housing,housing["income_cat"]):
    strat_train_set=housing.loc[train_index]
    strat_test_set=housing.loc[test_index]

验证分割后的数据的类别比例与原数据的类别比例保持一致

最后在利用收入中位数类别对原数据集进行分层分割后，删除数据的income_cat属性，恢复数据的初始状态

for set in (strat_train_set,strat_test_set):
    set.drop(["income_cat"],axis=1,inplace=True)

五、数据处理整个过程只关注分割得到的训练数据

(一）拆分数据

获得特征矩阵X以及只含有median_house_value的y作为真实的label值

housing=strat_train_set.drop("median_house_value",axis=1)
housing_labels=strat_train_set["median_house_value"].copy()

(二)清洗数据

1.对于一些有缺失值的特征，需要进行处理，方法有：
(1).去掉对应的正行数据
(2).去掉这个属性对应的整列
(3).对缺失值用（0,平均值，中位数）进行替换
查看每个属性的缺失值情况

total_bedrooms有缺失值，需要处理，此处利用total_bedrooms的中位数进行填充

from sklearn.impute import SimpleImputer
simputer=SimpleImputer(strategy="median")

因为只有数值属性才能算出中位数，我们需要创建一份不包括文本属性ocean_proximity的数据副本

现在，利用fit()方法将simputer实例拟合到训练数据

simputer计算出了每个属性的中位数，并将结果保存在了实例变量statistics_中。虽然此时只有属性total_bedrooms存在缺失值，但我们不能确定在以后的新的数据中会不会有其他属性也存在缺失值，所以安全的做法是将imputer应用到每个数值

现在，就可以使用这个“训练过的”simputer来对训练集进行转换，将缺失值替换为中位数

得到的X是包含转换后特征的普通的 Numpy 数组，将其转换为DataFrame

2.处理文本类型数据，转化为数值。主要运用sklearn提供的OneHotEncode编码器
首先看到ocean_proximity属性值是文本类型，需要进行处理

housing_ocean_pro=housing[["ocean_proximity"]]
housing_ocean_pro.head(10)

关于独热编码推荐看这个手记里的讲解（https://www.imooc.com/article/35900）
sklearn的OneHotEncoder实现了独热编码

from sklearn.preprocessing import OneHotEncoder
cat_encoder=OneHotEncoder()
housing_ocean_pro_1hot=cat_encoder.fit_transform(housing_ocean_pro)
housing_ocean_pro_1hot

可以看到得到的housing_ocean_pro_1hot是sparse matrix（稀疏矩阵），将其转化为numpy数组

利用编码器查看一下ocean_proximity特征有哪些值

(三)添加特征列

这里手动实现一个类，熟悉sklearn是依赖鸭子类型（英语：duck typing是动态类型的一种风格。在这种风格中，一个对象有效的语义，不是由继承自特定的类或实现特定的接口，而是由当前方法和属性的集合决定，关注的不是对象的类型本身，而是它是如何使用的）

from sklearn.base import BaseEstimator,TransformerMixin
rooms_ix, bedrooms_ix, population_ix, household_ix = 3, 4, 5, 6

class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedrooms_per_room = True): 
        self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
        return self  
    def transform(self, X, y=None):
        rooms_per_household = X[:, rooms_ix] / X[:, household_ix]
        population_per_household = X[:, population_ix] / X[:, household_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household,
                         bedrooms_per_room]
        else:
            return np.c_[X, rooms_per_household, population_per_household]

attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attribs = attr_adder.transform(housing.values)

(四）特征缩放

除了个别情况，当输入的数值属性量度不同时，机器学习算法的性能都不会好。
有两种常见的方法可以让所有的属性有相同的量度：线性函数归一化（Min-Max scaling）和标准化（standardization）。
1.归一化（normalization）
对属性值进行缩放至（0,1）范围内的某个数。
通过用属性值减去最小值，然后再除以最大值与最小值的差值，来进行归一化。
Scikit-Learn 提供了一个转换器MinMaxScaler来实现这个功能。如果不希望范围是 0 到 1，它有一个超参数feature_range，可以让你改变范围。
2.标准化
使每个特征中的数值平均值变为0(将每个特征的值都减掉原始资料中该特征的平均)、标准差变为1
对于某个特征首先将该特征的每个值减去该特征的平均值（所以标准化值的平均值总是 0），然后除以方差，使得到的分布具有单位方差
Scikit-Learn 提供了一个转换器StandardScaler来进行标准化
3.归一化和标准化对比：
区别：归一化是将样本的特征值转换到同一量纲下把数据映射（0,1）。标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，转换为标准正态分布，和整体样本分布相关，每个样本点都能对标准化产生影响。标准化不会限定值到某个特定的范围，标准化受到异常值的影响很小
相同：都能取消由于量纲不同引起的误差；都是一种线性变换，都是对向量X按照比例压缩再进行平移

(五）利用sklearn的Pipeline流水线化

构建数值型特征列，文本类别型特征列名

1.创建数值型特征的流水线

fromfrom  sklearn.pipelinesklearn.p  import Pipeline
from sklearn.preprocessing import StandardScaler

num_type_pipeline=Pipeline([
    ('simputer',SimpleImputer(strategy="median")),
    ('attribs_adder', CombinedAttributesAdder()),
    ('std_scaler',StandardScaler())
    
])

2.利用sklearn的ColumnTransformer组合流水线
关于ColumnTransformer参考(https://www.codercto.com/a/31047.html)

from sklearn.compose import ColumnTransformer
full_pipeline = ColumnTransformer([
        ("num", num_type_pipeline, num_attribs),
        ("cat", OneHotEncoder(), cat_attribs),
    ])

3.运行整个流水线，实现对数据的各种处理

六、选择并训练模型

(一)利用线性回归模型

选取一些训练数据进行模型评估

从上面的预测结果与真实结果比对，可以看出有很大偏差
接下来，看一下利用线性回归整个训练集的RMSE

可以看到预测值与真实房价的rmse为68628,模型欠拟合
修复欠拟合的主要方法是选择一个更强大的模型，给训练算法提供更好的特征，或去掉模型上的限制。

(二)利用决策树回归模型

1.用训练集评估模型

这个结果并不是表示训练结果有多好，反而表明存在着严重的过拟合
2.利用交叉验证做更好的评估
交叉验证可以参考（https://www.cnblogs.com/sddai/p/5696834.html)
特别注意cross_val_score中的参数score的取值，参考(https://scikit-learn.org/stable/modules/model_evaluation.html#the-scoring-parameter-defining-model-evaluation-rules）
这里利用K折交叉验证，随机地将训练集分成十个不同的子集，成为“折”，然后训练评估决策树模型 10 次，每次选一个不用的折来做评估，用其它 9 个来做训练。结果是一个包含 10 个评分的数组：

from sklearn.model_selection import cross_val_score
scores = cross_val_score(tree_reg, housing_prepared, housing_labels,
                         scoring="neg_mean_squared_error", cv=10)
# print(scores)
rmse_scores = np.sqrt(-scores)
def display_scores(scores):
    print("Scores:", scores)
    print("Mean:", scores.mean())
    print("Standard deviation:", scores.std())

对线性回归同样进行K折交叉验证，两者结果进行比较

交叉验证不仅可以让你得到模型性能的评估，还能测量评估的准确性（即，它的标准差）
对比发现决策树模型过拟合很严重，它的性能比线性回归模型还差。

(三）利用随机森林回归模型

K折交叉验证评估模型

训练集的评分仍然比验证集的评分低很多。

六、模型调参

(一)网格搜索

使用 Scikit-Learn 的GridSearchCV来做这项搜索工作。它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数。
需要做的是告诉GridSearchCV要试验有哪些超参数，要试验什么值，GridSearchCV就能用交叉验证试验所有可能超参数值的组合。
class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=None, iid=’warn’, refit=True, cv=’warn’, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise-deprecating’, return_train_score=’warn’)
参数说明（详见https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html):
estimator:选择使用的分类器，并且传入除需要确定最佳的参数之外的其他参数。每一个分类器都需要一个scoring参数，或者score方法
param_grid:需要最优化的参数的取值，值为字典或者列表
cv=None:交叉验证参数，默认None，使用三折交叉验证。指定fold数量，默认为3，也可以是yield训练/测试数据的生成器
例如，下面的代码搜索了RandomForestRegressor超参数值的最佳组合：

from sklearn.model_selection import GridSearchCV
param_grid = [
    {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},
    {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},
  ]
forest_reg = RandomForestRegressor()
grid_search = GridSearchCV(forest_reg, param_grid, cv=5,
                           scoring='neg_mean_squared_error')
grid_search.fit(housing_prepared, housing_labels)

param_grid告诉 Scikit-Learn 首先评估所有的列在第一个dict中的n_estimators和max_features的3 × 4 = 12种组合（不用担心这些超参数的含义，会在后面的随机森林解释）。然后尝试第二个dict中超参数的2 × 3 = 6种组合，这次会将超参数bootstrap设为False而不是True（后者是该超参数的默认值）。
总之，网格搜索会探索12 + 6 = 18种RandomForestRegressor的超参数组合，会训练每个模型五次（因为用的是五折交叉验证）。换句话说，训练总共有18 × 5 = 90轮！K 折将要花费大量时间，完成后，就能获得参数的最佳组合，如下所示：

查看最佳的估计器:

查看每一个参数组合的评估得分:

我们通过设定超参数max_features为8，n_estimators为30，得到了最佳方案。对这个组合，RMSE 的值是 49987，这比之前使用默认的超参数的值（52583）要稍微好一些

(二)随机搜索

当超参数的搜索空间很大时，最好使用RandomizedSearchCV。这个类的使用方法和类GridSearchCV很相似，但它不是尝试所有可能的组合，而是通过选择每个超参数的一个随机值的特定数量的随机组合。这个方法有两个优点：
1).如果让随机搜索运行，比如 1000 次，它会探索每个超参数的 1000 个不同的值（而不是像网格搜索那样，只搜索每个超参数的几个值）。
2).可以方便地通过设定搜索次数，控制超参数搜索的计算量。

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_distribs = {
        'n_estimators': randint(low=1, high=200),
        'max_features': randint(low=1, high=8),
    }

forest_reg = RandomForestRegressor(random_state=42)
rnd_search = RandomizedSearchCV(forest_reg, param_distributions=param_distribs,
                                n_iter=10, cv=5, scoring='neg_mean_squared_error', random_state=42)
rnd_search.fit(housing_prepared, housing_labels)

查看每个特征的相对重要性:

将重要性分数和属性名放到一起:

extra_attribs = ["rooms_per_hhold", "pop_per_hhold", "bedrooms_per_room"]
cat_encoder = full_pipeline.named_transformers_["cat"] 
cat_one_hot_attribs = list(cat_encoder.categories_[0])
attributes = num_attribs + extra_attribs + cat_one_hot_attribs
sorted(zip(feature_importances, attributes), reverse=True)

有了这个信息，就可以丢弃一些不那么重要的特征（比如，显然只要一个ocean_proximity的类型（INLAND）就够了，所以可以丢弃掉其它的）

七、用测试集评估模型

final_model = grid_search.best_estimator_
X_test = strat_test_set.drop("median_house_value", axis=1)
y_test = strat_test_set["median_house_value"].copy()
X_test_prepared = full_pipeline.transform(X_test)
final_predictions = final_model.predict(X_test_prepared)
final_mse = mean_squared_error(y_test, final_predictions)
final_rmse = np.sqrt(final_mse)

八、总结

这个是之前自己参照《Hands-On Machine Learning with Scikit-Learn and TensorFlow》这本书，结合官方文档查看用到的类和函数的使用，自己动手实现的一个小项目，现在，抽空写出来，一个是进行一下回顾，另外也希望能对需要的人有些帮助，通过以上七大步骤可以看到机器学习项目是什么样的，流程是什么样的。这中间数据处理是一个很重要的环节，我们用于训练的特征很大程度决定我们最后模型的性能。

亦菲喊你来学机器学习（21） --数据清洗方世恩机器学习人工智能 python 算法
数据清洗在数据分析和机器学习项目中，数据清洗（DataCleaning）是一个至关重要的步骤，它涉及到处理原始数据中的错误、缺失值、异常值、重复记录以及不一致的格式等问题。data.fillna()是Pandas库中用于处理缺失值（NaN值）的一个非常有用的方法。1.读取数据importpandasaspddata=pd.read_excel('矿物数据.xlsx')data=data[data[
【深度学习 transformer】使用pytorch 训练transformer 模型,hugginface 来啦东华果汁哥深度学习-文本分类深度学习 transformer pytorch
HuggingFace是一个致力于开源自然语言处理（NLP）和机器学习项目的社区。它由几个关键组件组成：Transformers：这是一个基于PyTorch的库，提供了各种预训练的NLP模型，如BERT、GPT、RoBERTa、DistilBERT等。它还提供了一个简单易用的API来加载这些模型，并进行微调以适应特定的下游任务。Datasets：这是一个用于加载和预处理NLP数据集的库，与Tran
数据切分的艺术：使用PyTorch的torch.utils.data.random_split精粹指南 2402_85758349 机器学习
数据切分的艺术：使用PyTorch的torch.utils.data.random_split精粹指南在机器学习项目中，合理地分割数据集至关重，它不仅关系到模型训练的有效性，还直接影响到模型的泛化能力。PyTorch提供了一个强大的工具torch.utils.data.random_split，它能够以随机的方式将数据集分割成若干个子集。本文将详细介绍如何使用这一工具进行数据集的随机分割。1.随机
spark应用程序转换_4.Spark特征提取、转换和选择 - 简书 weixin_39956182 spark应用程序转换
在实际机器学习项目中，我们获取的数据往往是不规范、不一致、有很多缺失数据，甚至不少错误数据，这些数据有时又称为脏数据或噪音，在模型训练前，务必对这些脏数据进行处理，否则，再好的模型，也只能脏数据进，脏数据出。这章我们主要介绍对数据处理涉及的一些操作，主要包括：特征提取特征转换特征选择4.1特征提取特征提取一般指从原始数据中抽取特征。4.1.1词频－逆向文件频率(TF-IDF)词频－逆向文件频率(T
Keras深度学习框架实战（2）：估计模型训练所需的样本量 MUKAMO AI Python应用 Keras框架深度学习 keras 人工智能
1、模型训练样本量评估概述1.1样本量评估的意义预估模型需要的样本量对于机器学习项目的成功至关重要，以下是几个主要原因：防止过拟合与欠拟合：过拟合：当模型在训练数据上表现极好，但在未见过的测试数据上表现糟糕时，就发生了过拟合。这通常是因为模型过于复杂，而训练数据不足以支持其学习数据的真实模式。通过预估足够的样本量，我们可以减少过拟合的风险。欠拟合：与过拟合相反，欠拟合是模型未能捕捉到数据中的关键模
《Python机器学习项目实战》书籍介绍袁袁袁袁满 python 机器学习开发语言
文章目录书籍介绍主要内容书籍目录书籍介绍《Python机器学习项目实战》带领大家在构建实际项目的过程中，掌握关键的机器学习概念！使用机器学习，我们可完成客户行为分析、价格趋势预测、风险评估等任务。要想掌握机器学习，需要有优质的范例、清晰的讲解和大量的练习。《Python机器学习项目实战》完全满足这三点！《Python机器学习项目实战》展示了现实、实用的机器学习场景，并全面、清晰地介绍了机器学习的关
已解决ModuleNotFoundError: No module named ‘tensorflow‘异常的正确解决方法，亲测有效！！！小明 Bug解决大全 tensorflow 人工智能 python java 开发语言 Exception Error
已解决ModuleNotFoundError:Nomodulenamed'tensorflow'异常的正确解决方法，亲测有效！！！文章目录问题分析报错原因解决思路解决方法总结在深度学习和机器学习项目中，TensorFlow是一个极为常用和功能强大的库。如果你在导入TensorFlow时遭遇到了ModuleNotFoundError:Nomodulenamed'tensorflow'这一错误，那么本
【机器学习案例6】使用机器学习从图像中提取突出的颜色（含源码） suoge223 机器学习实用指南机器学习人工智能 python
专栏导读作者介绍：工学博士，高级工程师，专注于工业软件算法研究本文已收录于专栏：《机器学习实用指南》本专栏旨在提供1.机器学习经典案例及源码；2.开源机器学习训练数据集；3.机器学习前沿专业博文。以案例的形式从实用的角度出发，快速上手机器学习项目，在案例中成长，摆脱按部就班填鸭式教学。欢迎订阅专栏，订阅用户可私聊进入机器学习交流群（知识交流、问题解答），并获赠丰厚的机器学习相关学习资料（教材、源码
【机器学习案例7】计算机视觉中的小物体检测：基于补丁的方法 suoge223 机器学习实用指南机器学习计算机视觉人工智能
专栏导读作者简介：工学博士，高级工程师，专注于工业软件算法研究本文已收录于专栏：《机器学习实用指南》本专栏旨在提供1.机器学习经典案例及源码；2.开源机器学习训练数据集；3.机器学习前沿专业博文。以案例的形式从实用的角度出发，快速上手机器学习项目，在案例中成长，摆脱按部就班填鸭式教学。欢迎订阅专栏，订阅用户可私聊进入机器学习交流群（知识交流、问题解答），并获赠丰厚的机器学习相关学习资料（教材、源码
【机器学习笔记】 15 机器学习项目流程 RIKI_1 机器学习机器学习笔记人工智能
机器学习的一般步骤数据清洗数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。探索性数据分析(EDA探索性数据分析（EDA）是一个开放式流程，我们制作绘图并计算统计数据，以便探索我们的数据。目的是找到异常，模式，趋势或关系。这些可能是有趣的（例如，找到两个变量之间的相关性），或者它们可用
Task 11 XGBoost 算法分析与案例调参实例沫2021
1.XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在GradientBoosting框架下实现机器学习算法。XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速
如何交付机器学习项目：一份机器学习工程开发流程指南城市中迷途小书童
摘要：本文描述机器学习任务的“OODA环”的概念，迭代地执行四个过程：分析、选择方法、实现、测量步骤，循环此过程以提升开发效率。随着机器学习（ML）成为每个行业的重要组成部分，对机器学习工程师（MLE）的需求急剧增长。MLE需要将机器学习技能与软件工程专业知识相结合，为特定应用程序找到高性能的模型，并应对出现的实施挑战——从构建训练基础架构到准备部署模型。在新的机器学习团队中，遇到最常见的障碍之一
机器学习项目之数据清洗井底哇哇笔记机器学习数据分析 python
前言数据清洗是机器学习项目中最为琐碎而又繁重的工作之一，下面总结一些经常用到的数据清洗方法与Python实现，以探索能否用更加自动化的手段来简化数据清洗工作。包括：1.缺失值处理2.格式内容清洗3.重复值处理4.不一致数据处理5.错误数据处理6.离群点处理7.高杠杆点处理8.强影响点处理1缺失值缺失值是最常见的数据问题之一，按缺失比例，我们大致可以将数据的缺失分为两种情况：1）严重缺失这种情况首先
《Git 简易速速上手小册》第10章：未来趋势与扩展阅读（2024 最新版）江帅帅《Git 简易速速上手小册》git python 网络安全爬虫数据分析 github gitlab
文章目录10.1Git与开源社区10.1.1基础知识讲解10.1.2重点案例：Python社区使用Git10.1.3拓展案例1：Git在大型开源项目中的角色10.1.4拓展案例2：支持开源项目的Git托管平台10.2新兴技术与Git的整合10.2.1基础知识讲解10.2.2重点案例：使用Git管理Python机器学习项目10.2.3拓展案例1：整合Git与JupyterNotebooks10.2.
Python 机器学习交叉验证、网格搜索 weixin_42098295 python 机器学习开发语言
Python的机器学习项目中，交叉验证（Cross-Validation）和网格搜索（GridSearch）是两种重要的技术，通常用于模型选择和超参数优化。交叉验证和网格搜索也是机器学习中常用的两种技术，可以有效地提高模型的性能。1、交叉验证（Cross-Validation）交叉验证是一种评估模型泛化性能的方法。它涉及将数据集分成几个部分，通常是“折叠”（folds），然后将模型在一个折叠上进行
使用 AgGrid 增强您的 Streamlit 表格：高级提示和技巧 code2day Python源码技巧大全 streamlit python ag-grid
Streamlit是一个功能强大且用户友好的Python库，用于创建Web应用程序。它非常适合数据分析和机器学习项目，并且可以轻松地将您的应用程序部署到StreamlitCloud。在过去一年半的时间里，无论是小型项目还是复杂项目，我都使用过Streamlit，我发现它是一个非常宝贵的工具。虽然有很多介绍Streamlit的文章和视频（这里是最近的一篇），但我想重点介绍它的一个附加组件：Strea
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版（九）绝不原创的飞龙人工智能机器学习 sklearn tensorflow
原文：Hands-OnMachineLearningwithScikit-Learn,Keras,andTensorFlow译者：飞龙协议：CCBY-NC-SA4.0附录A：机器学习项目清单此清单可以指导您完成机器学习项目。有八个主要步骤：构建问题并全局看问题。获取数据。探索数据以获得见解。准备数据以更好地暴露底层数据模式给机器学习算法。探索许多不同的模型并列出最佳模型。微调您的模型并将它们组合成
【深度学习：机器学习模型】如何构建您的第一个机器学习模型 jcfszxc 深度学习知识专栏深度学习机器学习人工智能
【深度学习：机器学习模型】如何构建您的第一个机器学习模型第1步：将您的机器学习项目置于情境中第2步：探索数据并选择机器学习算法的类型监督学习无监督学习强化学习第3步：数据收集第4步：选择模型评估方法维护保留验证集K折验证通过改组进行迭代K折验证第5步：预处理和清理数据集处理非数字列解决缺失值检测异常值Z分数基于密度的噪声应用空间聚类(DBSCAN)分析特征选择Univariate单变量Multiv
机器学习系列 16：使用 scikit-learn 的 Pipeline 加百力深度学习机器学习 scikit-learn 人工智能
在机器学习项目中，我们经常需要进行大量的数据预处理步骤，最后用处理干净的数据集来拟合机器学习算法得到一个合适的机器学习模型。scikit-learn提供了一个强大的Pipeline类来帮助我们将所有的数据预处理步骤和训练模型的步骤串起来。就像流水线一样，前一个步骤处理完的结果输入到下一个步骤，依次处理。这里我们将使用UCI提供的威斯康星洲乳腺癌数据集，下载地址如下：https://archive.
深度学习-使用Labelimg数据标注 Damon小智图像识别深度学习人工智能 labelimg yolo
数据标注是计算机视觉和机器学习项目中至关重要的一步，而使用工具进行标注是提高效率的关键。本文介绍了LabelImg，一款常用的开源图像标注工具。用户可以在图像中方便而准确地标注目标区域，为训练机器学习模型提供高质量的标注数据。LabelImg已经成为研究者和开发者在计算机视觉项目中不可或缺的工具之一。一、安装Labelimg1、切换虚拟环境为了确保LabelImg能够与项目环境兼容，首先需要切换到
Coursera吴恩达《深度学习》课程总结（全）双木的木吴恩达深度学习笔记 AI 笔记深度学习神经网络人工智能 python
这里有Coursera吴恩达《深度学习》课程的完整学习笔记，一共5门课：《神经网络和深度学习》、《改善深层神经网络》、《结构化机器学习项目》、《卷积神经网络》和《序列模型》，最后附上人工智能领域大师访谈，干货满满。第一门课：神经网络和深度学习基础，介绍一些基本概念。（四周）第二门课：深度学习方面的实践，严密的构建神经网络，如何真正让它表现良好。超参数调整，正则化诊断偏差和方差，高级优化算法，如Mo
机器学习-采用Pandas数据导入 weixin_38174032 机器学习 python 机器学习
通过Pandas来导入CSV文件要使用pandas.read_csv()函数。这个函数返回值是DataFrame，可以很方便进行下一步的处理。在机器学习项目中，经常用Pandas来做数据清洗与数据准备工作。常使用这种方法。代码如下：#!/user/bin/python#-*-coding:UTF-8-*-frompandasimportread_csv#使用Pandas导入CSV数据filenam
VIVO- AI进展--机器学习平台建设数据智能谷
来源InfoQ网站技术访谈，本文系转发2020年1月21日10:56机器学习项目痛点起初，vivo也是采用类似“作坊式”的团队模式，每个团队针对各自要解决的问题进行规划，由此产生了一种小作坊式的生产局面。随着应用规模逐渐增大，这种模式的局限就暴露出来了。鲁文龙表示，这种模式下的机器学习项目会出现如下问题：1、特征与样本层面，添加新特征流程较长，且不同业务间特征无法共用；特征与样本的处理和存储系统性
【机器学习】实验记录工具 Encarta1993 机器学习人工智能
Weights&Biases（简称为WandB）是一个用于跟踪机器学习实验、可视化实验结果并进行协作的工具。它提供了一个简单易用的界面，让用户可以轻松地记录模型训练过程中的指标、超参数和输出结果，并将这些信息可视化展示。WandB还支持团队协作，可以让团队成员共享实验记录、交流想法，并进行实验结果的比较和分析。通过WandB，用户可以更好地管理和理解他们的机器学习项目，加速实验迭代过程，提高模型的
基于朴素贝叶斯的文本分类系统的设计与实现 @斯里分类数据挖掘人工智能
基于线性回归的预测系统：这是简单而基础的机器学习项目，用于预测单变量或多变量问题。例如，预测房价、销售额等。基于逻辑回归的分类系统：虽然名字中有“回归”，但逻辑回归是用于解决分类问题的，如垃圾邮件判别、病人疾病诊断等二分类问题。基于决策树/随机森林的预测和分类系统：这些算法直观且容易理解，具备良好的解释性，很多复杂的问题也可以用这类方法解决。例如，预测公司的员工流失、信贷风险评估等。基于k近邻(k
《scikit-learn》xgboost 星海千寻机器学习 scikit-learn xgboost
XGBoost算法•XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。•XGBoost的基学习器除了可以是CART（这个时候就是GBDT）也可以是线性分类器，而GBDT只能是CART。•XGBoost的目标函数的近似用了二阶泰勒展开，模型优化效果更好。•XGBoost
2、机器学习基础数据探索 AI算法蒋同学从零开始的机器学习导论机器学习人工智能
加载并理解您的数据。本课程所需数据集夸克网盘下载链接：https://pan.quark.cn/s/9b4e9a1246b2提取码：uDzP文章目录1、使用Pandas了解你的数据2、解释数据描述1、使用Pandas了解你的数据任何机器学习项目的第一步都是熟悉数据。您将使用Pandas库进行此操作。Pandas是数据科学家用来探索和操纵数据的主要工具。大多数人在代码中将panda缩写为pdIn[1
【机器学习300问】7、怎么进行机器学习？机器学习的基本流程是什么？小oo呆【机器学习】机器学习人工智能
一、写在前面也许你和我一样，在刚开始学习机器学习的基本知识的时候，学到了很多的零碎知识点，无法穿成线织成网，本文是机器学习中提纲挈领的一环，将和你一起将今后所有的知识点都捕捉在这张网中。当你在问“我该改怎么进行机器学习？”或者“我怎么去用机器学习？”的时候，其实你是想知道“机器学习的基本流程是什么？”。每当你开始一个机器学习项目的时候，请你务必在心中复习一下机器学习的基本流程。二、机器学习的基本流
机器学习基本算法：算法流程和算法分类缘起性空、机器学习算法人工智能
1、算法流程机器学习的过程是一个完整的项目周期，其中包括数据的采集、数据的特征提取与分类，之后采用何种算法去创建机器学习模型从而获得预测数据。算法流程从上图可以看出一个完整的机器学习项目包含以下这些内容：输入数据：通过自然采集的数据集，包含被标识的和未被标识的部分，作为机器学习的最基础部分。特征提取：通过多种方式对数据的特征值进行提取，一般而言，包含特征越多的数据，机器学习设计出的模型就越精确，处
机器学习_实战框架 you_are_my_sunshine* 机器学习机器学习人工智能
文章目录介绍机器学习的实战框架1.定义问题2.收集数据和预处理(1).收集数据(2).数据可视化(3).数据清洗(4).特征工程(5).构建特征集和标签集(6).拆分训练集、验证集和测试集。3.选择算法并建立模型4.训练模型5.模型的评估和优化介绍机器学习的实战框架一个机器学习项目从开始到结束大致分为5步，分别是定义问题、收集数据和预处理、选择算法和确定模型、训练拟合模型、评估并优化模型性能。这5
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。