boywaiter

Chapter 2 End-to-End Machine Learning Project

OReilly.Hands-On Machine Learning with Scikit-Learn and TensorFlow读书笔记

Chapter 2 End-to-End Machine Learning Project

需要掌握

1、获取数据

a）下载tgz文件，在本地解压为csv格式文件

import os
import tarfile
from six.moves import urllib
#远程网站根目录
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
#存放csv文件的目录，同时作为本地存放csv文件的目录
HOUSING_PATH = "datasets/housing"
#远程压缩文件全路径=网站根目录+存放csv文件的目录+压缩文件名
HOUSING_URL = DOWNLOAD_ROOT + HOUSING_PATH + "/housing.tgz"


def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
	#将压缩文件全路径 和 本地存放csv文件目录 作为参数传入函数
	#本地存放csv文件目录不存在，则创建
	if not os.path.isdir(housing_path):
		os.makedirs(housing_path)
	#本地压缩文件相对路径
	tgz_path = os.path.join(housing_path, "housing.tgz")
	#从远程压缩文件全路径 取回压缩文件，存放到 本地压缩文件相对路径
	urllib.request.urlretrieve(housing_url, tgz_path)
	#打开文件，并提取（解压）到 本地存放csv文件目录，然后关闭文件
	housing_tgz = tarfile.open(tgz_path)
	housing_tgz.extractall(path=housing_path)
	housing_tgz.close()

fetch_housing_data()

b) 用pandas.read_csv()读取csv数据，返回一个pandas.DataFrame对象

import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
	csv_path = os.path.join(housing_path, "housing.csv")
	return pd.read_csv(csv_path)

housing = load_housing_data()

c) 查看pandas.DataFrame对象信息：

housing.head()#查看前5条记录
housing.info()#查看每列信息，包括column name，number of non-null values，datatype
housing.describe()#每列数据的详细统计信息，包括count, mean, std, min, 25%, 50%, 75%, max of each column
housing["ocean_proximity"].value_counts()#查看每列不同值的统计信息

d)可视化，以对数据有个初步的感性认识

%matplotlib inline
import matplotlib.pyplot as plt
#为每个数值属性绘制直方图，50个数据刻度，每张图的大小是(20,15)
#housing数据集有9个数值属性
housing.hist(bins=50,figsize=(20,15));

e) 分割数据，得到训练集和测试集

Scikit-Learn 提供了一些函数，可以用多种方式将数据集分割成多个子集。最简单的函数
是sklearn.model_selection.train_test_split()函数，将原始数据集分割为训练集和测试集。其中，

test_size指示测试集占原始数据集的比例，

random_state=42指示随机参数（指定相同的种子参数，则每次分割得到相同结果）

from sklearn.model_selection import train_test_split
train_set,test_set = train_test_split(housing,test_size=0.2,random_state=42)

根据收入分类，进行分层采样。可以使用 Scikit-Learn的 StratifiedShuffleSplit 类：

#先为数据集增加一列income_cat，值为median_income/1.5取整，值超过5.0的取5.0
housing["income_cat"]=np.ceil(housing["median_income"]/1.5)
housing["income_cat"].where(housing["income_cat"]<5, 5.0, inplace=True)
#然后根据income_cat列的不同值所占比例采样，避免采样偏差
from sklearn.model_selection import StratifiedShuffleSplit
#n_splits=1表示shuffle的次数
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]
#最后，把income_cat列从训练集和测试集中删掉，inplace=True表示在原始数据集上直接操作
for set in (strat_train_set,strat_test_set):
    set.drop(["income_cat"],axis=1, inplace=True)

2、通过可视化数据发现规律

a) 绘制散点图，从直观上猜测数据属性之间的关联

housing.plot(kind="scatter",x="longitude",y="latitude",alpha=0.4,
             s=housing["population"]/100,label="population",
       c="median_house_value",cmap=plt.get_cmap("jet"),colorbar=True)
plt.legend();

b) 查找关联

使用 corr() 方法计算出每对属性间的标准相关系数（standard correlation coefficient，也称作皮尔逊相关系数）：

corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

另一种检测属性间相关系数的方法是使用 Pandas 的 scatter_matrix 函数，它能画出一个数
值属性集合中每对数值属性的关系图。

from pandas.tools.plotting import scatter_matrix
attributes = ["median_house_value", "median_income", "total_rooms",
"housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12, 8))

c) 属性组合实验

尝试衍生属性，即从现存属性的组合中得到新的相关属性，再计算这些属性与原来属性之间的关联。

housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
housing["population_per_household"]=housing["population"]/housing["households"] 

corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

3、为机器学习算法准备数据

a) 将训练集分割为预测量和标签，即X和y

housing = strat_train_set.drop("median_house_value", axis=1)
housing_labels = strat_train_set["median_house_value"].copy()

b) 处理缺失值

属性total_bedroom存在缺失值，三种解决方式：

去掉对应的街区，即去掉包含缺失值的行
去掉整个属性，即去掉包含缺失值的列
填充，用0、均值、中位数填充缺失值

housing.dropna(subset=["total_bedrooms"]) # 选项1，如果在原始数据集上修改，加上inplace=True选项
housing.drop("total_bedrooms", axis=1) # 选项2
median = housing["total_bedrooms"].median()#先计算中位数
housing["total_bedrooms"].fillna(median) # 选项3

更简便的方式是Scikit-Learn的类Imputer，可以以多种策略strategy来填充缺失值

from sklearn.preprocessing import Imputer
imputer = Imputer(strategy="median")

麻烦的地方是，需要把非数值属性ocean_proximity剔除，填充之后，再合并回来。

housing_num = housing.drop("ocean_proximity", axis=1)#剔除
imputer.fit(housing_num) #拟合
X = imputer.transform(housing_num) #转换为Numpy数组
housing_tr = pd.DataFrame(X, columns=housing_num.columns) #将数组转换为数据集的原始类型DataFrame

事实上，imputer.statistics_中存放了所有（数值）属性的中位数

>>>imputer.statistics_
array([ -118.51 , 34.26 , 29. , 2119. , 433. , 1164. , 408. , 3.5414])
>>>housing_num.median().values
array([ -118.51 , 34.26 , 29. , 2119. , 433. , 1164. , 408. , 3.5414])

c) 将非数值（文本和分类）属性值转化为数值

利用Scikit-Learn的LabelEncoder类可以实现，但缺点是只能处理一个非数值属性，多个非数值属性需要分别处理，再合并。顾名思义，LabelEncoder设计目的也是处理数据集中的标签label。

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
housing_cat = housing["ocean_proximity"]
housing_cat_encoded = encoder.fit_transform(housing_cat)
>>> housing_cat_encoded
array([1, 1, 4, ..., 1, 0, 3])

可以通过LabelEncoder的classes_属性查看学习到的映射（<1H OCEAN 被映射为 0， INLAND 被映射为 1，等等），将n个不同的非数值属性值转化为0到n-1之间的数字。

>>> print(encoder.classes_)
['<1H OCEAN' 'INLAND' 'ISLAND' 'NEAR BAY' 'NEAR OCEAN']

缺点是映射为数字之后，数字之间的距离不一定能反映出非数值属性值之间的近似度。例如，0和4所代表的分类'<1H OCEAN'和'NEAR OCEAN'之间的近似度远大于0和1所代表的的分类'<1H OCEAN'和'INLAND'。

One-Hot编码可以部分解决这个问题：将不同的非数值属性值对应的数字映射为向量，向量之间彼此正交，不存在哪两个向量更近似（近似度都为0），但没有解决相似非数值属性值之间语义近似的问题（可以通过训练embedding解决）。

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(-1,1))
>>> housing_cat_1hot
<16513x5 sparse matrix of type 'numpy.float64'>'
with 16513 stored elements in Compressed Sparse Row format>
>>> housing_cat_1hot.toarray()
array([[ 0., 1., 0., 0., 0.],
[ 0., 1., 0., 0., 0.],
[ 0., 0., 0., 0., 1.],
...,
[ 0., 1., 0., 0., 0.],
[ 1., 0., 0., 0., 0.],
[ 0., 0., 0., 1., 0.]])

使用类 LabelBinarizer ，我们可以用一步执行这两个转换（从文本分类到整数分类，再从整
数分类到独热向量）：

from sklearn.preprocessing import LabelBinarizer
encoder = LabelBinarizer()
housing_cat_1hot = encoder.fit_transform(housing_cat)
>>> housing_cat_1hot
array([[0, 1, 0, 0, 0],
[0, 1, 0, 0, 0],
[0, 0, 0, 0, 1],
...,
[0, 1, 0, 0, 0],
[1, 0, 0, 0, 0],
[0, 0, 0, 1, 0]])

注意默认返回的结果是一个密集 NumPy 数组。向构造器 LabelBinarizer 传递 sparse_output=True ，就可以得到一个稀疏矩阵。

d) 自定义转换器

可以自定义转换器（transformer）来执行前面提到的一些任务，例如缺失值填充、组合属性得到新属性，将非数值属性转换为数值属性。

如果希望自定义的转换器可以与现有的Scikit-Learn组件（例如pipeline）无缝连接，就需要创建一个类，并实现fit()，transfrom()和fit_transform()方法。实现fit()用于与前一个组件连接，实现transfrom()用于与下一个组件相连。将TransformerMixin 作为基类，自动得到fit_transform()方法。添加 BaseEstimator 作为基类（且构造器中避免使用 *args 和 **kargs ），就能得到两个额外方法（get_params() 和 set_params() ），利用它们可以方便地对超参数自动微调。

from sklearn.base import BaseEstimator, TransformerMixin
rooms_ix, bedrooms_ix, population_ix, household_ix = 3, 4, 5, 6
class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedrooms_per_room = True): # no *args or **kargs
    	self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
    	return self # nothing else to do
    def transform(self, X, y=None):
        rooms_per_household = X[:, rooms_ix] / X[:, household_ix]
        population_per_household = X[:, population_ix] / X[:, household_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
            return np.c_[X,rooms_per_household, population_per_household, bedrooms_per_room]
        else:
        	return np.c_[X, rooms_per_household, population_per_household]
attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attribs = attr_adder.transform(housing.values)

#得到的housing_extra_attribs是numpy.ndarray类型。下面代码将其转换为DataFrame类型
housing_extra_dataframe= pd.DataFrame(housing_extra_attribs,
    columns=housing.columns.append(Index(    ["rooms_per_household","population_per_household"])))
#查看转换是否成功
housing_extra_dataframe.head()

e) 特征缩放

目的是让每个特征具有相同的量纲（**问题是，one-hot向量如何缩放才能与其他属性值量纲相同？**答案是one-hot向量占据多列，每一列或是1或是0。也就是说，把向量的每个分量看作一个单独的属性）。两种方式：线性函数归一化（Min-Max scaling）和
标准化（standardization）。

线性函数归一化（或归一化normalization）：通过减去最小值，然后再除以最大值与最小值的差值，来进行归一化。Scikit-Learn 提供了一个转换器 MinMaxScaler来实现这个功能。如果不希望范围是 0 到 1，可以利用超参数 feature_range指定范围。

from sklearn.preprocessing import MinMaxScaler
scaler=MinMaxScaler(feature_range=(0,2))#可以指定特征的值的范围
scaler.fit_transform(np.array(housing["total_rooms"]).reshape(-1,1))
#只接受二维ndarry，而housing["total_rooms"]是Series类型

标准化：减去平均值，除以方差。标准化不会限定值到某个特定的范围，这对某些算法可能构成问题（比如，神经网络常需要输入值得范围是 0 到 1）。但是，标准化受到异常值的影响很小。例如，假设一个街区的收入中位数由于某种错误变成了100，归一化会将其它范围是 0 到 15 的值变为 0-0.15，但是标准化不会受什么影响。Scikit-Learn 提供了一个转换器 StandardScaler 来进行标准化。

f) 转换流水线

许多数据转换由一系列子转换构成。Scikit-Learn 提供了Pipeline类来完成这一任务。

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
    ('imputer',SimpleImputer(strategy="median")),
    ('attribs_adder',CombinedAttributesAdder()),
    ('std_scaler',StandardScaler())
])
#type(housing_num)是numpy.ndarray
housing_num_tr=num_pipeline.fit_transform(housing_num)

Pipeline 构造器的list类型参数定义了名字/估计器对序列。除了最后一个估计器，其余还必须是转换器（如前所述，转换器都是估计器）。调用流水线的 fit() 方法，就会对所有转换器顺序调用 fit_transform() 方法，将每次调用的输出作为参数传递给下一个调用，一直到最后一个估计器，它只执行 fit() 方法。上面例子中最后的估计器是一个 StandardScaler ，它也是一个转换器，因此这个流水线有一个 transform() 方法，可以顺序对数据做所有转换。

这个流水线用于处理数值型属性，还需要一个Pipeline处理分类型属性。

然后，使用Scikit-Learn中FeatureUnion类将两个Pipeline的输出合并起来。一个完整的处理数值和类别属性的流水线如下所示：

from sklearn.pipeline import FeatureUnion
from sklearn.preprocessing import OneHotEncoder
num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]
num_pipeline = Pipeline([
    ('selector', DataFrameSelector(num_attribs)),
    ('imputer', SimpleImputer(strategy="median")),
    ('attribs_adder', CombinedAttributesAdder()),
    ('std_scaler', StandardScaler()),
])
cat_pipeline = Pipeline([
    ('selector', DataFrameSelector(cat_attribs)),
    ('1hot_encoder', OneHotEncoder()),
])
full_pipeline = FeatureUnion(transformer_list=[
    ("num_pipeline", num_pipeline),
    ("cat_pipeline", cat_pipeline),
])

其中，

from sklearn.base import BaseEstimator, TransformerMixin
class DataFrameSelector(BaseEstimator, TransformerMixin):
    def __init__(self, attribute_names):
        self.attribute_names = attribute_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.attribute_names].values

>>> housing_prepared = full_pipeline.fit_transform(housing)
>>> housing_prepared
array([[ 0.73225807, -0.67331551, 0.58426443, ..., 0. ,
0. , 0. ],
[-0.99102923, 1.63234656, -0.92655887, ..., 0. ,
0. , 0. ],
[...]
>>> housing_prepared.shape
(16513, 17)

与书上结果不同，我的结果是(16512,16)

4、选择和训练模型

a) 在训练集上训练和评估

#导入线性回归模型
from sklearn.linear_model import LinearRegression
#初始化一个模型实例
lin_reg=LinearRegression()
#模型训练
lin_reg.fit(housing_prepared,housing_labels)

#这里用训练集中的部分数据测试训练效果
some_data=housing.iloc[:5]
some_labels=housing_labels.iloc[:5]
#用pipeline预处理测试数据
some_data_prepared=full_pipeline.transform(some_data)

#打印出测试结果，与标签对比
print("Predictions:\t", lin_reg.predict(some_data_prepared))
print("Labels:\t\t", list(some_labels))

#计算模型的RMSE(Root Mean Squared Error)
from sklearn.metrics import mean_squared_error
housing_predictions=lin_reg.predict(housing_prepared)
lin_mse= mean_squared_error(housing_labels,housing_predictions)
lin_rmse=np.sqrt(lin_mse)
lin_rmse

#导入决策树回归模型
from sklearn.tree import DecisionTreeRegressor
tree_reg=DecisionTreeRegressor()
tree_reg.fit(housing_prepared,housing_labels)
housing_predictions=tree_reg.predict(housing_prepared)
tree_mse=mean_squared_error(housing_labels,housing_predictions)
tree_mse

b) 交叉验证

K 折交叉验证（K-fold cross-validation）：

Scikit-Learn 交叉验证功能期望的是效用函数（越大越好）而不是损失函数（越低越好），因此得分函数实际上与 MSE 相反（即负值），这就是为什么前面的代码在计算平方根之前先计算 -scores 。

from sklearn.model_selection import cross_val_score
scores=cross_val_score(tree_reg,housing_prepared,housing_labels,
                      scoring="neg_mean_squared_error",cv=10)
rmse_scores=np.sqrt(-scores)

#定义一个显示结果的函数
def display_scores(scores):
    print("Scores:",scores)
    print("Mean:",scores.mean())
    print("Standard deviation:",scores.std())

display_scores(rmse_scores)

#导入随机森林回归模型
from sklearn.ensemble import RandomForestRegressor
forest_reg=RandomForestRegressor()
forest_reg.fit(housing_prepared,housing_labels)
forest_predictions=forest_reg.predict(housing_prepared)
forest_mse=mean_squared_error(housing_labels,forest_predictions)
forest_rmse=np.sqrt(forest_mse)
print(forest_rmse)
forest_scores=cross_val_score(forest_reg,housing_prepared,
                              housing_labels,
                              scoring="neg_mean_squared_error",cv=10)
forest_rmse_scores = np.sqrt(-forest_scores)
display_scores(forest_rmse_scores)

c) 保存和载入模型

from sklearn.externals import joblib
joblib.dump(forest_reg,"forest_reg.pkl")
forest_reg=joblib.load("forest_reg.pkl")

d) 模型微调

#网格搜索
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
param_grid=[
    {'n_estimators':[3,10,30],'max_features':[2,4,6,8]},
    {'bootstrap':[False],'n_estimators':[3,10],'max_features':[2,3,4]},
]
forest_reg=RandomForestRegressor()
grid_search=GridSearchCV(forest_reg,param_grid,cv=5,
                       scoring='neg_mean_squared_error')
grid_search.fit(housing_prepared,housing_labels)

#结论
grid_search.best_params_
grid_search.best_params_

cvres=grid_search.cv_results_
for mean_score, params in zip(cvres["mean_test_score"],cvres["params"]):
    print(np.sqrt(-mean_score),params)
    
#分析最佳模型和它们的误差
feature_importances=grid_search.best_estimator_.feature_importances_
extra_attribs = ["rooms_per_hhold", "pop_per_hhold", "bedrooms_per_room"]
cat_one_hot_attribs=list(encoder.classes_)
attributes=num_attribs+extra_attribs+cat_one_hot_attribs
#将所有属性按重要性排序，可以据此去除不重要的属性
sorted(zip(feature_importances,attributes),reverse=True)

#随机搜索
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import RandomizedSearchCV
param_rand = {
        'n_estimators':range(30,200,4),
        'max_features':range(2,16,2),
        'bootstrap':[False,True]
        }
ran_search=RandomizedSearchCV(forest_reg, param_rand, 
                              scoring='neg_mean_squared_error',
                              cv=10,n_iter=300)
ran_search.fit(housing_prepared,housing_labels)

5、用测试集评估系统

#集成方法
final_model=grid_search.best_estimator_
X_test=strat_test_set.drop("median_house_value",axis=1)
y_test=strat_test_set["median_house_value"].copy()

X_test_prepared =full_pipeline.transform(X_test)
final_predictions= final_model.predict(X_test_prepared)
final_mse=mean_squared_error(y_test,final_predictions)
final_rmse=np.sqrt(final_mse)

集成学习（Ensemble Learning）基础知识1 代码骑士 #机器学习集成学习机器学习人工智能
文章目录一、集成学习1、基本概念2、回顾:误差的偏差-方差分解3、为什么集成学习有效？4、基学习器：“好而不同”5、集成学习的两个基本问题（1）如何训练出具有差异性的多个基学习器？（2）如何将多个基学习器的预测结果集成为最终的强学习器预测结果？二、自助法（Bagging）1、Bagging2、BootstrapBootstrap采样的数学性质3、Bagging:集成学习的两个基本问题（1）如何训练
Chainlink 预言机的原理解析 Chainlink资讯预言机 Chainlink 智能合约
本文来自于8月19日Chainlink开发者社区中国负责人Frank，在DAppLearning分享会上对于Chainlink预言机的原理的讲解，以下是这节分享会的总结内容。有兴趣的小伙伴可以结合视频一起学习：为什么区块链无法主动获取外界数据区块链的特点区块链是一个封闭的确定性系统，每一笔交易都需要不同节点共识，只有超过一定数量的节点共识成功，交易才会被真正认可，并写入区块链。因为对于外部API的
ros smach 教程——（二）白云千载尽自动驾驶 ros python smach 状态机
ROSSMACH中级教程一、SMACH容器1.1状态机容器1.1.1创建状态机容器首先引入状态机容器fromsmachimportStateMachine由于SMACH状态机还提供状态接口，因此必须在构造时指定其结果和用户数据交互。sm=StateMachine(outcomes=['outcome1','outcome2'],input_keys=['input1','input2'],outp
论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？ 985小水博一枚呀深度学习学习笔记迁移学习人工智能机器学习域适应
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？文章目录【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？1.背景介绍2.理论基础2.1分布差异（DomainShift）2.2迁移学习理论（TransferLearningTheory）2.3领域不变特征（Domain-invariantFeatures）
宝石组合第十五届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组 Geometry Fu 蓝桥杯蓝桥杯 c语言 c++
宝石组合题目来源第十五届蓝桥杯大赛软件赛省赛C/C++大学B组原题链接蓝桥杯宝石组合https://www.lanqiao.cn/problems/19711/learning/问题描述P10426[蓝桥杯2024省B]宝石组合题目描述在一个神秘的森林里，住着一个小精灵名叫小蓝。有一天，他偶然发现了一个隐藏在树洞里的宝藏，里面装满了闪烁着美丽光芒的宝石。这些宝石都有着不同的颜色和形状，但最引人注目
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
自动驾驶中控制模块状态机的作用与设计方法程序员龙一自动驾驶自动驾驶状态机 control
问题解答：一、车辆状态机在自动驾驶控制模块中的核心作用在自动驾驶系统中，状态机（StateMachine）是控制模块的核心逻辑框架，用于管理车辆在不同运行阶段的行为和状态切换。其核心优势体现在以下几个方面：1.系统行为的模块化与可维护性模块化分层管理：状态机将复杂的车辆行为（如启动、停车、紧急避障、车道保持等）分解为独立的状态模块。每个状态专注于单一功能（例如“车道保持”状态仅处理横向控制），降低
AI学习第二天--监督学习半监督学习无监督学习 iisugar 机器学习支持向量机人工智能
目录1.监督学习（SupervisedLearning）比喻：技术细节：形象例子：2.无监督学习（UnsupervisedLearning）比喻：技术细节：形象例子：3.半监督学习（Semi-SupervisedLearning）比喻：技术细节：形象例子：4.三者的对比与选择表格总结：5.实际案例对比案例：电商平台用户分群6.关键逻辑总结1.监督学习（SupervisedLearning）比喻：老
注意力机制+多尺度卷积一只小小的土拨鼠解构前沿：文献精读深度学习 python 人工智能 YOLO 深度学习
多尺度卷积先提供丰富的特征信息，注意力机制再从中筛选出关键信息，这样结合起来，不仅可以进一步提高模型的识别精度和效率，显著提升模型性能，还可以增强模型的可解释性。MPARN:multi-scalepathattentionresidualnetworkforfaultdiagnosisofrotatingmachines方法：论文介绍了一种用于旋转机械故障诊断的多尺度卷积神经网络结构，称为多尺度路
KVM 内核优化全攻略：全方位释放服务器性能 TechStack 创行者 KVM Linux 服务器运维 KVM
KVM内核优化全攻略：全方位释放服务器性能在云计算、大数据、人工智能等前沿技术蓬勃发展的当下，服务器性能面临着前所未有的挑战。KVM（Kernel-basedVirtualMachine）作为开源虚拟化解决方案，凭借高效稳定的特性，广泛应用于企业数据中心。要充分发挥KVM性能优势，对其内核进行全面优化势在必行。本文将为你详细介绍一套涵盖通用优化及其他关键优化点的完整KVM内核优化方案，并结合实际案
数字接龙第十五届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组 Geometry Fu 蓝桥杯蓝桥杯 c语言 c++
数字接龙题目来源第十五届蓝桥杯大赛软件赛省赛C/C++大学B组原题链接蓝桥杯数字接龙https://www.lanqiao.cn/problems/19712/learning/问题描述题目描述小蓝最近迷上了一款名为《数字接龙》的迷宫游戏，游戏在一个大小为n×nn\timesnn×n的格子棋盘上展开，其中每一个格子处都有着一个0⋯k−10\cdotsk-10⋯k−1之间的整数。游戏规则如下：从左上
如何使用MATLAB进行高效的GPU加速深度学习模型训练？百态老人 matlab 深度学习开发语言
要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。可以通过gpuDevice命令检查GPU是否具备加速功能。安装必要的工具箱：确保安装了MATLAB的DeepLearningToolbox和ParallelComputingToolbox，这些工具箱提供
【sklearn 03】逻辑回归、决策树、支持向量机 @金色海岸 sklearn 逻辑回归决策树
逻辑回归、决策树、支持向量机-逻辑回归logisticsregression（逻辑回归）算法是经典的分类算法，基本思想是构造一个概率的拟合函数。决策树决策树的基本思想是根据样例去推断其背后的树形知识表征支持向量机支持向量机SVM(supportvectormachine)的基本思想是寻找最大的间隔的分割超平面。离分割超平面最近的这些样本点称为支持向量机
嵌入式c语言进阶（三）状态机State Machine niuTaylor c语言开发语言
状态机（StateMachine）是一种描述系统在不同状态之间转换行为的数学模型或设计模式，广泛应用于嵌入式系统、业务流程、游戏开发等领域。以下从核心概念、实现方式、应用实战三方面进行详细解析：一、状态机核心概念四大要素现态（CurrentState）：系统当前所处的状态。事件（Event）：触发状态转移的条件，如用户操作、时间到期等。动作（Action）：状态转移时执行的操作，例如发送通知、更新
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
Python第二十三课：自监督学习 | 无标注数据的觉醒程之编 Python全栈通关秘籍 python 开发语言人工智能机器学习
本节目标理解自监督学习的核心范式与优势掌握对比学习（ContrastiveLearning）框架实现图像掩码自编码器（MaskedAutoencoder）开发实战项目：亿级参数模型轻量化探索数据增强的创造性艺术一、自监督学习基础（AI的拼图游戏）1.核心思想解析学习范式数据需求生活比喻监督学习海量标注数据老师逐题批改作业无监督学习纯无标签数据自学杂乱笔记自监督学习自动生成伪标签玩拼图游戏（根据碎片
支持向量机 (SVM) 算法详解 sssugarr 机器学习算法详解 python svm 支持向量机算法 sklearn
支持向量机(SVM)算法详解支持向量机（SupportVectorMachine,SVM）是一种监督学习模型，广泛应用于分类和回归分析。SVM特别适合高维数据，并且在处理复杂非线性数据时表现出色。本文将详细讲解SVM的原理、数学公式、应用场景及其在Python中的实现。什么是支持向量机？支持向量机的目标是找到一个最佳的决策边界（或称超平面）来最大限度地分隔不同类别的数据点。对于线性可分的数据，SV
vscode--工作区和相对路径一头大学牲程序--编程记录 vscode ide 编辑器
vscode的相对路径使用vscode编辑python项目时发现，它的相对路径是相对于当前工作根目录来定位的，也就是从工作文件夹的最顶级目录开始查找，而非是从当前执行文件开始查找。例子：根目录：F:\deep-learning-for-image-processing执行文件路径：F:\deep-learning-for-image-processing\pytorch_classificatio
DDA3020 Machine Learning 后端
DDA3020Homework1Duedate:March09,2025Instructions•Thedeadlineis23:59,March09,2025.•Theweightofthisassignmentinthefinalgradeis20%.•Electronicsubmission:TurninsolutionselectronicallyviaBlackboard.Besuret
新手村：混淆矩阵嘉羽很烦机器学习机器学习
新手村：混淆矩阵一、前置条件知识点要求学习资源分类模型基础理解分类任务（如二分类、多分类）和常见分类算法（如逻辑回归、决策树）。《Hands-OnMachineLearningwithScikit-Learn》Python基础熟悉变量、循环、函数、列表、字典等基本语法。《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基
【Linux】learning notes（4）cat、more、less、head、tail、vi、vim bryant_meng Server Config /Tools linux less vim tail more
文章目录catmore查看整个文件less查看整个文件head查看部分文件tail查看部分文件vim/vicatcat命令在Linux和Unix系统中非常常用，它用于连接文件并打印到标准输出设备（通常是屏幕）。虽然cat的基本用法很简单，但它也支持一些参数来提供额外的功能。-n或--number：对所有输出的行进行编号。示例：cat-nfile.txt这会显示file.txt的内容，并在每行的开头
了解状态机 Mcband java
前言状态机（StateMachine）是一种数学模型，用于描述系统或程序在不同状态之间转换的行为。它由一组状态、转移条件和动作组成。一、什么是状态机？状态机可以被看作是一个抽象的机器，它可以处于不同的状态，并根据输入条件执行相应的动作来改变状态。状态表示了系统或程序所处的特定情况或阶段，而转移条件决定了在何种条件下从一个状态转移到另一个状态，动作则表示在状态转移时要执行的操作。二、状态机的实例一个
强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六) wxchyy 强化学习算法
目录前言前期回顾一、SARSA算法二、Q-Learning算法三、总结总结前言前两期我们介绍了动态规划算法，还有蒙特卡洛算法，不过它们对于状态价值函数的估值都有其缺陷性，像动态规划，需要从最下面向上进行递推，而蒙特克洛则需要一个Episode(回合)结束才能对其进行估值，有没有更直接的方法，智能体能边做动作，边估值一次，不断学习策略？答案是有的。这就是本期需要介绍的算法，时间差分法（TimeDi
深度学习 Deep Learning 第2章线性代数 odoo中国 AI编程人工智能深度学习线性代数人工智能
深度学习第2章线性代数线性代数是深度学习的语言。张量操作是神经网络计算的基石，矩阵乘法是前向传播的核心，范数约束模型复杂度，而生成空间理论揭示模型表达能力的本质。本章介绍线性代数的基本内容，为进一步学习深度学习做准备。主要内容2.1标量、向量、矩阵和张量标量：单个数字，用斜体表示，通常赋予小写字母变量名。向量：数字数组，按顺序排列，用粗体小写字母表示，元素通过下标访问。矩阵：二维数字数组，用粗体大
TidyBot++：用于机器人学习开源的完整移动机械手三谷秋水计算机视觉智能体人工智能机器人开源人工智能机器学习深度学习
24年12月来自普林斯顿、斯坦福和dexterity.ai的论文“TidyBot++:AnOpen-SourceHolonomicMobileManipulatorforRobotLearning”。要充分利用模仿学习在移动机械操作方面的最新进展，需要收集大量人工引导的演示。本文提出一种开源设计，用于设计一种廉价、坚固、灵活的移动机械手，该机械手可支撑任意臂，从而实现各种现实世界的家用移动机械操作
TPAMI 2024 | 学习人类教育智慧：以学生为中心的知识蒸馏方法小白学视觉论文解读 IEEE TPAMI 知识蒸馏 TPAMI 论文解读深度学习
题目：LearningFromHumanEducationalWisdom:AStudent-CenteredKnowledgeDistillationMethod学习人类教育智慧：以学生为中心的知识蒸馏方法作者：S.Yang;J.Yang;M.Zhou;Z.Huang;W.-S.Zheng;X.Yang;J.Ren摘要现有的知识蒸馏研究通常侧重于以教师为中心的方法，其中教师网络根据自身标准进行训
Manus开源平替-开源通用智能体 galileo2016 人工智能
原文链接:https://i68.ltd/notes/posts/250306-opensource-agi-agent/OWL-比Manus还强的全能开源AgentOWL:OptimizedWorkforceLearningforGeneralMulti-AgentAssistanceinReal-WorldTaskAutomation，现实世界中执行自动化任务的通用多代理辅助优化学习框架项目仓
训练模型时，步长为什么不能太大也不能太小？ yuanpan 人工智能
在训练模型时，步长（也称为学习率，LearningRate）是一个关键的超参数，它控制着每次参数更新的大小。步长既不能太大，也不能太小，原因如下：1.步长太大的问题如果步长过大，会导致以下问题：模型发散（Divergence）：参数更新幅度过大，可能导致损失函数的值不断增大，甚至无法收敛，模型性能急剧下降。错过最优解：过大的步长可能导致参数在最优解附近震荡，甚至直接跳过最优解，无法找到良好的模型参
KVM安全模块生产环境配置与优化指南 TechStack 创行者 #服务器容器 Linux 服务器运维安全 kvm SELinux
KVM安全模块生产环境配置与优化指南一、引言在当今复杂多变的网络安全环境下，生产环境中KVM（Kernel-basedVirtualMachine）的安全配置显得尤为重要。本指南旨在详细阐述KVM安全模块的配置方法，结合强制访问控制（MAC）、硬件隔离及合规性要求，为您提供全面且深入的操作建议，确保KVM环境的安全性和稳定性。二、SELinux安全模块配置1.基础策略配置SELinux（Secur
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

Chapter 2 End-to-End Machine Learning Project

OReilly.Hands-On Machine Learning with Scikit-Learn and TensorFlow读书笔记

Chapter 2 End-to-End Machine Learning Project

需要掌握

1、获取数据

2、通过可视化数据发现规律

3、为机器学习算法准备数据

4、选择和训练模型

5、用测试集评估系统

你可能感兴趣的:(Hands-On,Machine,Learning,with,Scik)