晓码bigdata

算法工程师8——机器学习概述（中篇-基本算法）

这里比较概括，主要看嘿马的人工智能课件
搞算法首先清楚它是有无监督，再清楚它是分类还是回归
算法理解+编程实现+应用
搞算法首先清楚它是有无监督，再清楚它是分类还是回归
算法理解+编程实现+应用
搞算法首先清楚它是有无监督，再清楚它是分类还是回归
算法理解+编程实现+应用

机器学习算法

1 引言
- 1.1 基本概念
- 1.2 机器学习分类
- 1.3 机器学习常用的距离
- 1.4 数据集
- 1.5 特征预处理
- - 1.5.1 无量纲化
- 1.6 损失函数
- 1.7 样本类别不平衡解决方法
- 1.8 特征提取
- 1.9特征降维（去除一些无关或两两相关性较强的数据）
- 1.10 如何选择合适算法
- 1.11 构建模型的最优方法
- 1.12 相关概念
- 1.13 大O计法
2 k 近邻（KNN）
- 2.1 定义
- 2.2 距离计算
- 2.3 计算步骤
- 2.4 案例
- 2.5 K值选择说明
- 2.6 kd树
- 2.7 KNN接口API
3 sklearn入门
4 线性回归
- 4.1 两种类型（线性回归和非线性回归）
- - 4.1.1 线性回归
  - 4.1.2 非线性回归
- 4.2 两个API
- 4.3 模型优化正则化等
- 4.3 岭回归
5 逻辑回归
6 决策树
- 6.1 决策树划分原理
- - 6.1.1 信息增益
  - 6.1.2 信息增益率
7 集成学习
- 7.1 Bagging(负担来进行抑制)
- 7.2 随机森林（随机森林 = Bagging + 决策树）
- 7.3 boosting
- 7.4 AdaBoost介绍（boosting的一种）
- 7.5 GBDT（ Gradient Boosting Decision Tree）
8 聚类算法
- 8.1 Canopy算法
- 8.2 Kmeans++
- 8.3 二分Kmeans
- 8.4 k_medoids
必会代码
- 1 KNN实现鸢尾花分类
- 2 KNN鸢尾花分类中加入网格搜索
- 3简单的回归方程实现（一元一次）
- 4 线性回归预测波士顿放假（一元一次）
- 5 逻辑回归判断肿瘤
- 6 实现字典和文本的特征提取，即文本数字化
- 7 决策树预测泰坦尼克号乘客生存预测
- 8 随机森林实现otto数据集分类（很综合）
- 9 特征降维
- 10 Kmeans实现商品推荐（多数据表操作）

1 引言

1.1 基本概念

机器学习的准确率一般不可能达到100%，一个合理的准确率是非常必要的。

1.2 机器学习分类

机器学习的经典算法主要有五种类型,分别为:
(1)聚类算法,采用各种距离度量技术将一系列的数据点划分到K类中,划分后的聚类结构具有类内相似、类间差距最大的特点。
(2)分类算法,事先按照一定的标准给一组对象集合进行分类,并赋予类标签,训练出学习模型,利用该模型对未知对象进行分类。
(3)回归算法,综合考虑整个数据集中因变量和自变量之间的关系进行建模, 进而利用模型对给定的自变量进行计算得到预测值。
(4)关联规则算法,在整个事务型数据中分析同时出现次数较多的频繁项集,并将出现次数满足一定阈值的频繁项集作为关联项集。
(5)降维算法,在机器学习过程中由于对象属性较多,为了降低计算复杂度利用各种度量技术将高维空间中的数据转换成低维空间中的数据。（摘自：并行机器学习算法基础体系前沿进展综述）
（1）人工智能的常用十种算法_人工智能_fanyun的博客-CSDN博客
（2）人工智能常见算法简介_人工智能_nfzhlk的专栏-CSDN博客
（3）周志华老师的西瓜书很不错。
————————————————

1.3 机器学习常用的距离

1.4 数据集

训练集分为训练集和验证集

1.5 特征预处理

1.5.1 无量纲化

归一化的值在0-1之间
标准化的值在-1到1之间

1.6 损失函数

https://blog.csdn.net/xiaotiig/article/details/111257955

1.7 样本类别不平衡解决方法

（1）进行过采样，就是多次复制类别较少的样本
（2）欠采样，就是把类别对的样本丢弃一些

1.8 特征提取

1.9特征降维（去除一些无关或两两相关性较强的数据）

正是因为在进行训练的时候，我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强，对于算法学习预测会影响较大

1.10 如何选择合适算法

关于在计算的过程中，如何选择合适的算法进行计算，可以参考scikit learn官方给的指导意见

1.11 构建模型的最优方法

最小化训练数据的损失函数
这是构建模型的根本

1.12 相关概念

（1）交叉验证

（2）超参数
凡是手动设置的都叫超参数

（3）网格搜索

（4）准确率勃论
假设现在你正在做一个关于垃圾邮件分类的工作，数据集98%都是垃圾邮件，仅2%为有效邮件，在这种情况下，即便是不建立任何模型，直接把所有的邮件都认为是垃圾邮件，你都可以获得98%的准确率。这种情况我们称作是“准确率悖论”(https://en.wikipedia.org/wiki/Accuracy_paradox)。
（5）自助法和留一法
留一法是数据集中只留下一个做测试

自助法是

（5）最小二乘法
通过求平方和使损失函数最小

1.13 大O计法

在大O符号表示法中，时间复杂度的公式是： T(n) = O( f(n) )，其中f(n) 表示每行代码执行次数之和，而 O 表示正比例关系，这个公式的全称是：算法的渐进时间复杂度。
就是每行执行了多少次，常见几种
（1）常数阶O(1)
（2）对数阶O(logN)
（3）线性阶O(n)
（4）线性对数阶O(nlogN)
（5）平方阶O(n²)
（6）立方阶O(n³)
（7）K次方阶O(n^k)
（8）指数阶(2^n)
https://zhuanlan.zhihu.com/p/50479555

2 k 近邻（KNN）

监督分类

K Nearest Neighbor算法又叫KNN算法

2.1 定义

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

2.2 距离计算

2.3 计算步骤

1）计算已知类别数据集中的点与当前点之间的距离

2）按距离递增次序排序

3）选取与当前点距离最小的k个点

4）统计前k个点所在的类别出现的频率

5）返回前k个点出现频率最高的类别作为当前点的预测分类

2.4 案例

2.5 K值选择说明

2.6 kd树

2.7 KNN接口API

再识K-近邻算法API
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
n_neighbors：
int,可选（默认= 5），k_neighbors查询默认使用的邻居数
algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}
快速k近邻搜索算法，默认参数为auto，可以理解为算法自己决定合适的搜索算法。除此之外，用户也可以自己指定搜索算法ball_tree、kd_tree、brute方法进行搜索，
brute是蛮力搜索，也就是线性扫描，当训练集很大时，计算非常耗时。
kd_tree，构造kd树存储数据以便对其进行快速检索的树形数据结构，kd树也就是数据结构中的二叉树。以中值切分构造的树，每个结点是一个超矩形，在维数小于20时效率高。
ball tree是为了克服kd树高维失效而发明的，其构造过程是以质心C和半径r分割样本空间，每个节点是一个超球体。

3 sklearn入门

4 线性回归

4.1 两种类型（线性回归和非线性回归）

4.1.1 线性回归

单特征与目标值的关系呈直线关系，或者两个特征与目标值呈现平面的关系

更高维度的我们不用自己去想，记住这种关系即可

4.1.2 非线性回归

就是自变量具有高次幂

4.2 两个API

4.3 模型优化正则化等

4.3 岭回归

5 逻辑回归

逻辑回归（Logistic Regression）是机器学习中的一种分类模型，逻辑回归是一种分类算法，虽然名字中带有回归。
输入就是线性回归的输出，经过sigmoid函数，把整体的值映射到【0，1】之间

6 决策树

6.1 决策树划分原理

6.1.1 信息增益

1948年香农提出了信息熵（Entropy）的概念。

信息理论：
1、从信息的完整性上进行的描述:

当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。

2、从信息的有序性上进行的描述:

当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。

"信息熵" (information entropy)是度量样本集合纯度最常用的一种指标。

**信息增益：**以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。

信息增益 = entroy(前) - entroy(后)

6.1.2 信息增益率

增益率：增益率是用前面的信息增益Gain(D, a)和属性a对应的"固有值"(intrinsic value) [Quinlan , 1993J的比值来共同定义的。

7 集成学习

看黑马的课件资料比较好

7.1 Bagging(负担来进行抑制)

就是多次采样一部分数据集，每次利用这部分数据集构建分类器，那采样几次就构建几个分类器，最后进行平均投票。
Bagging就是一种思想：

Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习方法

7.2 随机森林（随机森林 = Bagging + 决策树）

7.3 boosting

7.4 AdaBoost介绍（boosting的一种）

训练数据集的时候，每次给误分类的权重高于正确分类的权重

7.5 GBDT（ Gradient Boosting Decision Tree）

GBDT 的全称是 Gradient Boosting Decision Tree，梯度提升树，在传统机器学习算法中，GBDT算的上TOP3的算法。

8 聚类算法

非监督算法

8.1 Canopy算法

8.2 Kmeans++

8.3 二分Kmeans

8.4 k_medoids

必会代码

1 KNN实现鸢尾花分类

# 实现鸢尾花的分类
# python3.7.10，scikit-learn = 0.19.1
# 参考黑马人工智能课程
from sklearn import model_selection
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


# 1 数据获取与处理

iris = load_iris()
print(iris)

print("鸢尾花的特征值:\n", iris["data"])
print("鸢尾花的目标值：\n", iris.target)
print("鸢尾花目标值的名字：\n", iris.target_names)
print("鸢尾花的描述：\n", iris.DESCR)
print("鸢尾花特征的名字：\n", iris.feature_names)


# 数据集的划分
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target,
                                                                    test_size=0.2, random_state=22)

# 2 特征预处理
transfer = StandardScaler()
# 训练和处理
x_train = transfer.fit_transform(x_train)
# 因为前面训练好了，直接转换
x_test = transfer.transform(x_test)

# 3 机器学习模型KNN
# 实例化一个估计器
estimator = KNeighborsClassifier(n_neighbors=5)
# 模型训练
estimator.fit(x_train, y_train)

# 4 测试
# 4.1 预测值结果输出
y_pre = estimator.predict(x_test)
print("预测值是：\n", y_pre)
print("预测值和真实值的对比：\n", y_pre==y_test)

# 4.2 准确值计算
score = estimator.score(x_test, y_test)
print("准确率为：\n", score)

2 KNN鸢尾花分类中加入网格搜索

# 实现鸢尾花的分类
# python3.7.10，scikit-learn = 0.19.1
# 参考黑马人工智能课程
from sklearn import model_selection
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


# 1 数据获取与处理

iris = load_iris()
print(iris)

print("鸢尾花的特征值:\n", iris["data"])
print("鸢尾花的目标值：\n", iris.target)
print("鸢尾花目标值的名字：\n", iris.target_names)
print("鸢尾花的描述：\n", iris.DESCR)
print("鸢尾花特征的名字：\n", iris.feature_names)


# 数据集的划分
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target,
                                                                    test_size=0.2, random_state=22)

# 2 特征预处理
transfer = StandardScaler()
# 训练和处理
x_train = transfer.fit_transform(x_train)
# 因为前面训练好了，直接转换
x_test = transfer.transform(x_test)

# 3 机器学习模型KNN
# 实例化一个估计器
estimator = KNeighborsClassifier()

# 模型选择与调优
# 准备超参数
param_dict = {"n_neighbors":[1,3,5]}
estimator = model_selection.GridSearchCV(estimator,param_grid=param_dict,cv=3)

# 模型训练
estimator.fit(x_train, y_train)

# 4 测试
# 4.1 预测值结果输出
y_pre = estimator.predict(x_test)
print("预测值是：\n", y_pre)
print("预测值和真实值的对比：\n", y_pre==y_test)

# 4.2 准确值计算
score = estimator.score(x_test, y_test)
print("准确率为：\n", score)

print("在交叉验证中验证的最好结果：\n", estimator.best_score_)
print("最好的参数模型：\n", estimator.best_estimator_)
print("每次交叉验证后的准确率结果：\n", estimator.cv_results_)

3简单的回归方程实现（一元一次）

# 线性回归

from sklearn.linear_model import LinearRegression

x = [[80, 86],
[82, 80],
[85, 78],
[90, 90],
[86, 82],
[82, 90],
[78, 80],
[92, 94]]
y = [84.2, 80.6, 80.1, 90, 83.2, 87.6, 79.4, 93.4]

estimator = LinearRegression()
# 使用fit方法训练

estimator.fit(x,y)

print("线性回归的系数：")
print(estimator.coef_)

print("输出预测的结果：\n", estimator.predict([[100,80]]))

4 线性回归预测波士顿放假（一元一次）

# 使用线性回归的正规方法、梯度下降法、和岭回归实现波士顿房价的预测

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor,Ridge
from sklearn.metrics import mean_squared_error
from sklearn.externals import joblib

def linear_model1():
    """
    线性回归:正规方程
    :return:None
    """
    # 1.获取数据
    data = load_boston()
    print(data)

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    # 4.机器学习-线性回归(正规方程)
    estimator = LinearRegression()
    estimator.fit(x_train, y_train)

    # 4.1模型保存
    joblib.dump(estimator,"test.pkl")

    # 4.2 模型加载
    estimator1 = joblib.load("test.pkl")

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator1.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator1.coef_)
    print("模型中的偏置为:\n", estimator1.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

    # 5.3 评介2
    # 准确率，因为这是回归，不是分类，一般不用准确率，用均方误差来评估
    score = estimator1.score(x_test, y_test)
    print("准确率为：\n", score)

    return None


def linear_model2():
    """
    线性回归:梯度下降法
    :return:None
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    # 4.机器学习-线性回归
    # estimator = SGDRegressor(max_iter=1000, learning_rate="constant", eta0=0.1)
    estimator = SGDRegressor(max_iter=1000)
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

    return None

def linear_model3():
    """
    线性回归:岭回归
    :return:None
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    # 4.机器学习-线性回归(岭回归)
    estimator = Ridge(alpha=1.0)
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

    return None

if __name__ == "__main__":
    linear_model1()
    print("第二种")
    linear_model2()
    print("第三种")
    linear_model3()

5 逻辑回归判断肿瘤

# 逻辑回归实现肿瘤预测
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, roc_auc_score


# 1 获取数据和数据预处理
# 1.1 读取数据
names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                   'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
                   'Normal Nucleoli', 'Mitoses', 'Class']

data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",
                  names=names)
print(data)

# 1.2 缺失值处理
# 替换
data = data.replace(to_replace="?", value=np.NaN)
# 去掉空值
data = data.dropna()

# 1.3 确定特征值和目标值
x = data.iloc[:, 1:10]
print("特征值：")
print(x.head())
y = data["Class"]
print(y.head())

# 1.4 分割数据
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)
print("看看默认训练数据和测试数据是安多少比例分开的：")
print(x_train)
print(x_test)


# 2 特征提取
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

# 3 模型构建
estimator = LogisticRegression()
estimator.fit(x_train, y_train)


# 4 模型预测
y_predict = estimator.predict(x_test)
print("预测值：")
# 这里不能用y_predict。head()，因为只有是pandas的对象才可以
print(y_predict)
print("真实值")
print(y_test.head())
# 准确率
score = estimator.score(x_test,y_test)
print("准确率：")
print(score)


# 评价指标
ret = classification_report(y_test,y_predict, labels=(2,4), target_names=("良性","恶性"))
print(ret)

# AUC
y_test = np.where(y_test>3,1,0)
auc_score = roc_auc_score(y_test, y_predict)
print("AUC指标：")
print(auc_score)

6 实现字典和文本的特征提取，即文本数字化

# 实现字典和文本的特征提取，即文本数字化
# 进行字典特征提取
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
import jieba

def dict_demo():
    """
    对字典类型的数据进行特征抽取
    :return: None
    """
    data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
    # 1、实例化一个转换器类
    transfer = DictVectorizer(sparse=False)
    # 2、调用fit_transform
    data = transfer.fit_transform(data)
    print("返回的结果:\n", data)
    # 打印特征名字
    print("特征名字：\n", transfer.get_feature_names())

    return None

def text_count_demo():
    """
    对文本类型的数据进行特征抽取
    :return: None
    """
    data = ["life is short,i like like python", "life is too long,i dislike python"]
    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = CountVectorizer()
    # 2、调用fit_transform
    data = transfer.fit_transform(data)
    print("文本提取的结果:\n", data.toarray())
    # 打印特征名字
    print("特征名字：\n", transfer.get_feature_names())
    return None

def cut_word(text):
    """
        对中文进行分词
        "我爱北京天安门"————>"我 爱 北京 天安门"
        :param text:
        :return: text
        """
    # 用结巴对中文字符串进行分词,注意这里有个空格
    jie_ba = jieba.cut(text)
    print("分词后到底是什么：")
    print(jie_ba)
    text = " ".join(list(jieba.cut(text)))

    return text


def text_chinese_count_demo():
    """
    对中文文本类型的数据进行特征抽取
    :return: None
    """
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

    text_list = []
    for sent in data:
        text_list.append(cut_word(sent))
    print("结巴分词后得到的列表：")
    print(text_list)
    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = CountVectorizer()
    # 2、调用fit_transform

    # 不使用结巴分词
    print("不使用结巴分词：")
    data = transfer.fit_transform(data)
    print("文本提取的结果:\n", data.toarray())
    # 打印特征名字
    print("特征名字：\n", transfer.get_feature_names())

    # 使用结巴分词后
    print("使用结巴分词：")
    data = transfer.fit_transform(text_list)
    print("文本提取的结果:\n", data.toarray())
    # 打印特征名字
    print("特征名字：\n", transfer.get_feature_names())


    return None

if __name__ == "__main__":
    dict_demo()
    text_count_demo()
    text_chinese_count_demo()

7 决策树预测泰坦尼克号乘客生存预测

# 使用决策树实现泰坦尼克号存活预测
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier, export_graphviz

# 1 获取数据并处理
# 下面这个网址好像不能用了，需要自己另外找一个
titan = pd.read_csv(r"http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
print("数据查看")
print(titan)

# 1.1 确定特征值，目标值
x =  titan[["pclass", "age", "sex"]]
y = titan["survived"]

# 1.2 缺失值处理
x["age"].fillna(x['age'].mean(), inplace=True)

# 1.3 数据集的划分
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=22)
print(x_train.head())

# 2 特征提取处理
# 特征中出现类别符号，需要进行one-hot编码处理(DictVectorizer)
# 需要将数组特征转换成字典数据
transfer = DictVectorizer(sparse=False)

x_train = transfer.fit_transform(x_train.to_dict(orient="records"))
x_test = transfer.fit_transform(x_test.to_dict(orient="records"))

# 3 机器学习
estimator = DecisionTreeClassifier(criterion="entropy", max_depth=5)
estimator.fit(x_train, y_train)


# 4 预测
estimator.score(x_test, y_test)

estimator.predict(x_test)

# 保存树结构
export_graphviz(estimator,out_file='./data/tree.dot',feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])

8 随机森林实现otto数据集分类（很综合）

# 使用随机森林实现otto数据集
# otto数据集竞赛，链接：https://www.kaggle.com/c/otto-group-product-classification-challenge/overview
# 这个案例比较综合，好好看看相应的步骤

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import log_loss


## 1 获取数据和处理
# 1.0 数据获取
# 1.1 查看数据特征
# 1.2 数据缺失值处理
# 1.3 数据标准化或归一化
# 1.4 确定特征x和目标y
# 1.5 标签字符转数字
# 1.6 拆分训练集和验证集


## 2 特征提取
## 3 机器学习模型
## 4 模型测试

## 1 获取数据和处理
# 1.0 数据获取
#data = pd.read_csv(r"H:\05学习资料\14，软件开发\黑马人工智能\2课件\阶段3-人工智能机器学习\阶段3-人工智能机器学习\02_机器学习算法day08\02_机器学习算法day08\02-代码\data\otto\submission.csv")
#data = pd.read_csv(r"H:\05学习资料\14，软件开发\黑马人工智能\2课件\阶段3-人工智能机器学习\阶段3-人工智能机器学习\02_机器学习算法day08\02_机器学习算法day08\02-代码\data\otto\test.csv")
data = pd.read_csv(r"H:\05学习资料\14，软件开发\黑马人工智能\2课件\阶段3-人工智能机器学习\阶段3-人工智能机器学习\02_机器学习算法day08\02_机器学习算法day08\02-代码\data\otto\train.csv")

# 1.1 查看数据特征
print("数据形状：\n", data.shape)
print("数据：\n",data.head())
print("数据统计：\n",data.describe())

# 查看数据分布，每个类别的分布，是否平衡，本例中数据严重不平衡
sns.countplot(data.target)
plt.show()

# 本例中数据经过了脱敏处理，不需要进行特俗处理，我们也不知道每一列代表的涵义

# 1.2 数据缺失值处理
# 1.3 数据标准化或归一化



## 数据较多，我们截取一部分数据
new1_data = data[:10000]
print("截取后数据的形状：\n", new1_data.shape)
sns.countplot(new1_data.target)
plt.show()   #通过数据截取发现前10000条数据的分布只包括两个类别，这样的方式不可行

# 1.4 确定特征x和目标y
# 上面方式不行，需要进行随机欠取样，欠采样需要用到imblearn库，下载麻烦，这里就没进行欠采样
y = data["target"]
x = data.drop(["id","target"], axis=1) # 安列丢弃
print("看看y:\n",y.head())
print("看看x:\n",x.head())

# 1.5 标签字符转数字
le = LabelEncoder()
y = le.fit_transform(y)
print("看看字符转换为数字后的y:\n", y)

# 1.6 拆分训练集和验证集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
print("看看分割后的情况：\n", x_train.shape,x_test.shape)

# 2 特征提取

# 3 机器学习模型,oob_score是包外估计
rf = RandomForestClassifier(oob_score=True)
rf.fit(x_train, y_train)

 # 4 模型测试
y_pre = rf.predict(x_test)
print("看看预测值：\n", y_pre)

# 看看准确率
score = rf.score(x_test, y_test)
print("看看准确率:",score)
# 看看包外估计的准确率
oob_score = rf.oob_score_
print("看看包外估计的准确率:", oob_score)

# logloss模型评估
# laoloss估计需要用one_hot编码，首先需要将预测值转换为one-hot

one_hot = OneHotEncoder(sparse=False)
# 必须使用列的形式，y_test现在是行
y_test1 = one_hot.fit_transform(y_test.reshape(-1,1))
y_pre1 = one_hot.fit_transform(y_pre.reshape(-1,1))

logloss1 = log_loss(y_test1, y_pre1,eps=1e-15, normalize=True)
print("损失值1：", logloss1)


# 改变输出值的输出模式，让它由分类变成每个的概率,提高损失值
y_pre_proba = rf.predict_proba(x_test)
print("看看是不是输出为百分占比：\n",y_pre_proba)

logloss2 = log_loss(y_test1, y_pre_proba,eps=1e-15, normalize=True)
print("损失值2：", logloss2)


## 到此已经结束
##
##  下面实现一个超参数的调优
##

## 调优n_eatimators,学习器的个数
tuned_parameters = parameters = range(10,200,10)
# 创建一个添加accuracy的numpy
accuracy_t = np.zeros(len(tuned_parameters))

# 创建添加error的numpy
error_t = np.zeros(len(tuned_parameters))

for j, one_parameter in enumerate(tuned_parameters):
    rf2 = RandomForestClassifier(n_estimators=one_parameter,
                                 max_depth=10,max_features=10,
                                 min_samples_leaf=10,oob_score=True,
                                 random_state=0,n_jobs=1)

    rf2.fit(x_train,y_train)

    # 输出accuracy
    accuracy_t[j] = rf2.oob_score_
    # 输出error
    y_pre_max = rf2.predict_proba(x_test)
    error_t[j] = log_loss(y_test, y_pre_max, eps=1e-15, normalize=True)

    print(error_t[j])

# 优化结果展示
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(20,4), dpi = 100)
axes[0].plot(tuned_parameters,error_t)
axes[1].plot(tuned_parameters,accuracy_t)

plt.show()



##  生成提交数据
test_data = pd.read_csv(r"H:\05学习资料\14，软件开发\黑马人工智能\2课件\阶段3-人工智能机器学习\阶段3-人工智能机器学习\02_机器学习算法day08\02_机器学习算法day08\02-代码\data\otto\test.csv")

print("看看测试数据:\n",test_data)
test_data_drop_id = test_data.drop(["id"], axis=1)
y_pre_test = rf.predict_proba(test_data_drop_id)
result = pd.DataFrame(y_pre_test,columns=["Class_"+str(i) for i in range(1,10)])

# 添加一行
result.insert(loc=0, column="id", value=test_data.id)
print("查看结果：")
print(result)

# 保存数据
result.to_csv("submission.csv",index=False)

9 特征降维

# coding:utf-8

import pandas as pd
from sklearn.feature_selection import VarianceThreshold
from scipy.stats import pearsonr, spearmanr
from sklearn.decomposition import PCA


def var_thr():
    """
    特征选择:低方差特征过滤
    :return:
    """
    data = pd.read_csv("./data/factor_returns.csv")
    # print(data)
    print(data.shape)

    # 实例化一个对象
    transfer = VarianceThreshold(threshold=10)
    # 转换
    transfer_data = transfer.fit_transform(data.iloc[:, 1:10])
    print(transfer_data)
    print(data.iloc[:, 1:10].shape)
    print(transfer_data.shape)


def pea_demo():
    """
    皮尔逊相关系数
    :return:
    """
    # 准备数据
    x1 = [12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9]
    x2 = [21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]

    # 判断
    ret = pearsonr(x1, x2)
    print("皮尔逊相关系数的结果是:\n", ret)


def spea_demo():
    """
    斯皮尔曼相关系数
    :return:
    """
    # 准备数据
    x1 = [12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9]
    x2 = [21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]

    # 判断
    ret = spearmanr(x1, x2)
    print("斯皮尔曼相关系数的结果是:\n", ret)


def pca_demo():
    """
    pca降维
    :return:
    """
    data = [[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]]

    # pca小数保留百分比
    transfer = PCA(n_components=0.9)
    trans_data = transfer.fit_transform(data)
    print("保留0.9的数据最后维度为:\n", trans_data)

    # pca小数保留百分比
    transfer = PCA(n_components=3)
    trans_data = transfer.fit_transform(data)
    print("保留三列数据:\n", trans_data)


if __name__ == '__main__':
    # var_thr()
    # pea_demo()
    # spea_demo()
    pca_demo()

10 Kmeans实现商品推荐（多数据表操作）

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score


# 1.获取数据和预处理
order_product = pd.read_csv(r"H:\05学习资料\14，软件开发\黑马人工智能\2课件\阶段3-人工智能机器学习\阶段3-人工智能机器学习\02_机器学习算法day09\02_机器学习算法day09\02-代码\data\instacart\order_products__prior.csv")
products = pd.read_csv(r"H:\05学习资料\14，软件开发\黑马人工智能\2课件\阶段3-人工智能机器学习\阶段3-人工智能机器学习\02_机器学习算法day09\02_机器学习算法day09\02-代码\data\instacart\products.csv")
orders = pd.read_csv(r"H:\05学习资料\14，软件开发\黑马人工智能\2课件\阶段3-人工智能机器学习\阶段3-人工智能机器学习\02_机器学习算法day09\02_机器学习算法day09\02-代码\data\instacart\orders.csv")
aisles = pd.read_csv(r"H:\05学习资料\14，软件开发\黑马人工智能\2课件\阶段3-人工智能机器学习\阶段3-人工智能机器学习\02_机器学习算法day09\02_机器学习算法day09\02-代码\data\instacart\aisles.csv")

# 合并表格
table1 = pd.merge(order_product, products, on=["product_id", "product_id"])
table2 = pd.merge(table1, orders, on=["order_id", "order_id"])
table = pd.merge(table2, aisles, on=["aisle_id", "aisle_id"])
# 交叉表合并
table = pd.crosstab(table["user_id"], table["aisle"])

# 数据截取
table = table[:1000]

# 2 特征处理PCA
transfer = PCA(n_components=0.9)
data = transfer.fit_transform(table)


# 3机器学习（k-means）

estimator = KMeans(n_clusters=8, random_state=22)
y_predict = estimator.fit_predict(data)
# 4 模型评估

score = silhouette_score(data, y_predict)

print(score)

你可能感兴趣的:(计算机视觉算法工程师,机器学习,python,人工智能,决策树)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa