evanwusi

机器学习各种算法以及开发具体流程+API具体实例+案例的实现

<机器学习算法分类以及开发流程>

本可儿不才，最近学习机器学习和深度学习的算法之余总结了一点小经验，供大家参考。排版还有待提高厚~~

离散型（不可分）--连续型（预测类别，票房等等）

一、

（1）

【1、监督学习：特征值 + 目标值。 2、非监督学习：特征值 1000个样本】

机器学习算法的分类：

1监督学习（预测）重点
   //

   分类：k-近邻算法，贝叶斯分类，决策树与随机森林，逻辑回归，神经网络（目标是离散型）（样本属于哪一个类别）

   //大多数算法应用非常广泛，一定要学好

   回归：线性回归，岭回归（目标值连续型，具体的值）连续型
   //

   标注：隐马尔可夫模型（不做要求）

2、无监督学习
   聚类。k-means （只有特征值。什么都没有的）

应用：银行，图像，文本，贷款吗，票房，预测价格，股票
       预测具体的气温，年龄扽等（回归）预测天气是晴天还是阴天：（分类问题）

（2）
   机器学习开发流程。        《数据》
                   1、公司本身就有的数据
                   2、合作过来的数据（和银行的合作数据，情感分析）
                   3、购买的数据（很少）
               爬虫爬数据需要提前定好。但是不能随便想爬什么就爬什么

   原始数据：
   1、明确问题是做什么的，建立模型：根据数据类型划分应用种类
   分类问题还是回归问题

   2、表的合并pd取处理数据，前读取pd.red_csv
                               pd.merge合并

       数据的基本处理：合并表，缺失值

   3、（主要）特征工程
       对每个特征进行处理

       对特征进行处理，标准化，归一化。文本转化数字，fit_transform

   4、找到合适的算法去进行预测分析（使用算法）

   什么是模型？算法 + 数据（抽象）

5、

模型的评估过程。，不能讲拿来就用。（不断提高模型的准确性 95%以上）

      如果模型评估没有合格，则需要换其他比较好的算法（调整参数）
          if （==false）
              特征工程继续改变，影响因素，增加特征，删除
《前提。明确问题。分裂回归还是聚类》

模型评估 ➡️ 上线使用（以API形式提供）

知识点回顾：

CountVectorizer Tf idf。//用这个

特征预处理：对于数值型的数据需要归一化标准化，主成分分析

归一化（目的）：避免某一个特征对最终结果造成影响

特征的降维：把特征值减少。1、特征选择（删除低方差特征）
2、主成分分析（PCA：特征数量>=100）

有监督（有特征有目标值），无监督（无目标，只有特征）

分类：离散
回归：连续

聚类：

课程第二天：（内容重要并且多）
           1、sklearn数据集与估计器
           2、分类算法-k-近邻算法
           3、k-近邻算法实例
           4、分类模型评估
           5、分类算法-朴素贝叶斯算法（分类算法：重点）
           6、朴素贝叶斯算法实例
           7、模型选择和调优（重点）
           8、决策树余随机森林

           （一）
               1、数据的获取pd
               2、数据集的划分
               3、数据及的接口介绍
               4、分类和回归数据集（重点）

       问题：1、如果拿到数据全部都用于训练一个模型？

           数据（拿一部分数据取训练）（拿一些未知的数据评估）

           （训练集（多） - 测试集（少））比例： 70% ：30% / 80% :20% / 75%: 25%（使用最多）

           2、划分训练集合测试集是什么意思？

           把样本给划分一部分给测试集

           训练集（建立模型）测试集（评估模型，建议模型效果是否好不好）

3、划分的API ：sklearn。model_seletion.train_test_split 训练测试分来

   （二）
       sklearn 数据集api介绍
                           sklearn。datasets 。。加载获取流行数据集
                           datasets,load_*（） ..规模小的数据集
                           datasets,fetch_*(data_home=None) 。。规模大的数据集
                           默认下载目录是 ~/scikit_learn_data/

               获取数据格式：
                           load* fecth* 都是字典数据
                           [n_sample * n_features]

                           提前实例化好

                           print(xxx.data) 特征值二维的numpy.ndarray
                           print(xxx.target) 目标值标签数组二维的numpy.ndarray

                           print(xxx.DESCR) //特征的属性含义

                           也可以单独获取
                           feature_names:特征名
                           target_names:标签名

               sklearn分类数据集（目标值是离散型的，具体的数值）
                               sklearn，datasets.load_iris() 加载鸢尾花数据集
                               sklearn.datasets.load_digits() 加载并返回数字数据集

               数据集的分割：
                           sklearn.model_seletion.train_test_split()
                           参数：x数据集的特征值, y训练集的特征值
                           test_size 测试集的大小 0.2 float
                           random_state
                           return

                           特征值x的训练集和测试集，目标值y的训练集和测试集
   x_train, x_test, y_train, y_test = train_test_split(li.data , li.target, test_size=0.25)

               用于分类的大数据集：新闻数据集
                           (已经下载好了，世直接实例就好了fetch_20newsgroups)
                           slklearn,daatsets.fetch_20newsgroups(data_home=None,subset='train')
                           datasets.clear_data_home(data_home=None)

               sllearn回归数据集

                       sklearn.datasets.load_boston()
                       加载并获取波士顿房价数据集

                       sklearn.datasets_load_diabetes() 获取并返回糖尿病数据集

               进行数据的转换：transform

                           fit_transform 输入数据直接转化为数值
                           fit（）：输入数据 transform（）转化数据
from sklearn.preprocessing import StandScaler
s = StandScaler()
s,fit_transform([[],[],[]])
直接进行数据转化
先用standardScaler（）实例化再用fit_transform([])进行标准化和转化

(三)估计器：算法的实现，实线算法的api

  1、用于分类的估计器：
                                            sklearn.neighbors  k-近邻算法
                                            sklearn.naive_bayes  贝叶斯
                                            sklearn.linear_model.LogosticRegression 逻辑回归
                                            sklearn.tree   决策树余随机森林

  2、用于回归的估计器：
                                            sklearn.linear_model.LinearRegression 线性回归
                                            sklearn.linear_model.Ridge  岭回归

门槛：每隔算法api中的参数，传入算法的参数以及属性。了解哪些参数需要传

估计器的流程：

训练集测试集

extamitor 估计器：流程与transform类似（x_train， y_train）

1、调用fit(x_train, y_train) //可以用

                       2、输入预测数据(测试集) x_test， y_test
                                                   y_predict = predict(x_test) //预测目标值

                       3、预测准确率：score(x_text, y_test)

（1）分类算法-k近邻算法（knn） 1960年提出（简单）

需要标准化

1、定义：一个样本中k个最相似（特征宽假中最邻近）的样本的大多数属于某一个类别，则该样本也属于这个类别

2、欧式距离：比如说a(a1,a2,a3)b(b1,b2,b3)
(a1-b1)^2+(a2-b2)^2+(a3-b3)^2 开根号

结合之前的例子，计算两个样本距离的特征有什么影响？需要对数据做些什么？

标准化： preprocession StandardScaler

API： sklearn.neighbors.KNeighborsClassifier(n_neighboes=5,algorithm='auto')

n_neighbors:查询默认使用的邻居数
algorithm：可选用余计算最近邻居的算法 BallTree kd_tree=KDTree传递参数

举例：k-近邻实例预测住房数据（分类问题）

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import  KNeighborsClassifier
from sklearn.preprocessing import StandardScaler




def knncls():
    """
    k-近邻预测用户签到位置
    :return: None
    """
    # 读取数据
    data = pd.read_csv("/Users/wusibin/Downloads/热身赛数据/01-12/chongzhi_beier-east-01-12.csv")
    # print(data.head(10))
    # print(data.head(20))
    #处理数据
    #缩小数据，查询数据筛选
    data = data.query("x> 1.0 & x < 1.25, y>1.0  & y<1.25")
    #处理时间的的数据
    time_value = pd.to_datetime(data['time'], unit='s')
    print(time_value)

    #把日期格式转换成字典格式
    time_value = pd.DatetimeIndex(time_value)

    # 构造一些特征
    data['date'] = time_value.day
    data['hour'] = time_value.hour
    data['weekday']  = time_value.weekday

    #把时间戳特征删除
    data.drop(['time'], axis=1)
    print(data)


    #把签到数量少于n的目标位置删除
    place_count= data.groupby('place_id').count()
    tf = place_count[place_count.row_id > 3].reset_index()
    data = data[data['place_id'].isin(tf.place_id)]


    #去除数据当中的特征值和目标值
    y = data['place_id']
    x = data.drop(['place_id'], axis=1)

    #把数据分成训练集和测试集
    x_train,x_test,y_train,y_test = train_test_split(x, y, test_size=0.25)


    #特征工程（标准化）
    # data['day'] =
    std = StandardScaler()

    #对测试集合训练集进行标准化
    x_train = std.fit_transform(x_train)
    x_test = std.transform(x_test)

    #进行算法流程
    knn = KNeighborsClassifier(n_neighbors=5)

    #fit ,predict,acore
    knn.fit(x_train, y_train)

    #得出预测结果
    y_predict= knn.predict(x_test)
    print("预测目标签到位置为：",y_predict)


    # 得出一个准确率
    print("预测的准确率：",knn.score(x_test,y_test))


    return None

if __name__ == "__main__":
    knncls()

强调：以下的方法不一定对，需要看训练后的结果怎么样。

特征值：x,y 坐标，定位准确性，时间戳，日，时，周目标值：入住位置的id

处理： 0 1、由于数据量大，节省时间x，y缩小

2、时间戳进行处理，看最后的效果。
效果不好就不处理。（年、月、日、周、时、分秒），当做新特征放入数据里

3、入住位置特别多（几千，几万个），导致预测准确率低。少于指定的亲到人数的位置删除

data.query(""),里面翻条件，大于多少小于多少，，索引去查询数据

pd.to_datetime() 把时间戳转换成时间年月日

数据的处理：
       1、缩小数据集的范围
       Dataframe.query()

       2、处理日期数据
       pd.to_datetime
       pd.Datetimeindex

       3、删除没用的日期数据
       DataFrame.drop

       5、将签到位置少于n个用户的删除
       data.groupby('place_id').count[] tf = place_count[place_count.row_id >3].reset_index()
       data = data[data['place_id'].isin(tf.place_id)]

.reset_index()、把索引变成某一列

       总结：
               问题：
                   1、k值去多大？有什么影响？

k值去很小：容易受异常点的影响

k值取很大：容易受样本，k值数量里面的类别的影响的波动

2、性能问题？

时间复杂度，样本越大，时间复杂度越高。所以需要手动调参。特别麻烦

参数需要调优，参数对结果造成影响。所以需要调优

       总结：
               1、优点：简单易于实现理解，无需参数，无需训练。估计（超参数）
                   算法实例化

2、缺点：k值取值，以及计算量。

基本上在实际案例中不用。准确率不高，容易影响计算性能。

分类算法------朴素贝叶斯

1、概率基础 2、朴素贝叶斯介绍

应用：垃圾邮件的分类（金融，软件，产品，互联网）找出类别那个可能性概率最高，
就将这个类别分为所占比例最高的一类的名称

1、概率基础：根据历史数据预测未来发生的可能性，扔硬币和预测天气

2、联合概率：包含多个条件，且所有条件同事成立 p(AB)
2、条件概率：事件A在事件B以及发生的条件下的概率 p(A|B)p(A|B）

自然语言处理不独立的情况

朴素贝叶斯----条件（特征）相互独立，否则效果不好
面试：朴素，条件独立的意思

文档分类：
反应主题中心的词：

P(科技|词1，词2，词3.。。) 文档：词1，词2，词3.。。。。

P(娱乐|词a，词b，词c。。。) 文档：词1 ，词2，词3 。。。

重点：

（面试）贝叶斯公式： p(C|W) = P(W|C)P(C) /P(W)

w为给定文档的特征值（），c为文档的类别（给定文档的词）

P(C)：每个文档类别的概率：（某文档数、总文档数）
P(W|C)：给定类别下特征（被预测文档中出现的词）的概率

但是也会出现概率为0
如何解决？

拉普拉斯平滑系数 P(F1|C) = Ni+a / N+am
a指定的系数1，m为训练集中统计文档的次数

朴素贝叶斯分类实现API
sklearn.naive_bayes.MultinomalNB（alpha = 1.0）默认

alpha：拉普拉斯平滑系数，防止分类的时候类别的概率为0

   朴素贝叶斯算法案例：
                   sklearn20类新闻分类
                   20个新闻数据集包含20个主题的18000个新闻组帖子

from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
import pandas as pd


def naviebays():
    """
    朴素贝叶斯分类文本
    :return: None
    """
    news = fetch_20newsgroups(subset='all')

    # 对数据进行分割
    x_train,x_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25)

    # 对数据集进行特征抽取
    tf = TfidfVectorizer()

    # 训练集中对此的列表进行每篇文章的重要性统计['a','b','c','d']
    x_train = tf.fit_transform(x_train)
    print(tf.get_feature_names())


    x_test = tf.transform(x_test)

    #进行朴素贝叶斯算法的预测
    mlt = MultinomialNB(alpha=1.0)
    print(x_train.toarray())
    #sparse的矩阵

    mlt.fit(x_train, y_train)
    # 以及在api实现了  关于predict的算法
    y_predict = mlt.predict(x_test)
    print("预测文章的类别为：", y_predict)

    # 得出准确率
    print("准确率为：",mlt.score(x_test,y_test))

    print("每个类别的精确率和召回率：",classification_report(y_test,y_predict,news.target_names))
    # classification_report(y_true=,y_pred=,target_names=)



    #构造一些参数值进行搜索
    param = {"n_neighbors":[3,5,10]}
    # 进行网格搜索   knn无实例，数据需要在官网获取下载
    gc = GridSearchCV(knn,param_grid=param,cv=10)
    gc.fit(x_train,y_train)

    # 预测准确率
    print("在测试集上的准确率：",gc.score(x_test,y_test))
    print("在交叉验证中最好的结果：", gc.best_score_)
    print("选择最好的模型是：",gc.best_estimator_)
    print("每隔超参数每次交叉验证的结果：",gc.cv_results_)



    return None



if __name__ ==  "__main__":
    naviebays()

           流程：
               1、先把数据加载下来fetch——20newsgroups（subsets=0.5）

                   并进行分割陈训练集测试集x_train，y_train，x_test,y_test

文本特征抽取

2、生成文章特征词
文本特征抽取

3、朴素贝叶斯estimator流程进行预估不需要调参。

朴素贝叶斯算法受训练集的影响非常大，训练集误差大，结果看到不好

重要的词如果不具有代表性的话。

不需要调参。

总结：
优点：

               1、分类效率高，准确。只要数据集是准确的
               2、对于缺失数据集不太敏感，少了一个词一个概率影响不大
               3、分类准确率高，无法调参
               4、易于文本分类

               缺点：
               1、假设了文章中的词是具有独立性的，对文章讲不太靠谱
               2、在训练集中进行统计词的工作，会对结果造成较大的干扰。
               只要训练集准备的准确，里面的词具有代表性就效果好

           朴素贝叶斯：文本分类
           神经网络：效果更好

   （一）
       分类模型的评估：精确率（准确率）和召回率
       其他分类标准：F1-score 反应了数据的稳定性

       分类模型评估API：       度量，评估分类，精确率，召回率
                      sklearn.metrics.classification_report（y_true,y_pred,target_names=Nome）

                      y_true:真实目标值
                      y_pred：估计器预测目标值
                      target——names：目标类别名称
                      return：每个类别进去率余召回率

实例：
print("每个类别的精确率和召回率：",classification_report(y_test,y_predict,news.target_names))

   （二）
       模型的选择余调优 k值，特征值

       交叉验证网格搜索

交叉验证，网格搜索搭配使用

1、交叉验证，为了让评估的模型更加准确可以信

所有数据分成n等分（与x_test，y_test，无关系）

训练集训练集训练集 | 验证集得出一个模型准确率模型1

训练集训练集验证集 | 训练集得出一个模型准确率模型2

训练集验证集训练集 | 训练集得出一个模型准确率模型3
。。。最后求出模型的品均值的结果为80%

       2、网格搜索---调参数（调到某一个位置达到的效果最好）
                           k-近邻：超参数K

                           若超参数不止一个，a[2,3,5,8,10] b[20,70,80] 两两进行组合

           超参数搜索--网格搜索API 交叉验证

           param = {"n_neighbors":[3,5,10]} 这里的参数可调，提前构造出来的参数值

           sklearn.model_selection.GridSearchCV(estimator,param_gird=None,cv=None)
           estimator:估计器对象
           param_grid:估计器参数（dict）{"n_neighbors":[1,3,5]}
           fit：输入训练数据
           cv：指定几折交叉验证
           score：准确率

           结果分析：
           best_score:在交叉验证中验证的最好结果
           best——estimator：最好的参数模型
           cv_results_:每次交叉验证后的验证集准确率地结果和训练集的准确率的结果

（三）分类算法----决策树（随机森林）

比朴素贝叶斯和 k近邻准确率高很多，高纬度高特征，数据月复杂优势越明显

                               1、认识决策树
                               2、信息基础-银行贷款分析
                               3、决策树的生成
                               4、泰坦尼克号乘客生存分类

   信息熵----信息和消除不确定性是相联系的（决策树的时间划分）
           哪个减少的信息熵更多就选哪个（以此玩下进行二分，是则继续，否则不分）
                                   例如：决策树的实际划分：有自己的房子（是/否）
                                                   是公务员吗？（否/是）

       决策树的划分依据：
               信息和消除不确定性是相互联系的

                   （1）信息增益
                               当得知一个特征的条件之后，减少的信息熵的大小
                               g(D,A)=H(D)-H(D|A)
                               g为信息增益
                               H(D) 初始信息熵的大小

                       信息熵的计算
                       条件熵的计算
                       g(D|年龄)=H(D|年龄）=

               常见的决策树的使用方法
                                  ID3信息增益最大的准则
                                  C4.5 信息增益比对大的准则
                                  CART
                                  回归树：平方误差最小
                                  分类树：基尼系数最小准则在sklearn中可以选择划分的默认原则

       sklearn决策树API
                       class sklearn.tree.DecisionTreeClassifier(criterion='gini',max_depth=None,random_state=None)

                       决策树分类器：
                       criterion：默认是'gini'系数，也可以选择信息增益的熵'entropy'
                       max_depth:书店深度大小
                       random_state:随机数种子

                       method：
                       decision_path:返回洁厕书的路径

案例：泰坦尼克号的分类，预测是生是死。看看预测是否准确

集成学习方法--随机森林

泰坦尼克号乘客生死分类模型

import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier




def decisionTree():
    """
    决策树预测泰坦尼克号的生死
    :return: None
    """

    # 获取数据
    titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub//Main/DataSets/titanic.txt")


    # 处理数据，找出特征值和目标值

    x = titan[['pclass','age','sex']]
    y = titan['survived']
    print(x)


    #缺失值的处理,把空值进行填充，求平均值
    x['age'].fillna(x['age'].mean(), inplace=True)


    # 分割数据到训练集到测试集
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)




    # 进行处理 特征工程  特征？》类别的处理---one_hot编码
    dict = DictVectorizer(sparse=False)

    x_train = dict.fit_transform(x_train.to_dict(orient="records"))
    print(dict.get_feature_names())

    x_test = dict.transform(x_test.to_dict(orient="records"))
    # print(x_train)


    # 重点，，，用决策树进行预测，并且修改深度5层，超参数，会影响结果
    # max_depth深度可调，值越大决策树越少
    dec =  DecisionTreeClassifier(max_depth=8)
    # 固定步骤，把训练集的目标值和特征值翻入进行
    dec.fit(x_train,y_train)

    # 预测准确率
    # 训练后的成为测试集用dec.score方法预测准确率
    print("预测的准确率：", dec.score(x_test, y_test))

    #
    # # 导出决策树的结构
    # export_graphviz(dec, out_file="./tree.dot", feature_names=['年龄', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])
    #



    # 随机森林进行预测，超参数调优
    rf = RandomForestClassifier()

    param = {"n_estimators": [120, 200, 300, 500, 800, 1200], "max_depth":[5,8,15,25,30]}

    # 网格搜索余交叉验证
    gc = GridSearchCV(rf, param_grid=param, cv=2)

    gc.fit(x_train, y_train)

    print("预测准确率:", gc.score(x_test, y_test))
    print("查看选择的参数模型：", gc.best_params_)


    return None



if __name__ == '__main__':
    decisionTree()

       流程：
           1、pd读取数据
           2、寻找有影响的特征，处理缺失值（填补，按照那一列的品均值进行填补）
           3、进行特种工程，pd转化字典，特征抽取x_train.to_tict(orient="records")
           4、决策树估计器流程

       决策树的结构、本地保存

           1、sklearn.tree.export_graphviz()该函数能够导出DOT格式
           tree.export_graphviz(estimator,out_file='tree.dot',feature_names=[","])

           2、工具：（能够将dot文件替换为pdf、png）
               按照graphviz
               mac： brew install graphviz

               运行命令
               $ dot -Tpng tree.dot -o tree.png

# 导出决策树的结构
export_graphviz(dec, out_file="/User/wusibin/Downloads/tree.dot", feature_names=['age年龄', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female女性', 'sex=male男性'])

总结：
   优点：
      1、简单的理解和解释，树木的可视化
      需要很少的数据准备，其他技术通常需要数据归一化

   缺点：
      1、决策树学习者穿件不能很好的推广数据过于复杂的数
      这被称为过拟合

DecisionTree

   改进：
      1、减枝cart算法（决策树api中以及实现，随机森林参数调优有关的介绍）
          把最后分的结果砍掉一点，通过api中实现

2、随机森林也可以解决过拟合的问题（决策树的原理）

      ps：企业的重要决策，由于决策树很傻的分析能力，在决策过程应用较多（通过信息增益的大小来判断）
          前三个因素占主要，就用决策树
          没有进行归一化，数据参数需要修改

集成学习方法：
               建立多个模型组合来解决单一的一个问题

           随机森林：
                   包含多个决策树进行分类（随机森林建立多个决策树的过程）


           单个树建立过程：
                       1、随机在N个样本中选择一个样本，重复N次，样本有可能重复
                       2、随机在N个样本在选出m个特征。m取值

                   随机又返回的抽样：bootstrap

   重点：随机森林API（参数有很多）

          ensemble 集成学习方法 n_estimators： int potional（default = 10）
          random随机数

          class sklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion='gini', max_depth=None,bootstrap=True,random_state=None)

          nestimators: 森林里的树木量

          max_depth：(默认=无) 数的最大深度 5，8，15，25，30

          max_features='auto' 每隔决策树的最大特征数量
          //特征数量太多会过拟合
          if "auto ,then 'max_feature=sqrt(n_features)'"

          bootstrap：博哦了按，optional（default = True）是否在构建树时使用返回抽样，随机有放回

          随机森林的超参数：
                          n_estimator 决策树的数量
                          max_depth 每颗树的深度限制

总结：
   优点：
      1、没有缺点
      2、具有极高的准确率
      2、有效运行在大数据上
      3、不需要降维
      4、评估各个特征在分类问题上的重要性
      5、使用最多最广泛

复习：
   （三个分类算法）
                   1、数据集的划分

                   训练集x_train ，y_train
                   测试集 x_test ，y_test
                   目的，调试好，使得预测结果准确

                   2、sk-learn的api：
                                   estimator 估计器里面

                                   # 随机森林进行预测，超参数调优
                                   rf = RandomForestClassifier()

                                   param = {"n_estimators": [120, 200, 300, 500, 800, 1200], "max_depth":[5,8,15,25,30]}

                   3、算法
                           k-近邻 //重要程度低
                           朴素贝叶斯
                           决策树-随机森林，网格搜索和交叉验证

                           信息熵，信息增益，

                           多了就过拟合

、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、

（第三天）

回归
1、线性回归之前是准确率，精确率，召回率

2、分类算法

3、非监督学习
岭回归

k-means ：数据集里面没有目标值怎么去处理（聚类算法）

回忆回归问题的判定？

1、【之前的是分类问题：离散，属于哪个类别。每一个数值代表着一个类型】

2、目标值为连续性，无线划分，某个区间内取得任意数。
100.35 223.43

只要目标值为连续性都可以预测

应用：
房价()，销售额(影响因素：公司收入，研发的好坏，对特征进行预测)，等等
贷款额度的预测(得到贷款的一个数值，而不是是否能得到贷款)

举例：期末成绩= ：0.7 X 考试成绩 + 0.3 X 平时成绩（上课出勤率）

线性回归，寻找一种预测的趋势：二维的直线关系
三维：特征，目标值，平面中

                       线性关系的定义：
                                   y = kx + b
                                   加b：伪类是对于单个特征的勤快更加通用

多个特征：k1 房子的面积 + k2 房子的位置 + b

线性关系模型：
1、一个通过属性（特征）的线性组合来进行预测的函数

f(x) = w1x3 +w2x3 + w3x3

w为权重 b为偏置项

线性回归：
（简单的线性组合）

               1、特征值余目标值之间进行建模的回归分析
               2、一元线性回归（一个特征，一个目标值）
               多元：

（一）、属性和权重的一种组合来预测结果

矩阵：
大多数算法的计算基础

       数组：                         矩阵：

0维       5
1维【5，2，3，3，322】
2维【2，34，56，345，【】】行和列的格式                       必须是二维结构[[行]列]，满足特定运算需求

3维【【】【】【】】列表套列表                               矩阵的乘法（神经网络）

                                                       (m行,l列）*（l行，n列）=（m行，n列）
                                                           特征值

                                               [[1，2，3，4] [[2],[2],[2],[2]]
                                               [5,6,7,8]]

                                                   一个特征一个权重目标值

                                               （1行，4列）（）   一个样本一个值
                                                                             (1,1)
                                                                            (100,1)

数组的运算：加法乘法

numpy： ndarray

从今往后的所有算法都是迭代的算法：

回归：迭代的算法（一步一步取调参，一步一步取更新的算法）

神经网络

我们只需要用什么方法，和api就行。拿过来能用就可以了。不需要深入了解

专有名词：损失函数：（预测结果与真实结果的 - 第二个预测结果和真实结果的）的平方从1开始依次递加
不断迭代，寻找最优化的w的值

                   方法

                           《统计学习方法》
                                       算法策略优化 ----迭代过程

                                       线性回归损失函数

           方法：
               1、正规方程：（不做要求）
               求解： w = (x的转置x)的-1次方 x的转置y
               缺点：当特征过于复杂，求解速度太慢

               2、最下二乘法之梯度下降
                                   学习率 * 方向

           正规方程与梯度下降对比？
           sklearn 线性回归方程，梯度下降API

                      sklearn.linear_model.LinearRegression
                      正规方程
                      普通最小二乘法线性回归

                      coef_；回归系数

                      sklearn.linear_model.SGDRegressor
                      通过SGD最小化线性模型

                      梯度下降

       scikit-learn 优点：

                           1、建立模型简单，预测简单

                   缺点：

                          1、算法过程，有些参数都在API内部优化执行好了，不用自己去指定

       TensorFlow框架：

                       封装有高有低，可以自己实现线性回归，学习率，这些参数可以自己手动指定



案例：
       线性回归实例：
                   1、sklearn线性回归正规方程，梯度下降API
                   2、波士顿房价数据集分析流程

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.externals import joblib

def mylinear():
    """
    线性回归两种预测房子价格
    :return: None
    """


    # 获取数据
    lb = load_boston()
    
    # 分割数据到训练集和测试集   data训练值   target 测试纸
    x_train, x_test, y_train, y_test = train_test_split(lb.data, lb.target, test_size=0.25)

    # 输出的是目标值的训练集和测试集，不是测试值的训练集和测试集
    print(y_train,y_test)
    # 进行标准化处理(?)目标值是否需要标准化处理？要，标准化处理的结果是所有数据都变得非常非常小权重也小。所以更原来的比起来就小监理损失求解
    # inverse_transform 转化成之前的值
    # 特征值和目标值都必须进行标准化处理，要处理两个，所以要实例化两个标准化的API

    # 标准化测试值
    std_x = StandardScaler()
    x_train = std_x.fit_transform(x_train)
    x_test = std_x.transform(x_test)
    # 标准化目标值
    std_y = StandardScaler()
    # 19版本需要用reshape转化成数组或矩阵的形式 .reshape(-1),,,-1是默认值
    y_train = std_y.fit_transform(y_train.reshape(-1, 1))
    y_test = std_y.transform(y_test.reshape(1, -1))
    




    # estimator预测
    # 正规方程求解方式预测结果  训练数据
    lr = LinearRegression()

    lr.fit(x_train, y_train)

    # 打印权重参数
    print(lr.coef_)

    # 预测测试集的发展价格,,这个不能缩小，所以用inverse在std_y下的api，换回原来的值
    y_lr_predict = std_y.inverse_transform(lr.predict(x_test))

    print("测试集里面每个房子样本的预测价格：", y_lr_predict)
    print("正规方程的均方误差回归性能的评估：", mean_squared_error(std_y.inverse_transform(y_test), y_lr_predict))

    # 梯度下降进行房价预测 实例化
    sgd = SGDRegressor()

    sgd.fit(x_train, y_train)

    # 打印权重参数
    print(sgd.coef_)

    # 保存训练好的模型
    joblib.dump(lr, "./temp/test.pkl")


    # 预测房价的价格
    model = joblib.load("./temp/test.pkl")

    y_predict = std_y.inverse_transform(model.predict_test)

    print("保存的模型预测结果：", y_predict)



    # 预测测试集的发展价格,,这个不能缩小，所以用inverse在std_y下的api，换回原来的值
    y_sgd_predict = std_y.inverse_transform(sgd.predict(x_test))

    print("梯度下降测试集里面每个房子样本的预测价格：", y_sgd_predict)
    print("梯度下降正规方程的均方误差回归性能的评估：", mean_squared_error(std_y.inverse_transform(y_test), y_sgd_predict))





    # 岭回归进行实例".
    rd = Ridge(alpha=1)

    # 梯度下降进行房价预测 实例化
    rd = SGDRegressor()

    rd.fit(x_train, y_train)

    # 打印权重参数
    print(rd.coef_)

    # 预测测试集的发展价格,,这个不能缩小，所以用inverse在std_y下的api，换回原来的值
    y_rd_predict = std_y.inverse_transform(rd.predict(x_test))

    print("梯度下降测试集里面每个房子样本的预测价格：", y_rd_predict)
    print("梯度下降正规方程的均方误差回归性能的评估：", mean_squared_error(std_y.inverse_transform(y_test), y_rd_predict))

    return None


if __name__ == "__main__":
    mylinear()

分析：影响房子的价格因素：小区犯罪率，空气好坏等等，得出13个权重
目的：求出这13个权重

需要做标准化处理的算法：
k-近邻
线性回归

           流程：
               1、获取数据
               2、数据分割
               3、训练与测试集，数据标准化处理（重点）
                   为什么要标准化？
                   因为建立过程，权重和特征都会有影响。数据特征越大影响越大，所以需要做标准化处理

                   # 进行标准化处理(?)目标值是否需要标准化处理？要，标准化处理的结果是所有数据都变得非常非常小
                   特征值和目标值都必须进行标准化处理，要处理两个，所以要实例化两个标准化的API

               4、使用最简单的线性回归模型LinearReggression 和梯度下降估计SGDRegressor对房价进行预测

               19版本要求标准化API转换器，estimator必须是二维的
               # 19版本需要用reshape转化成数组或矩阵的形式 .reshape(-1),,,-1是默认值
                y_train = std_y.fit_transform(y_train.reshape(-1, 1))
           y_test = std_y.transform(y_test.reshape(1, -1))

(二)
回归性能评估：均方误差，与差值余真实值之间差值的平安和求一个平均值

       API：mean_squared_error(y_true,y_pred)
       y_true：真实值
       y_pred：预测值
       return：浮点数结果

------------------------------- ---------------对比--------------------------------------------------------

梯度下降 |               正规方程
需要选择学习率a |               不需要
需要多次迭代 |               一次运算出
当特征数量n大是也能很好的使用       |           需要计算很多东西东西东西
适用于各种类型的模型 |           只适用于线性模型，不适用逻辑回归模型等其他模型

小规模数据LinearRegression 大规模数据：SGDRegressor

(三)
过拟合（模型过于复杂）与欠拟合（模型过于简单）

   解决办法：
           根据结果现象来判断：
                           比较：交叉验证训练集的结果，网格搜索

欠拟合：测试集，交叉验证，训练集的结果表现不写
过拟合：交叉验证99%，但在测试集就是89%，表现越来越差

           欠拟合：增加数据

           过拟合：在训练的时候学不到什么东西，但是在测试集的时候还是。
                   1、特征选择（消除一些没用的删掉）
                   2、交叉训练（让所有数据都有结果训练）：实际无效果
                   3、正则化

           特征选择：
                   1、嵌入式重点
                   2、包裹时
                   3、过滤式低方差特征
                   4、正则化
                   5、神经网络
                   6、决策树

线性回归：LinearRegression 容易出现过拟合因为在训练的过程中伪类把训练集的数据表现更好。

对线性和非线性都可以去拟合
对于非线性去拟合最容易出现复杂模型

问题？训练数据训练的很好啊，误差也不大，为什么测试集上面有问题呢？对线性模型模型训练会变成复杂模型

（岭回归）

通过回归解决过拟合：
               线性回归LinearRegression 容易出现过拟合，为了把训练集数据表现根号

               L2正则化：岭回归带有正则化的西安新回归解决过拟合

               API： sklearn.linear_model.Ridge(alpha=1.0)

               具有L2 正则化的闲心最小二乘法把二次项的系数趋近于0

               Ridge：

               alpha：正则化力度
               coef_：回归系数

岭回归：正则化，把高次项系数不断趋近于0

总结：

岭回归LinearRession 与Ridge对比

岭回归与闲心回归的比较一定要在数据中才能体现出来

具有L2 正则化的闲心最小二乘法把二次项的系数趋近于0

岭回归得到的回归系数更符合实际。林外，能让估计参数的波动更稳定，变化小，又有实用价值

第二天总结：思维导图存于桌面机器学习文件夹里面

       （一）
           模型的保存与加载
           API： from sklearn.externals.import joblib
           joblib 模块

           保存： joblib.dump(rf, 'test.pkl')

           加载：estimator = joblib.load('test.okl')

           ps:sklearn里面固定保存的文件格式

（二）逻辑回归

1、线性回归的输入------>分类问题（逻辑回归）

2、sigmoid函数（要求计入其样子）
值为 0-1 之间（具体的概率值）

                   3、
                       逻辑回归的损失：   信息熵越小预测越准确，100%确定，信息熵为0

梯度下降求解：损失函数的最低点

损失函数：均方误差（不存在局部最低点）只有一个最小值

对数似然损失：
方法：使用梯度下降关系

                       梯度下降求解：
                                   1、多次随机初始化，多次比较最小值结果
                                   2、求解过程当中，调整学习率
                                   （尽量改善，但不能解决最终问题）
                                   尽管没有全局最低点，但效果哦还是不错的

正规方程与梯度下降的对比？

       逻辑回归API：
                   sklearn.linear_model.LogisticRegression(penalty='12',c=1.0)
                   Logistic 回归分类器
                   coef_:回归系数

逻辑回归案例：

良性、恶性乳腺癌肿瘤
数据描述：699个氧泵，一共11列数组，第一列用语言检索id，后9列分别是与肿瘤相关的医学特征

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, classification_report
from sklearn.externals import joblib
import pandas as pd
import numpy as np

def mylinear():
    """
    线性回归两种预测房子价格
    :return: None
    """


    # 获取数据
    lb = load_boston()
    
    # 分割数据到训练集和测试集   data训练值   target 测试纸
    x_train, x_test, y_train, y_test = train_test_split(lb.data, lb.target, test_size=0.25)

    # 输出的是目标值的训练集和测试集，不是测试值的训练集和测试集
    print(y_train,y_test)
    # 进行标准化处理(?)目标值是否需要标准化处理？要，标准化处理的结果是所有数据都变得非常非常小权重也小。所以更原来的比起来就小监理损失求解
    # inverse_transform 转化成之前的值
    # 特征值和目标值都必须进行标准化处理，要处理两个，所以要实例化两个标准化的API

    # 标准化测试值
    std_x = StandardScaler()
    x_train = std_x.fit_transform(x_train)
    x_test = std_x.transform(x_test)
    # 标准化目标值
    std_y = StandardScaler()
    # 19版本需要用reshape转化成数组或矩阵的形式 .reshape(-1),,,-1是默认值
    y_train = std_y.fit_transform(y_train.reshape(-1, 1))
    y_test = std_y.transform(y_test.reshape(1, -1))
    




    # estimator预测
    # 正规方程求解方式预测结果  训练数据
    lr = LinearRegression()

    lr.fit(x_train, y_train)

    # 打印权重参数
    print(lr.coef_)

    # 预测测试集的发展价格,,这个不能缩小，所以用inverse在std_y下的api，换回原来的值
    y_lr_predict = std_y.inverse_transform(lr.predict(x_test))

    print("测试集里面每个房子样本的预测价格：", y_lr_predict)
    print("正规方程的均方误差回归性能的评估：", mean_squared_error(std_y.inverse_transform(y_test), y_lr_predict))

    # 梯度下降进行房价预测 实例化
    sgd = SGDRegressor()

    sgd.fit(x_train, y_train)

    # 打印权重参数
    print(sgd.coef_)

    # 保存训练好的模型
    joblib.dump(lr, "./temp/test.pkl")


    # 预测房价的价格
    model = joblib.load("./temp/test.pkl")

    y_predict = std_y.inverse_transform(model.predict_test)

    print("保存的模型预测结果：", y_predict)



    # 预测测试集的发展价格,,这个不能缩小，所以用inverse在std_y下的api，换回原来的值
    y_sgd_predict = std_y.inverse_transform(sgd.predict(x_test))

    print("梯度下降测试集里面每个房子样本的预测价格：", y_sgd_predict)
    print("梯度下降正规方程的均方误差回归性能的评估：", mean_squared_error(std_y.inverse_transform(y_test), y_sgd_predict))










    # 岭回归进行实例".
    rd = Ridge(alpha=1)

    # 梯度下降进行房价预测 实例化
    rd = SGDRegressor()

    rd.fit(x_train, y_train)

    # 打印权重参数
    print(rd.coef_)

    # 预测测试集的发展价格,,这个不能缩小，所以用inverse在std_y下的api，换回原来的值
    y_rd_predict = std_y.inverse_transform(rd.predict(x_test))

    print("梯度下降测试集里面每个房子样本的预测价格：", y_rd_predict)
    print("梯度下降正规方程的均方误差回归性能的评估：", mean_squared_error(std_y.inverse_transform(y_test), y_rd_predict))

    return None

def logistic():
    """
    逻辑回归左细胞分类的预测
    :return:
    """

    # pd.merge( )
    # 构造列明标签名字，
    column = ['time_date','street','direction','car1','car2']

    #以下的数据可能有误差
    data = pd.read_csv("/Users/wusibin/Downloads/热身赛数据/01-12/chongzhi_beier-east-01-12.csv",names=column)
    # data = pd.read_csv("https://archive.ics.uic.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",names=column)
    print(data)

    # 缺失值进行处理 缺失值是？号，替换？号  替换成np.nan
    data.replace(to_replace='?', value=np.nan)

    # 删除空缺值
    data = data.dropna()

    # 进行数据的分割 评判 找特征值
    x_train,x_test,y_train,y_test = train_test_split(data[column[1:10]],data[column[10]],test_size=0.25)

    # 进行标准化处理

    std = StandardScaler()

    x_train = std.fit_transform(x_train)
    x_test = std.transform(x_test)


    # 逻辑回归预测

    lg = LogisticRegression(C=1.0)

    lg.fit(x_train, y_train)

    y_preditc = lg.predict(x_test)

    print(lg.coef_)
    print("准确率：", lg.score(x_test,y_test))
    print("召回率:", classification_report(y_test,y_preditc,labels =[2,4],target_names=["良性", "恶性"]))



    return None


if __name__ == "__main__":
    # mylinear()
    logistic()

           流程：
               1、网上获取数据（工具pandas）
               2、数据缺失值的处理、标准化
               3、LogisticRegression 估计器流程

   pandas的使用：
               pd.read_csv(",names=column_names")
               类别的名字
               column_names=['Sample code number','clump thichks','....','.......']
               replace(to_place",value=):返回数据

               cv是代表交叉验证

   总结逻辑回归：
               只能解决二分类问题：
                               应用：广告点击率预测，是否患病，金融诈骗，是否为虚假账号

                               1、优点：适合需要得到一个分类概率的场景，建档，速度快

                               2、缺点：不好处理多分类问题

   多分类问题：神经网络

                   1、softmax方法-逻辑回归咋更多分类问题上的推广

                   生成模型和判别模型

                   逻辑回归                                朴素贝叶斯

   解决问题          二分类                               文本分类
   应用场景癌症，二分类需要的概率                   文本分类问题
   参数             正则化力度                         没有
                   得出的结果都有概率解释

判别模型：

判别模型的依据：
是否有先验概率：是否从历史依据中总结出来的概率信息

如果不需要总结就称之为判别模型

1、决策树，随机森林，神经网络，k-近邻（先验概率）

2、隐马尔可夫模型

基本的分类和回归算法都已经完毕了

softmax方法逻辑回归在多分类问题上的推广---将在后面的神经网络算法中介绍

非监督学习算法：（聚类 k-means ）
1、没有目标值，只有特征值（不适用来预测）
2、把相近特征的数据归为一个类别（物以类聚，人以群分）

   聚类：k把数据划分成多少个类别，
                           1、知道类别个数
                           2、不知道类别个数超参数

k-means步骤：

               举例：
                   1、k=3 在1000多个样本中取出三个样本，当做三个类别的中心点（   k1,k2,k3）
                   2、计算其余的点，分别到这三个中心点的举例（a,b,c）,每一个样本有三个距离，从中选出距离最近的一个点，作为自己的一个标记（形成了三个族群）//简单的聚类过程
                   3、分别计算这三个族群的平均值，把三个品均值与之前的三个旧中心点进行比较
                                           绿1(x1,x2) 绿2(x2,x2) 平均值（x1平,x2平）

如果相同：结束聚类
如果不相同：把这三个平均值单做新的中心点，重复第二步骤

                   k-means API 聚类
                               sklearn.cluster.KMeans(n_cluster=8,init='k-means++')

                               k-means'聚类'
                               n_cluster:开始的聚类中心数量
                               init:初始化方法，默认为'k-means++'

                               labels_:默认标记的类型，可以和真实值比较（不是值比较）

                               k-means对instacart Market用户聚类
                               1、降维之后的数据
                               2、k-means聚类
                               3、聚类结果显示

你可能感兴趣的:(笔记,tensorflow,深度学习,数据挖掘,机器学习,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include