御前上等

[自用]|[ML]《机器学习实战》—Peter Harrington自用笔记

《机器学习实战》—Peter Harrington

文章目录

《机器学习实战》—Peter Harrington
注解源码GitHub

监督学习的用途：

k - 近邻算法(kNN)

优点：
缺点：
准备数据：从文本文件中解析数据
分析数据：使用Matplotlib创建散点图
准备数据：归一化数值
测试算法：作为完整程序检验分类器
使用算法：构建完整可用的系统
完整代码
可视化代码

决策树（k决策树作为k-近邻算法的优化版）

优点：
缺点：

如何选择合适的算法
开发机器学习应用的步骤
利用AdaBoost(adaptive boosting(自适应boosting))元算法提高分类性能
预测数值型数据：回归

岭回归

利用 K-均值聚类算法对未标注的数据分组
利用PCA简化数据
利用SVD简化数据
tile()
.sum(axis=1)
Python 字典(Dictionary) get()
items()与iteritems()
python sorted()
python元组
python的extend()与append()
python字典.keys()
python列表推导式
python x[:] x[::]用法总结
python3.6 TypeError: 'dict_keys' object does not support indexing
python pickle版本问题
AttributeError: 'dict' object has no attribute 'iteritems'
python切割字符串
numpy—arange()
numpy的getA()
numpy中array和asarray的区别

自用，断断续续看了一个月，没有特别整理，自己后续查看的笔记

注解源码GitHub

专家系统
参考数据库：
1. uci数据库
2. RSS源
知识表示
特征为列
监督学习：知道要预测什么，即目标变量的分类信息

回归与分类
无监督学习：没有类别信息；也不给定目标值

聚类

寻找描述统计值的过程称为 密度估计

用于减少数据特征的维度

监督学习的用途：

k - 近邻算法(kNN)

根据出现的次数使用k - 近邻算法来分类
简单来说，k - 近邻算法采用测量不同特征值之间的距离 方法来进行分类
优点：

精度高、对异常值不敏感、无数据输入假定
缺点：

计算复杂度高、空间复杂度高
适用数据范围：数据型和标称型
工作原理：存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似的数据（最相邻）的分类标签。一般来说我们只选择本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。
例子：P16 图2-1

评估分类器：计算错误率

准备数据：从文本文件中解析数据

将文本记录转换为NumPy的解析数据

def file2matrix(filename):                      #将文本转为numpy
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #得到文件行数
    returnMat = zeros((numberOfLines,3))        #创建以0填充的numpy矩阵
    classLabelVector = []                       #prepare labels return   
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        #截取回车符
        listFromLine = line.split('\t')
        #将上步数据分割成整行的列表
        returnMat[index,:] = listFromLine[0:3]
        #取前三个元素储存到特征矩阵中
        classLabelVector.append(int(listFromLine[-1]))  #listFromLine默认字符串
        #‘-1’：负索引的方法，将数据定位到最后一列元素
        #将列表中最后一列存储到向量classLabelVector中
        index += 1
    return returnMat,classLabelVector

分析数据：使用Matplotlib创建散点图

import kNN
import matplotlib.pyplot as plt
import numpy as np

datingDataMat,datingLabels = kNN.file2matrix('datingTestSet2.txt')
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:,0], datingDataMat[:, 1],
           #绘制矩阵第一第二列属性
           15.0*np.array(datingLabels), 15.0*np.array(datingLabels))
#利用变量datingLabels存储的类标签属性，在散点图上绘制了色彩不等、尺寸不同的点
plt.show()

准备数据：归一化数值

将数据处理到0到1或者-1到1之间。采用下面的公式可将任意取值范围的特征值转化为0到1区间的值：

newValue = (oldValue-min)/(max-min)
#min与max分别为数据集中最大特征值与最小特征值

代码实现

def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals

测试算法：作为完整程序检验分类器

通常使用90%作为训练数据；10%作为测试数据

def datingClassTest():
    hoRatio = 0.50      #hold out 10%	这里取50%
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file
    normMat, ranges, minVals = autoNorm(datingDataMat)
    #读入数据并归一化
    m = normMat.shape[0]
    #返回行数
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print ("the total error rate is: %f" % (errorCount/float(numTestVecs)))
    #print (errorCount)

使用算法：构建完整可用的系统

def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(input("percentage of time spent playing video games?"))
    ffMiles = float(input("frequent flier miles earned per year?"))
    inceCream = float(input("liters of ice cream consumed per year?"))
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    norMat, range, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percentTats, inceCream])
    classifierResult = classify0((inArr - minVals)/range, norMat, datingLabels, 3)
    print("You will probably like this person: ",resultList[classifierResult - 1])

完整代码

from numpy import *
import operator
#运算符模块
from os import listdir

def classify0(inX, dataSet, labels, k):         #构建分类器
    # inX（向量）用于分类；dataSet为输入的训练样本集；
    # 标签向量为labels其元素数目与矩阵dataSet的行数相同；
    # k表示用于选择最近的邻居的数目
    dataSetSize = dataSet.shape[0]
    #获取dataSet的行数
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    #在行上重复inX向量dataSetSize次
    #获取dataSet与构建的矩阵的差值diffMat
    sqDiffMat = diffMat**2
    #取平方
    sqDistances = sqDiffMat.sum(axis=1)
    #行向量相加
    distances = sqDistances**0.5
    #开根号完成欧式距离公式
    #1.以上为距离计算
    sortedDistIndicies = distances.argsort()
    #将数据从小到大排列
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        #按照距离的从小到大选取各个数据点的标签向量
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
        #将字典分解为元组列表
    #2.以上至1.为选择距离最小的k个点
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    #按照元组第二个元素的次序对元组进行排序（逆序）
    return sortedClassCount[0][0]
    #返回发生频率最高的元素的标签
    
def file2matrix(filename):                      #将文本转为numpy
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #得到文件行数
    returnMat = zeros((numberOfLines,3))        #创建以0填充的numpy矩阵
    classLabelVector = []                       #prepare labels return   
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        #截取所有的回车符
        listFromLine = line.split('\t')
        #将上步数据分割成整行的列表
        returnMat[index,:] = listFromLine[0:3]
        #取前三个元素储存到特征矩阵中
        classLabelVector.append(int(listFromLine[-1]))  #listFromLine默认字符串
        #‘-1’：负索引的方法，将数据定位到最后一列元素
        #将列表中最后一列存储到向量classLabelVector中
        index += 1
    return returnMat,classLabelVector
 
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals

def datingClassTest():
    hoRatio = 0.50      #hold out 10%
    datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')       #load data setfrom file
    normMat, ranges, minVals = autoNorm(datingDataMat)
    #读入数据并归一化
    m = normMat.shape[0]
    #返回行数
    numTestVecs = int(m*hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]): errorCount += 1.0
    print ("the total error rate is: %f" % (errorCount/float(numTestVecs)))
    #print (errorCount)
    
def classifyPerson():
    resultList = ['not at all', 'in small doses', 'in large doses']
    percentTats = float(input("percentage of time spent playing video games?"))
    ffMiles = float(input("frequent flier miles earned per year?"))
    inceCream = float(input("liters of ice cream consumed per year?"))
    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
    norMat, range, minVals = autoNorm(datingDataMat)
    inArr = array([ffMiles, percentTats, inceCream])
    classifierResult = classify0((inArr - minVals)/range, norMat, datingLabels, 3)
    print("You will probably like this person: ",resultList[classifierResult - 1])

i = True
while i:
    classifyPerson()
    print("")
    judgement = input("Play again?  [Y/N]")
    if judgement == 'N':
        i = False

可视化代码

import matplotlib.pyplot as plt
import numpy as np
import operator
# 运算符模块
from os import listdir


def classify0(inX, dataSet, labels, k):  # 构建分类器
    # inX（向量）用于分类；dataSet为输入的训练样本集；
    # 标签向量为labels其元素数目与矩阵dataSet的行数相同；
    # k表示用于选择最近的邻居的数目
    dataSetSize = dataSet.shape[0]
    # 获取dataSet的行数
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    # 在行上重复inX向量dataSetSize次
    # 获取dataSet与构建的矩阵的差值diffMat
    sqDiffMat = diffMat ** 2
    # 取平方
    sqDistances = sqDiffMat.sum(axis=1)
    # 行向量相加
    distances = sqDistances ** 0.5
    # 开根号完成欧式距离公式
    # 1.以上为距离计算
    sortedDistIndicies = distances.argsort()
    # 将数据从小到大排列
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        # 按照距离的从小到大选取各个数据点的标签向量
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
        # 将字典分解为元组列表
    # 2.以上至1.为选择距离最小的k个点
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    # 按照元组第二个元素的次序对元组进行排序（逆序）
    return sortedClassCount[0][0]
    # 返回发生频率最高的元素的标签


def file2matrix(filename):  # 将文本转为numpy
    fr = open(filename)
    numberOfLines = len(fr.readlines())  # 得到文件行数
    returnMat = np.zeros((numberOfLines, 3))  # 创建以0填充的numpy矩阵
    classLabelVector = []  # prepare labels return
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        # 截取所有的回车符
        listFromLine = line.split('\t')
        # 将上步数据分割成整行的列表
        returnMat[index, :] = listFromLine[0:3]
        # 取前三个元素储存到特征矩阵中
        classLabelVector.append(int(listFromLine[-1]))  # listFromLine默认字符串
        # ‘-1’：负索引的方法，将数据定位到最后一列元素
        # 将列表中最后一列存储到向量classLabelVector中
        index += 1
    return returnMat, classLabelVector

datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:,0], datingDataMat[:, 1],
           #绘制矩阵第一第二列属性
           15.0*np.array(datingLabels), 15.0*np.array(datingLabels))
#利用变量datingLabels存储的类标签属性，在散点图上绘制了色彩不等、尺寸不同的点
plt.show()

朴素贝叶斯算法
- 决策树与k近邻算法都是给出明确的答案，不过分类器有时会产生错误的结果，这是可以要求分类器给出一个最优类别的猜测结果，同时给出这个猜测的概率估计值
- 优点：在数据较少的情况下仍然有效，可以处理多类别问题
- 缺点：对于输入数据的准备方式较为敏感
- 适用数据类型：标称型数据
- 贝叶斯：
  - 贝叶斯概率引入先检知识和逻辑推理来处理不确定命题
- 例子给的网站无法访问：参考此博文http://www.knowsky.com/885215.html
- RSS源推荐（中文RSS）：https://www.douban.com/note/609155195/
  
  RSS源推荐（英文RSS）：https://www.jianshu.com/p/433b1282ebe8
- 留存交叉验证
```
for i in range(10):
    randIndex = int(random.uniform(0,len(trainingSet)))
    testSet.append(trainingSet[randIndex])
    del(trainingSet[randIndex])
#删除测试集；使得余下的作为训练集，实现留存交叉验证
#即，五十个样本；十个验证；其余四十个训练
#随机构建训练集
```
支持向量机
- 推荐b站白板手推SVM（清晰）：https://www.bilibili.com/video/av28186618/
- 序列最小化（Sequential Minimal Optimization, SMO）算法（支持向量机的一种方法）：一种求解支持向量机二次规划的算法
- 优点：泛化错误低，计算开销不大，结果易解释
- 缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用与二类问题
- 数据适用类型：数值型和标称型数据
- 支持向量（support vector）就是离分隔超平面最近的那些点
- 分类器的工作原理：
  - 使用了类似于亥维赛德阶跃函数的函数对**w^{Tx+b（分隔超平面的形式）**（点到分隔超平面的距离：|w}TA+b|/|w|）（这里的常数b类似于Logisitic回归中的截距w_0）作用按f(w^Tx+b)中，u<0则f(u)输出-1，反之则输出+1
  - 为什么采用-1与+1呢：这是由于我们可以通过一个统一的公式来表示间隔或者数据点到分隔超平面的距离，同时不必担心数据到底是属于-1还是+1类
  - 间隔通过label * (w^Tx+b)来计算，此时就能体现出-1和+1类的好处了。
  - 现在的目标是找出分类器定义中的w和b。为此，我们必须找到具有最小间隔的数据点，而这些数据点也就是前面提到的支持向量。一旦找到具有最小间隔的数据点，我们就需要对该间隔最大化。可以写作：
```
  其中||w||表示w的二范数，求所有元素的平方和，然后再开方。
```
  - 上述优化问题中，给定了一些约束条件然后求最优值，该约束条件就是：label * (w^Tx+b) >= 1.0对于这些优化问题，有个非常著名的解决方法：拉格朗日乘子法。
- 理解支持向量机：强烈推荐观看此文章：https://www.sohu.com/a/128747589_614807
- SVM：1.间隔 2.对偶 3.核技巧
  1. 核技巧：将欧式空间映射到高维空间
- SVM分为三个算法：
  1. hard-margin SVM（基础）
  2. soft-margin SVM
  3. kernel SVM
- hard-margin SVM：最初用来解决二分类问题
  
  f(w) = sign(w^Tx + b) 判别模型 ——超平面
  
  为了找到一条线（二维上是超平面）（让它离样本点的距离都足够大（鲁棒性强））
- max margin(最大间隔分类器)
  - 为什么要最大化：使两个分类的训练实例都尽量远离分界线(尽量远离模糊区域)。使形成的模型风险最小化
- 理解松弛因子：https://blog.csdn.net/chaipp0607/article/details/75949812
- 径向基核函数：
- margin的定义：margin(w,b) = min distance(w,b,xi)
  $min distance = 1/||w|||w^Tx+b|$
  点到直线距离公式
- 大于1的优化问题：引入拉格朗日乘子法
- Quadratic programming (QP) 二次规划
- SMO算法
  - SMO算法的目标是求出一系列alpha和b，一旦求出了这些alpha，就很容易计算出权重向量w并得到分割超平面
  - SMO算法的工作原理是：每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha，那么就增大其中一个同时减小另一个。这里所谓的“合适”就是指两个alpha必须要符合一定条件，条件之一就是两个alpha必须要在间隔边界之外，而其第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上

决策树（k决策树作为k-近邻算法的优化版）

既能做分类；又能做回归
决策树是最经常用的数据挖掘算法
k-近邻算法的最大缺点在于无法给出数据的内部含义；决策树的主要优势在于数据形式非常容易理解
优点：

计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不想关特征数据
缺点：

可能会产生过度匹配问题
数据需要离散型数据，必须标称化
一般采用二分法划分数据（例子采用ID3算法划分数据集）

ID3（信息增益）的思想是：递归调用划分数据集实现branch的再划分

递归结束的条件是：程序遍历完所有划分数据集的属性，或者每个分支下的所有实例都具有相同的分类。
C4.5：信息增益率
CART：Gini系数
评价函数：类似于损失函数
信息增益（取结点是计算的前后熵值的变化就称为信息增益）：
- 信息增益值最大的作为根节点
- 划分数据的大原则是：将无序的数据变得更加有序
- 使用信息论在划分数据前或后度量化信息的内容，这个变化称为信息增益
- 集合信息的度量方式称为香农熵或者简称为熵，这个名字来源于信息论之父克劳德·香农
- 熵定义为信息的期望值
- 如果待分类的事务可能划分在多个分类中，则符号xi的信息可定义为：
  
  l(xi) = -log_2p(xi)
  
  其中p(xi)是选择该分类的概率
- 计算所有类别所有可能值包含的信息期望值
  
  H = -∑(^n_i=1)p(xi)log_2p(xi)
  
  其中n为分类的数目
- 熵越高，则混合的数据越多
- 构造树的基本想法是随着树的深度的增加，节点的熵迅速的降低 。熵降低得越快越好，这样我们有希望得到一棵高度最矮的决策树
- 熵值可以用作衡量结点的标准
- 另一个度量集合无序程度的方法是基尼不纯度（Gini impurity），简单的说就是从一个数据集中随机选取子项，度量其被错误分类到其他分组里的概率。

e.g:
[[1, 1, ‘yes’], [1, 1, ‘yes’], [1, 0, ‘no’], [0, 1, ‘no’], [0, 1, ‘no’]]
这个是我们的数据集。
如果我们选取第一个特征值也就是需不需要浮到水面上才能生存来划分我们的数据，这里生物有两种可能，1就是需要，0就是不需要。那么第一个特征的取值就是两种。

如果我们按照第一个特征的第一个可能的取值来划分数据也就是当所有的样本的第一列取1的时候满足的样本，那就是如下三个：
[1, 1, ‘yes’], [1, 1, ‘yes’], [1, 0, ‘no’]
可以理解为这个特征为一条分界线，我们选取完这个特征之后这个特征就要从我们数据集中剔除，因为要把他理解为分界线。那么划分好的数据就是：

[[1, ‘yes’], [1, ‘yes’], [0, ‘no’]]

如果我们以第一个特征的第二个取值来划分数据集，也就是当所有样本的第二列取1的时候满足的样本，那么就是

[[1, 1, ‘yes’], [1, 1, ‘yes’], [0, 1, ‘no’], [0, 1, ‘no’]]
那么得到的数据子集就是下面这个样子：

[[1,’yes’],[1,’yes’],[1, ‘no’], [1, ‘no’]]
此段参考：https://blog.csdn.net/chichoxian/article/details/51952065

tree完整代码

'''
Created on Oct 12, 2010
Decision Tree Source Code for Machine Learning in Action Ch. 3
@author: Peter Harrington
'''
from math import log
import operator
import treePlotter

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']
    #change to discrete values
    return dataSet, labels

def calcShannonEnt(dataSet):
    #计算给定数据的香农熵
    numEntries = len(dataSet)
    labelCounts = {}
    #存储最后一列的数值
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        #键值不存在；扩展字典并将当前键值加入字典
        labelCounts[currentLabel] += 1
        #键值记录了当前类别出现的次数
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2) #log base 2
    return shannonEnt
    
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        #遍历数据集中的每个元素，一旦发现符合要求的值，则将其添加到新创建的列表里
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]     #chop out axis used for splitting
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
            #当我们按照某个特征划分数据集时，就需要将所有符合要求的元素抽取出来
    return retDataSet
    
def chooseBestFeatureToSplit(dataSet):
    #该函数实现了选取特征，划分数据集，计算得出最好的划分数据集的特征
    numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):        #iterate over all the features
        featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
        uniqueVals = set(featList)       #get a set of unique values
        #去重/集合数据类型与列表类型相似；不同之处在于集合类型中每个值互不相同
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        #得到的所有唯一特征值的熵求和
        infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy
        if (infoGain > bestInfoGain):       #compare this to the best gain so far
            bestInfoGain = infoGain         #if better than current best, set to best
            bestFeature = i
    return bestFeature                      #returns an integer
#返回最好的特征划分的索引值

def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]
#返回了出现次数最多的分类名称

def createTree(dataSet,labels,featLabels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList): 
        return classList[0]#stop splitting when all of the classes are equal
    # 递归函数的第一个停止条件： 类别完全相同
    if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet
        return majorityCnt(classList)
    # 递归函数的第二个停止条件：使用完了所有的特征，仍不能将数据集划分成仅包含唯一类别的标签
    bestFeat = chooseBestFeatureToSplit(dataSet)
    #选取最好的特征
    bestFeatLabel = labels[bestFeat]
    featLabels.append(bestFeatLabel)
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    #清空变量为下一次递归做准备
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]       #copy all of labels, so trees don't mess up existing labels
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels,featLabels)
    return myTree                            
    
# def classify(inputTree,featLabels,testVec):
#     firstStr = list(inputTree.keys())[0]
#     secondDict = inputTree[firstStr]
#     firstStr = next(iter(inputTree))
#     featIndex = featLabels.index(firstStr)
#     key = testVec[featIndex]
#     valueOfFeat = secondDict[key]
#     if isinstance(valueOfFeat, dict):
#         classLabel = classify(valueOfFeat, featLabels, testVec)
#     else: classLabel = valueOfFeat
#     return classLabel

def classify(inputTree, featLabels, testVec):
	firstStr = next(iter(inputTree))														#获取决策树结点
	secondDict = inputTree[firstStr]														#下一个字典
	featIndex = featLabels.index(firstStr)
	for key in secondDict.keys():
		if testVec[featIndex] == key:
			if type(secondDict[key]).__name__ == 'dict':
				classLabel = classify(secondDict[key], featLabels, testVec)
			else: classLabel = secondDict[key]
	return classLabel


def storeTree(inputTree,filename):
    import pickle
    fw = open(filename,'wb')
    pickle.dump(inputTree,fw)
    fw.close()
    
def grabTree(filename):
    import pickle
    fr = open(filename,'rb')
    return pickle.load(fr)

if __name__ == '__main__':
    fr = open('lenses.txt')
    lenses = [inst.strip().split('\t') for inst in fr.readlines()]
    lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']
    featLabels = []
    lensesTree = createTree(lenses, lensesLabels,featLabels)
    # treePlotter.createPlot(lensesTree)
    i = True
    while i:
        print("Please input the message what you want to test")
        x = input("")
        testVec = x.split(" ")
        #testVec = ['normal', 'yes', 'hyper', 'pre']
        result = classify(lensesTree, featLabels, testVec)
        print(result)
        print("")
        print("Play again?  [Y/N]")
        judgement = input("")
        if judgement == 'N':
            i = False

treePlotter完整代码

'''
Created on Oct 14, 2010

@author: Peter Harrington
'''
import matplotlib.pyplot as plt

decisionNode = dict(boxstyle="sawtooth", fc="0.8")
leafNode = dict(boxstyle="round4", fc="0.8")
arrow_args = dict(arrowstyle="<-")
#定义描述树节点的格式

def getNumLeafs(myTree):
    numLeafs = 0
    firstStr = list(myTree.keys())[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':
    #type函数能判断子节点是否为字典类型
            numLeafs += getNumLeafs(secondDict[key])
        else:   numLeafs +=1
    return numLeafs

def getTreeDepth(myTree):
    maxDepth = 0
    firstStr = list(myTree.keys())[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':
            thisDepth = 1 + getTreeDepth(secondDict[key])
        else:   thisDepth = 1
        if thisDepth > maxDepth: maxDepth = thisDepth
    return maxDepth
#以上两个函数说明了如何在python字典类型中存储树的信息

def plotNode(nodeTxt, centerPt, parentPt, nodeType):
    createPlot.ax1.annotate(nodeTxt, xy=parentPt,  xycoords='axes fraction',
#直接再函数名后边加上（.xx，即为函数创建了全局变量.xx）
#| 'axes fraction' | 0,0 是轴域左下角，1,1 是右上角 |指定的是xy的坐标
             xytext=centerPt, textcoords='axes fraction',
#| 'axes fraction' | 0,0 是轴域左下角，1,1 是右上角 |指定的是xytext的坐标
             va="center", ha="center", bbox=nodeType, arrowprops=arrow_args )
# 点注释的位置；与注释框的样式；箭头的样式
def plotMidText(cntrPt, parentPt, txtString):
    xMid = (parentPt[0]-cntrPt[0])/2.0 + cntrPt[0]
    yMid = (parentPt[1]-cntrPt[1])/2.0 + cntrPt[1]
    createPlot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30)
#在父子节点间填充文本信息
def plotTree(myTree, parentPt, nodeTxt):#if the first key tells you what feat was split on
    #plotTree.yOff plotTree.xOff追踪已绘节点位置，以及指向下个节点位置
    numLeafs = getNumLeafs(myTree)  #this determines the x width of this tree
    depth = getTreeDepth(myTree)
    firstStr = list(myTree.keys())[0]     #the text label for this node should be this
    cntrPt = (plotTree.xOff + (1.0 + float(numLeafs))/2.0/plotTree.totalW, plotTree.yOff)
    plotMidText(cntrPt, parentPt, nodeTxt)
    #计算父节点与子节点的中间位置
    plotNode(firstStr, cntrPt, parentPt, decisionNode)
    secondDict = myTree[firstStr]
    plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':#test to see if the nodes are dictonaires, if not they are leaf nodes   
            plotTree(secondDict[key],cntrPt,str(key))        #recursion
        else:   #it's a leaf node print the leaf node
            plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW
            plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), cntrPt, leafNode)
            plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))
    plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD
#if you do get a dictonary you know it's a tree, and the first element will be another dict

def createPlot(inTree):
    fig = plt.figure(1, facecolor='white')
    fig.clf()
    #新建图形清空绘图区
    axprops = dict(xticks=[], yticks=[])
    createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)    #no ticks
    #createPlot.ax1 = plt.subplot(111, frameon=False) #ticks for demo puropses
    plotTree.totalW = float(getNumLeafs(inTree))
    plotTree.totalD = float(getTreeDepth(inTree))
    plotTree.xOff = -0.5/plotTree.totalW; plotTree.yOff = 1.0;
    plotTree(inTree, (0.5,1.0), '')
    plt.show()

# def createPlot():
#    fig = plt.figure(1, facecolor='white')
#    fig.clf()
#    createPlot.ax1 = plt.subplot(111, frameon=False) #ticks for demo puropses
#    plotNode('a decision node', (0.5, 0.1), (0.1, 0.5), decisionNode)
#    plotNode('a leaf node', (0.8, 0.1), (0.3, 0.8), leafNode)
#    plt.show()

def retrieveTree(i):
    listOfTrees =[{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}},
                  {'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: 'no', 1: 'yes'}}, 1: 'no'}}}}
                  ]
    return listOfTrees[i]

#createPlot(thisTree)

线性回归

Logistic回归 ：
- 优点：计算代价不高，易于理解与实现
- 缺点：容易欠拟合，分类精度可能不高
- 适用于数据类型：数值型和标称型数据
- 梯度上升算法的迭代公式：
  - α：称为步长
$w:=w+α▽_wf(w)$
- 梯度下降算法的公式：
$w:=w-α▽_wf(w)$
- 梯度上升用来求函数的最大值；梯度下降用来求函数的最小值
Sigmoid函数：
- 代替亥维赛德阶跃函数（在输入两个类的情况下，上述函数输出0或1）；Sigmoid函数也能处理上述过程，且数学上更易处理；函数公式：
  $σ(z)=1/（1+e^-z）$

随机梯度上升算法：一种在线学习算法（一次仅使用一个样本点来更新回归系数；由于可以在新样本到来之前对分类器进行增量式更新，因此称为在线学习）；相对应的普通的梯度上升算法为一次性处理所有数据被称作是**“批处理”**
处理数据中的缺失值：
- 使用可用特征的均值来填补缺失值
- 使用特殊值来填补缺失值，如：-1
- 忽略有缺失的样本
- 使用相似的样本的均值填补缺失值
- 使用另外的机器学习算法预测缺失值
本章小结

Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数，求解过程可以由最优化算法完成。在最优化算法中，最常用的就是梯度上升算法，而梯度上升算法又可以简化为随机梯度上升算法

局部加权线性回归
Ridge回归
Lasso最小回归系数估计

无监督学习用途：
1. K - 均值
2. 最大期望算法
3. DBSCAN
4. Parzen窗口设计

如何选择合适的算法

如果想要预测目标变量的值，则可以选择监督学习算法，否则可以选择无监督学习算法
确定选择监督学习算法后，需要进一步确定目标变量类型，
- 如果目标变量是离散型，如：是/否、1/2/3、A/B/C或者红/黄/黑等，则可以选择分类算法；
- 如果目标变量是连续的数值，如0.0_{100.00、-999}999或者+∞~ -∞等，则需要选择回归算法
如果不想预测目标的值，则可以选择无监督学习算法。
- 进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求，则使用聚类算法；
- 如果还需要估计数据与每个分组的相似程度，则需要使用密度估计算法。

开发机器学习应用的步骤

收集数据（爬虫、传感器、开源的训练数据）
准备输入数据（此书采用Python的List（附录A））
（可忽略）分析输入数据（人工分析）（确保没有垃圾数据）（基本可以忽略的步骤）
（无监督学习忽略）（不适用于k-近邻算法）训练算法（如果使用无监督学习，由于不存在目标变量值，故而也不需要训练算法）
测试算法（评估算法）（实际运用）
- 对于监督学习：必须已知用于评估算法的目标变量值；
- 对于无监督学习：也必须用其他的评测手段来检验算法的成功率。
- 无论那种情形，如果不满意输出的结果，则跳回第4步改正并测试；但是问题常常与数据的收集与准备有关，这时就必须跳回第1步重新开始
使用算法（应用）

利用AdaBoost(adaptive boosting(自适应boosting))元算法提高分类性能

元算法的思路：类比于：当做出重要决定时，大家可能会考虑吸取多个专家的意见而不只是个人的意见
可能会利用修改后的指标来评价分类器的性能
分类算法各有优缺点，我们可以将不同的分类器组合起来，这种组合结果则称为集成方法或者元算法
优点：
- 泛化错误率低
- 易编码
- 可以应用在大部分分类器上，无参数调整
缺点：
- 对离群点敏感
适用的数据类型：数值型和标称型数据
bagging（自举汇聚算法）：基于数据随机重新抽样的分类器算法
- 是一种将原始数据集选择S次后得到S个新数据集的一种技术
  - 可以利用这一算法来重复训练分类器得到S个分类器
  - 最后，选择分类器投票结果最多的类别作为最后的分类结果
- 随机森林：是先进的bagging算法
  - 一个很好的关于很好的讨论材料为：点击此处
boosting（AdaBoost）：一种类似于bagging的技术
- - bagging中不同的分类器是通过串行训练而获得的
  - boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器
- 其中bagging中分类器权重是相等的，而boosting中的分类器权重并不相等，其中每个权重代表的是其对应分类器在上一轮迭代中的成功度
- 运行过程：
  
  训练数据中的每个样本，并赋予其一个权重，这些权重构成了向量D。一开始，这些权重都初始化为相等值。首先在训练数据上训练出一个弱分类器并计算该分类器的错误率（未正确分类的样本数目 / 所有样本数目），然后在同一数据集上再次训练弱分类器。在分类器的第二次训练当中，将会重新调整样本的权重，其中第一次分对的样本的权重将会降低，而第一次分错的样本的权重将会提高。为了从所有弱分类器中得到最终的分类结果，AdaBoost为每个分类器都分配了一个权重值alpha（α=1/2ln((1-错误率)/错误率)），这些alpha值是基于每个弱分类器的错误率进行计算的。
可以把弱分类器想象成SVM中的一个核函数

预测数值型数据：回归

优点：结果易于理解，计算上不复杂

缺点：对非线性的数据拟合不好

岭回归

简单来说，岭回归就是在矩阵X^{TX上加上一个λI从而使得矩阵非奇异，进而能对X}TX + λI求逆。其中矩阵I是一个mxm的单位矩阵，对角线上元素全为1（岭的由来），其他元素为0.

岭回归用来处理特征数多与样本数的情况

利用 K-均值聚类算法对未标注的数据分组

优点：易于实现

缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。

计算质心-分配-重新计算反复迭代以上过程，直到所有数据点的簇分配结果不再改变为止

利用PCA简化数据

优点：降低数据的复杂性，识别最重要的多个特征

缺点：不一定需要，且可能损失有用信息

利用SVD简化数据

优点：简化数据，去除噪声，提高算法的结果

缺点：数据的转换可能难以理解

适用数据类型：数值型数据

SVD_用于图像压缩

压缩数据集 = 原始数据集 - （噪声 + 冗余信息），其中,SVD从噪声中提取相关特征

矩阵进行SVD处理 => 可以将数据压缩到若干概念中

SVD => 高维映射到低维（矩阵）

SVD是矩阵分解的一种类型

例如：SVD会得到两个矩阵：U和V^{T：其中，V}T会反映到用户上，U会反应到数据集上

例如：SVD将数据集矩阵Data分解成三个矩阵。其中，若Data为m x n矩阵，那么U为m x m矩阵（U为A的左奇异向量）；Σ为mxn（Σ为A的奇异值）；V^T为n x n（V^T为A的右奇异向量）；其中，Σ只有对角元素（其值为奇异值）（从大到小排列），其余元素为零。

Data * Data^T特征值的平方根 = Σ的特征值 => 其对映Data的奇异值；

其中Data的奇异值与Σ的奇异值称为数据的主要特征

基于物品相似度还是基于用户相似度？

如果用户数目很多，倾向于使用基于物品相似度的计算方法

tile()

tile([0,0],(2,1))#在列方向上重复[0,0]1次，行2次
'''
output >>> 
			array([[0, 0],
      			   [0, 0]])	
'''
tile([0,0],(1,3))#在列方向上重复[0,0]3次，行1次    
'''
output >>>
			array([[0, 0, 0, 0, 0, 0]])
'''

.sum(axis=1)

我们平时用的sum应该是默认的axis=0 就是普通的相加，而当加入axis=1以后就是将一个矩阵的每一行向量相加

c = np.array([[0, 2, 1], [3, 5, 6], [0, 1, 1]])
print c.sum()
print c.sum(axis=0)
print c.sum(axis=1)
#结果分别是：19, [3 8 8], [ 3 14  2]
#axis=0, 表示列。
#axis=1, 表示行。

Python 字典(Dictionary) get()

get()方法语法：

dict.get(key, default=None)

参数：

key ：字典中要查找的键。
default ：如果指定键的值不存在时，返回该默认值值。

返回值：返回指定键的值，如果值不在字典中返回默认值None。

#!/usr/bin/python
dict = {'Name': 'Zara', 'Age': 27}

print "Value : %s" %  dict.get('Age')
print "Value : %s" %  dict.get('Sex', "Never")

'''
output >>>
			Value : 27
			Value : Never
'''

items()与iteritems()

字典的items方法作用：是可以将字典中的所有项，以列表方式返回。因为字典是无序的，所以用items方法返回字典的所有项，也是没有顺序的。

字典的iteritems方法作用：与items方法相比作用大致相同，只是它的返回值不是列表，而是一个迭代器。

iteritems()方法在需要迭代结果的时候使用最适合，而且它的工作效率非常的高。

iteritems()在python3中已经废除，使用python3的同学直接使用items()就OK

python sorted()

sorted() 函数对所有可迭代的对象进行排序操作。

sort 与 sorted 区别：

sort 是应用在 list 上的方法，sorted 可以对所有可迭代的对象进行排序操作。
list 的 sort 方法返回的是对已经存在的列表进行操作，无返回值，而内建函数 sorted 方法返回的是一个新的 list，而不是在原来的基础上进行的操作。

sorted 语法：

sorted(iterable[, cmp[, key[, reverse]]])

参数说明：

iterable – 可迭代对象。
cmp – 比较的函数，这个具有两个参数，参数的值都是从可迭代对象中取出，此函数必须遵守的规则为，大于则返回1，小于则返回-1，等于则返回0。
key – 主要是用来进行比较的元素，只有一个参数，具体的函数的参数就是取自于可迭代对象中，指定可迭代对象中的一个元素来进行排序。
reverse – 排序规则，reverse = True 降序 ， reverse = False 升序（默认）。

key 和 reverse 比一个等价的 cmp 函数处理速度要快。这是因为对于每个列表元素，cmp 都会被调用多次，而 key 和 reverse 只被调用一次

python元组

Python的元组与列表类似，不同之处在于元组的元素不能修改。

元组使用小括号，列表使用方括号。

元组创建很简单，只需要在括号中添加元素，并使用逗号隔开即可。

使用参考：http://www.runoob.com/python/python-tuples.html

python的extend()与append()

a = [1,2,3]
b = [4,5,6]
a.append(b)
print(a)
print("")
a.extend(b)
print(a)

'''
output >>>
			[1, 2, 3, [4, 5, 6]]

			[1, 2, 3, [4, 5, 6], 4, 5, 6]
'''

python字典.keys()

描述：Python 字典(Dictionary) keys() 函数以列表返回一个字典所有的键。

语法：

dict.keys()

实例：

#!/usr/bin/python

dict = {'Name': 'Zara', 'Age': 7}

print "Value : %s" %  dict.keys()


#output >>>
			Value : ['Age', 'Name']

python列表推导式

eg:

#生成一个0-9的列表
si=[x for x in range(10)]

python x[:] x[::]用法总结

X[:,0]
#　二维数组取第１维所有数据
X[:,1]
# 第２列
X[0,:]
# 第１行
Ｘ[3,:]
# 第三行
Ｘ[1:4,:]
# 第一二三行

python3.6 TypeError: ‘dict_keys’ object does not support indexing

在python2中

firstStr = myTree.keys()[0]

在python3中

firstStr = list(myTree.keys())[0]

python pickle版本问题

def storeTree(inputTree,filename):
    import pickle
    fw = open(filename,'w')
    pickle.dump(inputTree,fw)
    fw.close()
    
def grabTree(filename):
    import pickle
    fr = open(filename)
    return pickle.load(fr)

改为：

def storeTree(inputTree,filename):
    import pickle
    fw = open(filename,'wb')
    pickle.dump(inputTree,fw)
    fw.close()
    
def grabTree(filename):
    import pickle
    fr = open(filename,'rb')
    return pickle.load(fr)

AttributeError: ‘dict’ object has no attribute ‘iteritems’

Python3.5中：iteritems变为items

python切割字符串

python的string.split()
- 缺点：标点字符也被当成了词的一部分，可以使用正则表示式来切分句子

myset = 'With Jose out of town, \
do you want to meet once in a while to keep things going and \
do some interesting stuff?'
print(myset.split())

'''
output >>>
			['With', 'Jose', 'out', 'of', 'town,', 'do', 'you', 'want', 'to', 'meet', 				'once', 'in', 'a', 'while', 'to', 'keep', 'things', 'going', 'and', 'do', 				'some', 'interesting', 'stuff?']

'''

正则表示式切分字符串

import re
myset = 'With Jose out of town, \
do you want to meet once in a while to keep things going and \
do some interesting stuff?'
regEx = re.compile('\\W*')
print(regEx.split(myset))

tok for tok in regEx.split(myset) if len(tok) > 0
#删除空格
tok.lower() for tok in regEx.split(myset) if len(tok) > 0
#大写转小写

numpy—arange()

使用一个参数，看看range和arange有什么表现。range返回从0到4的5个数构成的list，而arange返回一个array对象。不过他们的元素都是一样的。

>>> range(1,5)
[1,2,3,4]
>>> np.arange(1,5)
array([1,2,3,4])
>>>

假如我们输入三个参数呢，第三个参数就成了步长：

>>> range(1,10,2)
[1,3,5,7,9]
>>> np.arange(1,10,2)
array([1,3,5,7,9])
>>>

numpy的getA()

mat.getA()

将自身矩阵变量转化为ndarray类型的变量。

等价于np.asarray(self)

numpy中array和asarray的区别

array和asarray都可以将结构数据转化为ndarray，但是主要区别就是当数据源是ndarray时，array仍然会copy出一个副本，占用新的内存，但asarray不会。

你可能感兴趣的:(笔记)

小白入门笔记：CMake编译过程详解 3Ｄ视觉工坊 3D视觉从入门到精通笔记 c++开发语言
作者丨SkyShaw@知乎点击进入—>3D视觉工坊学习交流群1、你好，CMake1.1CMake是什么？我觉得针对这个问题最简单（但不是最正确的）的回答应该是：“CMake是服务于将源代111码转换成可执行的文件的工具”。将源码转换为可工作应用会比较神奇。不仅是效果本身(即设计并赋予生命的工作机制)，而且是将理念付诸于过程的行为本身。CMake本身是一个工具集，由五个可执行的程序组成：cmake、
LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和
Java零基础入门笔记：(3)程序控制 Sherlock Ma Java Java入门 java 笔记开发语言程序人生学习方法改行学it 跳槽
前言本笔记是学习狂神的java教程，建议配合视频，学习体验更佳。【狂神说Java】Java零基础学习视频通俗易懂_哔哩哔哩_bilibiliScanner对象之前我们学的基本语法中我们并没有实现程序和人的交互，但是Java给我们提供了这样一个工具类，我们可以获取用户的输入。Scanner类是Java中的一个实用工具类，位于java.util包中，主要用于从用户输入、文件或其他输入源中读取数据。它提
Java零基础入门笔记：(4)方法 Sherlock Ma Java Java入门 java 笔记开发语言学习方法改行学it 跳槽程序人生
前言本笔记是学习狂神的java教程，建议配合视频，学习体验更佳。【狂神说Java】Java零基础学习视频通俗易懂_哔哩哔哩_bilibili第1-2章：Java零基础入门笔记：(1-2)入门（简介、基础知识）-CSDN博客第3章：Java零基础入门笔记：(3)程序控制-CSDN博客--方法何谓方法Java方法是语句的集合，它们在一起执行一个功能。方法是解决一类问题的步骤的有序组合方法包含于类或对象
江科大51单片机学习笔记（1）悠闲漫步者 51单片机 51单片机学习笔记
点亮一个LEDLED介绍中文名：发光二极管外文名：LightEmittingDiode简称：LED用途：照明、广告灯、指引灯、屏幕。如果想让LED发光，需要让发光二极管两端产生电位差。LED模块中串并联电阻是为了保护电路（限流）电阻的运算(上图电阻中所标注)：102(1010^2=1000=1K)473(4710^3=47000=47K)1001(100*10^1=1000=1K)VCC：电源正极
学习疯狂JAVA讲义——运算符与位运算符红鲤鱼与绿鲤鱼与哈士奇学习 java 开发语言
笔记备忘，方便以后忘了查询（如有错误，敬请指点）★变量：-变量的定义、赋值(简单值、表达式）-8个基本类型：byte、short、int、long、float、double、char、boolean★运算符▲算数运算符(7个)：+、-、*、/、%++：将单个变量的值加1放在变量之后：表示先用变量的值，再自加放在变量之前：表示先自加，再用变量的值--：将单个变量的值减1放在变量之后：表示先用变量的值
如何连接别人的redis服务器吗? 黑客KKKing 网络安全网络工程师计算机电脑 web安全网络安全
电脑怎么连接别的网络“笔记本电脑无法连接无线网络怎么办？”，说到这个问题，小编对这样类型的问题还真的回答了不少了，无非就那么几种情况，一一的排除，就找到问题的所在问题了，那么怎么排除或者解决呢？下面电脑知识吧的小编就简单分享一下吧：解决分析思路:手机可以可以连接到无线网络，说明无线信号没有问题，路由器应该也没问题，问题更大的可能是在电脑的设置、首先，驱动程序是否正常安装、检查这个，通常可以右键“我
electron学习笔记 weixin_46452138 electron 学习 javascript
electron个人学习笔记一、electron简单了解Electron是一个跨平台的、基于Web前端技术的桌面GUI应用程序开发框架。可以使用HTML、CSS来绘制界面和控制布局，使用JavaScript来控制用户行为和业务逻辑，使用Node.js来通信、处理音频视频等，几乎所有的Web前端技术和框架（jQuery、Vue、React、Angular等）都可以应用到桌面GUI开发中。二、开发前基
STL-vector,set,string,map,queue,priority_queue,stack,pair算法笔记 cloudless_sky STL c++stl
STL:standardtemplatelibrary标准模板库，封装了很多实用的容器。（一）vectorvector是一个容器。是个类。底层数据结构是数组。vector:向量，变长数组，即“长度根据需要而自动改变的数组”。使用前提：#includeusingnamespacestd;1、vector定义vectorname;以上是长度可以根据需要变化的一位数组，typename可以是任何基本类型
Python学习笔记 - Python数据类型 yunfan188 #Python学习笔记 Python Python数据类型
前言在Python语言中，所有的数据类型都是类，每一个变量都是类的“实例”。没有基本数据类型的概念，所以整数、浮点数和字符串也都是类。Python有6种标准数据类型：数字、字符串、列表、元组、集合和字典，而列表、元组、集合和字典可以保存多项数据，它们每一个都是一种数据结构，因此可以称这四种为“数据结构”类型。本文我们主要介绍数字和字符串类型。一、数字类型Python数字类型有4种：整数类型、浮点数
《Spring实战》读书笔记-第3章高级装配 2401_89790580 spring oracle 数据库
Spring表达式语言在上一章中，我们看到了一些最为核心的bean装配技术。你可能会发现上一章学到的知识有很大的用处。但是，bean装配所涉及的领域并不仅仅局限于上一章所学习到的内容。Spring提供了多种技巧，借助它们可以实现更为高级的bean装配功能。在本章中，我们将会深入介绍一些这样的高级技术。本章中所介绍的技术也许你不会天天都用到，但这并不意味着它们的价值会因此而降低。3.1环境与prof
React学习笔记04 充气大锤 React学习笔记 react.js 学习笔记 vue.js 前端
一、理解组件通信组件通信就是组件间的数据传递，根据组件嵌套关系的不同，有不同的通信方法。在Vue中组件通信是我们组件间传递数据的一种最常用的方法，我们在Vue中使用props来实现父传子，用$emit实现子传父，在React中如何实现呢？1.1、父传子：1、父组件传递数据：在子组件标签身上绑定属性2、子组件接收数据：props的参数functionSon(props){return{props.n
【深度学习入门：基于python的理论与实现读书笔记】第五章误差反向传播法 Bin二叉深度学习 python 人工智能
目录摘要第五章误差反向传播法简单层的实现乘法层的实现加法层的实现激活函数层的实现ReLU层Sigmoid层Affine层和Softmax层的实现Affine层Softmax-with-Loss层误差反向传播法的实现摘要该文章简要介绍了神经网络的误差反向传播法，省去了大量的推理过程，重点讲述了神经网络误差反向传播法的代码实现。第五章误差反向传播法反向传播就是从后到前局部计算偏导数并将其与从上游传来的
【网络安全 | 开发】全网最详细Go笔记（3w字总结）秋说 go 网络安全
写在前面鉴于全网Go语言知识点的总结分散难懂、良莠不齐，为了避免初学者少走弯路，更好更快地掌握Go知识，博主特地对其总结分享。文章目录写在前面Go语言概念语言特色Go语言用途Go语言环境安装Go语言基础组成GO语言基础语法Go标记行分隔符字符串连接空格格式化字符串Go语言数据类型Go语言变量局部变量和全局变量Go语言常量Go语言运算符Go语言条件语句Go语言循环语句Go语言函数Go语言数组Go语言
使用 LLM 实现的 RSS 个性信息推送，效果实测 day2
每天早上，我都会点开coze推送的RSS邮件，经常能找到感兴趣的有用信息。因为铺天盖地的deepseek，蹭热点的文章很多，我往往只瞄一眼标题今天出现了这么3条信息，实在开心嵌入式那条，原因是我最近笔记里写了nRF的开发配置，我正在被zephyr开发工具链折磨。工作记忆那一条，跟我最近《学习的门道》读书笔记有关隐私优先那一条，跟我跟xBeta讨论笔记工具有关每天推送的邮件让人期待的感觉真好。
r720换固态硬盘后如何重装系统_联想拯救者 R720 换装三星 960PRO 512G固态硬盘、重做系统与测试... weixin_39583222
联想拯救者R720换装三星960PRO512G固态硬盘、重做系统与测试2017-07-2410:00:0031点赞156收藏86评论R屏、SSD、机械键盘乃近10年以来用过了就再也用不回去的三项败家科技.....用的第一块固态硬盘是英睿达M550120G，当时是换到笔记本里面的，第一次用的时候，爽呆了！感觉整个世界都起飞了！后来给台式机装了850Pro256G，又装了一块英睿达MX200250G，
读书笔记 - 代码整洁之道：程序员的职业素养天罚神读书笔记 java
读书笔记-代码整洁之道：程序员的职业素养第1章职业道德了解你的领域，每个专业软件开发人员必须精通的事项坚持学习练习辅导第2章说“不”对抗角色高风险时刻要有团队精神试试看消极对抗说"是"的成本如何写出好代码第3章说“是”承诺用语承诺识别缺乏承诺的征兆坚守原则第4章编码不要在疲劳的时候写代码不要在焦虑的时候写代码理性应对中断如何应对阻塞状态关于调试保持好节奏进度延迟加班帮助帮助他人接受他人的帮助辅导定
学习“Kotlin编程指南”笔记飞龙在地89 kotlin 笔记学习
第9章标准库函数1、apply以this作为上下文对象，返回接收者。//例如varp=people.apply{this.name}//p是people2、let以it作为上下文对象，返回lambda最后一行结果值。//例如varp=people.let{this.name}//p是name的值3、run以this作为上下文对象，不返回接收者，而是跟let一样返回lambda最后一行结果值。//例
联想拯救者R720重装Win10系统的正确姿势 chuigankeng6995 操作系统
2017年最火爆的笔记本子当属联想拯救者R720,很多人用它玩吃鸡游戏，这款机型购买时，有的选的是无固态版本,也有的自行加装固态，也有的买来时就是固态+机械双硬盘。问题一：加装固态的话，必须选择M.2接口NVMe协议的SSD，注意不是所有M.2接口的固态都支持，比如M.2接口走SATA协议的不支持。问题二：加装完固态，装系统或是进U盘PE找不到固态(检测不到固态)，这是什么问题？上面说了，如果M2
简化云上操作，阿里云客户端——您的云端全能助手阿里云CloudOps 云助手阿里云云计算服务器运维自动化
背景当您创建了云服务器或容器实例之后，以下操作往往是非常常见的：连接并登陆到服务器，大展身手一番，比如配置基础开发环境、部署应用服务、查看各种性能指标等等；可见连接并登陆到服务器是多么高频而基础的操作。而在使用业界通用的登陆工具时，这样的场景是否熟悉。场景一登陆密码忘了，试了几个常用的密码都是错的，奔溃啊。还好我吃一堑，长一智，把每台实例的密码经过加密算法加密后，记在了宝贝笔记本上，并放在了神秘加
读书笔记 - 修改代码的艺术天罚神读书笔记 java
读书笔记-修改代码的艺术第1章修改软件第2章带着反馈工作系统变更方式反馈方式遗留代码修改方法第3章感知和分离伪协作程序模拟对象第4章接缝模型接缝第5章工具自动化重构工具单元测试用具第6章时间紧迫，但必须修改新生方法（SproutMethod）新生类（SproutClass）包装方法包装类装饰器模式第7章永远都无法完成的修改第8章如何添加新特性测试驱动开发测试驱动开发使用了下面这样的步骤：对于遗留代
笔记：DataSphere Studio安装部署流程右边com Java 大数据
一、标准版部署标准版：有一定的安装难度，体现在Hadoop、Hive和Spark版本不同时，可能需要重新编译，可能会出现包冲突问题。适合于试用和生产使用，2~3小时即可部署起来。支持的功能有：数据开发IDE-Scriptis工作流实时执行信号功能和邮件功能数据可视化-Visualis数据质量-Qualitis(单机版)工作流定时调度-Azkaban(单机版)Linkis管理台二、基础环境准备2.1
Redis基础笔记 JustGopher redis 笔记 java
一、基础知识连接方式CLI(CommandLineInterface)API(ApplicationProgrammingInterface)GUI(GraphicalUserInterface)启动redis-server连接到Redis（RedisCLIClient）redisredis-clitelnet127.0.0.16379退出quit/exit查看过期时间TTLkey设置过期时间ex
《Operating System Concepts》阅读笔记：p41-p49 codists 读书笔记操作系统 OS python
《OperatingSystemConcepts》学习第8天，p41-p49总结，总计9页。一、技术总结1.peer-to-peer(P2P)(1)定义P2PisAmodeofdistributedcomputinginwhichallnodesactasbothclientsofothernodesandserverstoothernodes.(2)示例Napster、Gnutella、Skyp
《Operating System Concepts》阅读笔记：p2-p8 codists 读书笔记 system python
《OperatingSystemConcepts》学习第2天，p2-p8总结，总计7页。一、技术总结1.operatingsystemAnoperatingsystemissoftwarethatmanagesacomputer’shardware。2.systembusdatabus,addressbus,controlbus统称为systembus。二、英语总结(生词：5)1.myriad(1
《Operating System Concepts》阅读笔记：p17-p25 codists 读书笔记 OS 操作系统
《OperatingSystemConcepts》学习第5天，p17-p25总结，总计9页。一、技术总结1.计算机系统的组成结构(1)CPU—Thehardwarethatexecutesinstructions.(2)Processor—AphysicalchipthatcontainsoneormoreCPUs.(3)Core—ThebasiccomputationunitoftheCPU.(
《Operating System Concepts》阅读笔记：p26-p33 codists 读书笔记 OS 操作系统
《OperatingSystemConcepts》学习第6天，p26-p33总结，总计8页。一、技术总结timer(1)为什么设置timerWemustensurethattheoperatingsystemmaintainscontrolovertheCPU.Wecannotallowauserprogramtogetstuckinaninfinitelooportofailtocallsyst
《Operating System Concepts》阅读笔记：p1-p1 codists 读书笔记 system
《OperatingSystemConcepts》学习第1天，p1-p1总结，总计1页。一、技术总结无。二、英语总结(生词：1)1.intermediary(1)intermediary:inter-(“between,among”)+medius(“middle”)c.intermediaryoriginallyreferredtosomethingorsomeonethatis“inthemi
Effective Java学习笔记 lucky。 Java学习 java
静态工厂方法考虑使用静态工厂方法代替构造静态工厂方法与构造器不同的第一优势在于，它们有名字第二个优势，不用每次被调用时都创建新对象第三个优势，可以返回原返回类型的子类第四个优势，在创建带泛型的实例时，能使代码变得简洁（jdk1.8已经解决）除此之外可以有多个参数相同但名称不同的工厂方法可以减少对外暴露的属性多了一层控制，方便统一修改Java中，获得一个类实例最简单的方法就是使用new关键字，通过构
JavaWEB学习笔记2（自用，自整理）发际线码农 web java
笔记根据“尚硅谷”JavaWEB教学视频以及老师课后学习资料整理，若有错误以老师为准。笔记是博主一字一字亲手码出来的，由于自己还是学习阶段，本质还是在模仿的基础上加入自己的拙见。所以笔记会有很多地方和老师的资料有雷同，如有侵权，请大胆联系博主删除！！！因为自己的原因看到剩100集左右没有继续看下去，笔记存放时间有点久，有的图失效了，如果之后又时间博主尽量补上这个坑。JavaWEB学习笔记7、Ser
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str