Mingjoy

机器学习笔记-人工神经网络（artificial neural networks）

目录

人工神经网络（ANN）

引言

感知器

什么是感知器？

感知器的例子

权重和阈值

多层前馈神经网络

网络结构

正向传播

反向传播（Error Back Propagation，BP算法）

后话：深度学习、神经网络、机器学习、人工智能的关系

深度学习、机器学习、人工智能

深度学习、神经网络

reference

人工神经网络（ANN）

引言

人的大脑由大约 800 亿个神经元组成，每个神经元通过突触与其他神经元相连接，接收这些神经元传来的电信号和化学信号，对信号汇总处理之后输出到其他神经元。大脑通过神经元之间的协作来完成它的功能，神经元之间的连接关系是在进化过程中以及生长发育、长期的学习、对外界环境的剌激反馈中建立起来的。
人工神经网络是对这种机制的简单模拟它由多个相互连接的神经元构成，这些神经元从其他相连的神经元接收输入数据’，通过计算产生输出数据，这些输出数据可能会送入其神经元继续处理。
人工神经网络应用广泛。除了用于模式识别之外，它还可以用于求解函数的极值、自动控制等问题到目前为止有种不同结构的神经网络，典型的有多层前馈型神经网络（可称为全连接神经网络）、卷积神经网络（CNN)、循环神经网络（RNN）等。
神经网络是一种很古老的算法，它最初产生的目的是制造能模拟大脑的机器。神经网络逐渐兴起于二十世纪八九十年代，应用得非常广泛。但由于各种原因，在 90年代的后期应用减少了（期间SVM流行）。但是最近，神经网络又东山再起了。其中一个原因是：神经网络是计算量有些偏大的算法。然而大概由于近些年计算机的运行速度变快，才足以真正运行起大规模的神经网络。正是由于这个原因和其他一些我们后面会讨论到的技术因素，如今的神经网络对于许多应用来说是最先进的技术。

感知器

什么是感知器？

历史上，科学家一直希望模拟人的大脑，造出可以思考的机器。人为什么能够思考？科学家发现，原因在于人体的神经网络。

典型的神经元结构示意图
1、外部刺激通过神经末梢，转化为电信号，转导到神经细胞（又叫神经元）。
2、无数神经元构成神经中枢。
3、神经中枢综合各种信号，做出判断。
4、人体根据神经中枢的指令，对外部刺激做出反应。

既然思考的基础是神经元，如果能够"人造神经元"（artificial neuron），就能组成人工神经网络，模拟思考。上个世纪六十年代，提出了最早的"人造神经元"模型，叫做"感知器"（perceptron），直到今天还在用。

M-P神经元模型
上图的圆圈就代表一个感知器。它接受多个输入（x1，x2，x3...），产生一个输出（output），好比神经末梢感受各种外部环境的变化，最后产生电信号。

为了简化模型，我们约定每种输入只有两种可能：1 或 0。如果所有输入都是1，表示各种条件都成立，输出就是1；如果所有输入都是0，表示条件都不成立，输出就是0。

感知器的例子

下面来看一个例子。大山准备周末去杭州乐园玩，但是还拿不定主意。
他决定考虑三个因素。

1、天气(x1）：周末是否晴天？
2、同伴(x2)：能否找到人一起去？
3、价格(x3)：门票是否可承受？1

这就构成一个感知器。上面三个因素就是外部输入，最后的决定就是感知器的输出。如果三个因素都是 Yes（使用1表示），输出就是1（去参观）；如果都是 No（使用0表示），输出就是0（不去参观）。

权重和阈值

看到这里，你肯定会问：如果某些因素成立，另一些因素不成立，输出是什么？比如，周末是好天气，门票也不贵，但是大山找不到同伴，他还要不要去参观呢？

现实中，各种因素很少具有同等重要性：某些因素是决定性因素，另一些因素是次要因素。因此，可以给这些因素指定权重（weight），代表它们不同的重要性。

天气：权重为8

同伴：权重为4

价格：权重为4

上面的权重表示，天气是决定性因素，同伴和价格都是次要因素。

如果三个因素都为1，它们乘以权重的总和就是 8 + 4 + 4 = 16。如果天气和价格因素为1，同伴因素为0，总和就变为 8 + 0 + 4 = 12。

这时，还需要指定一个阈值（threshold）。如果总和大于阈值，感知器输出1，否则输出0。假定阈值为8，那么 12 > 8，小明决定去参观。阈值的高低代表了意愿的强烈，阈值越低就表示越想去，越高就越不想去。

上面的决策过程，使用数学表达如下。

上面公式中，x表示各种外部因素，w表示对应的权重。

多层前馈神经网络

网络结构

用于分类题时，神网络一般有多个层。第一层为输入层，对应输入向量，神经元的数量等于特征向量的维数，这个层不对数据进行处理，只是将输入向量传入下一层中进行计算。中间为隐含层，可能很多层（通常将除输入层、输出层之外的神经网络层都视为隐含层），最后一层是输出层，神经元的数量等于要分类的类别数，输入层的输入值用来做分类预测。

举个栗子！

一个简单的神经网络

由三层网络构成：

第一层：输入层（input）对应输入向量x,有3个神经元，写成分向量形式即（x1,x2,x3），它们对数据不进行任何处理，直接送到下一层。

第二层：隐含层（hidden）有4个神经元，接受数据为x,输出向量为y=（y1,y2,y3,y4）

第三层：输出层（output）接受数据为y,输出向量为z=（z1,z2)

第一层到第二层的权重矩阵为 $W^\left ( 1 \right )$ ，第二层到第三层的权重矩阵为 $W^\left ( 2 \right )$ 。权重矩阵的每一行为一个权重向量，是上一层所有神经元到本层某一个神经元的连接权重，这里的上标表示层数。

正向传播

下面把这个简单的例子推广到更一般的情况。假设神经网络的输入是n维向量x ，输出是m维向量y 。

它实现了如下向量到向量的映射： ${\color{Red} R ^n\rightarrow {} R ^m}$

x=(x1,x2,...,xn)

y=(y1,x2,...,ym)

把这函数记为

用于分类问题时，比较输出向量y中每个分量y1,x2,...,ym的大小，求其最大值，最大值对应的分量下标即为分类的结果。用于回归问题时，直接将输出向量作为回归值。

神经网络第i层的变换写成矩阵和向量形式为：

${\color{Red} u^{(i)} = W^{(i)}x^{i-1}+b^{i}}$

${\color{Red} x^{i}=f(u^{(i)})}$

${\color{Red} x^{i-1}}$ 为前一层（第 i- 1层）的输出向量，也是本层接收的输入向量；

${\color{Red} W^{i}}$ 为本层神经元和上一层神经元的连接权重矩阵，是一个 $S_{t}\times S_{t-1}$ 的矩阵，其中, $S_{t}$ 为本层神经元数, $S_{t-1}$ 为前一层神经元数量， $W^{i}$ 的每个行为本层个神经元与上一层所有神经元的权重向量；

${\color{Red} b^{i}}$ 为本层的偏置向量，是一个 $S_{t}$ 维的列向量；

激活函数f(x)分别作用于输入向量的每一个分量，产生一个向量输出。

在计算网络输出值的时候，从输入层开始，对于每层都用上面的两个公式进行计算，最后得到神经网络的输出，这个过程称为正向传播，用于神经网络的预测阶段，以及训练时的正向传播阶段。

下面给出正向传播算法的流程。假设神经网络有m层，第一层为输入层，输入向量为x ，第i层的权重矩阵为 $W^{i}}$ 偏置向量为 $b^{i}$ 。

正向传播算法的流程为：

设置 $x^{i}=x$

循环 i=2,3 ，…，m，对每

计算 $u^{(i)} = W^{(i)}x^{i-1}+b^{i}$

计算 $x^{i}=f(u^{(i)})$

结束循环

输出向量 $x^{(m)}$ ，作为神经网络的预测值

前向传播理解起来并不难，就是把前一层的输出作为下一层的输入，循环，直到最后一层的输出层。大家应该疑惑那么每层间的权重矩阵 $W^{i}}$ 、偏置向量 $b^{i}$ 、激活函数阈值是何如确定的？

神经网络的学习过程，就是根据训练数据来调整神经元之间的“连接权”、偏置值以及每个功能神经元的阈值；换而言之，神经网络“学”到的东西就蕴含在这三种参数之中。

回答了学什么，那是怎么学？往下看

反向传播（Error Back Propagation，BP算法）

PS：我认为BP算法是神经网络最难啃的一块骨头，不过，也得啃下它。如今大佬博客如此之多，总能找到几个解释得好的教程，我拿过来消化融合成自己易懂的便是。

核心问题：解决神经网络参数求导问题
源自多元函数的链式法则（链式法则：17世纪）
与梯度下降法配合，完成网络的训练

bp算法历史概述：1986，Nature

深度学习之父Hinton

可能你还觉得BP算法太玄乎了，我们还举上面三层网络来说。

前面我说过了：前向传播神经网络每层的权重矩阵 $W^{i}}$ 、偏置向量 $b^{i}$ 、激活函数阈值我们是不知道的，它们是我们要“学习”得到的东东（即参数）。在应用时，它们初始化的值往往是随机赋予的，所以说，我们使用前向传播进行预测值就会和真实值有偏差，而BP算法就是去纠正这个偏差的！那如何纠正纠偏差？答案：Back Propagation（BP算法）。

BP算法推导内容较多，故放到专门的一篇文章中（点我）。

后话：深度学习、神经网络、机器学习、人工智能的关系

深度学习、机器学习、人工智能

简单来说：

深度学习是机器学习的一个分支(最重要的分支)

机器学习是人工智能的一个分支

深度学习、神经网络

深度学习的概念源于人工神经网络的研究，但是并不完全等于传统神经网络。

不过在叫法上，很多深度学习算法中都会包含”神经网络”这个词，比如：卷积神经网络、循环神经网络。

所以，深度学习可以说是在传统神经网络基础上的升级，约等于神经网络。

reference

机器学习与应用（雷明）第九章

机器学习（周志华）第五章

吴恩达老师机器学习个人笔记完整版

深度学习 – Deep learning | DL

你可能感兴趣的:(机器学习笔记,#分类算法)

分类算法可视化方法 dundunmm 数据挖掘分类数据挖掘人工智能可视化
可视化方法可以用于帮助理解分类算法的决策边界、性能和在不同数据集上的行为。下面列举几个常见的可视化方法。1.决策边界可视化这种方法用于可视化不同分类算法在二维特征空间中如何分隔不同类别。对于理解决策树、支持向量机（SVM）、逻辑回归和k近邻（k-NN）等模型的行为非常有用。importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasets
【机器学习】朴素贝叶斯可口的冰可乐机器学习机器学习概率论
3.朴素贝叶斯素贝叶斯算法（NaiveBayes）是一种基于贝叶斯定理的简单而有效的分类算法。其“朴素”之处在于假设各特征之间相互独立，即在给定类别的条件下，各个特征是独立的。尽管这一假设在实际中不一定成立，合理的平滑技术和数据预处理仍能使其在许多任务中表现良好。优点：速度快：由于朴素贝叶斯仅需计算简单的概率，训练和预测的速度非常快。适用于高维数据：即使在特征数量多的情况下，朴素贝叶斯仍然表现良好
python 连续比较_python实现连续变量最优分箱详解--CART算法 weixin_39834788 python 连续比较
关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A.无监督：(1)等宽(2)等频(3)聚类B.有监督：(1)卡方分箱法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法(3)信用评分建模的IV最大化分箱等本篇使用python，基于CART算法对连续变量进行最优分箱由于CART是决策树分类算法，所以相当于是单变量决策树分类。简单介绍下理论：CART是二叉树，每次仅进
自然语言处理系列五十一》文本分类算法》Python快速文本分类器FastText 陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据自然语言处理分类 python chatgpt 人工智能 ai 机器学习
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理FastText和Word2vec的区别FastText代码实战总结自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理自然语言处理(N
李宏毅机器学习笔记——反向传播算法小陈phd 机器学习机器学习算法神经网络
反向传播算法反向传播（Backpropagation）是一种用于训练人工神经网络的算法，它通过计算损失函数相对于网络中每个参数的梯度来更新这些参数，从而最小化损失函数。反向传播是深度学习中最重要的算法之一，通常与梯度下降等优化算法结合使用。反向传播的基本原理反向传播的核心思想是利用链式法则（ChainRule）来高效地计算损失函数相对于每个参数的梯度。以下是反向传播的基本步骤：前向传播（Forwa
Logistic分类算法原理及Python实践 doublexiao79 数据分析与挖掘分类 python 数据挖掘
一、Logistic分类算法原理Logistic分类算法，也称为逻辑回归（LogisticRegression），是机器学习中的一种经典分类算法，主要用于解决二分类问题。其原理基于线性回归和逻辑函数（Sigmoid函数）的组合，能够将输入特征的线性组合映射到一个概率范围内，从而进行分类预测。以下是Logistic分类算法的主要原理：1.线性组合首先，对于输入的n个特征，我们将其表示为一个n维的列向
自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理陈敬雷-充电了么-CEO兼CTO 算法大数据人工智能算法自然语言处理分类 nlp ai 人工智能 chatgpt
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机》代码实战总结自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机在文本分类的应用场景中，相比其他机器学习算法有更好的效果。下面介绍其原理，并用SparkMLlib机器
【ShuQiHere】从零开始实现逻辑回归：深入理解反向传播与梯度下降 ShuQiHere 代码武士的机器学习秘传逻辑回归算法机器学习
【ShuQiHere】逻辑回归是机器学习中一个经典的分类算法，尽管它的名字中带有“回归”，但它的主要用途是处理二分类问题。逻辑回归通过一个逻辑函数（Sigmoid函数）将输入特征映射到一个概率值上，然后根据这个概率值进行分类。本文将带你从零开始一步步实现逻辑回归，并深入探讨背后的核心算法——反向传播与梯度下降。逻辑回归的数学基础逻辑回归的目标是找到一个逻辑函数，能够将输入特征映射到一个(0,1)之
每天一个数据分析题（四百九十五）- 分类算法跟着紫枫学姐学CDA 数据分析题库数据分析分类数据挖掘
下面有关分类算法的准确率，查全率，F1值的描述，错误的是？A.准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率B.查全率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率C.正确率、查全率和F值取值都在0和1之间，数值越接近0，查准率或查全率就越高D.为了解决准确率和查全率冲突问题，引入了F1分数数据分析认证考试介绍：点击进入题目来源于CDA
机器学习中的逻辑回归极客李华机器学习机器学习逻辑回归人工智能
机器学习中的逻辑回归简介逻辑回归是机器学习领域中一种用于二分类问题的常用算法。尽管其名字中包含"回归"一词，但实际上，逻辑回归是一种分类算法，用于估计输入特征与某个事件发生的概率之间的关系。本文将深入讲解逻辑回归的原理、实际应用以及使用Python进行实现的代码。逻辑回归的基本原理逻辑回归的目标是建立一个能够预测输出为二分类标签的模型。它采用逻辑函数（也称为sigmoid函数）将线性组合的特征映射
机器学习中分类算法的优缺点 qq_41581769 分类算法机器学习
决策树一、决策树优点1、决策树易于理解和解释，可以可视化分析，容易提取出规则。2、可以同时处理标称型和数值型数据。3、测试数据集时，运行速度比较快。4、决策树可以很好的扩展到大型数据库中，同时它的大小独立于数据库大小。二、决策树缺点1、对缺失数据处理比较困难。2、容易出现过拟合问题。3、忽略数据集中属性的相互关联。4、ID3算法计算信息增益时结果偏向数值比较多的特征。三、改进措施1、对决策树进行剪
【机器学习理论基础】一文看尽朴素贝叶斯算法大数据AI Machine Learning 机器学习
在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数Y=f(X)Y=f(X)Y=f(X),要么是条件分布P(Y∣X)P(Y|X)P(Y∣X)。但是朴素贝叶斯却是生成方法，也就是直接找出特征输出YYY和特征XXX的联合分布P(X,Y)P(X
Spark MLlib模型训练—分类算法Multilayer Perceptron Classifier 猫猫姐 Spark实战 spark-ml spark 机器学习
SparkMLlib模型训练—分类算法MultilayerPerceptronClassifierMultilayerPerceptronClassifier（多层感知器分类器，简称MLP）是SparkMLlib中用于分类任务的神经网络模型。MLP是一种前馈神经网络（FeedforwardNeuralNetwork），其架构由输入层、隐藏层和输出层组成。MLP通过反向传播算法（Backpropag
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习笔记 rl染离机器学习笔记人工智能
什么是机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义：（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。（2）机器学习是对能通过经验自动改进的计算机算法的研究。（3）
【机器学习与R语言】12- 如何评估模型的性能？生物信息与育种
1.评估分类方法的性能拥有能够度量实用性而不是原始准确度的模型性能评价方法是至关重要的。3种数据类型评价分类器：真实的分类值；预测的分类值；预测的估计概率。之前的分类算法案例只用了前2种。对于单一预测类别，可将predict函数设定为class类型，如果要得到预测的概率，可设为为prob、posterior、raw或probability等类型。predict大部分情况下返回对结果不同水平的预测概
机器学习笔记（KNN算法）空木幻城机器学习 python 机器学习算法
情景分析现在一个二维平面上有众多点(x1,y1),(x2,y2)...(xn,yn)(x_1,y_1),(x_2,y_2)...(x_n,y_n)(x1,y1),(x2,y2)...(xn,yn)，我也知道它们所属哪个类别，现在给出一个点(x,y)(x,y)(x,y)，问这个点是属于哪个类的。这是一个典型的分类问题重要概念相邻点的个数K相邻点的个数Kknn中最重要的概念就是这个了，也是唯一需要理解
【机器学习笔记】 9 集成学习 RIKI_1 机器学习机器学习笔记集成学习
集成学习方法概述Bagging从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：假设一个班级每个人的成绩都不太好，每个人单独做的考卷分数都不高，但每个人都把自己会做的部分做了，把所有考卷综合起来得到成绩就会比一个人做的高Boosting训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化
吴恩达机器学习全课程笔记第二篇亿维数组 Machine Learning 机器学习笔记人工智能学习
目录前言P31-P33logistics（逻辑）回归决策边界P34-P36逻辑回归的代价函数梯度下降的实现P37-P41过拟合问题正则化代价函数正则化线性回归正则化logistics回归前言这是吴恩达机器学习笔记的第二篇，第一篇笔记请见：吴恩达机器学习全课程笔记第一篇完整的课程链接如下：吴恩达机器学习教程（bilibili）推荐网站：scikit-learn中文社区吴恩达机器学习学习资料（gith
【机器学习笔记】7 KNN算法 RIKI_1 机器学习机器学习笔记算法
距离度量欧氏距离(Euclideandistance)欧几里得度量（EuclideanMetric）（也称欧氏距离）是一个通常采用的距离定义，指在维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。曼哈顿距离(Manhattandistance)想象你在城市道路里，要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线
06基于WOA-CNN-BiLSTM-Attention鲸鱼优化-卷积-双向长短时记忆-注意力机制的数据分类算法机器不会学习CSJ 数据分类专栏 cnn 分类深度学习 lstm matlab 启发式算法数据分析
基于WOA-CNN-BiLSTM-Attention鲸鱼优化-卷积-双向长短时记忆-注意力机制的数据分类算法鲸鱼智能优化基本原理鲸鱼智能优化算法（WhaleOptimizationAlgorithm，WOA）是一种基于自然界中的鲸鱼群体行为而提出的全局优化算法。该算法由莫扬（SeyedaliMirjalili）于2016年提出，其灵感来源于鲸鱼群体的捕猎行为和社交行为。在WOA算法中，每个解都被看
05基于卷积神经网络-支持向量机（自动寻优）CNN-SVM数据分类算法机器不会学习CSJ cnn 支持向量机分类人工智能
CNN原理卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛用于计算机视觉领域。CNN的核心思想是通过卷积层和池化层来自动提取图像中的特征，从而实现对图像的高效处理和识别。在传统的机器学习方法中，图像特征的提取通常需要手工设计的特征提取器，如SIFT、HOG等。而CNN则可以自动从数据中学习到特征表示。这是因为CNN模型的卷积层使用了一系列的卷积核
【经验分享】分类算法与聚类算法有什么区别？白话讲解思通数科x 算法分类聚类
经常有人会提到这个问题，从我个人的观点和经验来说2者最明显的特征是：分类是有具体分类的数量，而聚类是没有固定的分类数量。你可以想象一下，分类算法就像是给你一堆水果，然后告诉你苹果、香蕉、橙子分别应该放在哪里。它已经知道每个水果属于哪个类别，所以你只需要按照这些规则把水果放到相应的篮子里。这就像是有一个现成的标签系统，你要做的就是把东西放到正确的位置。而聚类算法呢，更像是你面前有一堆乱七八糟的东西，
文本分类算法能够应用于哪些领域？真实项目场景介绍思通数科x 分类数据挖掘人工智能多分类
我们有幸参与了多个涉及分类算法的项目，这些项目覆盖了多个行业，展示了分类算法的广泛应用和巨大潜力。下面我为大家介绍几个实际的真实项目案例：1.某城市档案馆我们为一线某城市的档案馆开发了一个智能分类系统。这个系统能够自动识别和分类158种不同类型的公文，极大地提高了档案管理的效率。通过机器学习算法，我们训练了一个模型，它能够理解公文的内容和格式，从而实现快速且准确的分类。这不仅减少了人工分类的时间，
Elasticsearch：什么是 kNN? Elastic 中国社区官方博客 Elasticsearch AI Elastic elasticsearch 大数据搜索引擎全文检索人工智能
kNN-K-nearestneighbor定义kNN（即k最近邻算法）是一种机器学习算法，它使用邻近度将一个数据点与其训练并记忆的一组数据进行比较以进行预测。这种基于实例的学习为kNN提供了“惰性学习（lazylearning）”名称，并使算法能够执行分类或回归问题。kNN的假设是相似的点可以在彼此附近找到——物以类聚。作为一种分类算法，kNN将新数据点分配给其邻居中的多数集。作为一种回归算法，k
【机器学习笔记】14 关联规则 RIKI_1 机器学习机器学习笔记人工智能
关联规则概述关联规则（AssociationRules）反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其他事物预测到。关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买，那么在相同的交易ID下，商品B也被客户挑选的机会就被发现了。有没有发生过这样的事：你出去买东西，结果却买了比你计划的多得多的东西？这是一种被称为
【机器学习笔记】13 降维 RIKI_1 机器学习机器学习笔记人工智能
降维概述维数灾难维数灾难(CurseofDimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库
【机器学习笔记】8 决策树 RIKI_1 机器学习机器学习笔记决策树
决策树原理决策树是从训练数据中学习得出一个树状结构的模型。决策树属于判别模型。决策树是一种树状结构，通过做出一系列决策（选择）来对数据进行划分，这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。以下小美相亲的例子就是决策树决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出
【机器学习笔记】 15 机器学习项目流程 RIKI_1 机器学习机器学习笔记人工智能
机器学习的一般步骤数据清洗数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。探索性数据分析(EDA探索性数据分析（EDA）是一个开放式流程，我们制作绘图并计算统计数据，以便探索我们的数据。目的是找到异常，模式，趋势或关系。这些可能是有趣的（例如，找到两个变量之间的相关性），或者它们可用
数据挖掘十大经典算法之KNN 我姓许啊
一、knn介绍1.K最近邻(k-NearestNeighbor，KNN)分类算法，属于有监督学习中的分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。2.KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他