wzyfhyh

机器学习（西瓜书）

一、绪论

1. 假设空间

①假设空间：学习过程可看作一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到能从训练集判断正确的假设

②版本空间：可能存在多个假设（可能互相冲突）与训练集一致，这一假设空间成为版本空间

2. 归纳偏好

任一有效的机器学习算法必有其归纳偏好，偏向选择版本空间中某种假设作为最终模型

没有免费午餐定理NFL：所有问题出现的机会相同或所有问题同等重要时，任何学习算法的期望性能相同

二、模型评估与选择

1. 模型评估方法

以测试集的测试误差作为泛化误差的近似

①留出法：将数据集划分为训练集和测试集（划分时尽量符合随机抽样，一般60%至80%用于训练）

②交叉验证法：将数据集划分为k个相似子集，其中一个作测试集，其余作训练集，最终返回k折平均结果（留一法最准确但计算量大）

③自助法：有放回地自助采样（bootstrap sampling）产生数据集，每个样本在m个样本的m次采样中不被采到的概率趋近于0.368，可未抽中部分作为测试集，抽样结果作为训练集（数据集较小或难以划分训练集时可用，但可能改变原数据分布造成偏差）

2. 性能度量

①均方误差

②错误率/精度

m个样本a个分类错误时，错误率E=a/m，精度accuracy=1-a/m

③查准率/查准率/F1

查准率P=TP/(TP+FP) 查全率R=TP/(TP+FN) BEP（PR曲线平衡点位置）

F1=2×P×R/(P+R)（调和平均）

若多次训练则可计算平均值宏查准率、宏查全率等

④ROC/AUC

真正例率TPR＝TP/(TP+FN)，假正例率FPR=FP/(TN+FP)，调整判断正例的分类阈值，可绘制ROC曲线，ROC曲线下面积为AUC（用于描述预测的排序质量，损失函数相当于描述正例预测值小于或等于反例的情况）

⑤代价敏感错误率/代价曲线

不同类型错误可能造成不同后果，此时计算错误率等指标应用代价而非错误数

错误率E=FN×cost01+FP×cost10

假反例率FNR=1-TPR 代价曲线围成的总面积即为期望总体代价

3. 比较检验

①假设检验

检验单个模型的泛化能力，例如计算出错误率后，再以模型对一个数据集预测时可推算错误率分布，与实际验证的错误率比较，检验置信度。

②交叉验证t检验

比较两个模型的泛化能力。模型A、B经过k折交叉验证得到k个错误率值，可两两配对，进行t检验，原假设为两个模型错误率没有差别

③McNemar检验

比较两个模型，如果两学习器性能相同，则e01=e10，| e01-e10|正态分布，连续性校正后，可构造服从自由度为1的卡方分布的统计量，进行假设检验

④Friedman检验/Nemenyi后续检验

一组数据集多个算法的比较。Friedman检验使用算法比较序值表进行卡方检验，原假设“所有算法性能一样”。拒绝后使用Nemenyi后续检验，若两个算法的平均序值之差超出了临界值域CD，拒绝原假设“两个算法性能相同”。

4. 偏差与方差

偏差-方差分解试图对算法的期望泛化错误率进行拆解，泛化误差可分解为偏差、方差与噪声之和。下式中yD为数据集上标记，y为真实标记，f(x; D)为算法在数据集D上的输出

分别为方差，偏差，噪声

三、线性模型

1. 对数几率回归

对数几率函数 y=11+e-(wTx+b) ，则lny1-y=wTx+b 为几率，反映了x作为正例的相对可能性，函数可用最大似然求参

2. 线性判别分析LDA

给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别

令Xi，μi，Σi分别表示第i类示例的集合、均值向量、协方差矩阵。若将数据投影到直线 ω上，则两类样本的中心在直线上的投影分别为ωTµ0和 ωTμ1 若将所有样本点都投影到直线上，则两类样本的协方差分别为ωTΣ0ω和ωTΣ1ω。

需要让组内方差小，而组间方差大。定义广义瑞利商Sb/Sω，即为最大化目标，其中Sb=(µ0-µ1)(µ0-µ1) T，Sω=Σ0 +Σ1，J=ωTSbωωTSωω

3. 多分类学习器

基本思想是拆分为二分类任务，但有一对一（OvO），一对多（OvR），多对多等形式

多对多—纠错输出码ECOC：a中5个算法分别给4中类别不同的编码并训练，最后测试样本计算之后再与各类别编码计算距离，选距离最小的类作为最终结果

4. 类别不平衡问题

类别不平衡指分类任务中不同类别的训练、样例数目差别很大的情况

欠采样：去除一些反例使得正、反例数目接近，然后再进行学习

过采样：增加一些正例使得正、反例数目接近，然后再进行学习

再缩放（阈值移动）：使用训练集正反样本数对分类器阈值进行调整，以线性分类器为例，原先y/(1-y)>1时预测为正例，再缩放调整为y/(1-y)>m+/m-预测为正例（m+为训练集正例数量）

四、决策树

五、神经网络

1. 神经元模型

2. 感知机与多层网络

感知机由两层神经元组成，可实现与、或、非等线性可分问题，非线性可分问题需要多层功能神经元

3. 反向传播算法BP

算法：

对于输出层单元k，计算误差项：

对于隐含层单元h，计算误差项：

更新每个权值：

其中:

推导：

定义训练样本d的误差Ed：

对每一个样本j，更新一次权重，反复迭代

①单元j是输出层时

②单元j是隐含层时

其中k是输出单元，j为k的上一层

交叉熵损失函数

4. 局部最小问题处理

①多组参数初始化训练后，取损失函数最小的解作为最终参数

②模拟退火以一定概率接受次优解

③随机梯度下降，即计算梯度时加入随机因素

④遗传算法

5. 过拟合问题解决

①损失函数增加正则项

②舍弃机制：每次训练中随机舍弃部分隐层单元

③使用验证集

6. 其他常见神经网络

①RBF径向基函数网络

使用径向基函数作激活函数，输出层为隐层线性组合。有足够多神经元的RBF网络能以任意精度逼近任意函数。常用的高斯径向基函数形如：

②ART竞争型神经网络

无监督，同时具有可塑性（学习新知识的能力）和稳定性（对旧知识的记忆），适于增量学习或在线学习。

由比较层、识别层、识别阔值和重置模块构成。其中，比较层负责接收输入样本，并将其传递给识别层。神经元识别层每个神经元对应一个模式类，神经元数目可在训练过程中动态增长以增加新的模式类。在接收到比较层的输入信号后，识别层神经元之间相互竞争以产生获胜神经元。竞争的最简单方式是，计算输入向量与每个识别层神经元所对应的模式类的代表向量之间的距离，距离最小者胜。获胜神经元将向其他识别层神经元发送信号，抑制其激活。若输入向量与获胜神经元所对应的代表向量之间的相似度大于识别阈值，则当前输入样本将被归为该代表向量所属类别，同时，网络连接权将会更新，使得以后在接收到相似输入样本时该模式类会计算出更大的相似度。否则，重置模块将在识别层增设一个新的神经元，其代表向量就设置为当前输入向量。

③SOM自组织映射网络

一种竞争学习型的无监督神经网络，它能将高维输入数据映射到低维空间，同时保持输入数据在高维空间的拓扑结构，即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。网络在接收输入向量后，将会确定输出层获胜神经元，它决定了该输入向量在低维空间中的位置。SOM的训练目标就是为每个输出层神经元找到合适的权向量，以达到保持拓扑结构的目的。

在接收到一个训练样本后，每个输出层神经元会计算该样本与自身携带的权向量之间的距离，距离最近的神经元成为竞争获胜者、称为最佳匹配单元。然后，最佳匹配单元及其邻近神经元的权向量将被调整，以使得这些极向量与当前输入样本的距离缩小．这个过程不断地代，直至收敛。

④级联相关网络

将网络结构也当作学习目标之一，并希望找到最符合数据特点的网络结构。级联是指建立层次连接的层级结构。在开始训练时，网络只有输入层和输出层，处于最小拓扑结构；随着训练的进行，新的隐层神经元逐渐加入，从而创建起层级结构。当新的隐层神经元加入时，其输入端连接权值是固定的。相关是指通过最大化新神经元的输出与网络误差之间的相关性来训练相关的参数。

⑤Elman网络

一种常见的递归神经网络：允许网络中出现环形结构，让一些神经元的输出反馈回来作为输入信号，即网络在t时刻的输出状态与t-1时刻的网络状态有关，从而能处理与时间有关的动态变化。

⑥Boltzmann机

将每个训练样本视为一个状态向量，使其出现的概率尽可能大。使用CD对比散度算法进行训练

7. 深度学习

典型的深度学习模型就是很深层的神经网络。但多隐层神经网络难以直接用经典算法进行训练，因为误差在多隐层内逆传播时，往往会“发散”而不能收敛到稳定状态。

可用预训练（使用以往类似任务的参数，对本次参数初始化）+微调，或权值共享（如CNN）

六、支持向量机

七、贝叶斯分类器

八、集成学习

1. 集成学习

由一组个体学习器组成，若由同质学习器组成（如全是决策树），则其中的个体称“基学习器”；异质时个体称“组件学习器”。

学习器结合的好处：扩大假设空间（可能有的假设在单学习器不能考虑到），解决多假设达到同等性能的选择，减小陷入局部最优风险

2. Boosting

主要关注降低偏差。先从初始训练集训练出一个基学习器，再对先前基学习器做错的训练样本在后续给予更多关注，训练下一个基学习器，如此重复进行，直至基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权结合。

Adaboost使用各基学习器结果的线性组合作为示性函数，每个分类器权重在迭代中计算

3. Bagging与随机森林

①Bagging(Bootstrap Aggregating)

主要关注降低方差。对m个样本的数据集自助抽样，得到T个有m样本的数据集，各自训练模型后投票或取平均输出结果。每个数据集自己训练时，包外样本（未抽到样本）可做验证集。

②随机森林

随机森林以随机树为基学习器，每个决策树随机从d的属性中选取k个进行训练，一般k=log2d 。随机森林起始性能较差，但最终泛化性能较好。

4. 结合策略

①平均法

简单平均，加权平均（权重可从数据学习而得）

②投票法

绝对多数投票（过半时标记），相对多数投票（得票最多标记），加权投票

③学习法

通过另一个学习器来进行结合。个体学习器称为初级学习器，用于结合的学习器称为次级学习器或元学习器。

Stacking算法使用初级学习器的输出被当作样例输入特征，而初始样本的标记仍被当作样例标记（一般用初级训练器未使用的包外数据训练次级学习器）。

其他算法还有MLR多响应线性回归、BMA贝叶斯模型平均

5. 多样性

①多样性度量

分类器hi，hj的预测结果列联表如下

不合度量：disij=(b+c)/m

相关系数：ρij=ad-bc(a+b)(a+c)(c+d)(b+d)

Q统计量：Qij=ad-bcad+bc

K统计量：K=p1-p21-p2，一致概率p1=a+dm，偶然一致概率p2=a+ba+c+(c+d)(b+d)m2

K误差图：图中每一点是一对分类器，点云位置越高则个体学习器准确性越低，位置越靠右则个体学习器多样性越小

②多样性增强

数据样本扰动：采样法从初始数据集抽样产生样本扰动，对不稳定基学习器有效，如决策树、神经网络等

输入属性扰动：随机子空间算法每次抽取部分属性训练个体学习器，适用于荣誉属性较多情况

输出表示扰动：“翻转法”随机修改一些训练样本标记，“输出调制法”将分类转为回归输出等

算法参数扰动：随机设置不同参数，如神经网络隐层神经元数、初始权值等

九、聚类

1. 性能衡量

①外部指标（将聚类结果与某个参考模型比较）

JC系数 JC=a/(a+b+c)

FM指数 FMI=aa+b·aa+c

Rand指数 RI=2(a+d)m(m-1)

②内部指标

DB指数 DBI=1/ki=1kmaxj≠iavgCi+avgCjdcenμi,μj

Dunn指数 DI=min1≤i≤k{minj≠i(dmin(Ci,Cj)max1≤l≤kdiam(Cl))}

2. 距离计算

dist(·,·)需满足条件：①非负性 ②同一性（i,j相等时dist才能为0） ③对称性 ④直递性（三角不等式，dist(xi , xj )≤dist(xi , xk )+dist(xk , xj )）

※不满足直递性时为非度量距离

有序属性度量距离可用闵可夫斯基距离distmkxi,xj=(u=1n|xiu-xju|p)1/p

无序属性度量距离可用VDM距离VDMpa,b=i=1k|mu,a,imu,a-mu,b,imu,b|p ，mu,a,i 为第i个类在属性u上取值a的个数

3. 原型聚类（假设聚类结构可用原型刻画）

①K-Means 样本集中随机抽取k个样本作为初始均值，每个样本纳入距离最近的均值所属的类，再计算新均值向量，如此循环直至均值不变。

②学习向量量化LVQ 假设样本已有标签，初始化一组原型向量，一个或多个原型向量代表一个类，对所有样本依次计算最近的原型向量，以学习率η进行学习。若样本与最近向量标签相同，则p’=pi＋η(xj-pi) ，否则p’=pi-η(xj-pi) ，循环至满足停止条件。

③高斯混合聚类 记多元高斯分布概率密度函数为p(x|μ,Σ) ，定义高斯混合分布px=i=1kαipxμi,Σi，i=1kαi=1 ，可用EM算法求解。首先初始化高斯混合模型参数，计算各xi 由各个高斯混合成分生成的后验概率作为权重，再更新均值向量、协方差矩阵、混合系数，循环直至满足停止条件，之后对xi 标注类标签。

4. 密度聚类（假设聚类结构可由样本分布的紧密程度确定）

DBSCAN算法基于邻域标准ε（距离小于ε即属于邻域），定义某样本xi 邻域内样本数大

于阈值时为核心对象。核心对象xi 邻域内的样本均由xi 密度直达，存在样本序列xi, xk,…,xj 且依次密度直达（如xk 可由xi 密度直达）时称xj 由xi 密度可达，若存在xk 密度可达xi 与xj ，则xi 与xj 密度相连。由样本导出的最大密度相连样本集为类。

算法先找出所有核心对象，对所有核心对象进行遍历地找寻密度可达样本，形成类。

5. 层次聚类（在不同层次对数据划分，形成树形结构）

AGNES算法每次找出两个最近的类进行合并，直至达到预设的类个数。

十、降维与度量学习

1. k近邻学习KNN

给定测试样本后，找出距离最近的k个样本，使用投票法/平均法计算预测结果

2. 低维嵌入

多维缩放MDS要求原始空间中样本间距离在低维空间能够保持，即距离矩阵大致相同。令原始d维空间内m个样本距离矩阵D∈Rm×m，令降维后内积矩阵B=ZTZ，Z∈Rd’×m，d’≤d。以distij表示D中样本i，j的距离，有

，可计算矩阵B，得到Z=WTX，Z为m个样本在新空间的坐标表达。

3. 主成分分析PCA

样本集D，首先进行中心化，再计算协方差矩阵XXT，对其特征值分解，取最大的d’个特征值所对应的特征向量构成投影矩阵

4. 核化线性降维

非线性降维时，可引入核函数K，将样本经过核矩阵映射到高维空间，再进行线性降维

5. 流形学习（借鉴拓扑流形概念降维）

①等度量映射Isomap（重在保住近邻样本间距离）

高维空间中可能直线距离不可达（如需要沿曲面运动等），认为流形在局部上与欧式空间相似，故可对每个点基于欧式距离找近邻点，建立近邻连接图。任意两点间的距离即为近邻连接图上两点之间路径最短问题。进一步使用Dijkstra或Floyd算法得到任意两点间距离后，可再用MDS获得样本在低维空间的坐标。

②局部线性嵌入LLE（重在保住邻域样本间线性关系）

样本点xi 可由k近邻样本表示，如xi=ωijxj+ωikxk+ωilxl ，从样本可以计算出系数矩阵W，(W)ij=ωij，

，M特征值分解后取最小d’个特征值对应的特征向量得到Z，即为样本在低维空间投影。

6. 度量学习

对于两个d维样本，其距离和加权距离可表示如下：

W为对角矩阵，但考虑维度间有相关，可替换成度量矩阵M，度量学习的目标是学习合适的M，具体的学习与场景有关，如分类问题中需要让同类样本距离尽可能小。

十一、特征选择与稀疏学习

1. 特征选择

原因：解决维数灾难问题，且去除不相关特征可降低学习难度（但不能丢失重要特征，对于冗余特征，若正好为中间概念（如目标为体积，冗余特征为底面积）可以保留）

方法：子集搜索+子集评价

2. 过滤式选择

先对数据集进行特征选择，再训练学习器，特征的选择与后续过程无关。

Relief方法使用相关性度量筛选特征。对样本Xi，定义同类样本的最近邻为Xi,nh，异类样本中最近邻为Xi,nm，对属性j，相关统计量为δj=i(diffxij,xi,nmj2-diffxij,xi,nhj2) （多分类时可对每个异类找最近邻，在第一项使用样本数进行加权平均），相关统计量超过阈值τ时则保留

3. 包裹式选择

将最终学习器性能作为特征子集的评价标准，为给定学习器选择最有利于性能的特征子集。

LVW算法每次随机产生一个特征子集，通过交叉验证估计学习器的误差，在随机试验次数达到停止条件时确定最终特征子集

4. 嵌入式选择

将特征选择和学习器训练过程融为一体，两者在同一个优化中进行。

如岭回归向回归的损失函数中加入正则项，minωi=1m(yi-ωTxi)2+λ|ω|2 ，在训练过程中同时筛选特征

5. 稀疏表示与字典学习

样本具有稀疏表达形式时，筛选特征后学习任务可以简化、模型复杂度降低、可解释性更强等好处，类似文本词向量，若有一个字典则可以将稠密数据进行稀疏表示。对数据集{x1,x2,…,xm}，字典学习minB,αii=1m||xi-Bαi||22+λi=1m|α|1 ，其中B为字典，αi∈Rk 为xi 的稀疏表示，可以通过调整k来控制稀疏程度。

十二、计算学习理论

1. 基础知识

计算学习理论分析学习任务的困难本质，为算法提供理论保证

2. PAC概率近似正确学习

对任意x，有c(x)=y正确，则称c为目标概念（本质是X到Y映射），目标概念集合为概念类C，即学习的目标。学习算法L有假设空间H，若c∈H则算法L可分（能将所有示例完全正确地区分）。算法的目标是使输出映射h尽可能接近c，以较大概率学得误差满足预设上限的模型。

PAC辨识：算法L以较大概率（1-δ）学得c的近似（误差不超过ε）

PAC可学习：若从分布D独立同分布抽取m个样本，若存在算法L与多项式函数poly()使得对任意m≥poly(1/ε,1/δ,size(x),size(c))，L能从假设空间H中PAC辨识C，则C对H是PAC可学习的。

PAC学习算法：若算法L使C为PAC可学习的，且L运行时间为多项式，则L为C的PAC学习算法。

样本复杂度：满足PAC学习算法所需的最小m为样本复杂度。

3. 有限假设空间（|H|有限）

①可分情形c∈H：则H都是PAC可学习的，需要样例数m≥1/ε(ln|H|+ln1/δ)，h的泛化误差可随样例数目增加以O(1/m)收敛到0

②不可分情形c∉H：以H中泛化误差最小的假设为目标进行学习，类似于PAC可学习，将误差限制改为与最小泛化误差的差值不超过ε，可定义不可知PAC学习。

4. VC维（|H|无限）

增长函数H(m) ：假设空间H对m个示例所能赋予标记的最大可能结果数（如二分类问题两个示例表示可能为4种）

H中的假设对D中示例赋予标记的每种可能结果称为对D的一种“对分”，H能实现D上所有对分，即H(m)=2m 时，称D可被H“打散”

VC维：能被H打散的最大示例集的大小，可表示模型复杂程度

对于VC维为d的假设空间H，其泛化误差上界ε=8dln2emd+8ln4δm ，只与数据量和模型复杂程度有关。任何VC维有限的假设空间H都是不可知PAC可学习的。

5. Rademacher复杂度

VC维算出的泛化误差上界经过了多次放大，Rademacher复杂度在考虑数据分布的情况下计算。

泛化误差上界ε=2dlnemdm+ln1δ2m

6. 稳定性

表示算法在输入变化时输出是否会发生较大的变化

算法β-均匀稳定性：其中D\i 表示将第i个样例移除后，l表示损失函数（描述标签预测与真实情况差别）

十三、半监督学习

1. 主动学习与半监督学习

①主动学习：在有标签样本基础上，每次选取对模型改良最大的样本询问专家（如SVM找出距离超平面最近的样本）进行标记，从而在少量标记样本的基础上训练出较强的模型

②纯半监督学习：假定未标记样本并非待测数据

③直推学习：假定为标记样本即为待测数据（泛化目标仅在未标记样本中）

2. 生成式方法

假设所有数据都由同一个潜在模型生成（如高斯混合），使用样本训练模型获得未知参数（需要领域知识，才能预先假设模型）

3. 半监督SVM（S3VM）

S3VM试图找到能分隔有标记样本，并且穿过数据低密度区的划分超平面，TSVM为其中一种

TSVM：先用有标记样本学得SVM，用其对未标记样本打伪标签，求解新的超平面和松弛向量（未标记样本的权重低于有标记）。之后选出两个标签不同且很可能出错的样本交换标签，重新求超平面和松弛向量，再找出两个样本以此迭代同时逐渐增加未标记样本的权重直到与有标记样本相同

4. 图半监督学习

将数据集映射到图，图的结点为样本，边为结点间相似度（可用x计算二范式等）。有标记与无标记的样本共同组成亲和矩阵W，Wij表示第i样本与第j样本的相似度。

迭代式标签传播算法针对多分类问题，使预测结果在有标记样本上尽可能相同，且相似样本有相似标记：

5. 基于分歧的方法

协同训练针对多视图数据，使用多学习器进行训练。假设不同视图具有相容性（关于输出的y 的信息是一致的）、充分（包含可产生最优学习器的信息）、条件独立（给定类别标记条件下独立），则可以对每个视图分别训练分类器，然后将每个分类器的“伪标签”供给其他训练器作为新增有标记样本训练更新，迭代至各学习器不再变化或达到预设轮数

※不只是多视图数据，只要各学习器间差异较大，都能通过协同训练提高泛化性能

6. 半监督聚类

聚类中监督信息包括必连（两个样本必属同一类）与勿连（两个样本必不属同一类），或部分直接有标记的样本

约束K均值算法利用必连与勿连信息，在K均值算法的基础上保证必连和勿连关系。

约束种子K均值利用少量有标记样本，直接作为种子初始化聚类中心，并保证在迭代中不改变有标记样本的类别。

十四、概率图模型

1. 概述

概率图模型使用图表示变量相关关系，结点表示变量，边表示变量间相关关系。根据边不同可分为两种：有向无环图表达变量间依赖关系，称贝叶斯网；无向图表示相关关系，称马尔可夫网。

概率图模型演进：

https://www.zhihu.com/question/53458773/answer/554436625

2. 隐马尔可夫模型HMM（属贝叶斯网生成式模型）

马尔可夫链：yi为有N种取值的状态变量（隐变量），xi为有M种取值的观测变量，i为时刻。在任意时间，观测变量只依赖于状态变量（yt决定xt），yt取决于yt-1（满足条件独立性）。

马尔可夫链的确定需要三组参数λ=[A,B,π]：

①状态转移概率A=[aij]N×N ，aij=P(yt+1=sj|yt=si)

②输出观测概率B=[bij]N×M ，bij=P(xt=oj|yt=si)

③初始状态概率π=(π1,π2,…,πN) ，πi=P(y1=si)

3. 马尔可夫随机场MRF（属马尔可夫网生成式模型）

对于无向图的任一子集，若其中任两结点间都有边连接，则称为团，不被其他团包含的称为极大团。对于n个变量x={x1,x2,…,xn} ，所有团构成集合C，与团Q对应的变量集为XQ，定义联合概率分布Px=1/ZQ∈CφQ(xQ) ，规范化因子Z=xQ∈CφQ(xQ) ，φQ 为势函数，当变量很多时，可以使用极大团C* 替代C，Z一般不需要精确计算只用于保证总概率为1。势函数是定义于XQ的非负实函数，可用于在构造概率分布时调节对不同变量的偏好。

定义若结点集A中的点要到B，都需要经过结点集C，则称A与B被C分离，C称为分离集，在给定C的条件下A与B独立（全局马尔可夫性）。给定某变量的邻接变量时该变量与其他变量独立（局部马尔可夫性），给定其他所有变量时两个非邻接变量独立（成对马尔可夫性）

4. 条件随机场CRF（属马尔可夫网判别式模型）

x={x1,x2,…,xn} 为观测序列，y={y1,y2,…,yn} 为对应标记序列，CRF目标是构建条件概率模型P(y|x)，并假设各变量yv都满足马尔可夫性，即Pyvx,yV{v}=P(yv|x,yn(v)) ，其中n(v)为点v的邻域，则（y,x）构成条件随机场。

条件随机场同样使用势函数和团定义P(y|x)，tj(yi+1,yi,x,i) 是转移特征函数，刻画相邻标记变量间相关关系及观测序列对它们的影响；sk(yi,x,i) 为状态特征函数，刻画观测序列x对y的影响；λ与μ为参数。

5. 精确推断方法

①变量消去：利用条件独立性削减目标概率计算量，例如要计算P(x5)时（无向图同样适用）：

或若为无向图时：

②信念传播：将变量消去过程中的求和操作看作一次消息传递，下式看作xi向xj传递了一个消息mij(xj)

信念传播算法先指定一个根节点，所有叶节点向根节点传递消息，知道根节点收到所有邻接节点的消息，再从根节点向叶节点传递消息，直到所有叶节点收到消息。相对于变量消去能够减少冗余计算。

6. 近似推断方法

①MCMC马尔科夫链蒙特卡洛采样

绕过概率分布的推断，直接逼近分布的期望。通过构造马尔可夫链的平稳分布得到后验分布，并从马尔科夫链产生符合后验分布的样本，并基于样本估计。

②变分推断

使用已知的简单分布推断复杂分布，产生一个近似分布

7. 话题模型（属贝叶斯网生成式模型，主要处理离散型数据如文本）

词袋：词是数据基本单元，文档是无顺序地包含一组词的数据对象，话题则表示一个概念（一系列相关的词及其在概念下出现概率）

假定数据集中有K个话题T篇文档，所有词来自于N个词的词典，则以T个N维向量W={ω1，ω2，…，ωT}表示数据集，以K个N维向量βk（k=1,2，…，K）表示话题。ωt,n表示文档t中词n的词频，βk中第n分量表示话题k中词n的词频。

隐狄利克雷分配模型LDA认为每篇文档包含多个话题，用θt∈RK表示文档t中每个话题的比例，分别使用参数为α和η的狄利克雷分布作为主题和词的先验分布。模型中待定参数α、η可使用极大似然进行估计。

十五、规则学习

1. 基本概念

“规则学习”是从训练数据中学习出一组能用于对未见示例进行判别的规则

为规则头（规则结果），箭头右边为规则体（逻辑语言的合取式）

从数据中可以学习出多个规则，每条规则根据一种变量取值判断结果，这些规则可能在某些样本相互冲突，也可以有一些样本未覆盖（可以通过默认规则解决）

命题规则由原子命题和蕴含组成，如“好瓜←(色泽＝青绿)”，一阶规则由原子公式组成，如“：好瓜(X)←根蒂(X，蜷缩)∧脐部(X，凹陷)”（且两个命题长度分别为1和2）

2. 序贯覆盖

即逐条归纳，如Apriori算法，可以自顶向下生成（生成测试法）也可以自下向上生成（数据驱动法）。

3. 剪枝优化

为缓解过拟合需要进行适当剪枝。CN2算法假设规则集结果显著优于样本集后验分布判断结果。REP减错剪枝使用训练集和验证集剪枝至验证集表现最好（通过穷举所有剪枝可能进行后剪枝）。IREP对训练集中产生的每个单条规则分别剪枝（预剪枝）。

4. 一阶规则学习

命题逻辑对事物间关系表达有限，一阶规则容易引入领域知识，且能简洁表达递归关系。一阶规则如：更好(X,Y)←根蒂更蜷(X,Y)∧脐部更凹(X,Y)

FOIL算法采用自顶向下归纳，对于空规则“更好(X,Y)←”先考虑候选文字：

使用FOIL增益选择候选文字，其中m+ 为增加候选文字后新规则覆盖正例数，m+ 为原规则覆盖正例数，FOIL只考虑正例的信息量（对正例给予更多关注）。在生成一条规则后可以继续增加规则体长度最终生成合适的单条规则加入规则集，生成完成后再对规则集后剪枝。

5. ILP归纳逻辑程序设计

采用自下向上规则生成策略，从一个或多个正例出发逐渐泛化，可通过LGG最小一般泛化结合归结与逆归结来实现。

十六、强化学习

1. 任务与奖赏

MDP马尔可夫决策过程：机器处于环境E中，状态空间X，动作空间A，动作a作用于状态x的转移函数为P，状态转移结果可以对应奖赏函数R。强化学习任务可由四元组E=表达，机器需要学习策略π使得a=π(x)，即根据状态选择行动以最大化累积奖赏。（强化学习任务的最终累积奖赏必须在多步之后才能看到，可认为是延迟标记的监督学习问题，且没有预先的训练数据，而是需要尝试得到反馈）

2. K-摇臂赌博机

赌博机有K个摇臂，每个摇臂每次以一定概率吐出硬币，赌徒需要一个策略最大化收益

①探索与利用：仅探索方法平均地尝试各个摇臂，将各自吐币概率作为期望的近似估计；仅利用方法每次按下当前最优的摇臂。仅探索法估计较好但失去很多选择最优摇臂的机会，仅利用法没有很好估计期望。

②ε-贪心：以概率ε进行探索，1-ε进行利用。具体ε可以根据分布而定，概率分布较宽时需要更多探索，较集中时则需要更多利用。

③Softmax：基于当前已知的摇臂平均奖赏综合探索和利用，使用Boltzmann分布，下式中τ>0称为温度，Q(i)记录当前摇臂平均奖赏，τ越小则越倾向于利用。

3. 有模型学习

假设E=均为已知，以Vπ(x)表示从状态x出发使用策略π带来的累积奖赏，Qπ(x,a)表示从状态x出发执行动作a之后使用策略π带来的累积奖赏，通过迭代能够很好地计算Vπ(x)，再通过策略迭代选出最优策略。

4. 免模型学习

环境中转移概率、奖赏函数、状态等难以得知的时候

①蒙特卡罗强化学习

每个策略相当于赌博机中的一个摇臂，使用ε-贪心算法探索最优策略（同策略方法）；或者对一个确定性策略使用ε-贪心算法进行策略评估，从而策略迭代（异策略方法，类似于对抗搜索所用的）

②TD时序差分学习

蒙特卡罗强化学习批处理式地在完成一个采样轨迹（走多步到最后）后对状态-动作对进行奖赏更新，TD则进行增量更新

5. 值函数近似

之前的假设都是有限状态空间，面对无限状态空间时，可以对连续状态空间的值函数进行学习，使用线性函数Vθ(x)＝θTX进行近似，引入核函数可以实现非线性近似。

6. 模仿学习

对人类专家的“状态-动作对”进行模仿

①直接模仿学习

对于人类专家决策轨迹{τ1,τ2,…,τm}，其中τi=，相当于已知在什么状态下需要选择什么动作，抽取出所有状态-动作对(si,ai)，可进行有监督学习（学得的策略可作为强化学习的初始策略）

②逆强化学习

从人类范例中反推奖赏函数，假设奖赏函数R(x)=ωTx

你可能感兴趣的:(人工智能&数据挖掘)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name