Quant_Learner

sklearn.manifold（流式学习）模块结构及用法||LLE参数、属性、方法详解

manifold learning流形学习是一种非线性降维的手段。

这项工作的算法基于以下想法：很多数据集的维度只是人为的高。

多维度数据集非常难于可视化。反而2维或者3维数据很容易通过图表展示数据本身的内部结构，等价的高维绘图就远没有那么直观了。为了实现数据集结构的可视化，数据的维度必须通过某种方式降维。

最简单的降维手段是数据的随机投影。虽然这种方式实现一定程度的数据结构可视化，但是选择的随意性导致结果远不如意。在随机投影中，更有趣的结构容易丢失。

为了解决这种问题，人们设计了一系列监督或非监督的线性降维框架，例如Principal Component Analysis(PCA,主成分分析)、Independent Component Analysis（独立成分分析）、 Linear Discriminant Analysis（线性判别分析）…这些算法定义了特殊的评估量用于多维数据选择有趣的线性投影，这些手段是有效的，不过经常会错失数据结构中的非线性项。

Manifold Learing可以看作一种生成类似PCA的线性框架，不同的是可以对数据中的非线性结构敏感。虽然存在监督变体，但是典型的流式学习问题是非监督的：它从数据本身学习高维结构，不需要使用既定的分类。

例子：

请参阅手写数字上的流形学习：局部线性嵌入，Isomap …以获取手写数字降维的示例。

有关玩具“S曲线”数据集上降维的示例，请参阅流形学习方法的比较。

模块内的常用类及函数

类：

class	解释	解释
`manifold.Isomap`([n_neighbors, n_components, …])	Isomap Embedding	等距映射
`manifold.LocallyLinearEmbedding`([…])	Locally Linear Embedding	局部线性嵌入
`manifold.MDS`([n_components, metric, n_init, …])	Multidimensional scaling	多维尺度变换
`manifold.SpectralEmbedding`([n_components, …])	Spectral embedding for non-linear dimensionality reduction.	拉普拉斯特征映射
`manifold.TSNE`([n_components, perplexity, …])	t-distributed Stochastic Neighbor Embedding.	T-SNE

函数：

function	解释
`manifold.locally_linear_embedding`(X, …[, …])	Perform a Locally Linear Embedding analysis on the data.
`manifold.smacof`(dissimilarities[, metric, …])	Computes multidimensional scaling using the SMACOF algorithm.
`manifold.spectral_embedding`(adjacency[, …])	Project the sample on the first eigenvectors of the graph Laplacian.

sklearn.manifold.LocallyLinearEmbedding(局部线性嵌入) 官方文档

class sklearn.manifold.LocallyLinearEmbedding(n_neighbors=5, n_components=2, reg=0.001, eigen_solver=’auto’, tol=1e-06, max_iter=100, method=’standard’, hessian_tol=0.0001, modified_tol=1e-12, neighbors_algorithm=’auto’, random_state=None, n_jobs=None)

局部线性嵌入（LLE）通过保留局部邻域内的距离来寻求数据的低维投影。它可以被认为是一系列的局部主成分分析，与全局相比，找到最优的局部非线性嵌入。

面向对象：sklearn.manifold.LocallyLinearEmbedding类的实例化

面向函数：sklearn.manifold.locally_linear_embedding()

LLE原理： manifold.LocallyLinearEmbedding（LLE）流形学习之局部线性嵌入算法详解

一般来说，需要调参的参数只有样本近邻的个数。

参数详解：

n_neighbors：即我们搜索样本的近邻的个数，默认是5。 n_neighbors个数越大，则建立样本局部关系的时间会越大，也就意味着算法的复杂度会增加。当然n_neighbors个数越大，则降维后样本的局部关系会保持的更好。在下一节我们可以通过具体的例子看出这一点。一般来说，如果算法运行时间可以接受，我们可以尽量选择一个比较大一些的n_neighbors。
n_components：即我们降维到的维数。如果我们降维的目的是可视化，则一般可以选择2-5维。
reg ：正则化系数，在n_neighbors大于n_components时，即近邻数大于降维的维数时，由于我们的样本权重矩阵不是满秩的，LLE通过正则化来解决这个问题。默认是0.001。一般不用管这个参数。当近邻数远远的大于降维到的维数时可以考虑适当增大这个参数。
eigen_solver：特征分解的方法。有‘arpack’和‘dense’两者算法选择。当然也可以选择’auto’让scikit-learn自己选择一个合适的算法。‘arpack’和‘dense’的主要区别是‘dense’一般适合于非稀疏的矩阵分解。而‘arpack’虽然可以适应稀疏和非稀疏的矩阵分解，但在稀疏矩阵分解时会有更好算法速度。当然由于它使用一些随机思想，所以它的解可能不稳定，一般需要多选几组随机种子来尝试。
method：即LLE的具体算法。LocallyLinearEmbedding支持4种LLE算法，分别是’standard’对应我们标准的LLE算法，'hessian’对应HLLE算法，‘modified’对应MLLE算法，‘ltsa’对应LTSA算法。默认是’standard’。一般来说HLLE/MLLE/LTSA算法在同样的近邻数 $n_{neighbors}$ 情况下，运行时间会比标准的LLE长，当然降维的效果会稍微好一些。如果你对降维后的数据局部效果很在意，那么可以考虑使用HLLE/MLLE/LTSA或者增大 $n_{neighbors}$ ，否则标准的LLE就可以了。需要注意的是使用MLLE要求 $n_{neighbors} > n_{components}$ ，而使用HLLE要求 $n_{neighbors} > n_{components} * (n_{components} + 3) / 2$
neighbors_algorithm：这个是k近邻的搜索方法，和KNN算法的使用的搜索方法一样。算法一共有三种，第一种是蛮力实现，第二种是KD树实现，第三种是球树实现。这三种方法在K近邻法(KNN)原理小结中都有讲述，如果不熟悉可以去复习下。对于这个参数，一共有4种可选输入，‘brute’对应第一种蛮力实现，‘ $kd_tree$ ’对应第二种KD树实现，‘ $ball_tree$ ’对应第三种的球树实现， ‘auto’则会在上面三种算法中做权衡，选择一个拟合最好的最优算法。需要注意的是，如果输入样本特征是稀疏的时候，无论我们选择哪种算法，最后scikit-learn都会去用蛮力实现‘brute’。个人的经验，如果样本少特征也少，使用默认的 ‘auto’就够了。如果数据量很大或者特征也很多，用"auto"建树时间会很长，效率不高，建议选择KD树实现‘ $kd_tree$ ’，此时如果发现‘ $kd_tree$ ’速度比较慢或者已经知道样本分布不是很均匀时，可以尝试用‘ $ball_tree$ ’。而如果输入样本是稀疏的，无论你选择哪个算法最后实际运行的都是‘brute’。

属性详解：

embedding_vectors_：给出了原始数据在低维空间的嵌入矩阵。
reconstruction_error_：给出了重构误差。

方法详解：

fit(X[, y])：训练模型。
transform(X)：执行降维，返回降维后的样本集。
fit_transform(X[, y])：训练模型并执行降维，返回降维后的样本集。

Reference

2.2. Manifold learning
“Nonlinear dimensionality reduction by locally linear embedding” Roweis, S. & Saul, L. Science 290:2323 (2000)
2.2. 流形学习
manifold.LocallyLinearEmbedding（LLE）流形学习之局部线性嵌入算法详解
用scikit-learn研究局部线性嵌入(LLE)
华校专-降维

【小白学机器学习4】从求f(x)的误差和函数E(θ)的导函数，到最速下降法，然后到随机梯度下降法奔跑的犀牛先生机器学习人工智能
目录1从求f(x)的误差和函数E(θ)的导函数，开始通过参数θ去找E(θ)的最小值，从而确定最好的拟合曲线函数f(x)1.1从f(x)对y的回归模拟开始1.2从比较不同的f(x)的E(θ)，引出的问题1.3f(x)的误差和E(θ)函数，可以变成通用的函数形式，从而E(θ)只需要关注其参数θ0,θ1...的不同，而找到其最小值1.4调整参数θ0，θ1...，试图找到f(x)的误差和函数E(θ)的最小
【小白学机器学习3】关于最简单的线性回归，和用最小二次法评估线性回归效果, 最速下降法求函数的最小值奔跑的犀牛先生机器学习线性回归
目录1什么是回归分析1.1什么是线性回归1.2非线性回归2数据和判断方法2.1原始数据2.2判断方法：最小二乘法3关于线性回归的实测3.1用直线模拟3.2怎么判断哪个线性模拟拟合更好呢？3.2.1判断标准3.2.2最小二乘法3.2.3高维度数据3.3用python来算下?（暂缺，用plot画图?）4关于误差和E(θ)=1/2*(f(xi)-yi)^2这个函数本身4.0注意新手错误4.1E(θ)这个
小白学机器学习西瓜书-第六章支持向量机(2) 顾耒之机器学习西瓜书机器学习支持向量机算法
小白学机器学习西瓜书-第六章支持向量机26.4基本型6.5对偶问题上次我们讲到我们用数学式子表达了我们要求的超平面max⁡w,bymin(wTxmin+b)∣∣w∣∣(8)\max_{w,b}\frac{y_{min}(w^Tx_{min}+b)}{\mid\midw\mid\mid}\tag{8}w,bmax∣∣w∣∣ymin(wTxmin+b)(8) s.
小白学机器学习西瓜书-第六章支持向量机(4) 顾耒之机器学习西瓜书机器学习支持向量机算法
小白学机器学习西瓜书-第六章支持向量机46.7支持向量回归6.7支持向量回归对于样本(x,y)(x,y)(x,y)而言，传统的回归模型是基于模型输入f(x)f(x)f(x)与真实yyy之间的差别来计算损失，当且仅当f(x)f(x)f(x)与yyy完全相同时，损失才为0。而支持向量机是不同的，仅当f(x)f(x)f(x)与yyy之间有大于ϵ\epsilonϵ的偏差时，我们才计算损失，这相当于以f(x
小白学机器学习西瓜书-第六章支持向量机(1) 顾耒之机器学习西瓜书机器学习支持向量机人工智能
小白学机器学习西瓜书-第六章支持向量机6.1间隔与支持向量6.2几何间隔6.3支持向量机这一部分我们继续总结分类算法，支持向量机上一部分的link：小白学机器学习西瓜书-第三章对数几率回归6.1间隔与支持向量假如我们有一些样本点，他们被划分后的类别已经给出（如下图中的圆和方块是不同的样本点），那么如哦来了一个新的样本点，如图中的三角形，我们会将他划分为圆圈阵营还是方块阵营呢？很自然的，我们会将其划
小白学机器学习西瓜书-第六章支持向量机(3) 顾耒之机器学习西瓜书机器学习支持向量机算法
小白学机器学习西瓜书-第六章支持向量机36.6软间隔与正则化在前面的讨论中，我们一直做了一个假定，即存在一个超平面能够将不同类的样本完全进行区分。但这个假定显然是比较绝对的，因此我们需要允许算法分类的一些样本出错，这就是“软间隔”。6.6软间隔与正则化前面我们提出的约束为{wTxi+b≥1yi=+1wTxi+b≤−1yi=−1(4)\begin{cases}w^Tx_i+b\geq1&y_i=+1
小白学机器学习西瓜书-第三章对数几率回归顾耒之机器学习西瓜书机器学习回归逻辑回归
小白学机器学习西瓜书-第三章对数几率回归3.3对数几率回归3.3.1对数几率函数3.3.1估计参数上一部分我们介绍了线性回归，包括简单的二元回归和多元回归，这两个主要解决的是拟合预测的问题，但如果我们碰到的并不是预测连续性值的问题而是分类问题呢，对数几率回归可能解决这种分类问题。接下来我们来总结对数几率回归部分的原理和公式推导上一部分的link：小白学机器学习西瓜书-第三章线性回归3.3对数几率回
小白学机器学习西瓜书-第三章线性回归顾耒之机器学习西瓜书机器学习线性回归
小白学机器学习西瓜书-第三章线性回归3.1基本形式3.2线性回归3.2.1二元线性回归3.2.2多元线性回归前段时间学习了机器学习这本书，这本书把我们比较熟悉的算法的本质和公式推导都进行了阐述，当中也有一些学习曲线比较陡峭的内容，自己学习了之后也一直有总结的想法，所以趁这段时间进行一下回顾。这个小白系列都会力求不跳步，简单易懂，对于各种数学知识点也会进行穿插。参考来自周志华老师的机器学习西瓜书以及
纯小白学机器学习系列：数学基础（day2） kkk8000 人工智能机器学习人工智能数学
Sincemachinelearningisinherentlydatadriven,dataisatthecoredataofmachinelearning.Thegoalofmachinelearningistodesigngeneral-purposemethodologiestoextractvaluablepatternsfromdata,ideallywithoutmuchdomain
纯小白学机器学习系列：数学基础（day1） kkk8000 人工智能机器学习人工智能数学
PartIMathematicalFoundations1IntroductionandMotivationMachinelearningisaboutdesigningalgorithmsthatautomaticallyextractvaluableinformationfromdata.Theemphasishereison“automatic”,i.e.,machinelearningis
【小白学机器学习】向量化操作 Amazing_DAI 小白学机器学习
向量化操作是为了提高计算机处理数据的速度刚开始看不是很熟悉机器学习中一些角标的表示，自己尝试使用纸笔梳理了一下
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

sklearn.manifold（流式学习）模块结构及用法||LLE参数、属性、方法详解

模块内的常用类及函数

sklearn.manifold.LocallyLinearEmbedding(局部线性嵌入) 官方文档

Reference

你可能感兴趣的:(小白学机器学习)