Bob Liu

Faiss源码解析 - Index抽象类介绍(一)

本系列文章基于Faiss 1.5.3版本的代码进行分析。

相似性搜索介绍

Faiss是Facebook AI团队开源的针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，是目前比较成熟的近似近邻搜索库。以图片搜索为例，所谓相似度搜索，就是在给定的图片中，寻找出指定的图片最像的K张图片，本质上为KNN（K近邻）问题。

为了解决KNN问题，在工程上需要对现有图片库的特征向量进行存储。当用户指定检索图片后，需要知道如何从存储的图片库中找到最为相似的K张图片。Faiss为解决这种问题，除具备添加和搜索的功能外，还需要提供相应的修改和删除功能。从本质上将，Faiss属于向量（矢量）数据库。
Faiss的github首页上对相似性搜索做了一个简要的介绍，What is similarity search?。在这里把这部分内容摘抄过来，以对Faiss提供的功能有基本的了解：

Given a set of vectors x_i in dimension d, Faiss build a data structure from it. After the structure is constructed, when given a new vector x in dimension d it performs efficiently the operation:

i = argmin_i ||x - x_i||

where ||.|| is the Euclidean distance (L2).

If Faiss terms, the data structure is an index, an object that has an add method to add x_i vectors. Note that the x_i's are assumed to be fixed.

Computing the argmin is the search operation on the index.

This is all what Faiss is about. It can also:

1. return not just the nearest neighbor, but also the 2nd nearest, 3rd, ..., k-th nearest neighbor

2. search several vectors at a time rather than one (batch processing). For many index types, this is faster than searching one vector after another

3. trade precision for speed, ie. give an incorrect result 10% of the time with a method that's 10x faster or uses 10x less memory

4. perform maximum inner product search argmax_i  instead of minimum Euclidean search.

5. return all elements that are within a given radius of the query point (range search)

相似性计算方式

既然Faiss是一种相似性搜索库，那就来看一下Faiss提供了哪些方式来衡量相似度度。在Faiss 1.5.0版本之前，仅支持常用的内积(归一化后与余弦等同)和欧式距离两种，新版本中支持了更多的计算方式，可供用户选择。

/// Some algorithms support both an inner product version and a L2 search version.
enum MetricType {
    METRIC_INNER_PRODUCT = 0,  ///< maximum inner product search
    METRIC_L2 = 1,             ///< squared L2 search
    METRIC_L1,                 ///< L1 (aka cityblock)
    METRIC_Linf,               ///< infinity distance
    METRIC_Lp,                 ///< L_p distance, p is given by metric_arg

    /// some additional metrics defined in scipy.spatial.distance
    METRIC_Canberra = 20,
    METRIC_BrayCurtis,
    METRIC_JensenShannon,
};

Index抽象类

对于传统数据库，时空的优化是永恒的主题，即在存储上如何以更少的空间来存储更多的信息，在搜索上如何以更快的速度来搜索出更准确的信息，如何减少搜索所需的时间？在数据库中比较常见的便是各种索引，把各种加速搜索算法功能或空间换时间的策略封装成各种索引，来满足各种不同的引用场景。Faiss作为向量(矢量)数据库，也需要考虑时空优化问题。本系列文章会对每种类型的向量搜索算法进行详尽的分析，本文先来分析Faiss基类的设计。
Faiss实现中有两个基础索引抽象类Index和IndexBinary，本文仅对Index基类进行介绍。Faiss作为向量数据库，需要提供向量的增删改查功能，那先来看一下向量参数如何传递的。

向量参数传递

在整个Faiss的实现中，向量参数的传递按照下面的方式进行：

 * Throughout the library, vectors are provided as float * pointers.
 * Most algorithms can be optimized when several vectors are processed
 * (added/searched) together in a batch. In this case, they are passed
 * in as a matrix. When n vectors of size d are provided as float * x,
 * component j of vector i is
 *
 *   x[ i * d + j ]
 *
 * where 0 <= i < n and 0 <= j < d. In other words, matrices are
 * always compact. When specifying the size of the matrix, we call it
 * an n*d matrix, which implies a row-major storage.

向量以float类型的指针来传递，大部分的算法实现都对批量添加或查询功能进行了优化。比如x为传递的向量指针，其指向的是一个d维，含有n个向量的矩阵，则第i个向量的第j维的值为x[ i * d + j ]，是一个行优先矩阵存储方式。

Index抽象类定义

在Faiss的术语中，相关的数据结构就是一个索引Index。Faiss(包括C++和Python)提供了索引Index的实例。每个Index子类实现一个索引结构，以说明哪些向量可被加入和搜索。Index基类的相关的定义在Index.h/Index.cpp两个文件。

聚类模型训练接口

train()为模型训练函数，像暴力检索的IndexFlat系列子类并不需要训练聚类模型，因此该函数定义为虚函数，并提供了缺省的实现。该函数有2个输入参数，n代表向量的条数，x为浮点数指针，指向训练向量数组，长度为n * d，向量的参数传递方式前面已经介绍。函数接口定义及在虚基类中的缺省实现如下：

/** Perform training on a representative set of vectors
 *
 * @param n      nb of training vectors
 * @param x      training vecors, size n * d
 */
virtual void train(idx_t n, const float* x);

void Index::train(idx_t /*n*/, const float* /*x*/) {
    // does nothing by default
}

向量添加接口

Index虚基类中提供了两个add添加向量的接口：

void add (idx_t n, const float *x) 分配的id为ntotal … ntotal + n - 1，这个接口是所有Index子类均需要提供的，这里将它定义为纯虚函数。
void add_with_ids (idx_t n, const float * x, const idx_t *xids)指定了添加向量的id信息，这个功能并不是所有的Index子类都提供这个功能，Index抽象类提供了缺省实现：抛出FaissException异常。

    /** Add n vectors of dimension d to the index.
     *
     * Vectors are implicitly assigned labels ntotal .. ntotal + n - 1
     * This function slices the input vectors in chuncks smaller than
     * blocksize_add and calls add_core.
     * @param x      input matrix, size n * d
     */
    virtual void add (idx_t n, const float *x) = 0;

    /** Same as add, but stores xids instead of sequential ids.
     *
     * The default implementation fails with an assertion, as it is
     * not supported by all indexes.
     *
     * @param xids if non-null, ids to store for the vectors (size n)
     */
    virtual void add_with_ids (idx_t n, const float * x, const idx_t *xids);

查询接口

Index虚基类中定义了3个查询接口，分别实现不同的功能：

void search (idx_t n, const float *x, idx_t k, float *distances, idx_t *labels)，它从库中查找与输入向量的最相近的k个向量，并输出与相似向量的距离与对应的ID标签信息。如果查询的KNN向量个数小于K，则相应的标签ID填充为-1。这个接口是所有Index子类都需要提供的，因此，在基类中定义为虚基类。
void range_search (idx_t n, const float *x, float radius, RangeSearchResult *result) ，该接口限制了查询距离的大小，涉及RangeSearchResult参数，在支持该查询的Index子类时，再详细分析。
void assign (idx_t n, const float * x, idx_t * labels, idx_t k = 1)函数实现功能与seach接口类似的功能，只是不返回具体的距离信息。

    /** query n vectors of dimension d to the index.
     *
     * return at most k vectors. If there are not enough results for a
     * query, the result array is padded with -1s.
     *
     * @param x           input vectors to search, size n * d
     * @param labels      output labels of the NNs, size n*k
     * @param distances   output pairwise distances, size n*k
     */
    virtual void search (idx_t n, const float *x, idx_t k,
                         float *distances, idx_t *labels) const = 0;

    /** query n vectors of dimension d to the index.
     *
     * return all vectors with distance < radius. Note that many
     * indexes do not implement the range_search (only the k-NN search
     * is mandatory).
     *
     * @param x           input vectors to search, size n * d
     * @param radius      search radius
     * @param result      result table
     */
    virtual void range_search (idx_t n, const float *x, float radius,
                               RangeSearchResult *result) const;

    /** return the indexes of the k vectors closest to the query x.
     *
     * This function is identical as search but only return labels of neighbors.
     * @param x           input vectors to search, size n * d
     * @param labels      output labels of the NNs, size n*k
     */
    void assign (idx_t n, const float * x, idx_t * labels, idx_t k = 1);

接下来看一下assign()函数的具体实现，它仅仅是实现了对search()函数的封装：它申请了存储distance距离的存储空间，并交由ScopeDeleter来管理它。

void Index::assign (idx_t n, const float * x, idx_t * labels, idx_t k)
{
  float * distances = new float[n * k];
  ScopeDeleter del(distances);
  search (n, x, k, distances, labels);
}

ScopeDeleter是模版类，用于管理由new申请的内存资源，在析构函数中进行释放，该模版类定义在FaissException.h文件中：

/** bare-bones unique_ptr
 * this one deletes with delete [] */
template
struct ScopeDeleter {
    const T * ptr;
    explicit ScopeDeleter (const T* ptr = nullptr): ptr (ptr) {}
    void release () {ptr = nullptr; }
    void set (const T * ptr_in) { ptr = ptr_in; }
    void swap (ScopeDeleter &other) {std::swap (ptr, other.ptr); }
    ~ScopeDeleter () {
        delete [] ptr;
    }
};

数据清空和删除接口

Index虚基类中提供了reset()接口，用于清空向量库中数据，本接口要求所有子类实现该功能，该接口被定义为纯虚接口。remove_ids()接口用于从向量库中删除指定标签label的向量，这个接口并不是所有Index索引类型都支持。

    /// removes all elements from the database.
    virtual void reset() = 0;

    /** removes IDs from the index. Not supported by all
     * indexes. Returns the number of elements removed.
     */
    virtual size_t remove_ids (const IDSelector & sel);

接下来分析一下remove_ids()接口参数IDSelector的实现。IDSelector是一个虚基类，用于指定要删除的向量标签ID，有2个子类：IDSelectorRange用于表示标签范围为[imin, imax]，IDSelectorBatch用一个集合来存储标签信息，它使用的std::unordered_set来存储标签信息，并使用了布隆过滤器来加快成员的查询。相关类定义和实现在文件AuxIndexStructures.h和AuxIndexStructures.cpp中。

IDSelector虚基类和子类IDSelectorRange比较简单，不再阐述，其定义和实现如下：

/** Encapsulates a set of ids to remove. */
struct IDSelector {
    typedef Index::idx_t idx_t;
    virtual bool is_member (idx_t id) const = 0;
    virtual ~IDSelector() {}
};

/** remove ids between [imni, imax) */
struct IDSelectorRange: IDSelector {
    idx_t imin, imax;

    IDSelectorRange (idx_t imin, idx_t imax);
    bool is_member(idx_t id) const override;
    ~IDSelectorRange() override {}
};

/***********************************************************************
 * IDSelectorRange
 ***********************************************************************/
IDSelectorRange::IDSelectorRange (idx_t imin, idx_t imax):
    imin (imin), imax (imax)
{
}

bool IDSelectorRange::is_member (idx_t id) const
{
    return id >= imin && id < imax;
}

重点看一下IDSelectorBatch实现。IDSelectorBatch用于从一个ID集合中批量删除向量。使用std::unordered_set用来存储用户提供的索引ID，并维护了一个内部布隆过滤器，用来快速判断一个标签ID是否存在。

/** Remove ids from a set. Repetitions of ids in the indices set
 * passed to the constructor does not hurt performance. The hash
 * function used for the bloom filter and GCC's implementation of
 * unordered_set are just the least significant bits of the id. This
 * works fine for random ids or ids in sequences but will produce many
 * hash collisions if lsb's are always the same */
struct IDSelectorBatch: IDSelector {

    std::unordered_set set;

    typedef unsigned char uint8_t;
    std::vector bloom; // assumes low bits of id are a good hash value
    int nbits;
    idx_t mask;

    IDSelectorBatch (size_t n, const idx_t *indices);
    bool is_member(idx_t id) const override;
    ~IDSelectorBatch() override {}
};

IDSelectorBatch构造函数中在set中插入标签ID，并构建布隆过滤器。

/***********************************************************************
 * IDSelectorBatch
 ***********************************************************************/

IDSelectorBatch::IDSelectorBatch (size_t n, const idx_t *indices)
{
    //根据n计算需要比特位数，nbits = log2(n)，这里通过位移来计算
    nbits = 0;
    while (n > (1L << nbits)) nbits++;
    nbits += 5;
    // for n = 1M, nbits = 25 is optimal, see P56659518

    mask = (1L << nbits) - 1;  // 设置mask值，布隆过滤器计算使用
    bloom.resize (1UL << (nbits - 3), 0);   //调整布隆过滤器空间大小，并初始化位0
    for (long i = 0; i < n; i++) {
        Index::idx_t id = indices[i];
        set.insert(id);   //插入set集合
        id &= mask;
        bloom[id >> 3] |= 1 << (id & 7);  //hash计算，并设置布隆过滤器相应的比特位
    }
}

bool IDSelectorBatch::is_member (idx_t i) const
{
    long im = i & mask;
    if(!(bloom[im>>3] & (1 << (im & 7)))) {  //先根据布隆过滤器查看相应标签ID是否存在，不存在直接返回，否则从set查找。
        return 0;
    }
    return set.count(i);
}

为了方便理上面的代码，简要介绍一下布隆过滤器。布隆过滤器（英语：Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。这就是布隆过滤器的基本思想。

重新构建存储向量

后续文章将陆续降到索引Index各种子类的实现，如IndexFlatL2和IndexIVFFlat都存储了完整的向量。为了扩展到非常大的数据集，Faiss提供了一些变体，它们根据乘积量化器(Product Quantizer, PQ)压缩存储的矢量，并进行有损压缩。矢量仍然存储在Voronoi单元中，但是它们的大小减小到可配置的字节数m（d必须是m的倍数）。压缩基于乘积量化器，其可以被视为额外的量化水平，其应用于要编码的矢量的子矢量。在这种情况下，由于矢量未精确存储，因此搜索方法返回的距离也是近似值。
在讲到相关的实现，还会仔细讲解PQ的相关原理。下面的这些接口，都和乘积量化PQ有关。

    /** Reconstruct a stored vector (or an approximation if lossy coding)
     *
     * this function may not be defined for some indexes
     * @param key         id of the vector to reconstruct
     * @param recons      reconstucted vector (size d)
     */
    virtual void reconstruct (idx_t key, float * recons) const;

    /** Reconstruct vectors i0 to i0 + ni - 1
     *
     * this function may not be defined for some indexes
     * @param recons      reconstucted vector (size ni * d)
     */
    virtual void reconstruct_n (idx_t i0, idx_t ni, float *recons) const;

    /** Similar to search, but also reconstructs the stored vectors (or an
     * approximation in the case of lossy coding) for the search results.
     *
     * If there are not enough results for a query, the resulting arrays
     * is padded with -1s.
     *
     * @param recons      reconstructed vectors size (n, k, d)
     **/
    virtual void search_and_reconstruct (idx_t n, const float *x, idx_t k,
                                         float *distances, idx_t *labels,
                                         float *recons) const;
            
    /** Computes a residual vector after indexing encoding.
     *
     * The residual vector is the difference between a vector and the
     * reconstruction that can be decoded from its representation in
     * the index. The residual can be used for multiple-stage indexing
     * methods, like IndexIVF's methods.
     *
     * @param x           input vector, size d
     * @param residual    output residual vector, size d
     * @param key         encoded index, as returned by search and assign
     */
    void compute_residual (const float * x, float * residual, idx_t key) const;

Index虚基类子类

后面的系列文章会详细分析Index子类的实现，这里先将继承自Index的子类在下图中列出。

参考资料

Faiss：Facebook 开源的相似性搜索类库
布隆过滤器
Low Memory Footprint

【机器学习与数据挖掘实战】案例15：基于LDA模型的电商产品评论数据情感分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘人工智能 LDA主题模型情感分析文本分析 python
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
【机器学习与数据挖掘实战】案例14：基于随机森林分类器的汽车公司客户细分预测 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘随机森林人工智能分类算法
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
机器学习与数据挖掘：决策树（知识点总结） KE.WINE 机器学习机器学习数据挖掘决策树
决策树叶节点对应于决策结果，内部节点表示一个特征或属性。基本流程决策树算法递归返回的三个条件：当前结点包含的样本全属于同一类别，无需划分;当前属性集为空,或是所有样本在所有属性上取值相同，无法划分;*将当前节点标记为叶节点，将其类别设定为该节点所含样本最多的类别；当前结点包含的样本集合为空，不能划分；*将当前节点标记为叶节点，将其类别设定其父节点所含样本最多的类别；划分选择决策树学习算法包括3部分
【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘灰色预测 SVR 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
《机器学习与数据挖掘》学习笔记（二）-续产品扫地僧
沿着PAC学习理论，讨论有限假设空间的样本复杂度，并用Hoeffding不等式来界定概率边界。假设空间的样本复杂度PAC可学习性很大程度上由所需的训练样本数量决定。随着问题规模的增长所带来的所需训练样本的增长称为学习问题的样本复杂度（samplecomplexity）。在多数实际问题中，最限制学习器成功的因素是有限的可用的训练数据。我们通常都喜欢能与训练数据拟合程度更高的假设，当一个学习器在可能时
牛人（周志华）推荐的人工智能网站城市中迷途小书童
AIURLs(maintainedbyZhi-HuaZhou)**北京大学视觉与听觉信息处理实验室北京邮电大学模式识别与智能系统学科复旦大学智能信息处理开放实验室IEEEComputerSociety北京映象站点计算机科学论坛机器人足球赛模式识别国家重点实验室南京航空航天大学模式识别与神经计算实验室-PARNEC南京大学机器学习与数据挖掘研究所-LAMDA南京大学人工智能实验室南京大学软件新技术国
1.5 The Leaming Problem-Machine Leaming and other Fields|机器学习基石（林轩田）-学习笔记努力奋斗的durian
文章原创,最近更新：2018-06-27学习链接:1.5TheLeamingProblem-MachineLeamingandotherFields1.MachineLearningandDataMining(机器学习与数据挖掘)讲完了机器学习完整的流程,下面将一下机器学习与其他相关领域的关系第一个讲的领域就是数据挖掘,数据挖掘与机器学习有什么不一样,如下:机器学习是用资料找出一个假说g,然后跟我
毕业设计选题 - 计算机毕业设计（论文）选题合集 weixin_55149953 毕业设计人工智能毕业设计毕设目标跟踪计算机视觉大数据算法
目录前言选题背景意义毕业设计选题深度学习与神经网络计算机视觉与图像处理机器学习与数据挖掘数据分析和大数据处理选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。大四的同学马上要开始毕业设计,对选题有疑问可以问学长哦!以下整理了适合不同方向的计算机专业的毕业设计选题对毕设有任何疑问
DataFunSummit：2023年数据科学在线峰会-核心PPT资料下载百家峰会大数据数据治理数据科学大数据数据科学数据治理
一、峰会简介数据会说谎？如何正确的挖掘并使用数据？前沿的科学实验如何做？实验又是如何欺骗你的？数据中台如何发挥功效？用户增长有捷径吗？数据科学的最佳实践有哪些？本次峰会共包含了：机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大论坛。机器学习与数据挖掘方向的核心目标是通过机器学习的建模方式解决人与物的匹配问题，以及通过对人行为数据的建模或挖掘研究，
【机器学习】学习笔记01-概论 NRbene 机器学习机器学习学习数据挖掘
机器学习简介文章目录机器学习简介机器学习辨析深度学习与机器学习机器学习与数据挖掘机器学习与统计学习机器学习与传统编程机器学习概念适用条件挑战模型的稳定性模型的可解释性历史符号主义贝叶斯学派连接主义其他概念基本概念三要素模型策略算法归纳偏好证明机器学习的目标欠拟合和过拟合泛化误差(重点)缓解过拟合深入理解泛化误差基本概念方法总结机器学习一般流程机器学习分类按有无标签分类按输出空间分类按模型分类按算法
《机器学习与数据挖掘》学习笔记（一）产品扫地僧
从刚注册时强迫自己写文章时的拖延，到现在有了想法不自觉的想记录下来，是好的转变。最近开始对数据挖掘很感兴趣，在网易公开课上开始学加州理工的《机器学习和数据挖掘》，还可以顺便练练英语听力。第一课《学习问题》只要从问题引入，介绍什么是机器学习，以及常见的学习分类。在人类的认知中一些显而易见的结论，对机器而言是一个却是无限靠近的过程，比如婴儿可以快速识别一张脸的情绪等。课中介绍了银行信贷审批的例子。阐述
机器学习与数据挖掘第三、四周 Joy T 机器学习数据挖掘人工智能机器学习
为什么第二周没有呢……因为刚换老师，自学要适应一段时间。本课程作者之后的学习目标是：实操代码，至少要将作者参加数学建模中用到的数据处理方法都做一遍。首先，作者复习一下李宏毅老师的两节课程。机器学习概述机器学习就是让机器帮我们找一个函数！而这个函式，其实就是类神经网络！这个函式的输入可以是向量、矩阵和序列。矩阵往往用于表示图像。语音往往可以被表示为序列。输出可以是数值regression、类别cla
数分面试题1-牛客海星？海欣！面试问题 python 数据分析
1、python中你常用的包包名+作用+哪里使用过numpy:主要用来做多维数组的运算，高效的数值计算与数组操作，之前在推荐系统的项目中使用过pandas：用于数据处理与分析，提供了灵活的数据结构与数据操作功能matplotlib：数据可视化，比如想看数据的分布情况-箱线图，还有热力图、直方图、面积图、雷达图、极坐标图、等高线图等sklearn：用于机器学习与数据挖掘项目，提供多种机器学习算法与工
【AI】机器学习——绪论 AmosTian AI #机器学习人工智能机器学习 AI
文章目录1.1机器学习概念1.1.1定义统计机器学习与数据挖掘区别机器学习前提1.1.2术语1.1.3特点以数据为研究对象目标方法——基于数据构建模型SML三要素SML步骤1.2分类1.2.1参数化/非参数化方法1.2.2按算法分类1.2.3按模型分类概率模型非概率模型逻辑斯蒂回归1.2.4基本分类监督学习分类符号表示形式化特征无监督模型特征符号表示形式化强化学习半监督学习主动学习1.2.5按技巧
加州理工学院公开课：机器学习与数据挖掘_Epilogue（第十八课-终结篇）飞天狐213 机器学习机器学习 Aggregation 贝叶斯
课程简介:这是该课程的最后一课，作者首先总结了有关机器学习的理论、方法、模型、范式等。最后介绍了贝叶斯理论和Aggregation（聚合）方法在机器学习中的应用。课程提纲:1、机器学习的地图。2、贝叶斯理论。3、Aggregation（聚合）。1、机器学习的地图有关机器学习的方法、模型等非常多，简直令人目不暇接。比如下图列出来的。然而不建议一一学习这些方法、模型，否则容易迷失在这些方法里无法自拔。
大咖观点| AIGC与因果推断的双向赋能九章云极DataCanvas AIGC 人工智能大数据
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书胡萝卜须_aee2
点击获取提取码：i5nwimage.pngPython机器学习及实践面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具，如Scikit-learn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书
大咖观点| AIGC与因果推断的双向赋能 aigc
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
机器学习与数据挖掘的学习路线图 thousand_
https://my.oschina.net/siiiso/blog/810554正式学习之前，你所需要的预备知识（主要是数学）应该包括：微积分（偏导数、梯度等等）、概率论与数理统计（例如极大似然估计、中央极限定理、大数法则等等）、最优化方法（比如梯度下降、牛顿-拉普什方法、变分法（欧拉-拉格朗日方程）、凸优化等等）——如果你对其中的某些名词感到陌生，那么就说明你尚不具备深入开展数据挖掘算法学习的
通关秘籍！Pandas最新官方教程中文版 Python数据之道
大家好，感谢大家一路以来的关注和支持，今天给大家强烈推荐我的好友云朵君的公众号『数据STUDIO』，强烈推荐大家关注～‍☠️宝藏级‍☠️原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！云朵君为大家整理和筛选了大量火爆全网的Python数据科学学习资料，全
机器学习（面试题）及知识点菜田的守望者机器学习机器学习面试题
文章目录文章目录文章目录1，什么是机器学习2，机器学习与数据挖掘的区别3.什么是机器学习的过度拟合现象4.过度拟合产生的原因5.如何避免过度拟合6.什么是感应式的机器学习？7.什么是机器学习的五个流行的算法？9.在机器学习中，建立假设或者模型的三个阶段指的是什么？10.什么是监督学习的标准方法？11.什么是训练数据集和测试数据集？12.机器学习的方法？13.非机器学习有哪些类型？14.什么是非监督
python语法基础知识案例_Python 语法速览与实战清单 weixin_39860064 python语法基础知识案例
本文是对于现代Python开发：语法基础与工程实践的总结，更多Python相关资料参考Python学习与实践资料索引；本文参考了PythonCrashCourse-CheatSheets，pysheeet等。本文仅包含笔者在日常工作中经常使用的，并且认为较为关键的知识点与语法，如果想要进一步学习Python相关内容或者对于机器学习与数据挖掘方向感兴趣，可以参考程序猿的数据科学与机器学习实战手册。基
if i have five million dollars 云想飘飘
假如我有五百万我首先要还清我的房贷然后买辆车然后在村里盖个舒服的房子给父母然后想不到了抽个时间去考个机器学习与数据挖掘研究生然后努力工作。。。。
python竞赛之路_Python机器学习及实践：从零开始通往Kaggle竞赛之路 PDF高清完整版... weixin_39900468 python竞赛之路
Python机器学习及实践：从零开始通往Kaggle竞赛之路PDF高清完整版作者:范淼/李超出版社:清华大学出版社副标题:从零开始通往Kaggle竞赛之路出版年:2016-10-1定价:49元装帧:平装ISBN:9787302442875内容简介······本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，
Python机器学习及实践+从零开始通往Kaggle竞赛之路喜欢安静的程序猿 python 经典书籍
内容简介本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具，如Scikitlearn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书共分4章。第1章简介篇，介绍机器学习概念与Python
机器学习与数据挖掘，机器学习算法简介明月说数据数据挖掘算法大数据
什么是数据挖掘数据挖掘就是从大量的数据中去发现有用的信息，然后根据这些信息来辅助决策。听起来是不是跟传统的数据分析很像呢？实际上，数据挖掘就是智能化的数据分析，它们的目标都是一样的。但是，又有很大的区别。传统的数据分析和数据挖掘最主要的区别就是在揭示数据之间的关系上。传统的数据分析揭示的是已知的、过去的数据关系，数据挖掘揭示的是未知的、将来的数据关系。它们采用的技术也不一样，传统的数据分析采用计算
机器学习算法之LightGBM The king always the king 机器学习
LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势：更快的训练效率低内存使用更高的准确率支持并行化学习可处理大规模数据支持直接使用category特征从下图实验数据可以看出，LightGBM比XGBoost快将近10倍，内存占用率大约为XGBoost的1/6，并且准确率也有提升。LightGBM的应用LightGBM在机器学习与数据挖掘领域有着极为广泛的应用。据统计Light
机器学习第一章（引言）罗辑罗辑机器学习
“假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则意味着关于T和P，该程序对E进行了学习”机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据中产生“模型”，依此来对新的未知的情况进行判断。机器学习与数据挖掘的关系：图1.机器学习与数据挖掘的关系机器学习中的基本术语：数据、任务、泛化能力机器学习中的假设空间、归
python手写数字识别教学_6手写数字识别_python机器学习与数据挖掘_Python视频-51CTO学院... 职业生涯规划师 python手写数字识别教学
爬虫Python基础、数据分析扩展包Numpy、pandas、matplotlib，Python读取MySQL数据，Python爬虫及Scrapy框架，无监督机器学习算法聚类分析等，以及案例：互联网金融行业客户价值分析等。机器学习机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有
Python多元线性回归、机器学习、深度学习在近红外光谱分析中的应用 PhyliciaFelicia 深度学习遥感医学影像 python 线性回归深度学习
导师：郁磊副教授，主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用第一章：Python入门基础1、Pyt
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class