tuqinag

Shark源码分析（十）：KNN算法

关于这个算法，我之前已经有博客详细介绍过。虽然说这个算法看上去非常的简单，但是在搜索k个最近邻居数据点时，还是非常具有技巧性的。这里还是有必要再次强调一下。如果输入数据的维度不高，可以使用树形结构（kd树）来加快查找的速度。如果输入的维度较高，则利用树型结构的速度与计算两两数据间距离的速度并不会有太大的差别。之后我们要介绍的代码也是利用kd树来组织的。

在计算距离时，不仅可以选择欧几里得距离，同样可以选择基于核函数的距离。同样地，也有基于核函数距离的kd树。

BinaryTree类

这个类不是我们通常所认为的二叉树的结点类，而是表示binary space-partitioning tree 的结点。在每一个父结点处，表示将当前的空间分为两个子空间。这个分隔，不仅允许线性地分隔，同样也可以使用基于核函数的分隔。该类定义在。

template <class InputT>
class BinaryTree
{
public:
    typedef InputT value_type;

    BinaryTree(std::size_t size)
    : mep_parent(NULL)
    , mp_left(NULL)
    , mp_right(NULL)
    , mp_indexList(NULL)
    , m_size(size)
    , m_nodes(0)
    , m_threshold(0.0)
    {
        SHARK_ASSERT(m_size > 0);

        mp_indexList = new std::size_t[m_size];
        boost::iota(boost::make_iterator_range(mp_indexList,mp_indexList+m_size),0);
    }

    virtual ~BinaryTree()
    {
        if (mp_left != NULL) delete mp_left;
        if (mp_right != NULL) delete mp_right;
        if (mep_parent == NULL) delete [] mp_indexList;
    }

    BinaryTree* parent()
    { return mep_parent; }

    const BinaryTree* parent() const
    { return mep_parent; }

    bool hasChildren() const
    { return (mp_left != NULL); }

    bool isLeaf() const
    { return (mp_left == NULL); }

    BinaryTree* left()
    { return mp_left; }

    const BinaryTree* left() const
    { return mp_left; }

    BinaryTree* right()
    { return mp_right; }

    const BinaryTree* right() const
    { return mp_right; }

    std::size_t size() const
    { return m_size; }

    std::size_t nodes() const
    { return m_nodes; }

    std::size_t index(std::size_t point)const{
        return mp_indexList[point];
    }

    double distanceFromPlane(value_type const& point) const{
        return funct(point) - m_threshold;
    }

    double threshold() const{
        return m_threshold;
    }

    // 注意到，前面的left函数表示返回左孩子结点，而该函数的意思是
    // 查询结点是否位于左子空间内
    bool isLeft(value_type const& point) const
    { return (funct(point) < m_threshold); }

    bool isRight(value_type const& point) const
    { return (funct(point) >= m_threshold); }

    //如果计算距离时使用的是核函数，则返回核函数的对象
    virtual AbstractKernelFunction const* kernel()const{
        //default is no kernel metric
        return NULL;
    }

    // 计算查询点与当前空间距离下界的平方
    // 灵活使用三角不等式，可以使这个界更紧，搜索的速度也更快
    virtual double squaredDistanceLowerBound(value_type const& point) const = 0;

protected:
    BinaryTree(BinaryTree* parent, std::size_t* list, std::size_t size)
    : mep_parent(parent)
    , mp_left(NULL)
    , mp_right(NULL)
    , mp_indexList(list)
    , m_size(size)
    , m_nodes(0)
    {}

    // 计算查询点与当前分隔平面的距离
    virtual double funct(value_type const& point) const = 0;

    // 将结点中的数据分开。并返回分隔点。
    // Range1表示具体的数据值，Range2表示具体的数据点
    template<class Range1, class Range2>
    typename boost::range_iterator::type splitList (Range1& values, Range2& points){
        typedef typename boost::range_iterator::type iterator1;
        typedef typename boost::range_iterator::type iterator2;

        iterator1 valuesBegin = boost::begin(values);
        iterator1 valuesEnd = boost::end(values);

        //partitionEqually函数是将整个range划分为大小尽可能相等的两部分
        std::pair splitpoint = partitionEqually(zipKeyValuePairs(values,points)).iterators();
        iterator1 valuesSplitpoint = splitpoint.first;
        iterator2 pointsSplitpoint = splitpoint.second;
        if (valuesSplitpoint == valuesEnd) {
            // partitioning failed, all values are equal :(
            m_threshold = *valuesBegin;
            return splitpoint.second;
        }

        // We don't want the threshold to be the value of an element but always in between two of them.
        // This ensures that no point of the training set lies on the boundary. This leeds to more stable
        // results. So we use the mean of the found splitpoint and the nearest point on the other side
        // of the boundary.
        double maximum = *std::max_element(valuesBegin, valuesSplitpoint);
        m_threshold = 0.5*(maximum + *valuesSplitpoint);

        return pointsSplitpoint;
    }

    //父结点指针
    BinaryTree* mep_parent;

    //左孩子结点指针
    BinaryTree* mp_left;

    //右孩子结点指针
    BinaryTree* mp_right;

    //存储当前结点中数据类标签的列表
    std::size_t* mp_indexList;

    //当前结点中数据的个数
    std::size_t m_size;

    //以当前结点为根节点的子树的结点个数
    std::size_t m_nodes;

    //分隔空间的阈值
    double m_threshold;

};

TreeConstruction类

这个类表示的是树构造的停止条件，停止条件可以是树的高度，或是叶子结点中包含数据的最小个数。该文件的定义位置与BinaryTree是一样的。

class TreeConstruction
{
public:
    TreeConstruction()
    : m_maxDepth(0xffffffff)
    , m_maxBucketSize(1)
    { }

    TreeConstruction(TreeConstruction const& other)
    : m_maxDepth(other.m_maxDepth)
    , m_maxBucketSize(other.m_maxBucketSize)
    { }

    TreeConstruction(unsigned int maxDepth, unsigned int maxBucketSize)
    : m_maxDepth(maxDepth ? maxDepth : 0xffffffff)
    , m_maxBucketSize(maxBucketSize ? maxBucketSize : 1)
    { }

    //使树的高度限制减1
    TreeConstruction nextDepthLevel() const
    { return TreeConstruction(m_maxDepth - 1, m_maxBucketSize); }

    unsigned int maxDepth() const
    { return m_maxDepth; }

    unsigned int maxBucketSize() const
    { return m_maxBucketSize; }

protected:
    //树的最大深度
    unsigned int m_maxDepth;

    //叶子就诶点钟所含数据的最小个数
    unsigned int m_maxBucketSize;
};

KDTree类

该类定义在中。

template <class InputT>
class KDTree : public BinaryTree
{
    typedef KDTree self_type;
    typedef BinaryTree base_type;
public:

    KDTree(Data const& dataset, TreeConstruction tc = TreeConstruction())
    : base_type(dataset.numberOfElements())
    , m_cutDim(0xffffffff){
        typedef DataView const> PointSet;
        PointSet points(dataset);

        std::vector<typename boost::range_iterator::type> elements(m_size);
        boost::iota(elements,boost::begin(points));

        buildTree(tc,elements);

        //记录结点中数据点的类标签，该工作只在根结点中进行
        for(std::size_t i = 0; i != m_size; ++i){
            mp_indexList[i] = elements[i].index();
        }
    }

    // 计算当前子空间在某一维度上与查询结点的距离的下界
    double lower(std::size_t dim) const{
        self_type* parent = static_cast(mep_parent);
        if (parent == NULL) return -1e100; // 如果是根结点

        //维度是父结点的分隔维度，且是父结点的右子结点
        if (parent->m_cutDim == dim && parent->mp_right == this)
            return parent->threshold();
        else
            return parent->lower(dim);
    }

    double upper(std::size_t dim) const{
        self_type* parent = static_cast(mep_parent);
        if (parent == NULL) return +1e100;

        if (parent->m_cutDim == dim && parent->mp_left == this) 
            return parent->threshold();
        else 
            return parent->upper(dim);
    }

    // 计算当前子空间下，到查询结点距离的下界
    double squaredDistanceLowerBound(InputT const& reference) const
    {
        double ret = 0.0;
        for (std::size_t d = 0; d != reference.size(); d++)
        {
            double v = reference(d);
            double l = lower(d);
            double u = upper(d);
            if (v < l){
                ret += sqr(l-v);
            }
            else if (v > u){
                ret += sqr(v-u);
            }
        }
        return ret;
    }

protected:
    using base_type::mep_parent;
    using base_type::mp_left;
    using base_type::mp_right;
    using base_type::mp_indexList;
    using base_type::m_size;
    using base_type::m_nodes;

    // 构建非根节点
    KDTree(KDTree* parent, std::size_t* list, std::size_t size)
    : base_type(parent, list, size)
    , m_cutDim(0xffffffff)
    { }

    template<class Range>
    void buildTree(TreeConstruction tc, Range& points){
        typedef typename boost::range_iterator::type iterator;

        iterator begin = boost::begin(points);
        iterator end = boost::end(points);

        //如果到达树构造的停止条件，将该结点设置为叶结点
        if (tc.maxDepth() == 0 || m_size <= tc.maxBucketSize()){
            m_nodes = 1; 
            return; 
        }

        m_cutDim = calculateCuttingDimension(points);

        // 获取当前数据中分隔维度上的所有值
        std::vector<double> distance(m_size);
        iterator point = begin;
        for(std::size_t i = 0; i != m_size; ++i,++point){
            distance[i] = get(**point,m_cutDim);
        }

        // 分隔当前结点中的数据
        iterator split = this->splitList(distance,points);
        if (split == end){
            // 表示分隔失败，所以将该结点变为叶子结点
            m_nodes = 1;
            return; 
        }
        std::size_t leftSize = split-begin;

        // 构建当前结点的左右子结点
        mp_left = new KDTree(this, mp_indexList, leftSize);
        mp_right = new KDTree(this, mp_indexList + leftSize, m_size - leftSize);

        boost::iterator_range left(begin,split);
        boost::iterator_range right(split,end);
        ((KDTree*)mp_left)->buildTree(tc.nextDepthLevel(), left);
        ((KDTree*)mp_right)->buildTree(tc.nextDepthLevel(), right);
        m_nodes = 1 + mp_left->nodes() + mp_right->nodes();
    }

    // 针对当前结点，计算分隔的维度
    template<class Range>
    std::size_t calculateCuttingDimension(Range const& points)const{
        typedef typename boost::range_iteratorconst>::type iterator;

        iterator begin = boost::begin(points);

        // 针对当前的数据，计算每一维数据的最大和最小值
        InputT L = **begin;
        InputT U = **begin;
        std::size_t dim = L.size();
        iterator point = begin;
        ++point;
        for (std::size_t i=1; i != m_size; ++i,++point){
            for (std::size_t d = 0; d != dim; d++){
                double v = (**point)[d];
                if (v < L[d]) L[d] = v;
                if (v > U[d]) U[d] = v;
            }
        }

        // 寻找范围覆盖最大的那一维度作为分隔维度
        std::size_t cutDim = 0;
        double extent = U[0] - L[0];
        for (std::size_t d = 1; d != dim; d++)
        {
            double e = U[d] - L[d];
            if (e > extent)
            {
                extent = e;
                cutDim = d;
            }
        }
        return cutDim;
    }

    // 直接取出查询数据在分隔维度上的值，然后判断其是在左子空间还是右子空间中
    double funct(InputT const& reference) const{
        return reference[m_cutDim];
    }

    //在该结点分隔子空间的维度
    std::size_t m_cutDim;
};

AbstractNearestNeighbors类

这个类是所有近邻算法的基类。定义在。

template<class InputType,class LabelType>
class AbstractNearestNeighbors{
public:
    // 第一项表示返回的近邻与查询数据间的距离，第二项表示近邻的类标签
    typedef KeyValuePair<double,LabelType> DistancePair;
    typedef typename Batch::type BatchInputType;

    // 将输入数据的k个近邻以向量的形式返回
    virtual std::vector getNeighbors(BatchInputType const& batch, std::size_t k) const = 0;

    virtual LabeledDataconst& dataset()const = 0;

    virtual ~AbstractNearestNeighbors() {}
};

TreeNearestNeighbor类

该类是knn的算法类，利用kd树来查找输入数据的k个最近邻居。该类定义在。

template<class InputType, class LabelType>
class TreeNearestNeighbors:public AbstractNearestNeighbors
{
private:
    typedef AbstractNearestNeighbors base_type;

public:
    typedef LabeledData Dataset;
    typedef BinaryTree Tree;
    typedef typename base_type::DistancePair DistancePair;
    typedef typename Batch::type BatchInputType;

    TreeNearestNeighbors(Dataset const& dataset, Tree const* tree)
    : m_dataset(dataset), m_inputs(dataset.inputs()), m_labels(dataset.labels()),mep_tree(tree)
    { }

    std::vector getNeighbors(BatchInputType const& patterns, std::size_t k)const{
        std::size_t numPoints = shark::size(patterns);
        std::vector results(k*numPoints);
        for(std::size_t p = 0; p != numPoints; ++p){
            IterativeNNQuery const> > query(mep_tree, m_inputs, get(patterns, p));
            // 查找输入数据的k个最近邻居，并将结果保存下来
            for(std::size_t i = 0; i != k; ++i){
                typename IterativeNNQuery const> >::result_type result = query.next();
                results[i+p*k].key=result.first;
                results[i+p*k].value= m_labels[result.second]; 
            }
        }
        return results;
    }

    LabeledDataconst& dataset()const {
        return m_dataset;
    }

private:
    Dataset const& m_dataset; // 训练数据集，感觉在这里并没有什么用
    DataView const> m_inputs;
    DataView const> m_labels;
    Tree const* mep_tree; // 构造好的kd树

};

IterativeNNQuery类

在TreeNearestNeighbor类的代码中也看到了，对于kd树的查询工作主要还是由IterativeNNQuery类来完成的。它允许以迭代的方式查询给定数据点的近邻。比如第一个是最近的，第二个是第二近的。在构建kd树的时候，叶结点中最少数据点数要被设置为1。叶结点中可以含有多个相同的数据点。训练数据要存放在能够进行随机存取的容器中，这样能提高查询的速度。该类的定义位置与TreeNearestNeighbor类是一样的。

template 
class IterativeNNQuery
{
public:
    typedef typename DataContainer::value_type value_type;
    typedef BinaryTree tree_type;
    typedef AbstractKernelFunction kernel_type;
    typedef std::pair<double, std::size_t> result_type;

    IterativeNNQuery(tree_type const* tree, DataContainer const& data, value_type const& point)
    : m_data(data)
    , m_reference(point)
    , m_nextIndex(0)
    , mp_trace(NULL)
    , mep_head(NULL)
    , m_squaredRadius(0.0)
    , m_neighbors(0)
    {
        mp_trace = new TraceNode(tree, NULL, m_reference);
        TraceNode* tn = mp_trace;
        // 将轨迹扩展到kd树的叶结点上，
        while (tree->hasChildren())
        {
            tn->createLeftNode(tree, m_data, m_reference);
            tn->createRightNode(tree, m_data, m_reference);
            bool left = tree->isLeft(m_reference);
            tn = (left ? tn->mep_left : tn->mep_right);
            tree = (left ? tree->left() : tree->right());
        }
        mep_head = tn->mep_parent;
        insertIntoQueue((TraceLeaf*)tn); //先将当前最近的加入到队列中
        m_squaredRadius = mp_trace->squaredRadius(m_reference);
    }

    ~IterativeNNQuery() {
        m_queue.clear();
        delete mp_trace;
    }

    std::size_t neighbors() const {
        return m_neighbors;
    }

    /// find and return the next nearest neighbor
    result_type next() {
        if (m_neighbors >= mp_trace->m_tree->size()) 
            throw SHARKEXCEPTION("[IterativeNNQuery::next] no more neighbors available");

        assert(! m_queue.empty());

        if (m_neighbors > 0){
            TraceLeaf& q = *m_queue.begin();
            // 当前叶结点中还有数据点没有被搜索完，因为只有一个数据，说明该结点没有被搜索过
            if (m_nextIndex < q.m_tree->size()){
                //这里应该将m_neighbors加一，但看了之后的代码就知道了
                //外部循环也有变量来控制它
                return getNextPoint(q);
            }
            else
                m_queue.erase(q);
        }
        //为候选集队列扩充结点
        // 候选队列中已经没有结点，或是候选区域的结点距离太远
        if (m_queue.empty() || (*m_queue.begin()).m_squaredPtDistance > m_squaredRadius){
            // 向上回溯，不断地寻找还没有被搜索过的结点
            TraceNode* tn = mep_head;
            while (tn != NULL){
                enqueue(tn);
                if (tn->m_status == COMPLETE) mep_head = tn->mep_parent;
                tn = tn->mep_parent;
            }

            m_squaredRadius = mp_trace->squaredRadius(m_reference);
        }
        m_nextIndex = 0;
        ++m_neighbors;
        return getNextPoint(*m_queue.begin());
    }

    std::size_t queuesize() const{ 
        return m_queue.size();
    }

private:
    // 轨迹树结点在搜索过程中的状态
    enum Status
    {
        NONE,            //结点中的数据都没有被加入到候选队列中
        PARTIAL,         //部分被加入
        COMPLETE,        //所有数据点都已被搜索过
    };

    //轨迹树是在搜索的过程中被建立的，只需要覆盖那些在搜索过程中可能会遇到的结点
    class TraceNode
    {
    public:
        TraceNode(tree_type const* tree, TraceNode* parent, value_type const& reference)
        : m_tree(tree)
        , m_status(NONE)
        , mep_parent(parent)
        , mep_left(NULL)
        , mep_right(NULL)
        , m_squaredDistance(tree->squaredDistanceLowerBound(reference))
        { }

        virtual ~TraceNode()
        {
            if (mep_left != NULL) delete mep_left;
            if (mep_right != NULL) delete mep_right;
        }

        void createLeftNode(tree_type const* tree, DataContainer const& data, value_type const& reference){
            if (tree->left()->hasChildren())
                mep_left = new TraceNode(tree->left(), this, reference);
            else
                // 如果左子结点是叶子结点，则需要调用建立叶子结点的类
                mep_left = new TraceLeaf(tree->left(), this, data, reference);
        }
        void createRightNode(tree_type const* tree, DataContainer const& data, value_type const& reference){
            if (tree->right()->hasChildren())
                mep_right = new TraceNode(tree->right(), this, reference);
            else
                mep_right = new TraceLeaf(tree->right(), this, data, reference);
        }

        /// Compute the squared distance of the area not
        /// yet covered by the queue to the reference point.
        /// This is also referred to as the squared "radius"
        /// of the area covered by the queue (in fact, it is
        /// the radius of the largest sphere around the
        /// reference point that fits into the covered area).
        double squaredRadius(value_type const& ref) const{
            if (m_status == NONE) return m_squaredDistance;
            else if (m_status == PARTIAL)
            {
                double l = mep_left->squaredRadius(ref);
                double r = mep_right->squaredRadius(ref);
                return std::min(l, r);
            }
            else return 1e100;
        }

        // 当前搜索到的位置对应的kd树
        tree_type const* m_tree;

        //结点的状态
        Status m_status;

        //轨迹树的父结点指针
        TraceNode* mep_parent;

        //轨迹树的左儿子结点指针
        TraceNode* mep_left;

        //轨迹树的右儿子结点指针
        TraceNode* mep_right;

        //当前子空间到搜索点距离下界的平方
        double m_squaredDistance;
    };

    /// hook type for intrusive container
    typedef boost::intrusive::set_base_hook<> HookType;

    class TraceLeaf : public TraceNode, public HookType
    {
    public:

        TraceLeaf(tree_type const* tree, TraceNode* parent, DataContainer const& data, value_type const& ref)
        : TraceNode(tree, parent, ref){
            // 判断kd树是否使用了核距离，并计算叶子结点中的数据点到查询点的距离
            if(tree->kernel() != NULL)
                m_squaredPtDistance = tree->kernel()->featureDistanceSqr(data[tree->index(0)], ref);
            else
                m_squaredPtDistance = distanceSqr(data[tree->index(0)], ref);
        }

        ~TraceLeaf() { }

        inline bool operator < (TraceLeaf const& rhs) const{
            if (m_squaredPtDistance == rhs.m_squaredPtDistance) 
                return (this->m_tree < rhs.m_tree);
            else
                return (m_squaredPtDistance < rhs.m_squaredPtDistance);
        }

        double m_squaredPtDistance;
    };

    //将叶子结点加入到当前的搜索队列中
    void insertIntoQueue(TraceLeaf* leaf){
        //注意到候选队列是红黑树，在插入到树中之后，会对顺序进行调整
        m_queue.insert_unique(*leaf);

        // 向上遍历轨迹树，修改结点的状态
        TraceNode* tn = leaf;
        tn->m_status = COMPLETE;
        while (true){
            TraceNode* par = tn->mep_parent;
            if (par == NULL) break;
            if (par->m_status == NONE){
                par->m_status = PARTIAL;
                break;
            }
            else if (par->m_status == PARTIAL){
                // 如果左右子结点都已经被搜索完了，则将父结点也修改为搜索完的状态
                if (par->mep_left == tn){
                    if (par->mep_right->m_status == COMPLETE) par->m_status = COMPLETE;
                    else break;
                }
                else{
                    if (par->mep_left->m_status == COMPLETE) par->m_status = COMPLETE;
                    else break;
                }
            }
            tn = par;
        }
    }

    // 将相应的信息构造成pair返回
    result_type getNextPoint(TraceLeaf const& leaf){
        double dist = std::sqrt(leaf.m_squaredPtDistance);
        std::size_t index = leaf.m_tree->index(m_nextIndex);
        ++m_nextIndex;
        return std::make_pair(dist,index);
    }

    /// Recursively descend the node and enqueue
    /// all points in cells intersecting the
    /// current bounding sphere.
    void enqueue(TraceNode* tn){
        // 如果已经搜索过以该结点为根的子树，则返回
        if (tn->m_status == COMPLETE) return;
        if (! m_queue.empty() && tn->m_squaredDistance >= (*m_queue.begin()).m_squaredPtDistance) return;

        const tree_type* tree = tn->m_tree;
        // 如果还有结点的分支没有被搜索过，则需要扩展轨迹树
        if (tree->hasChildren()){
            if (tn->mep_left == NULL){
                tn->createLeftNode(tree,m_data,m_reference);
            }
            if (tn->mep_right == NULL){
                tn->createRightNode(tree,m_data,m_reference);
            }

            //若查询结点位于左子空间中，则先搜索左子空间中的结点
            if (tree->isLeft(m_reference))
            {
                enqueue(tn->mep_left);
                enqueue(tn->mep_right);
            }
            else
            {
                enqueue(tn->mep_right);
                enqueue(tn->mep_left);
            }
        }
        else
        {
            TraceLeaf* leaf = (TraceLeaf*)tn;
            insertIntoQueue(leaf);
        }
    }

    // 待搜索结点的队列
    typedef boost::intrusive::rbtree QueueType;

    //训练数据
    DataContainer const& m_data;

    //待搜索的结点
    value_type m_reference;

    QueueType m_queue;

    //当前叶结点中下一个还没有被搜索到的结点的下标
    std::size_t m_nextIndex;

    // 在对kd树进行搜索的时候会构建一棵搜索的轨迹树
    // 轨迹树的根结点
    TraceNode* mp_trace;

    // 轨迹树当前搜索到的结点
    TraceNode* mep_head;

    //当前覆盖区域的半径
    double m_squaredRadius;

    //已经寻找到的邻居的个数
    std::size_t m_neighbors;
};

NearestNeighborClassifier类

该类是利用所查询到的k个近邻来对输入数据进行分类的类。定义在。

template <class InputType>
class NearestNeighborClassifier : public AbstractModelunsigned int>
{
public:
    typedef AbstractNearestNeighborsunsigned int> NearestNeighbors;
    typedef AbstractModelunsigned int> base_type;
    typedef typename base_type::BatchInputType BatchInputType;
    typedef typename base_type::BatchOutputType BatchOutputType;

    //在对类标签进行决策时，为距离赋上一个怎样的权值
    enum DistanceWeights
    {
        UNIFORM,                //不需要赋予权值，直接由多数决定
        ONE_OVER_DISTANCE,      //取距离的倒数作为权值
    };

    NearestNeighborClassifier(NearestNeighbors const* algorithm, std::size_t neighbors = 3)
    : m_algorithm(algorithm)
    , m_classes(numberOfClasses(algorithm->dataset()))
    , m_neighbors(neighbors)
    , m_distanceWeights(UNIFORM)
    { }

    std::string name() const
    { return "NearestNeighborClassifier"; }

    std::size_t neighbors() const{
        return m_neighbors;
    }

    void setNeighbors(std::size_t neighbors){
        m_neighbors=neighbors;
    }

    DistanceWeights getDistanceWeightType() const
    { return m_distanceWeights; }

    void setDistanceWeightType(DistanceWeights dw)
    { m_distanceWeights = dw; }

    virtual RealVector parameterVector() const{
        RealVector parameters(1);
        parameters(0) = (double)m_neighbors;
        return parameters;
    }

    virtual void setParameterVector(RealVector const& newParameters){
        SHARK_CHECK(newParameters.size() == 1,
            "[SoftNearestNeighborClassifier::setParameterVector] invalid number of parameters");
        //~ SHARK_CHECK((std::size_t)newParameters(0) == newParameters(0) && newParameters(0) >= 1.0,
            //~ "[SoftNearestNeighborClassifier::setParameterVector] invalid number of neighbors");
        m_neighbors = (std::size_t)newParameters(0);
    }

    virtual std::size_t numberOfParameters() const{
        return 1;
    }

    boost::shared_ptr createState()const{
        return boost::shared_ptr(new EmptyState());
    }

    using base_type::eval;

    void eval(BatchInputType const& patterns, BatchOutputType& output, State& state)const{
        std::size_t numPatterns = shark::size(patterns);
        // 获取k个近邻
        std::vector<typename NearestNeighbors::DistancePair> neighbors = m_algorithm->getNeighbors(patterns,m_neighbors);

        output.resize(numPatterns);
        output.clear();

        for(std::size_t p = 0; p != numPatterns;++p){
            std::vector<double> histogram(m_classes, 0.0);
            for ( std::size_t k = 0; k != m_neighbors; ++k){
                // 计算每一个类别出现的次数，根据不同的权值选择，有不同的计算方式
                if (m_distanceWeights == UNIFORM) histogram[neighbors[p*m_neighbors+k].value]++;
                else
                {
                    double d = neighbors[p*m_neighbors+k].key;
                    if (d < 1e-100) histogram[neighbors[p*m_neighbors+k].value] += 1e100;
                    else histogram[neighbors[p*m_neighbors+k].value] += 1.0 / d;
                }
            }
            output(p) = static_cast<unsigned int>(std::max_element(histogram.begin(),histogram.end()) - histogram.begin());
        }
    }

    void read(InArchive& archive){
        archive & m_neighbors;
        archive & m_classes;
    }

    void write(OutArchive& archive) const{
        archive & m_neighbors;
        archive & m_classes;
    }

protected:
    NearestNeighbors const* m_algorithm;

    std::size_t m_classes;

    //knn中的k值
    std::size_t m_neighbors;

    DistanceWeights m_distanceWeights;
};

具体的实例

还是和原来一样，介绍一个具体的例子。

#include 
#include 
#include 
#include 
#include 
#include 
#include 

using namespace shark;
using namespace std;

int main(int argc, char **argv) {
    if(argc < 2) {
        cerr << "usage: " << argv[0] << " (filename)" << endl;
        exit(EXIT_FAILURE);
    }
    // read data
    ClassificationDataset data;
    try {
        importCSV(data, argv[1], LAST_COLUMN, ' ');
    } 
    catch (...) {
        cerr << "unable to read data from file " <<  argv[1] << endl;
        exit(EXIT_FAILURE);
    }

    cout << "number of data points: " << data.numberOfElements()
         << " number of classes: " << numberOfClasses(data)
         << " input dimension: " << inputDimension(data) << endl;

    // split data into training and test set
    ClassificationDataset dataTest = splitAtElement(data, static_cast<std::size_t>(.5 * data.numberOfElements()));
    cout << "training data points: " << data.numberOfElements() << endl;
    cout << "test data points: " << dataTest.numberOfElements() << endl;

    //create a binary search tree and initialize the search algorithm - a fast tree search
    KDTree tree(data.inputs());
    TreeNearestNeighborsunsigned int> algorithm(data,&tree);
    //instantiate the classifier
    const unsigned int K = 1; // number of neighbors for kNN
    NearestNeighborClassifier KNN(&algorithm,K);

    // evaluate classifier
    ZeroOneLoss<unsigned int> loss;
    Data<unsigned int> prediction = KNN(data.inputs());
    cout << K << "-KNN on training set accuracy: " << 1. - loss.eval(data.labels(), prediction) << endl;
    prediction = KNN(dataTest.inputs());
    cout << K << "-KNN on test set accuracy:     " << 1. - loss.eval(dataTest.labels(), prediction) << endl;
}

首先是根据输入的数据构造一棵kd树；之后是创建一个算法类TreeNearestNeighbor的对象，将构建好的kd树传入其中；最后是构建KNN分类器NearestNeighborClassifier，对传入的测试数据进行分类。

在最开始的时候，我们也说到过，可以使用基于核函数的距离的kd树。这样整个代码就会变成如下形式：

LinearKernel<RealVector> kernel;
KHCTree<RealVector> tree(data.inputs(), &kernel);
TreeNearestNeighbors<RealVector, unsigned int> algorithm(data, &tree);
NearestNeighborClassifier<RealVector> KNN(&algorithm, K);

注意到，这里只是kd树所对应的类不同了。

如果不使用树形结构进行搜索的话，同样需要定义相应的距离度量。并且不再是使用TreeNearestNeighbor这个算法类，而是使用SimpleNearestNeighbor类。对应的代码如下：

LinearKernel<> kernel;
SimpleNearestNeighbors<RealVector, unsigned int> algorithm(data, &kernel);
NearestNeighborClassifier<RealVector> KNN(&algorithm, K);

如果不想只输出一个类标签，而是想输出数据对于各个类的隶属度，可以使用SoftNearestNeighborClassifier这个分类器类。

机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
高频交易：当速度与智慧在金融市场中“飙车”（策略＋算法）西蒙斯.果 python numpy pandas
高频交易：当速度与智慧在金融市场中“飙车”高频交易（High-FrequencyTrading,HFT）就像金融市场的“闪电侠”，利用强大的计算机和复杂的算法，在毫秒甚至微秒内完成交易。它的目标是抓住市场中的微小机会，赚取“快钱”。以下是对高频交易策略和算法的详细介绍，带点幽默感，让你在了解金融科技的同时也能会心一笑。---一、高频交易策略：金融市场的“快闪族”1\.做市策略：买卖价差的“中间商”
Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！ AI大模型-大飞 github 语言模型学习人工智能 AI大模型程序员 AI
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
AtCoder备赛冲刺必刷题（C++） | 洛谷 AT_abc396_a Triple Four 热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：AT_abc396_a[ABC396A]
算法及数据结构系列 - 滑动窗口诺亚凹凸曼算法及数据结构算法数据结构 java
系列文章目录算法及数据结构系列-二分查找算法及数据结构系列-BFS算法算法及数据结构系列-动态规划算法及数据结构系列-双指针算法及数据结构系列-回溯算法算法及数据结构系列-树文章目录滑动窗口框架思路经典题型76.最小覆盖子串567.字符串的排列438.找到字符串中所有字母异位词3.无重复字符的最长子串滑动窗口框架思路/*滑动窗口算法框架*/voidslidingWindow(strings,str
QHDBO基于量子计算和多策略融合的蜣螂优化算法算法小狂人算法改进智能优化算法量子计算算法
2.DBO基本的蜣螂算法通过模拟蜣螂在自然界中的四种行为（滚动、产卵、觅食和偷窃）来执行种群位置更新。2.1滚动蜣螂在自然界中，蜣螂必须通过太阳导航，使其球滚动的路线尽可能直线。方程(1)用于原始论文中更新滚动蜣螂的位置：xi(t+1)=xi(t)+α⋅k⋅xi(t−1)+b⋅Δx(1)x_i(t+1)=x_i(t)+\alpha\cdotk\cdotx_i(t-1)+b\cdot\Deltax\
H800能效架构实战解析智能计算研究中心其他
内容概要H800能效架构以异构计算资源调度与动态功耗控制为核心，通过系统级协同设计实现算力密度与能耗优化的双重目标。其核心技术覆盖智能负载分配、电压频率动态调节及热管理三大模块，形成从芯片级到数据中心级的垂直优化链路。在架构设计中，异构资源调度算法通过实时分析任务特征与硬件状态，动态分配CPU、GPU及专用加速器资源，最大化硬件利用率；动态功耗模块则基于负载波动自适应调整供电策略，结合多级电压频率
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
算力网协同创新与多场景应用实践智能计算研究中心其他
内容概要算力网协同创新正通过技术融合与场景适配，驱动算力资源的高效整合与跨域调度。核心突破方向涵盖异构计算架构优化、边缘计算实时响应能力提升，以及智能算力在工业互联网、数字孪生等场景的动态供给。随着“东数西算”工程推进，算力网络需兼顾性能与可持续性，在芯片制程优化、模型压缩算法及能耗管理等领域形成技术闭环。技术方向应用场景关键指标异构计算架构工业检测任务延迟<10ms模型压缩算法医疗影像分析计算资
算力技术创新与多场景应用突破智能计算研究中心其他
内容概要算力技术创新正成为驱动数字经济发展的核心引擎，其演进路径呈现出多维度突破态势。从量子计算颠覆性架构到光子计算超高速特性，从异构计算资源动态整合到边缘计算实时响应机制，技术革新持续突破物理边界与能耗瓶颈。应用层面，工业互联网实时控制、元宇宙沉浸式交互、生物计算精准建模等场景对算力提出差异化需求，推动智能调度算法与能效管理体系的协同优化。与此同时，全国一体化算力网络建设加速芯片制程迭代、数据中
搜索插入位置(力扣题）风继续吹.. LeetCode算法题 leetcode 算法职场和发展前端
题目：给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。来源：力扣（LeetCode）请必须使用时间复杂度为O(logn)的算法示例以及输出结果来源：力扣（LeetCode）示例1:输入:nums=[1,3,5,6],target=5输出:2示例2:输入:nums=[1,3,5,6],target=2输出:1示例3:输入:num
MMO基础双端架构（五）：如何O(1)的处理心跳消息晴空～蓝兮 MMO双端游戏架构游戏算法 c#
更多代码细节，球球各位观众老爷给鄙人的开源项目点个Star，持续更新中~Free项目开源地址5.LRU算法淘汰超时心跳消息采用双向链表+线程安全哈希字典处理心跳消息的超时和检查机制仿照了经典算法LRU（也就是最少关注移除算法，当容器内的size大于最大容许size时，最少关注的那个单位就会被移除）这样的设计可以实现，平均o(1)插入删除，整个链表的长度只与客户端连接的数量有关，每一次查询都会均摊超
PX4飞控之位置控制（1）整体架构 Felix_ZL px4飞控 PX4 位置控制架构
位置控制是无人机飞控的核心算法之一，一方面根据commander中的flag标志位和Navigator中提供的航点信息进行控制（自主模式下），另一方面得到期望姿态角（setpoint）的四元数信息，给到姿态控制模块进行姿态控制。本文重点PX4飞控的位置控制的代码整体架构（mc_pos_control）,具体的控制算法将在后续文章中陆续奉上。位置控制模块的主函数：task_main()1.订阅结构体
C++徒手造国密SM算法！码农の头发消失术实录 skyksksksksks C++个人杂记物联网国密算法国密算法密码学 c++开发语言
【开场暴击：程序员的修仙之路】各位在秃头边缘疯狂试探的代码战士！今天我们要挑战史诗级成就——用纯C++手搓国家密码管理局钦定的SM2/SM3/SM4算法！没有现成库！没有外挂！只有头铁和即将离你而去的头发！(ง•̀_•́)ง【SM2加密：和椭圆曲线谈恋爱の玄学】这玩意儿就像追女神——你永远猜不透她的心思！来看加密の奥义三连：SM2加密vs追妹子对比表行为SM2加密流程追妹子流程第一步生成随机数k制
C++ 用ECC算法 Curve为EC_NIST_FP_521写个示例签名和验签。PCI认证小黄人软件经验分享 ssl 学习
以下是一个使用OpenSSL实现ECC(椭圆曲线密码)签名和验签的C++示例，曲线使用secp521r1（即NISTP-521）。这个程序：生成NISTP-521曲线的EC密钥。使用SHA-512进行哈希并签名数据。验证签名的正确性。编译：g++-oecc_signecc_sign.cpp-lssl-lcrypto运行：./ecc_sign你可以试试看，看看签名和验签是否成功！
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
每日一题一一Leetcode128. 最长连续序列 - 力扣 Blue.ztl 写写算法 leetcode 算法数据结构
每日一题一一Leetcode128.最长连续序列-力扣作者：blue时间：2025.3.14128.最长连续序列-力扣（LeetCode）本题的要求是：给定一个未排序的整数数组nums，找出其中数字连续的最长序列（不要求序列元素在原数组中连续）的长度。本题用排序加遍历的方法非常容易解决，但是算法的效率太低。本题正真的解题思路如下，首先，数组中是有可能出现重复的数字，但是重复的数字其实并不影响我们找
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码强化学习曾小健2 大语言模型LLM 算法
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者：AndriyBurkov机器之心编译GRPO（GroupRelativePolicyOptimization）是DeepSeek-R1成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek用的GRPO占用大量内存？有人给出了些破解方法》。简单来说，GR
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
DAY33 贪心算法Ⅱ Useee 贪心算法算法
122.买卖股票的最佳时机II-力扣（LeetCode）想到把整体利润分解为每天的利润，就豁然开朗了。classSolution{public:intmaxProfit(vector&prices){intresult=0;for(inti=1;i&nums){intcover=0;if(nums.size()==1)returntrue;for(inti=0;i=nums.size()-1)re
众数(masses)（c++）羊蜜不是羊 c++算法数据结构
题目描述由文件给出N个1到30000间无序数正整数，其中1≤N≤10000，同一个正整数可能会出现多次，出现次数最多的整数称为众数。求出它的众数及它出现的次数。输入描述输入文件第一行是正整数的个数N，第二行开始为N个正整数。输出描述输出文件有若干行，每行两个数，第1个是众数，第2个是众数出现的次数。（两个数之间由一个空格间隔，行末无多余空格）样例输入12242325372343输出2434来源算法
简单密码破解（c++）羊蜜不是羊 c++算法开发语言
题目描述密码是我们生活中非常重要的东东，我们的那么一点不能说的秘密就全靠它了。哇哈哈.接下来渊子要在密码之上再加一套密码，虽然简单但也安全。假设渊子原来一个BBS上的密码为zvbo941987,为了方便记忆，他通过一种算法把这个密码变换成YUANzi1987，这个密码是他的名字和出生年份，怎么忘都忘不了，而且可以明目张胆地放在显眼的地方而不被别人知道真正的密码。他是这么变换的，大家都知道手机上的字
HTML语言的贪心算法宇瞳月包罗万象 golang 开发语言后端
HTML语言的贪心算法：理论与实践引言在编程和算法研究中，贪心算法是一种广泛应用的解决问题的方法。它通过对每一阶段选择最优解的方式来构建整个问题的解决方案。贪心算法不一定能在所有情况下得到最优解，但在许多实际问题中，它能够提供一个足够好的近似解。本文将探讨贪心算法的基本概念、典型应用、优缺点，并结合HTML语言的特点，提出一些具体的实现示例和思考。一、贪心算法的基本概念贪心算法是一种求解最优化问题
《Hello 算法》火了！！！一本写给算法初学者的入门算法书籍遇码分享算法 hello hello算法算法书籍
曾经也放出豪言壮语，决心要刷遍力扣上的所有算法题目。然而现实就很快啪啪的打脸。不知道多少人和我有过一样的经历。在读到《Hello算法》的序中，作者靳宇栋给了我们一个“台阶”。随后就表达了针对我们的现状，他特地写了《Hello算法》这本书，代表广大算法初学者表示感激涕零。《Hello算法》为什么适合入门动画图解、一键运行的数据结构与算法教程全书采用动画图解，内容清晰易懂、学习曲线平滑，引导初学者探索
Matlab实现SSA-HKELM麻雀算法（SSA）优化混合核极限学习机多变量回归预测的详细项目实例 nantangyuxi MATLAB 算法 matlab 回归人工智能数据挖掘开发语言深度学习
目录Mstlsb实她TTS-HKFLM麻雀算法（TTS）优化混合核极限学习机多变量回归预测她详细项目实例1项目背景介绍...1项目目标她意义...1目标...1意义...2项目挑战及解决方案...2挑战...2解决方案...3项目特点她创新...3创新点...3特点...4项目应用领域...4应用领域...4项目效果预测图程序设计及代码示例...5项目模型架构...6数据预处理...6混合核极限学
群体智能优化算法-爱情进化算法 (Love Evolution Algorithm, LEA，含Matlab源代码） HR Zhou 算法 matlab 开发语言群体智能优化优化
摘要爱情进化算法（LEA）是一种基于心理学刺激-价值-角色理论（Stimulus-Value-RoleTheory）所提出的新型元启发式算法。该算法将“恋爱中的人”抽象为种群个体，通过对个体“幸福度（Happiness）”的定义和动态更新，模拟了从“相遇->价值交流->角色平衡”三个阶段不断逼近全局最优解的过程。LEA在高维连续优化与工程应用等场景下可实现对搜索空间的充分探索与精细开发。本文结合算
灰狼优化算法（Grey Wolf Optimization, GWO）及其 Python 代码追蜻蜓追累了算法 python github pycharm jupyter matlab numpy
灰狼优化算法（GreyWolfOptimization,GWO）是一种基于灰狼社会行为觅食过程而设计的优化算法。其基本原理是模拟灰狼群体中个体的协作和竞争行为，以迭代更新的方式寻找最优解。灰狼优化算法涉及三种灰狼的角色：alpha（α）、beta（β）和delta（δ），它们分别代表群体中的优势个体。算法包括初始化灰狼位置、计算适应度值、更新灰狼位置等步骤。以下是一个简单的Python示例代码，实
25. 策略模式智想天开设计模式详解策略模式 bash 开发语言
原文地址:策略模式更多内容请关注：智想天开1.策略模式简介策略模式（StrategyPattern）是一种行为型设计模式，它定义了一系列算法，将每一个算法封装起来，并使它们可以相互替换。策略模式让算法的变化独立于使用算法的客户。通过引入策略模式，可以在不修改客户端代码的情况下，动态地更改对象的行为。关键点：算法封装：将不同的算法封装到独立的策略类中。互换性：策略类可以相互替换，客户端可以根据需要选
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

Shark源码分析（十）：KNN算法

Shark源码分析（十）：KNN算法

BinaryTree类

TreeConstruction类

KDTree类

AbstractNearestNeighbors类

TreeNearestNeighbor类

IterativeNNQuery类

NearestNeighborClassifier类

具体的实例

你可能感兴趣的:(Shark源码分析,shark,KNN算法)