diaolun4894

[Project] SpellCorrect源码详解

该Project原来的应用场景是对电商网站中输入一个错误的商品名称进行智能纠错，比如iphoae纠错为iphone。以下介绍的这个版本对其作了简化，项目源代码地址参见我的github：https://github.com/jianxinzhou/MyProject_1/tree/uint32 。

该Project的主要思想是利用字符串编辑距离来实现拼写纠错。每当客户端来一个查询词，服务器返回与其编辑距离在2以内的单词中词频最高的那个单词。以下是对该项目的简要介绍与分析，具体代码仍以github中的为准。

0. 项目技术以及网络框架

项目技术：UDP通讯，线程池框架，编辑距离算法，倒排索引，cache优化

网络框架：客户端通过UDP数据报向服务器发送查询请求，服务器收到请求后将查询词与客户端地址打包成task扔进任务队列，线程池中的工作线程从任务队列中取出并执行任务，最后计算结果由工作线程返回。

项目遇到的难点：utf-8存储下的单词之间的编辑距离计算；计算查询词与词频词典中的每个单词的编辑距离的时间总和过长，导致查询速度太慢；硬盘cache与工作线程内存cache的同步。

1. 字符编码问题

UTF-8是Unicode一种的实现方式。UTF-8是一种变长的编码方式，使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

在项目中，词频文件采用的文件格式为：word /t frequence /t，示例如下：

apple            789

iphone          60000

手机              80000

问题在于词频文件采用UTF-8格式存储，如果用一个string来存一个单词的话，就没有办法正确计算查询词与词库中单词的编辑距离。

使用string来存储单词，只可以正确计算两个英文单词之间的编辑距离，因为UTF-8格式下，英文仍然是采用一个字节(char)来存储一个字母。但是，对于由汉字构成的单词是无法正确计算的，因为一个汉字可以占1~4个字节。

为了正确计算编辑距离，同时考虑到UTF-8使用1~4个字节表示一个符号，因此我想到的办法是统一将单词中的一个字母（或者中文的汉字）使用uint32_t来存储，而一个单词可以使用vector来存储。

string转换成vector

那么如何将单词由string转换成vector来存储呢？为了便于下文叙述，此处统一将一个字母或者汉字记为letter。

只需遍历string即可，由UTF-8编码规则可知，要知道一个letter由几个字节构成，只要看组成这个letter的第一个字节低地址（左边）有几个连续的1即可（没有1，就是一个字节表示；有2个1,2字节表示；3个1,3字节表示；4个1,4字节表示），之后根据字节数量信息将其拼接成一个uint32_t即可。代码如下：

    // 计算UTF8编码所占的字节
    int getLenOfUTF8(unsigned char c)
    {
        int cnt = 0;
        while(c & (1 << (7-cnt)))
            ++cnt;
        return cnt; 
    }

    // 每个vector代表一个word
    // 把字符串解析成uint32_t数组
    void parseUTF8String(const std::string &s, std::vector &vec)
    {
        vec.clear();
        for(std::string::size_type ix = 0; ix < s.size(); ++ix)
        {
            int len = getLenOfUTF8(s[ix]);
            uint32_t t = (unsigned char)s[ix]; /*e5*/
            if(len > 1)
            {
                --len;
                /*拼接剩余的字节*/
                while(len--)
                {
                    t = (t << 8) + (unsigned char)s[++ix];
                }
            }
            vec.push_back(t);
        }
    }

调整后的计算单词编辑距离的方法

代码如下：

int edit_distance_uint_32(const std::vector &w1, const std::vector &w2) 
{
    int len_a = w1.size();
    int len_b = w2.size();
    int memo[100][100];
    memset(memo, 0x00, 100 * 100 * sizeof(int));
    for (int i = 1; i <= len_a; ++i) 
    {
        memo[i][0] = i;
    }
    for (int j = 1; j <= len_b; ++j) 
    {
        memo[0][j] = j;
    }
    for (int i = 1; i <= len_a; ++i) 
    {
        for (int j = 1; j <= len_b; ++j) 
        {
            if (w1[i - 1] == w2[j - 1]) 
            {
                memo[i][j] = memo[i - 1][j - 1];
            } 
            else 
            {
                memo[i][j] = MIN(memo[i - 1][j - 1], memo[i][j - 1],memo[i - 1][j]) + 1;
            }
        }
    }
    return memo[len_a][len_b];
}

2 配置文件

配置文件内容如下：

/* SpellCorrect.conf */

my_ip   192.168.153.131
my_port 5080
my_dict /home/purple/SpellCheck/data/dict.dat
my_cache /home/purple/SpellCheck/data/cache.dat

包含了SpellCorrect服务器的IP地址、端口、数据词典以及缓存。

3 main函数

主要内容下面用了比较详细的注释，总体思想是服务器在某一个端口上接收来自用户的udp数据报请求，之后将用户的查询词和地址（IP和端口）打包封装成一个task，并将该task扔进线程池中的任务队列中（扮演生产者的角色），由工作线程（扮演消费者角色）负责从任务队列中取出任务并执行，并将执行结果send回给客户端。代码如下：

/* main.cc */

#include "ThreadPool.h"
#include "MySocket.h"
#include "MyConf.h"
#include "MyCache.h"

int main(int argc, char* argv[])
{
    /* 初始化配置文件, MyConf类会根据读入的配置文件，生成词频词典以及倒排索引等，如下所示 */
    //    std::map mapConf_ ;                     // 配置文件
    //    std::vector > strDict_;               // 原始词频词典
    //    std::vector< std::pair, int> > vecDict_;    // 经转换后的词频字典
    //    std::map > mapIndex_;                     // 倒排索引(将包含这个letter的单词所在vector的下标放入set中)
    MyConf conf(argv[1]); 

    
    /* 初始化线程池对象，线程池对象将持有以下内容 */
    //    MyConf &conf_;                        // 配置对象的引用 
                                                // 线程池需要持有配置文件对象的引用，因为：
                                                // 配置文件中拥有硬盘cache的地址，工作线程启动时，需要将硬盘cache读入每个工作线程自身的内存cache中    
    
    //    std::vector vecThreads_ ;   // 存放工作线程的容器
    //    std::queue    queueTasks_ ;   // 存放任务的队列
        
    //    MyLock queueTaskslock_ ;              // 用于工作线程之间同步的互斥锁         
    //    MyCondition queueTasksCond_ ;         // 用于工作线程之间同步的条件变量
        
    //    bool isStarted_ ;                     // 用于标识线程池是否开启的变量
        
    //    MyCacheThread cacheThread_ ;          // 定时扫描内存cache的线程
    ThreadPool apool(conf) ;    
    
    /* 初始化用于UDP通信的socket对象 */
    //    int peerfd_ ;               // 用于标识socket的描述符
    //    struct sockaddr_in addr_ ;  // 用于保存服务器端或客户端ip和端口号信息
    //    socklen_t addrLen_ ;        // 用于保存struct sockaddr_in 的长度
    //    MyConf& conf_ ;             // 配置对象的引用(需要该引用，是因为服务器IP地址和端口存放在配置对象中)
    MySocket socket(conf);
    
    /* 开启线程中的工作线程以及cacche扫描线程 */
    apool.on();
    



    const int len = 1024 ;   
    char buf[len];
    int iret ;
    
    // 主循环，不断接收客户端的udp数据报
    while(true) {
        memset(buf, 0, len);
        iret = socket.recv_message(buf, len) ;
        std::cout << "main" << buf <<"len: "<< iret << std::endl ;
        
        // 将客户端的查询词以及地址封装成task放入线程池中的任务队列（生产者）
        // 工作线程将会从任务队列中取出任务执行，执行完直接由工作线程将结果返回给客户端
        MyTask task(buf,socket.get_addr(), conf);
        apool.allocate_task(task);
    }
    
    apool.off();
    return 0 ;
}

4 Task类

任务对象

1. 工作线程从线程池中的任务队列中取出的任务是一个“任务对象”，之后执行任务task.excute(cache_) ;
2. 因此真正的计算逻辑以及返回给客户端的结果，都是task对象进行的
3. 工作线程中持有自身的内存cache，再执行任务时，需要将工作线程内存cache的引用传给任务的excute方法
4. 任务对象在进行计算时，需要词频词典，倒排索引，因此初始化一个任务对象时，需要传入配置文件对象的引用

头文件的关键部分如下：

#ifndef __MYTASK_H__
#define __MYTASK_H__

class MyCache ;

class MyTask
{
    public:
        MyTask( MyConf& conf);
        
        MyTask(const std::string &queryWord, 
               const struct sockaddr_in &addr ,  
               MyConf& conf);
        
        void excute(MyCache& cache) ;      // 执行函数。需要传递一个MyCache对象 。
        
        int length(const std::string& str) // 计算查询词的长度
        {
            int index ;
            int len = 0 ;
            for(index = 0 ; index != str.size(); index ++)
            {
                if(str[index] & (1 << 7))
                {
                    index ++ ;
                }
                len ++ ;
            }
            return len ;
        }
        
        ~MyTask()
        {
            close(peerfd_);
        }
        
        void satistic(std::set & iset ); //计算vecDictPtr_指向的vector中下标在iset中的词与用户输入词的编辑距离 。
    
    
    private:
        std::string queryWord_;                  // 用户的查询词
        std::vector vecQueryWord_;     // 经过转换后的用户的查询词
        struct sockaddr_in addr_;     // 用于保存用户端地址和端口号
        int peerfd_;                  // 与用户端通信的socket描述符
        
        std::vector, int> > *vecDictPtr_;   // 指向保存数据词典的指针
        std::vector> *strDictPtr_;
        std::map >* mapIndexPtr_;                   // 指向保存倒排索引的指针
        
        std::priority_queue, MyCompare> result_; // 用于保存查询结果的优先级队列
        
        void get_result(); // 根据用户的查询词获取最终结果。最终结果将放在优先级队列里
        int editdistance(const std::vector &right); // 计算right与用户输入查询词的编辑距离
        
        int triple_min(const int &a, const int &b, const int& c ) // 返回3个数中的最小值
        {
            return a < b ? (a < c ? a : c) : (b < c ? b : c) ;
        }

};

#endif /* MyTask.h */

source文件如下：

#include "MyTask.h"

//匿名命名空间，存放一些辅助函数，用于将string格式的查询词转换为vector来存储，以便正确计算编辑距离
namespace
{

int getLenOfUTF8(unsigned char c)
{
    int cnt = 0;
    while(c & (1 << (7-cnt)))
        ++cnt;
    return cnt; 
}


void parseStringToUTF8(const std::string &s, std::vector &vec)
{
    vec.clear();
    for(std::string::size_type ix = 0; ix < s.size(); ++ix)
    {
        int len = getLenOfUTF8(s[ix]);
        uint32_t t = (unsigned char)s[ix]; /*e5*/
        if(len > 1)
        {
            --len; /*2*/
            /*拼接剩余的字节*/
            while(len--)
            {
                t = (t << 8) + (unsigned char)s[++ix];
            }
        }
        vec.push_back(t);
    }
}

inline int MIN(int a, int b, int c) 
{
    int ret = (a < b) ? a : b;
    ret = (ret < c) ? ret : c;
    return ret;
}

int edit_distance_uint_32(const std::vector &w1, const std::vector &w2) 
{
    int len_a = w1.size();
    int len_b = w2.size();
    int memo[100][100];
    memset(memo, 0x00, 100 * 100 * sizeof(int));
    for (int i = 1; i <= len_a; ++i) 
    {
        memo[i][0] = i;
    }
    for (int j = 1; j <= len_b; ++j) 
    {
        memo[0][j] = j;
    }
    for (int i = 1; i <= len_a; ++i) 
    {
        for (int j = 1; j <= len_b; ++j) 
        {
            if (w1[i - 1] == w2[j - 1]) 
            {
                memo[i][j] = memo[i - 1][j - 1];
            } 
            else 
            {
                memo[i][j] = MIN(memo[i - 1][j - 1], memo[i][j - 1],memo[i - 1][j]) + 1;
            }
        }
    }
    return memo[len_a][len_b];
}

}
// end namespace

MyTask::MyTask( MyConf& conf)
    : queryWord_(""),
    strDictPtr_(&(conf.strDict_)),
    vecDictPtr_(&(conf.vecDict_)),
    mapIndexPtr_(&conf.mapIndex_)
{
    memset(&addr_, 0, sizeof(addr_));
}

MyTask::MyTask(const std::string &queryWord, 
        const struct sockaddr_in &addr ,  
        MyConf& conf)
    : queryWord_(queryWord),
      addr_(addr),
      strDictPtr_(&(conf.strDict_)),
      vecDictPtr_(&conf.vecDict_), 
      mapIndexPtr_(&conf.mapIndex_)
{
    parseStringToUTF8(queryWord_, vecQueryWord_);
}

// 执行任务，并将结果发回客户端
void MyTask::excute(MyCache& cache) // cache_通过工作线程传入
{
    peerfd_ = socket(AF_INET, SOCK_DGRAM, 0);
    std::cout << "Task excute" << std::endl ;
    
    std::unordered_map::iterator iter;
    iter =  cache.isMapped(queryWord_);
    // 如果在工作线程中的cache_中可以找到，那么直接返回
    if(iter != cache.hashmap_.end())
    {
        std::cout << " cached "  << std::endl;
        int iret = sendto(peerfd_, (iter -> second).c_str(), 
                (iter -> second).size(), 0, 
                (struct sockaddr*)&addr_, sizeof(addr_));
        std::cout <<"send: " << iret << std::endl ;
    }
    else // 否则在词频词典中进行计算后，返回最佳匹配的单词
    {
        std::cout << " no cached " << std::endl ;
        get_result();
        //std::cout << inet_ntoa(m_addr.sin_addr) << std::endl ;
        if(result_.empty())
        {
            std::string res = "no anwser !" ;
            int iret = sendto(peerfd_, res.c_str(), 
                    res.size(), 0, 
                    (struct sockaddr*)&addr_, sizeof(addr_));
            std::cout <<"send: " << iret << std::endl;
        }
        else 
        {
            MyResult res = result_.top();
            int iret = sendto(peerfd_, res.word_.c_str(), 
                       res.word_.size(), 0, 
                       (struct sockaddr*)&addr_, sizeof(addr_));
            std::cout <<"send:" << iret << std::endl ;
            cache.map_to_cache(queryWord_, res.word_);            // 注意：需要更新当前工作线程的cache
        }
    }
}


// 遍历查询词的每一个letter，经由倒排索引，统计出编辑距离小于3的单词放入优先级队列result_中
void MyTask::get_result()
{
    uint32_t ch ;
    int index ;
    for(index = 0 ; index != vecQueryWord_.size(); index ++ )
    {
        ch = vecQueryWord_[index];
        if( ( *mapIndexPtr_ ).count(ch) )
        {
            std::cout << "map_ cout return true " << std::endl ;
            statistic( (*mapIndexPtr_)[ch] ) ;
        }
    } 
}

// 传入参数为相应letter对应的单词在所在vector中的下标结合
// 将这些单词中，编辑距离与查询词在3以内的单词放入优先级队列result_中
void MyTask::statistic(std::set & iset)
{
    std::set::iterator iter ;
    for( iter = iset.begin() ;  iter != iset.end() ;  iter ++)
    {
        int dist = editdistance(  ((*vecDictPtr_)[ *iter ]).first  );
        if(dist < 3)
        {
            MyResult res ;
            res.word_ = ((*strDictPtr_)[ *iter ]).first ;
            res.distance_ = dist ;
            res.frequence_ = ((*vecDictPtr_)[ *iter ]).second ; 
            result_.push( res );
        }
    }
    
}

// 计算编辑距离
int MyTask::editdistance(const std::vector &right) 
{
    return edit_distance_uint_32(vecQueryWord_, right);
}

5 线程池、工作线程、扫描线程

普通线程

为了实现复用，在封装工作线程之前，我们先封装一个普通的线程，之后的工作线程以及扫描线程只需要继承该普通线程即可。代码如下：

#ifndef __THREAD_H__
#define __THREAD_H__
#include 
#include 

class Thread
{
    public:
        Thread()
            :threadId_(0),isRunning_(false)
        {
            if(pthread_attr_init(&threadAttr))
            {
                std::cout << __DATE__ << " " << __TIME__ << " " 
                          << __FILE__ << " " << __LINE__ << ":" 
                          << "pthread_attr_init" << std::endl;
                exit(-1) ;
            }
        }
        
        ~Thread()
        {
            pthread_attr_destroy(&threadAttr);
        }
        
        void start(void* arg = NULL)
        {
            if(isRunning_)
                return;
            
            isRunning_ = true ;
            
            // 将线程设置为detach
            if(pthread_attr_setdetachstate(&threadAttr, PTHREAD_CREATE_DETACHED))
            {
                std::cout << __DATE__ << " " << __TIME__ << " " 
                          << __FILE__ << " " << __LINE__ << ":" 
                          << "pthread_attr_setdetachstate" << std::endl ;
                exit(-1) ;
            }
            
            // 创建线程
            if(pthread_create(&threadId_, &threadAttr, Thread::runInThread, this))
            {
                std::cout << __DATE__ << " " << __TIME__ << " " 
                          << __FILE__ << " " << __LINE__ << ":" 
                          << "pthread_create" << std::endl;
                exit(-1) ;
            }
        }
    

    private:
        static void* runInThread(void* arg)
        {
            Thread* p = (Thread*)arg;
            p -> run();
            
            return NULL;
        }
        
        // 在工作线程中只需要重写该函数即可实现自己的线程例程
        virtual void run() = 0;
        
        bool isRunning_;
        pthread_t threadId_;
        pthread_attr_t threadAttr;
};


#endif

显然，我们只需要重写run函数，即可实现工作线程和扫描线程的工作。

工作线程

工作线程持有线程池对象的指针，以及自身的内存cache，这是因为：工作线程的任务，就是不断的从线程池的任务队列中取出任务，当工作线程持有线程池对象的指针时，就可以调用线程池对象的get_task方法，然后执行取出的任务。持有自身的内存cache，这就再自然不过了，当工作线程执行查询词匹配时，首先会先从自身的内存cache中进行查找。

头文件如下：

#ifndef __MYTHREAD_H__
#define __MYTHREAD_H__
#include "Thread.h"
#include "MyCache.h"

class ThreadPool;

// 继承抽象类Thread
class MyThread : public Thread 
{
    public:
        void get_related(ThreadPool* p)
        {
            threadPoolPtr_ = p ;
        }
    
    private:
        void run(); // 需要自己实现虚函数
        
        // 由于线程池对象中持有任务队列，工作线程持有线程池对象指针，就可以方便的从线程池对象的任务队列中取出任务执行
        ThreadPool * threadPoolPtr_ ; 
        MyCache cache_ ;
        
        friend class  MyCacheThread ;

};
#endif

源文件如下：

void MyThread::run()
{
    std::cout << "run" << std::endl ;
    // 工作线程刚启动时，会将硬盘中的缓存文件更新到工作线程中的内存cache
    cache_.read_from_file( (threadPoolPtr_ -> conf_).getMapConf()["my_cache"].c_str());
    // 从任务队列中取任务，执行任务。
    while(true)
    {
        MyTask task(threadPoolPtr_-> conf_) ;    // 任务的执行（编辑距离的计算）需要词频词典以及倒排索引
        if(!(threadPoolPtr_ -> get_task(task)) )
        {
            break ;
        }
        task.excute(cache_) ;
    }
}

扫描线程

在介绍扫描线程前，我们先来看看对cache类的封装：

// 数据成员为
// unorderer_map
// 控制互斥访问unordered_map的锁：hashmapLock_
class MyCache
{
    public:
        std::unordered_map hashmap_;
        
        /**
         * 工作线程应该与扫描线程互斥的访问工作线程的内存cache_
         */
        void map_to_cache(std::string& key, std::string& value )
        {
            hashmapLock_.lock();
            hashmap_[key] = value;
            hashmapLock_.unlock();
        }
        
        std::unordered_map::iterator 
        isMapped(const std::string& word)
        {
            hashmapLock_.lock();
            return hashmap_.find(word);
            hashmapLock_.unlock();
        } 
        
        // 将内存cache写入硬盘
        void write_to_file(std::ofstream& outfile)
        {
            hashmapLock_.lock();
            for(std::unordered_map::iterator iter = hashmap_.begin(); 
                iter != hashmap_.end();
                ++iter)
            {
                outfile << iter -> first << "\t" << iter -> second << std::endl ;
            }
            hashmapLock_.unlock();
        }
        
        // 从硬盘cache读入内存
        void read_from_file(const std::string &fileName)
        {
            hashmapLock_.lock();
            std::ifstream infile(fileName.c_str());
            if(!infile)
            {
                std::cout << "cache file: " << fileName << std::endl ; 
                throw std::runtime_error("open cache file fail !");
            }
            std::string query , result;
            while(infile >> query >> result)
            {
                hashmap_.insert(std::make_pair(query, result));
            }
            infile.close();
            hashmapLock_.lock();
        }
    
    private:
        MyLock hashmapLock_;

};


#endif

由于扫描线程每过60秒，就会依次同步工作线程的内存cache与硬盘cache，而工作线程在执行任务时同样会访问内存cache，因此必须使得工作线程与扫描线程互斥的访问内存cache。扫描线程代码如下：

头文件

#ifndef __MYCACHETHREAD_H__
#define __MYCACHETHREAD_H__
#include "Thread.h"
#include 
class ThreadPool;
class MyCache;
class MyThread;


class MyCacheThread : public Thread
{
    public:
        MyCacheThread(const int& num = 12)
            : Thread(), vecWorkThreadPtr_(num)
        { }
        
        void get_related(ThreadPool* threadPoolPtr);
    
    private:
        void run() ;
        void scan_cache() ;
        
        ThreadPool* threadPoolPtr_;                // 指向线程池的指针
        std::vector vecWorkThreadPtr_ ; // 含有指向工作线程指针的vector 。

};
#endif

源文件

#include "MyCacheThread.h"
#include "ThreadPool.h"
#include "MyThread.h"
#include "MyCache.h"
#include 
#include 

void MyCacheThread::run()
{
    while(true)
    {
        sleep(60);
        scan_cache();   
        std::cout << "scan cache" << std::endl ;
    }
}

// 线程池对象中拥有一个扫描线程对象
// 线程池初始化时，会调用该函数，使该扫描线程对象持有指向线程池对象的指针
// 并使该扫描线程对象持有线程池中所有工作对象的指针
void MyCacheThread::get_related(ThreadPool* threadPoolPtr)
{
    threadPoolPtr_ = threadPoolPtr;
    
    std::vector::iterator  iter1  = (threadPoolPtr_ -> vecThreads_).begin();
    std::vector::iterator iter2  = vecWorkThreadPtr_.begin() ;
    
    while(iter2 != vecWorkThreadPtr_.end() && 
          iter1 != (threadPoolPtr_ -> vecThreads_).end() )
    {
        *iter2 = &(*iter1);
        iter1++;
        iter2++;
    }
}

// 同步每一个工作线程的内存cache与硬盘cache
void MyCacheThread::scan_cache()
{
    std::vector::iterator iter = vecWorkThreadPtr_.begin();
    for(; 
        iter != vecWorkThreadPtr_.end(); 
        ++iter)
    {
        ( (*iter) -> cache_ ).read_from_file( (threadPoolPtr_ -> conf_).getMapConf()["my_cache"].c_str()) ;
        
        std::ofstream outfile( (threadPoolPtr_ -> conf_).getMapConf()["my_cache"].c_str() ) ;
        if(!outfile)
        {
            throw std::runtime_error("scan cache : open cache failed");
        }       
        
        ( (*iter ) -> cache_ ).write_to_file(outfile) ;
        outfile.close();
    }
}

线程池

头文件

#ifndef __THREADPOOL_H__
#define __THREADPOOL_H__

class ThreadPool
{
    public:
        
        friend class MyCacheThread ;
        
        ThreadPool(MyConf &conf, int size = 12)
            :vecThreads_(size),
             queueTaskslock_(), 
             queueTasksCond_(queueTaskslock_),
             isStarted_(false),
             conf_(conf),
             cacheThread_(size)
        {
            std::vector::iterator iter ;
            for(iter = vecThreads_.begin(); 
                iter != vecThreads_.end(); 
                ++iter)
            {
                iter -> get_related(this);           // 使线程池中的每一个工作线程持有线程池对象的指针
            }
                cacheThread_.get_related(this);      // 使线程池中的扫描线程持有线程池对象的指针
        }
        
        void on()
        {
            if(isStarted_)
            {
                return ;
            }
            isStarted_ = true ;
            std::vector::iterator iter ;
            for(iter = vecThreads_.begin(); iter != vecThreads_.end(); iter ++)
            {
                iter -> start();    // 开启工作线程
            }
            cacheThread_.start();   // 开启扫描线程
        }
        
        void off()
        {
            if(isStarted_)
            {
                isStarted_ = false ;
                queueTasksCond_.broadcast();
                while(!queueTasks_.empty())
                {
                    queueTasks_.pop();
                } 
            }
        }
        
        void allocate_task( MyTask& task)
        {
            queueTaskslock_.lock();
            std::cout << "Add Task" << std::endl ;
            queueTasks_.push(task);
            queueTaskslock_.unlock();
            queueTasksCond_.broadcast();
        }
        
        bool get_task(MyTask &task)
        {
            queueTaskslock_.lock();
            while(isStarted_ && queueTasks_.empty())
            {
                queueTasksCond_.wait();
            }
            if(!isStarted_)
            { 
                queueTaskslock_.unlock();
                queueTasksCond_.broadcast();
                return false ;
            }
            task = queueTasks_.front();
            queueTasks_.pop();
            queueTaskslock_.unlock();
            queueTasksCond_.broadcast();
            std::cout << "get task" << std::endl ;
            return true ;
        }
        
        MyConf &conf_; // 配置对象的引用                       
    
    private:
        // 禁止赋值和复制
        ThreadPool(const ThreadPool& obj) ;
        ThreadPool& operator = (const ThreadPool& obj) ;
        
        std::vector vecThreads_ ;   // 存放工作线程的容器
        std::queue    queueTasks_ ;   // 存放任务的队列
        
        MyLock queueTaskslock_ ;
        MyCondition queueTasksCond_ ;
        
        bool isStarted_ ;                     // 用于标识线程池是否开启的变量
        
        MyCacheThread cacheThread_ ;          // 定时扫描内存cache的线程
};
#endif

6 注意点

配置文件对象持有词频词典，倒排索引以及硬盘cache。

线程池对象持有任务队列，工作线程，扫描线程，配置文件对象引用（方便使用配置文件对象的资源）。当线程池启动时，线程池对象会逐个开启工作线程以及扫描线程。工作线程负责从任务队列中取出任务并执行任务。扫描线程负责每隔60秒同步工作线程的cache与硬盘cache。

工作线程中持有线程池对象的引用，这样工作线程可以直接调用线程池对象的get_task方法来取任务。

扫描线程持有线程池对象的指针（线程池对象拥有配置文件对象引用，配置文件对象中拥有硬盘cache），以及每个工作线程对象的指针，便于完成工作线程的内存cache与硬盘cache的同步。

7 需要同步的两处地方

1. 工作线程从任务队列中取任务的时候，需要对任务队列上锁。主线程收到客户端请求时，往任务队列中push任务时，也需要加锁。

2. 工作线程与扫描线程对内存cache的访问需要同步。

1）工作线程查询cache时

2）当查询词在cache中找不到时，工作线程将会计算查询词与词频词典中单词的编辑距离，得到的结果需要写回内存cache

3）扫描线程用硬盘cache来更新工作线程的内存cache。

4）扫描线程用工作线程的内存cache来更新硬盘cache。

8 优化

如果客户端每来一个查询词，工作线程都需要到词频词典中去与所有的单词进行编辑距离的计算的话，效率实现太低。因此，我们需要加速拼写纠错的过程。

1. 每个工作线程加入了cache，每当来一个查询词，工作线程先到cache中去查找。

2. 使用倒排索引，减少了需要与查询词进行编辑距离计算的单词。实际上，可以进一步的优化，如果规定编辑距离的阈值为2，那么我们只需要对其中的任意三个letter对应的单词的并集做计算即可。

转载于:https://www.cnblogs.com/jianxinzhou/p/4740392.html

你可能感兴趣的:(网络)

基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
2023-04-17|篮球女孩长一木
1小学抑或初中阶段，在课外书了解到她的故事。“篮球女孩”。当时佩服她的顽强，也对生命多了一丝敬畏。今天刚好在公众号看到，长大后的“篮球女孩”。佩服之余又满是心疼。网络侵删祝那素未蒙面的女孩，未来一切顺遂。
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
《在战“疫”中成长致敬生活》观后感梅子刘的刀
（作者：周晨）今天上午，我看了“我是接班人”网络大课堂《在战役中成长致敬生活》。有很多人拿出自己攒下的钱，默默地捐给了武汉，有几千块钱的、有几万块钱的，也有十几万块钱的。连小朋友也把自己的压岁钱捐给了武汉。有名环卫工人把自己五年的积蓄全部捐给了武汉。有名外卖小哥为医护人员买鞋子送吃的。还有已经治愈出院的新型肺炎病人捐了400毫升的血浆。还有位叫大树的叔叔，虽然他没有钱，但是他地里有蔬菜，捐了几大卡
中原焦点团队网络初中级30期阴丽丽坚持分享第三百八十八次2022.10.18分享约练次数（74）咨询师（6）来访者（53）观察者（15）阴丽丽
今天是忙碌的一天，一早起来，总想着找点把事情弄完，可总也弄不完。就这样弄着吧！孩子的事，自己的事都在那里搁置着，不想做，有点欧！今天总体还不错，只是在下午起床时走神了俩小时，也算是给自己的放松吧！今日难得1.儿子乖巧、听话，努力配合，一天下来也是忙忙碌碌，这真的很难得！2.儿子今天录的视频被班主任认可，这真的很难得3.我今天早上做核酸时，自己把教案整了一下，这真的很难得
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
多子女家庭问题 3e5c5362403c
杨宁宁焦点解决网络初17中19坚持分享589天（2021.3.20）本周约练我1次，总计166次，读书打卡第256天案例督导收获：【家有老大篇】被爱与高期待下的独舞家里的第一个孩子往往集万千宠爱于一身。爸爸妈妈、爷爷奶奶、姥姥姥爷的目光都聚焦在他的身上。在这种光环下长大的孩子，就如小皇帝一般，衣来伸手、饭来张口。拥有爱的同时，也意味着拥有了更高的被期待，父母会花血本给你报各种各样的早教班，给你买各
父母教育孩子的方式，将影响孩子一生树英教育
为什么有些孩子总是充满自信与快乐？独立、有主见又坚强？而有些孩子却自卑、胆怯，软弱又过度依赖父母？为什么有些孩子总是健康、阳光又富于创造力？而有些孩子却悲观、孤僻又思想空乏？一个孩子的行为取决于孩子的思想，思想取决于环境和自己的认知，认知取决于教育。父母是孩子人生中的第一位教育者，父母养育孩子的方式，将决定他们人生的高度，影响他们的一生。网络图，侵权即删优秀的父母就像园丁，既要浇水施肥，又要修剪杂
2024.9.6 Python，华为笔试题总结，字符串格式化，字符串操作，广度优先搜索解决公司组织绩效互评问题，无向图 RaidenQ python 华为 leetcode 算法力扣广度优先无向图
1.字符串格式化name="Alice"age=30formatted_string="Name:{},Age:{}".format(name,age)print(formatted_string)或者name="Alice"age=30formatted_string=f"Name:{name},Age:{age}"print(formatted_string)2.网络健康检查第一行有两个整数m
戴容容中原焦点团队.网络初级第33期,坚持分享第19天 2022年3月9日 TessDai
《每个人眼中的世界都是不同的》“一千个人眼里有一千个哈姆雷特”世界是多元的,每个人都有自己的道理,人人按照自己的理解去看待这个世界的人和物.我们如此,其他人也是如此.因此,任何事情,我们要放下自己以为的真理,去理解他人认为的真理,只有同频方能共振.孩子在慢慢长大的过程中慢慢学会独立,甚至对抗.尤其当孩子处于青春期的时候,他们开始有很多自己独立的想法,和一些特立独行的做法,家长常常会觉得不可思议,觉
第1步win10宿主机与虚拟机通过NAT共享上网互通学习3人组大数据大数据
VM的CentOS采用NAT共用宿主机网卡宿主机器无法连接到虚拟CentOS要实现宿主机与虚拟机通信，原理就是给宿主机的网卡配置一个与虚拟机网关相同网段的IP地址，实现可以互通。1、查看虚拟机的IP地址2、编辑虚拟机的虚拟网络的NAT和DHCP的配置，设置虚拟机的网卡选择NAT共享模式3、宿主机的IP配置，确保vnet8的IPV4属性与虚拟机在同一网段4、ping测试连通性[root@localh
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
高考后该不该给孩子买电脑，什么情况能买？什么情况不能买？寻求改变
我知道家长们很担心，怕买了电脑小孩沉迷游戏，耽误了学业，也不利于身体健康。对于准大学生来说，基本上在18岁左右，也不算小了，但在很多父母眼里，依旧是个小孩子。数据显示，这种情况是有发生的，大学生约70%的电脑主要被用于玩网络游戏，如果没有养成一个用良好的习惯，对孩子影响是非常大的。我总结为三买，三不买。最近有看到群里很多家长再问，小孩上大学该不该给他买电脑，要买和不买两种观点的家长都有，那么哪种情
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
中国广电永久9元流量套餐！性价比最高流量卡套餐介绍！优惠攻略官
中国广电是中国最大的传媒集团之一，其推出的流量套餐备受消费者青睐。中国广电最实惠的流量套餐不仅价格亲民，而且提供了优质的网络体验。首先，中国广电的流量套餐价格实惠，适合不同消费者的需求。无论是短期的日租卡还是长期有效的月租卡，用户都可以根据自己的实际情况选择适合自己的套餐。而且，流量的价格相对于其他运营商的套餐来说更加合理，给用户提供了更大的选择空间。☞大流量卡套餐「→点这免费申请办理」或者截图扫
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
4 大低成本娱乐方式: 小说, 音乐, 视频, 电子游戏穷人小水滴娱乐音视频低成本小说游戏
穷人如何获得快乐?小说,音乐,视频,游戏,本文简单盘点一下这4大低成本(安全)娱乐方式.这里是穷人小水滴,专注于穷人友好型低成本技术.(本文为58号作品.)目录1娱乐方式1.1小说(网络小说)1.2音乐1.3视频(b站)1.4游戏(电子游戏/计算机软件)2低成本:一只手机即可3总结与展望1娱乐方式这几种,也可以说是艺术的具体形式.更专业的说,(娱乐)是劳动力再生产的重要组成部分.使人放松,获得快乐
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
计算机网络八股总结 Petrichorzncu 八股总结计算机网络笔记
这里写目录标题网络模型划分（五层和七层）及每一层的功能五层网络模型七层网络模型（OSI模型）==三次握手和四次挥手具体过程及原因==三次握手四次挥手TCP/IP协议组成==UDP协议与TCP/IP协议的区别==Http协议相关知识网络地址，子网掩码等相关计算网络模型划分（五层和七层）及每一层的功能五层网络模型应用层：负责处理网络应用程序，如电子邮件、文件传输和网页浏览。主要协议包括HTTP、FTP
每日头像|爱与时光，终年不遇一宝先生
小可爱们晚上好呀今天晚上来推送一期情侣头像~喜欢的小可爱可以点赞收藏评论哟~部分素材来自网络，版权归原创者，如有侵权请联系删除今天的头像结束啦喜欢的小可爱可以点下关注哟~如果喜欢本期的内容可以转发分享哦~那我们下期再见咯~拜了个拜~
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
年的味道~ 心理疗愈师英子
小时候，最期盼过年，一想到过年有压岁钱拿、有新衣服穿、不用上学还有好东西吃，就兴奋不已。可是不知道从什么时候开始，很多人那种儿时满怀期待过年的感觉没有了，对年的期盼也越来越少。现在物质极大丰富，以前过年才有的丰盛年夜饭，现在几乎已成家常便饭，对过年有好东西吃的期盼没了。现在网络购物发达，服装店也遍布大街小巷，随时都可以添置新衣服，而不必非要等到过年，儿时那种大年初一从头新到脚的仪式感没有了。放鞭炮
2021-07-09 2018心如止水
张雲芳焦点解决网络课程学习坚持分享第816天20210709本周第2次（约练总291）渴了喝水；饿了吃饭；累了休息。看似简单的选择与行为，做起来却没那么容易。尤其是作为成年人，每天有工作需要完成，有孩子、家人需要陪伴，有时候各种事情赶在一起，忙的晕头转向、焦头烂额，即使自己特别累，也没有间隙去休息一下下，想象一下身体疲惫，精力耗竭是什么样的状态？对于孩子的哭闹你还会有更多的耐心吗？我想多数情况下都
寓美于心琴韵无声
今天是“语文湿地2021网络年会”第一天。年会早上七点在尹东老师和王君老师的激情开幕致辞中开始。一天下来听了八节课，真是“八仙过海，各显神通。”精彩纷呈。愚笨如我，真的是找不出一个恰切的词来形容她们的美妙绝伦。今天一口气吃下了饕餮盛宴，留待日后慢慢反刍吧。今天的压轴大戏是王君老师的《若爱，深深爱；若写，深情写》——跟《土地的誓言》学意象铺排”艺术。又加上是最后一节听的，印象最为深刻。凭着印象先略记
RabbitMQ生产者重复机制与确认机制 java炒饭小能手 java-rabbitmq rabbitmq java
重复机制生产者发送消息时，出现了网络故障，导致与MQ的连接中断。为了解决这个问题，SpringAMQP提供的消息发送时的重试机制。即：当RabbitTemplate与MQ连接超时后，多次重试。需要修该发送端模块的application.yaml文件，添加下面的内容：spring:rabbitmq:connection-timeout:1s#设置MQ的连接超时时间template:retry:ena
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f