FreeApe

数据挖掘---频繁项集挖掘Apriori算法的C++实现

1 准备

首先实现这个算法是基于中南大学软件学院数据挖掘课的上机作业。作业（全英文）下载地址：http://download.csdn.net/detail/freeape/9188451

2 作业粗糙翻译内容

2.1 前言

编程作业可能比书面作业花费更多的时间，而这也算是你最后成绩的10%，所以请提前开始；
这是个人作业，你可以与你的同学或者老师交流，但是不能够共享代码和抄袭；
类似的库或频繁模式挖掘算法的程序，可以在网上找到，但你不允许直接使用这些资源，这意味着你可以不包括公共图书馆，或者修改现有的方案；
你可以使用Java、C++和Python编程语言；
你将会使用UNIX内核包操作系统下工作。它在Linux和MacOS系统上效果很好。如果你是一个Windows用户，你需要：
- 连接到一个EWS实验室机器或找到其他包具有相同的功能；
请你写一个关于作业报告，所以要注意有“问题和思考”的地方；

2.2 目标

探索频繁模式挖掘如何应用到文本挖掘中，来发现一些有意思的词语；
在这个作业中，你首先将在文集上运行LDA（文档主题生成模型），这个文集来自5个领域的会议论文。基于LDA的结果，一个主题（代表一个特定的域）被分配给每个标题每个单词。然后，你经常从每个主题中写一个频繁的挖掘算法来获取有意义的短语。频繁挖掘模式可能不一定是这个主体中有意义的词语。所以你会考虑如何从所有的频繁模式中提取出有意义的词语。最终的目标是为每个主题输出高代表性的短语。

2.3 第一步：认识数据

我们从5个领域的计算机科学会议，收集论文标题：Data Mining(DM), Machine Learning(ML), Database(DB),Information Retrieval(IR,信息检索)和Theory(TH)。你可以从链接中下载raw格式数据paper_raw.txt（作业已经给了，请注意：在这次作业中，我们不会直接使用这个文件，但是你可以自行查看这个文件里的内容，它里面最原始的标题是什么样的）。每一行包含两栏，每篇论文的PaperID和Title，然后用制表符（'\t'）分隔开来。回忆课堂上的所讲的例子，对于文件中的每一行，你可以把它视为一个实例。在标题的每个单词是等同于在一个实例中的子项。需要注意的地方就是PaperID在整个数据集中是唯一的，所提供的文件是所有数据集中的一个子集而已，有可能PaperID是不为0，也有可能不是连续的。原始数据格式如下：

在这个作业中，数据预处理过程中去除了停用词（如一些功能词：the、is、as、which等），只留下词语和词干。你可以在这里下载数据处理后的文件paper.txt，这是我们将使用的实际数据集。在这个文件中，每行是以一个PaperId，然后紧跟一些项，格式是：

PaperID '\t' term_1 ' ' term_2 ' ' ......

paper.txt文件内容部分如下：

2.4 第二步：数据预处理(20points)

这一步准备输入LDA。你将生成基于paper.txt的两个文件。

2.4.1 生成一个目录(10points)

首先你需要从paper.txt中产生一个词汇，并命名存放词汇文件名为vocab.txt。在这个文件中的每一行是一个从paper.txt提取出来的独立的词语，每个词应出现一次，下面是vocal.txt的前五行，需要注意的是，词语的顺序可以不同：

    automatic 
    acquisition 
    proof 
    method 
    philosophical 
    ...

2.4.2 以字典形式标记文本(10points)

在这一步，要求将paper.txt文件中的每个标题转换成如下格式：

[M] [term_1]:[count] [term_2]:[count] ...  [term_N]:[count]

其中，[M]是每行的中的每个标题中的独一无二的词语的个数（如PaperID=7600，M=4）。[count]是指每个标题中的每个独一无二的词语出现的频率（如PaperID=7600，[term_1]:[count]=1）。以PaperID=7600为例，会产生如下的数据格式：

"4 0:1 1:1 2:1 3:1"

注意，[term_i]是一个整数，是索引在vocab.txt一个的某个词语；下标从0开始。最后命名输出文件title.txt，将格式化的数据保存到这个文件中。

注：如果你使用任何其他的LDA包，而不是在接下来的一步中提到的，请确保你的数据格式能够匹配你所使用的LDA包的需求。

2.5 第三步：分区(10points)

回想我们在计算机科学中的五个领域收集的论文标题，如果在纸上直接运行频繁模式挖掘算法，模式将会是独立的主题。因此，我们想要挖掘频繁模式中的每个领域，标题和词语也应该被划分为五个领域。请注意，每个领域的的知识你是不知道的。相反的，我们应用的主题模型，将自动地去发现隐藏在标题和词语后面的主题。具体来说，我们应用LDA(你不必理解主题模型具体是怎么工作的)来为每个词语指定一个主题。

2.5.1 为每个词语(Term)指定一个主题(Topic)(5points)

下载LDA包包。解压后你可以看到源代码列表。你可以参考这一页，它对这个包进行了全面的介绍。
打开一个终端，进入源代码的目录，make，生成一个可执行的LDA文件。
在lda-c-dist目录下，有一个settings.txt文件，你可以使用下面的设置，如果你对LDA怎么工作的很清楚，可以自己调整相关参数。

    var max iter 20 
    var convergence 1e-6 
    em max iter 100 
    em convergence 1e-4 
    alpha estimate

用下面的命令运行LDA

<DIR>/lda-d-dist/lda est 0.001 5 <DIR>/lda-d-dist/settings.txt <DIR>/title.txt  random <DIR>/result

0.001是给LDA主题的比率（这只是一个参数，如果你不是很了解，你不是必须改变它）；5，代表5个主题；title.txt是在第二步产生的文件，输出的内容将被放到result文件夹中。DIR，是你当前的工作目录。
- 检查你的输出
- 在result目录中，打开word-assignments.dat文件，每一行的格式为：

[M] [term_1]:[topic] [term_2]:[topic] ... [term_N]:[topic]

[M]是每行的中的每个标题中的独一无二的词语的个数（如PaperID=7600，M=4）。与每个词语相关联的[topic]是分配给它的主题。topic下标是从0开始的，如某一行可以是：004 0000:02 0003:02 0001:02 0002:02；这意味着在这个标题中所有的词语都被分配给第三个主题（即topic 02）。注意，你不限于使用这个包，这里还有另外一个选择：http://mallet.cs.umass.edu/topics.php。

2.5.2 重新组织主题(5points)

要求重新组织五个主题的词语。对于第i个主题，要求创建一个文件名为topic-i.txt的文件。通过分配给词语的主题，分离在word-assignment.dat文件中的每一行。例如，在word-assignment.dat文件中的每一行可以被认为是以下格式（注意：在这里用实际的词语替换整数是为了更好地说明）：

    004 automatic:02 acquisition:02 proof:02 method:02 
    005 classification:03 noun:02 phrase:03 concept:01 individual:03

然后输出文件应该是：

topic-0.txt

...
topic-1.txt
concept
...
topic-2.txt:
automatic acquisition proof method
noun
...
topic-3.txt
classification phrase individual
...

在真正的文件中，每一个词语应该被表示为一个整数对应于第二步所产生的字典。topic-i.txt看起来像这样：

[term1] [term2]....[termN]
[term1] [term2]....[termN]
...

2.6 第四步：挖掘出每个主题的频繁模式(30points)

在这一步，你需要实现一个频繁模式挖掘算法。你可以选择任何你所喜欢的频繁模式挖掘算法，比如Apriori、FP-Growth、ECLAT等。请注意，你需要在相应的5个主题的用5个文件来运行代码。运行输出格式为（[s] (space) [t1 (space) t2 (space) t3 (space) …]）：

#Support [frequent pattern] 
#Support [frequent pattern] 
...

并用频繁模式以#Support开头，从高到低进行排序，你的输出文件应该放在一个名为patterns的文件夹中。第i个文件命名为pattern-i.txt。（提示：需要你自己算出最小支持度min_sup）
思考问题A：你如何选择该任务的min_sup?解释你如何选择你的min_sup的报告，任何合理的选择都可以。

2.7 第五步：挖掘最大/闭合模式(20points)

在此步骤中，您需要实现一个算法来采掘最大频繁项集和闭项集。您可以根据步骤4的输出编写的代码，或实现特定的算法来挖掘最大频繁项集和闭项集，如CLOSET，MaxMiner等。
输出的形式应和第四步中的输出是一样的。最大频繁项集输出到max目录，第i个文件命名为max-i.txt。闭项集输出到closed目录，第i个文件命名为closed-i.txt。
思考问题B：你能找出哪些主题对应于哪个领域的基础上你所采掘出的模式？写在你的观察报告。
思考问题C：比较频繁模式，最大频繁项集和闭项集的结果，是令人满意的结果吗？写下你的分析。

最大频繁项集：就是频繁模式挖掘后的第k频繁项集
闭项集：就是指一个项集X，它的直接超集的支持度计数都不等于它本身的支持度计数。如果闭项集同时是频繁的，也就是它的支持度大于等于最小支持度阈值，那它就称为闭频繁项集。
直接超集：如最后一部分的test.txt中[BB DD]，这一项的超集是[BB DD]和[AA BB DD]，两个超集的支持度都为1，而[BB DD]项支持度为2，所以[BB DD]是闭项集。

2.8 第六步：按纯度排序(10points)

在http://arxiv.org/pdf/1306.0271v1.pdf这篇文章中，纯度被作为短语排名的措施之一。一个短语是纯粹的主题，如果它是唯一经常在文件（这里的文件是指标题）有关主题和不经常在文件中有关其他主题。例如，“查询处理”是数据库主题中的一个更为纯的短语。我们通过比较看到在topic-t集合D(t)中的一个短语的概率测度模式的纯度（T），看到它在任何其他topic-t集的概率(t’ = 0，1，…，k,t‘ != t)。在我们的例子中，k = 4。相比其他的任何主题，纯度本质上能够测出模式在一个主题的不同。定义如下：

purity(p,t)=log [ f(t,p) / | D(t) | ] - log (max [ ( f(t,p) + f(t',p) ) / | D(t,t') | ] )

这里，f(t,p)是模式p出现在主题t的频率，我们定义D(t)是一个文件的集合，这些文件至少有一个字被分配给主题t。D(t) = { d | 主题t被分配至少有一个字在d中。 D(t,t’) 是D(t)和D(t’)的联合。|-|测量一个set的大小。事实上，|D(t)|是在topic-i.txt的行数，但是注意 | D(t,t’) | != | D(t) | + | D(t’) |。
从步骤4获得的模式重新排列。输出形式应该是：

Purity         [frequent pattern] 
Purity         [frequent pattern] 
...

通过结合支持度和纯度的方式（这里你需要提出如何结合的），频繁模式从高到低被排序了。你的输出文件应该放在一个名字为purity目录中，第i个文件命名为purity-i.txt。

2.9 第七步：加分(20points)

你能想出其他的过滤/排名标准来提高你的“挖掘”的短语列表的质量吗？执行你的算法，把你的分析放在你的报告中。
（提示：一些相关的论文描述的策略来处理这个问题，通过平衡最大模式和封闭模式。CATHY: http://www.cs.uiuc.edu/~hanj/pdf/kdd13_cwang.pdf KERT: http://arxiv.org/abs/1306.0271. )

2.10 第八步：报告(10points)

现在你准备写你的报告。你应该在报告中包含以下内容：
- 简要说明第四步~第六步你所用的算法。
- 回答所有的思考问题。
- 列出你的源文件名及其相应的步骤。

2.11 项目组织和提交

结构应该如下（<>这个括号里面是你写的代码，后面跟着“|——–”的是目录）：

    yourNetId_assign3|-------- title.txt
                                    <preprocessing source files>
                                    topic-0.txt~topic-4.txt
                                    <re-organizing source files>
                                    <frequent mining source files>
                                    patterns                   |--------pattern-0.txt~pattern-4.txt
                                    <max/closed mining source files>
                                   max                        |--------max-0.txt~max-4.txt
                                    closed                     |--------closed-0.txt~closed-4.txt
                                    <Re-rank source files>
                                    purity                     |------purity0.txt~purity-4.txt
                                    report.pdf

注：翻译的不准勿怪！最后红色字部分及后面没翻译。

3 编程实现

在Linux系统上实现是不二选择，因为作业里面的lda可执行程序是要make编译产生的，而在windows上去make的话，会缺少一些库文件，导致出现错误。不过，我电脑上刚好有个工具链（用来开发开源无人机Pixhawk的），里面一些库是跟Linux系统上的是一样的，所以进入作业中lda-c-dist文件夹后make一下，产生了一个lda.exe可执行文件。所以我的实现都是在windows上面实现的。
仔细阅读作业要求，可知要自己编程，根据提供的paper.txt文件产生vocab.txt、title.txt这两个文件。然后用lda.exe产生word-assignments.dat文件，又需根据这个dat文件编程产生五个topic-i.txt文件。然后用apriori算法分别对这五个文件进行频繁项集挖掘。最后是完成作业中的问题与思考以及报告。

3.1 编程产生作业的文件

包括：vocab.txt、title.txt、topic-i.txt(i=0,1,2,3,4)。

//-----------------------------------------------------------------
//文 件 名：vocab.cpp
//创建日期：2015-10-15
//作 者：yicm
//功 能：由paper.txt产生vocab.txt，再由vocab.txt产生title.txt，
// 然后根据title.txt，由lda.exe产生的word-assignment.dat
// 作为输入，产生topic-i.txt五个文件
//说 明：此程序是连续处理的，word-assignment.dat是title.txt产生
// 之后再作为输入的
//修改日期：
// 2015-11-1：
//-----------------------------------------------------------------

#include <iostream>
#include <fstream>
#include <vector>
#include <map>
#include <set>
#include <cstdlib>
#include <stdexcept>
#include <sstream>
#include <string.h>

using namespace std;

ifstream& open_file(ifstream &in,const string &file);
void split(string& s, string& delim1,string &delim2, vector<string> &ret);

class VocabProcess{
/*处理paper.txt*/ 
public: 
    typedef vector<string>::size_type line_no;
    void read_file(ifstream &is);   
    ofstream& write_vocab(ofstream &,const string);

private:    
    void store_file(ifstream&);
    void build_paper_map();
    bool isNum(string);
    vector<string> lines_of_text;
    map< string, set<line_no> > word_map;
/*处理paper.txt和vocab.txt文件*/
public:
    ofstream& write_title(ofstream &,const string);
    void build_vocab_map(string);
private:
    string get_vocab_of_the_line(int) const;
    int get_line_num_of_vacab(const string &) const;
    int get_vocab_num_of_title(string);
    int get_fre_of_vocab_form_title(string,string);
    map<string, int> vocab_map;
/*处理word-assignments.dat，按topic分为五类，放于五个文件中*/   
public:
    void reorganize_terms_by_topic(string);
private:
    vector<string> lines_of_dat;
};

//-----------------------------------------------------------
//读取文件，将内容存放到map中
//-----------------------------------------------------------
void VocabProcess::read_file(ifstream &is)
{
    store_file(is);
    build_paper_map();
    is.close();
}

//-----------------------------------------------------------
//不重复的将词语写入到文件中
//-----------------------------------------------------------
ofstream& VocabProcess::write_vocab(ofstream &out,const string fileName)
{
    out.close();
    out.clear();
    out.open(fileName.c_str(),fstream::out);
    map< string, set<line_no> >::iterator it = word_map.begin();
    while(it != word_map.end()){
        out << it->first.c_str() << endl;
        ++it;
    }
    out.close();
    return out;
}

int VocabProcess::get_line_num_of_vacab(const string &query_word) const
{
    map<string,int>::const_iterator
                    loc = vocab_map.find(query_word);
    if(loc == vocab_map.end()){
        return -1;//不存在这个string
    }
    else return loc->second;
}

int VocabProcess::get_vocab_num_of_title(string title)
{
    int num = 0;
    string word;
    istringstream line(title);
    while(line >> word){
        if(!isNum(word)){                               
            ++num;
        }
    }
    return num;
}

int VocabProcess::get_fre_of_vocab_form_title(string title,string vocab)
{
    int num = 0;
    string word;
    istringstream line(title);
    while(line >> word){
        if(!isNum(word)){                               
            if(word == vocab)++num;
        }
    }
    return num;
}

ofstream& VocabProcess::write_title(ofstream &out,const string fileName)
{
    out.close();
    out.clear();
    out.open(fileName.c_str(),fstream::out);

    for(line_no line_num = 0; line_num != lines_of_text.size(); ++line_num){
        //绑定行字符串到istringstream
        istringstream line(lines_of_text[line_num]);
        string word;
        //循环从行字符串读取单词到string类型word
        out << get_vocab_num_of_title(lines_of_text[line_num]) <<" ";
        while(line >> word){
            if(!isNum(word)){                                               
                out <<get_line_num_of_vacab(word) << ":" <<get_fre_of_vocab_form_title(lines_of_text[line_num],word) << " ";
            }
        }
        out << endl;
    }
    out.close();
}

//-----------------------------------------------------------
//将文件中的每一行字符串作为一个元素依次存放到vector中
//-----------------------------------------------------------
void VocabProcess::store_file(ifstream& is)
{
    string textline;
    while(getline(is,textline))
        lines_of_text.push_back(textline);
}
//-----------------------------------------------------------
//将存放每一行字符串的vector的元素依次取出，将其分解为单词，并将单词的行数保存到map< string, set<line_no> >中
//-----------------------------------------------------------
void VocabProcess::build_paper_map()
{
    for(line_no line_num = 0; line_num != lines_of_text.size(); ++line_num){
        //绑定行字符串到istringstream
        istringstream line(lines_of_text[line_num]);
        string word;
        //循环从行字符串读取单词到string类型word
        while(line >> word){
            if(!isNum(word)){               
                //将行号插入到键值为word，值为vector类型的map中
                word_map[word].insert(line_num);
            }
        }
    }
}
void VocabProcess::build_vocab_map(string file)
{
    ifstream in;
    in.close();
    in.clear();
    in.open(file.c_str());

    string vocab;
    int i = 0;

    while(getline(in,vocab)){
        vocab_map[vocab] = i++;
    }
}
//-----------------------------------------------------------
//判断字符串是否为数字
//-----------------------------------------------------------
bool VocabProcess::isNum(string str)
{
    stringstream sin(str);  
    int num;  
    char c;  
    if(!(sin >> num))  
        return false;  
    if (sin >> c)  
        return false;  
    return true;    
}

string VocabProcess::get_vocab_of_the_line(int line_num) const
{
    map<string,int>::const_iterator map_it = vocab_map.begin();

    while(map_it != vocab_map.end()){
        if(map_it->second == line_num){
            return map_it->first;
        }
        ++map_it;
    }
    return "";
}

void VocabProcess::reorganize_terms_by_topic(string datFileName)
{
    char topicFile[][16] = {"topic-0.txt","topic-1.txt","topic-2.txt","topic-3.txt","topic-4.txt"};

    fstream topicF[5];

    for(int i = 0; i < 5; ++i){
        topicF[i].open(topicFile[i],fstream::out);
    }

    /*读取word-assignments.dat数据，存放到vector中*/

    ifstream infile;
    if(!open_file(infile,datFileName)){
        cerr << "open file is failed!" << endl;
        return ;
    }
    string datline;
    while(getline(infile,datline))
        lines_of_dat.push_back(datline);

    /*处理数据*/
    string delim1 = ":";
    string delim2 = " ";
    for(line_no line_num = 0; line_num != lines_of_dat.size(); ++line_num){
        {
            vector<string> ret;
            split(lines_of_dat[line_num],delim1,delim2,ret);            
            //cout <<lines_of_dat[line_num] << endl; 
            int vocab_num = atoi(ret[0].c_str());           
            //cout << "vocab_num=" <<vocab_num << endl; 
            int topic_num = 0;

            string topicLine[5] = "";
            for(int i = 1; i < (2*vocab_num+1); i+=2){  
                topic_num = atoi(ret[i+1].c_str());
                topicLine[topic_num] += get_vocab_of_the_line(atoi(ret[i].c_str())) + " ";
            }           
            for(int j =0; j < 5; ++j){
                if(topicLine[j].size() != 0)
                    topicF[j] << topicLine[j] << endl;
            }
        }
    }
    for(int i = 0; i < 5; ++i){
        topicF[i].close();
    }
}


//-----------------------------------------------------------
//开打一个文件
//-----------------------------------------------------------
ifstream& open_file(ifstream &in,const string &file)
{
    in.close();
    in.clear();
    in.open(file.c_str());
    return in;
}

void split(string& s, string& delim1,string &delim2, vector<string> &ret)
{
    size_t last1 = 0;
    size_t last2 = 0;
    size_t index = 0;
    size_t last = 0;
    size_t index1 = s.find_first_of(delim1,last1);
    size_t index2 = s.find_first_of(delim2,last2);

    if(index1 > index2){
        last = last2;
        index = index2;
    }
    else {
        last = last1;
        index = index1;
    }
    //npos表示没有查找到
    while (index != string::npos)                   
    {
        //printf("%d %d\n",index,last);
        ret.push_back(s.substr(last,index-last));
        last = index + 1;

        size_t index1 = s.find_first_of(delim1,last);
        size_t index2 = s.find_first_of(delim2,last);               
        if(index1 > index2){
            index = index2;
        }
        else {
            index = index1;
        }           
    }   
    if (index-last>0)
    {
        ret.push_back(s.substr(last,index-last));
    }   
}

int main(int argc,char *argv[])
{
    ifstream infile;
    ofstream outVocab;
    ofstream outTitle;

    if(argc < 5 || !open_file(infile,argv[1])){
        //vocab.exe paper.txt vocab.txt title.txt word-assignments.dat
        //输入文件为：paper.txt word-assignments.dat
        //输出文件为：vocab.txt title.txt
        cerr << "usage:\t vocab.exe [input_file_name] [outout_vocab_file_name] [outout_title_file_name] [dat_file_name]" << endl;
        return EXIT_FAILURE;
    }
    //将paper.txt转换成vocab.txt
    VocabProcess tq;
    tq.read_file(infile);
    tq.write_vocab(outVocab,argv[2]);

    //将vocab.txt转换成title.txt
    tq.build_vocab_map(argv[2]);
    tq.write_title(outTitle,argv[3]);

    //将word-assignment.dat相关topic数据分类到五个文件中
    tq.reorganize_terms_by_topic(argv[4]);
    return EXIT_SUCCESS;
}

3.2 Apriori算法C++实现

这个算法是对数据挖掘概念与技术一书中中的Apriori算法伪代码的实现。

Apriori算法原理也可以参考这本书，讲的很详细。这里就不讲了。

伪代码如下：

//【Apriori】
// 使用逐层迭代方法基于候选产生找出频繁项集
//【输入】
// D:事务数据库
// min_sup:最小支持度阈值（绝对支持度）
//【输出】
// L,D中的频繁项集。
//【方法实现】

/*找出频繁1项集*/
     L1 =find_frequent_1-itemsets(D); 
     For(k=2;Lk-1 !=空集;k++){
//产生候选，并剪枝
        Ck =apriori_gen(Lk-1 ); 
//扫描 D 进行候选计数
        For each 事务t  包含于 D{    //扫描D，进行计数 
            Ct =subset(Ck,t);      //得到 t 的子集，他们是候选
            For each 候选 c 包含于 Ct
                c.count++;
        }
        //返回候选项集中不小于最小支持度的项集
        Lk ={c 属于 Ck | c.count>=min_sup}
}
Return L= 所有的频繁集；
第一步：连接（join）
Procedure apriori_gen (Lk-1 :frequent(k-1)-itemsets)
      For each 项集 l1 属于 Lk-1
         For each 项集 l2 属于 Lk-1
            If( (l1 [1]=l2 [1])&&( l1 [2]=l2 [2])&& ……&& (l1 [k-2]=l2 [k-2])&&(l1 [k-1]<l2 [k-1]) ) 
then{
                   c = l1 连接 l2     // 连接步：产生候选
                   //若k-1项集中已经存在子集c则进行剪枝
                   if has_infrequent_subset(c, Lk-1 ) then
                       delete c;     // 剪枝步：删除非频繁候选
                   else add c to Ck;
                   }
          Return Ck;
第二步：剪枝（prune）&nbsp;
 Procedure has_infrequent_sub (c:candidate k-itemset; Lk-1 :frequent(k-1)-itemsets)
         For each (k-1)-subset s of c
            If s 不属于 Lk-1 then
               Return true;
        Return false;

C++编程实现Apriori算法：

apriori.h

#ifndef __APRIORI_H_
#define __APRIORI_H_


#include <iostream>
#include <cstdlib>
#include <map>
#include <set>
#include <fstream>
#include <string>
#include <vector>
#include <sstream>
#include <utility>

using namespace std;

class Apriori{

public:
    Apriori(string dataFileName,float minSup){
        this->dataFileName = dataFileName;
        this->minSup = minSup;
    }

/*Functions*/
public:
    void printMapSet(map< set<string> ,int> &mapSet);
    void printsetSet(set< set<string> > &);
    void printSet(set<string> &);

    int buildData();
    map<string, int> getCandidate1ItemSet();
    map< set<string>, int > findFrequent1Itemsets();
    set< set<string> > aprioriGen(int m, set< set<string> > &);
    bool has_infrequent_subset(set<string> &, set< set<string> > &);
    map< set<string>, int > getFreqKItemSet(int k, set< set<string> > freqMItemSet);    
    set< set<string> > keySet(map< set<string>, int > &mapSet);
/*Functions*/
private:    
    set<string> retainAll(set<string> &set1, set<string> &set2);
    void removeAll(set<string> &set1, set<string> &set2);
    set<string> addAll(set<string> &set1, set<string> &set2);

/*Variables*/   
private:    
    string dataFileName;
    map<long, set<string> > textDatabase;   //事务数据库
    float minSup;                           //最小支持度,(使用绝对支持度)
    long textDatabaseCount;                 //事务数据库中的事务数
    map< set< set<string> >, int > freqItemSet;             //候选项集集合
    map< set< set<string> >, int > candidateItemSet;        //频繁项集集合
};

#endif

apriori.cpp

#include "apriori.h"

void Apriori::printMapSet(map< set<string> ,int> &mapSet)
{
    map< set<string>, int >::iterator it = mapSet.begin();
    while(it != mapSet.end()){
        set<string>::iterator itSet = it->first.begin();
        cout << "[" ;
        while(itSet != it->first.end()){
            cout << *itSet << "," ;
            ++itSet;
        }
        cout << "]" << " " << it->second << endl;
        ++it;
    }
}
void Apriori::printsetSet(set< set<string> > &setSet)
{
    set< set<string> >::iterator c2It = setSet.begin();
    while(c2It != setSet.end()){
       set<string>::iterator ckSetIt = (*c2It).begin();
       cout << "[";
        while(ckSetIt != (*c2It).end()){
            cout << *ckSetIt << "," ;
            ++ckSetIt;
        }
        cout << "]"<< endl;
        ++c2It;            
    }
}
void Apriori::printSet(set<string> &setS)
{
    set<string>::iterator setIt = setS.begin();
    cout << "[";
    while(setIt != setS.end()){
        cout <<*setIt << "," ;
        ++setIt;
    }
    cout << "]" << endl;
}

//---------------------------------------------------------
//将文本数据存入到Map中，产生事务数据库D，即textDataBase
//---------------------------------------------------------
int Apriori::buildData()
{
    /*打开文本文件*/
    ifstream inFile;
    inFile.open(dataFileName.c_str());
    if(!inFile){
        cerr << "open " <<dataFileName << "is failed!" << endl;
        return EXIT_FAILURE;
    }
    /*读取文本行*/
    string textline;
    vector<string> lines_of_text;

    while(getline(inFile,textline))
        lines_of_text.push_back(textline);
    /*产生事务数据库*/
    int line_num ;
    for(line_num = 0; line_num != lines_of_text.size(); ++line_num){    
        istringstream line(lines_of_text[line_num]);
        string word;    
        while(line >> word){            
            textDatabase[line_num].insert(word);
        }
    }       
    textDatabaseCount = textDatabase.size();
    cout << "textDatabaseCount: " << textDatabaseCount << " " << line_num<< endl;
    return EXIT_SUCCESS;
}

//-------------------------------------------------------------------------
//获取候选1项集
//-------------------------------------------------------------------------
map<string, int> Apriori::getCandidate1ItemSet()
{
    map<string, int> candidate1ItemSetTemp;
    map<long, set<string> >::iterator mapIter = textDatabase.begin();
    set<string>::iterator setIter = mapIter->second.begin();

    while(mapIter != textDatabase.end()){
        while(setIter != mapIter->second.end()){
            pair<map<string, int>::iterator, bool> ret = 
                candidate1ItemSetTemp.insert(make_pair(*setIter,1));
            if(!ret.second)
                ++ret.first->second;
            ++setIter;
        }
        ++mapIter;
        setIter = mapIter->second.begin();
    }
    return candidate1ItemSetTemp;
}

//-------------------------------------------------------------------------
//获取频繁1项集
//-------------------------------------------------------------------------
map< set<string>, int > Apriori::findFrequent1Itemsets()
{
    set<string> freq1Key;
    map< set<string>, int > freq1ItemSetMap;
    map<string, int> candidate1ItemSet = getCandidate1ItemSet();
    map<string, int>::iterator candIt = candidate1ItemSet.begin();
    while(candIt != candidate1ItemSet.end()){
        if(candIt->second >= minSup){
            freq1Key.erase(freq1Key.begin(),freq1Key.end());
            freq1Key.insert(candIt->first);
            freq1ItemSetMap[freq1Key] = candIt->second;
        }
        ++candIt;
    }
    return freq1ItemSetMap;
}

//-------------------------------------------------------------------------
//根据频繁k-1项集键集获取频繁k项集
//k>1
//-------------------------------------------------------------------------
map< set<string>, int > Apriori::getFreqKItemSet(int k, set< set<string> > freqMItemSet)
{
    map< set<string>, int > freqKItemSetMap;
    map< set<string>, int> candFreqKItemSetMap;    
    set< set<string> > candFreqKItemSet = aprioriGen(k-1, freqMItemSet);

    //效率是根据min_sup的值的大小决定的，大，效率高，小效率高
    map<long, set<string> >::iterator mapIter = textDatabase.begin();
    //下面的while循环效率很低
    while(mapIter != textDatabase.end()){
        set<string> itValue = mapIter->second;
        set< set<string> >::iterator kit = candFreqKItemSet.begin();
        while(kit != candFreqKItemSet.end()){
            set<string> kSet = *kit;
            set<string> setTemp(kSet.begin(),kSet.end());
            removeAll(setTemp,itValue);            
            if(setTemp.size() == 0){                
                pair< map< set<string>, int >::iterator ,bool > ret = 
                            candFreqKItemSetMap.insert(make_pair(kSet,1));
                if(!ret.second)
                    ++ret.first->second;                    
            }
            ++kit;
        }
        ++mapIter;
    }

    map< set<string>, int>::iterator candIt = candFreqKItemSetMap.begin();

    while(candIt != candFreqKItemSetMap.end()){
        if(candIt->second >= minSup){            
            freqKItemSetMap[candIt->first] = candIt->second;
        }
        ++candIt;
    }

    return freqKItemSetMap;    
}

//-------------------------------------------------------------------------
//取交集
//-------------------------------------------------------------------------
set<string> Apriori::retainAll(set<string> &set1, set<string> &set2)
{

    set<string>::iterator set1It = set1.begin();    
    set<string> retSet;

    while(set1It != set1.end()){
        set<string>::iterator set2It = set2.begin();
        while(set2It != set2.end()){
            if((*set1It) == (*set2It)){
                retSet.insert(*set1It);
                break;
            }
            ++set2It;
        }        
        ++set1It;
    }

    return retSet;
}

//-------------------------------------------------------------------------
//返回set1中去除了set2的数据集
//-------------------------------------------------------------------------
void Apriori::removeAll(set<string> &set1, set<string> &set2)
{
    set<string>::iterator set2It = set2.begin(); 
    while(set2It != set2.end()){
        set1.erase(*set2It);
        ++set2It;
        if(set1.size() == 0)break;
    }    
}

//-------------------------------------------------------------------------
//取并集
//-------------------------------------------------------------------------
set<string> Apriori::addAll(set<string> &set1, set<string> &set2)
{
    set<string>::iterator set1It = set1.begin();  
    set<string>::iterator set2It = set2.begin();  
    set<string> retSet(set1.begin(),set1.end());

    while(set2It != set2.end()){
        retSet.insert(*set2It);
        ++set2It;
    }
    return retSet;  
}

//-------------------------------------------------------------------------
//根据频繁(k-1)项集获取候选k项集
//m = k-1
//freqMItemSet:频繁k-1项集
//-------------------------------------------------------------------------
set< set<string> > Apriori::aprioriGen(int m, set< set<string> > &freqMItemSet)
{
    set< set<string> > candFreqKItemSet;
    set< set<string> >::iterator it = freqMItemSet.begin();
    set<string> originalItemSet;

    set<string> identicalSetRetain;

    cout << "aprioriGen start" <<endl;
    while(it != freqMItemSet.end()){ 
        originalItemSet = *it;

        /*itr其实就是当前it自加一次所指*/        
        set< set<string> >::iterator itr = ++it;
        while(itr != freqMItemSet.end()){
            set<string> identicalSet(originalItemSet.begin(),originalItemSet.end());            
            set<string> setS(*itr);            
            identicalSetRetain.erase(identicalSetRetain.begin(),identicalSetRetain.end());
            identicalSetRetain = addAll(identicalSet,setS);//是取originalItemSet和setS的交集

            if(identicalSetRetain.size() == m+1){
                if(!has_infrequent_subset(identicalSetRetain, freqMItemSet))                    
                    candFreqKItemSet.insert(identicalSetRetain);
            }          
            ++itr;
        }
    }
    cout << "aprioriGen end" <<endl;
    return candFreqKItemSet;    
}

//-------------------------------------------------------------------------
//使用先验知识，剪枝。删除候选k项集中存在k-1项的子集
//-------------------------------------------------------------------------
bool Apriori::has_infrequent_subset(set<string> &candKItemSet, set< set<string> > &freqMItemSet)
{
    int occurs = 0;

    if(freqMItemSet.count(candKItemSet))
        return true;

    return false;
}
//-------------------------------------------------------------------------
//获取mapSet的键值，存放于set中
//-------------------------------------------------------------------------
set< set<string> > Apriori::keySet(map< set<string>, int > &mapSet)
{
    map< set<string>, int >::iterator it = mapSet.begin();
    set< set<string> > retSet;

    while(it != mapSet.end()){
        retSet.insert(it->first);
        ++it;
    }

    return retSet;
}

main.cpp

//---------------------------------------------------
//创建日期: 2015-10-14
//修改日期: 2015-10-16
//作 者: yicm
//版 本: 
//说 明: Apriori算法C++实现。本实现尽可能地去提高运行效率了，
// 在aprioriGen函数中运行时间是跟min_sup有关的，min_sup越
// 大则运行时间越短,min_sup越小则运行时间越长；在getFreqKItemSet
// 函数中运行时间主要都消耗在扫描事务数据库，并统计每个候选的个数。
//---------------------------------------------------


#include <iostream>
#include "apriori.h"

int main(int argc,char *argv[])
{
    if(argc < 2 || argc >4){
        cout << "usage: apriori.exe [min_sup] [data.txt]" << endl;
        return 0;
    }
    int min_sup = atoi(argv[1]);

    Apriori apriori(argv[2],min_sup);
    /*获取文本文件中原始数据*/
    apriori.buildData();
#if (1)
    map<int, set< set<string> > > L; 
    map< set<string>, int > freq1ItemSetMap = apriori.findFrequent1Itemsets();    
    set< set<string> > freqKItemSet = apriori.keySet(freq1ItemSetMap);
    L.insert(make_pair(1,freqKItemSet));    
    //for循环退出条件为:得到频繁k项集为空集时

    for(int k = 2; ;++k){
        cout << "k= " << k <<endl;        
        map< set<string>, int> freqKItemSetMap = apriori.getFreqKItemSet(k, freqKItemSet);
        if(freqKItemSetMap.size() != 0) {
            set< set<string> > freqKItemSetTemp = apriori.keySet(freqKItemSetMap);
            L.insert(make_pair(k,freqKItemSetTemp));
            freqKItemSet = apriori.keySet(freqKItemSetMap);            
        }
        else {
            cout << "k= " << k <<endl;
            break;
        }
    }

    //打印所有满足min_sup的频繁集 
    map<int, set< set<string> > >::iterator allLIt = L.begin();

    while(allLIt != L.end()){
        cout << "频繁k" << allLIt->first << "项集: " << endl;
        apriori.printsetSet(allLIt->second);
        ++allLIt;
    }   
#endif

#if (0)
    /*获取文本文件中原始数据*/
    apriori.buildData();
    cout << "----------------" << endl;
    /*获取候选集1*/
    map<string, int> candidate1ItemSet = apriori.getCandidate1ItemSet();
    cout << "候选1项集大小: " << candidate1ItemSet.size() << endl;
    /*获取频繁项集1*/
    map< set<string>, int > freq1ItemSetMap = apriori.findFrequent1Itemsets();
    cout << "频繁1项集大小: " << freq1ItemSetMap.size() << endl;
    /*打印频繁项集1*/
    cout << "-频繁1项集-" << endl;
    apriori.printMapSet(freq1ItemSetMap);
    /*获取候选集2*/
    set< set<string> > C2 = apriori.aprioriGen(1, apriori.keySet(freq1ItemSetMap));    
    cout << "-候选2项集-" << endl;
    apriori.printsetSet(C2);
    /*获取频繁2项集*/
    set< set<string> > C1 = apriori.keySet(freq1ItemSetMap);
    cout << "-频繁1项集键集--" << endl;
    apriori.printsetSet(C1);
    map< set<string>, int> L2 = apriori.getFreqKItemSet(2,C1);
    cout << "---频繁2项集----" << endl;
    apriori.printMapSet(L2);
    /*获取频繁3项集*/
    map< set<string>, int> L3 = apriori.getFreqKItemSet(3,C2);
    cout << "---频繁3项集----" << endl;
    apriori.printMapSet(L3);
#endif 
    return 0;
}

3.3 Apriori算法实现测试

test.txt文件内容如下：

AA BB  EE
BB DD
BB CC
AA BB DD
AA CC
BB CC
AA CC
AA BB CC EE
AA BB CC

以min_sup=2为例：

频繁4项集为空集跳出循环。

你可能感兴趣的:(数据挖掘,Apriori算法,文本挖掘,C++实现,频繁模式)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb