weixin_34260991

Aho-Corasick算法、多模正则匹配、Snort入门学习

希望解决的问题

1. 在一些高流量、高IO的WAF中，是如何对规则库(POST、GET)中的字符串进行多正则匹配的，是单条轮询执行，还是多模式并发执行
2. Snort是怎么组织、匹配高达上千条的正则规则库的，怎样保证效率和准确性的平衡 
3. 状态机、Aho-Corasick算法的核心思想
4. 怎么进行多模正则匹配的编程实现

相关学习资料

http://zh.wikipedia.org/wiki/%E7%A1%AE%E5%AE%9A%E6%9C%89%E9%99%90%E7%8A%B6%E6%80%81%E8%87%AA%E5%8A%A8%E6%9C%BA
http://zh.wikipedia.org/wiki/%E9%9D%9E%E7%A1%AE%E5%AE%9A%E6%9C%89%E9%99%90%E7%8A%B6%E6%80%81%E8%87%AA%E5%8A%A8%E6%9C%BA
http://stblog.baidu-tech.com/?p=418
http://blog.csdn.net/beta2/article/details/5698171
http://www.cnblogs.com/xudong-bupt/p/3433506.html
http://blog.csdn.net/sealyao/article/details/4560427
http://www.cppblog.com/yefeng/archive/2009/12/06/102671.html
http://www.wanghd.com/blog/2012/09/27/aho-corasicksuan-fa/
http://en.wikipedia.org/wiki/Aho-Corasick
http://yzmduncan.iteye.com/blog/1217014
http://www.openfoundry.org/tw/tech-column/8265--snort-
http://www.freebuf.com/articles/system/37507.htm

1. 状态机简介
2. 多模匹配算法简介
3. Aho-Corasick算法学习
4. 多模正则匹配的编程学习
5. Snort高速规则匹配原理学习

1. 状态机简介

状态机的概念非常复杂，我们着重理解其中的一些核心知识概念

0x1: 确定有限状态自动机

在计算理论中，"确定有限状态自动机"或"确定有限自动机"(deterministic finite automaton, DFA)是一个能实现状态转移的自动机。
对于一个给定的属于该自动机的状态(往往是初始状态)和一个属于该自动机字母表的字符(输入参数)，它都能根据事先给定的转移函数转移到下一个状态(这个状态可以是先前那个状态，即状态自循
环)

"确定有限状态自动机"的数学定义:

组成
1. 非空有限的"状态集合": Q
2. 输入字母表: A(非空有限的字符集合)
3. 转移函数: F
它接收两个参数:
    1) 当前状态: q
    2) 输入字母: a
返回一个结果: 一个新的状态: p
4. 一个开始状态(初始状态): i
5. 一个接收状态的集合: S
这个所谓的"接收状态的集合"可以这么理解，当所有的输入字母表都输入完毕后，状态机停留在最后一个状态的位置，这个状态位置是否达到了我们的要求(即是否接收)
(结合一下正则匹配的过程来理解，正则匹配最后输出的匹配位置其实就是一种状态机的"终点转移位置")

它们一起组成状态机的5元组
{Q、A、F、i、S}

"确定有限状态自动机"的工作方式

确定有限状态自动机从起始状态开始，一个字符接一个字符地读入一个字符串string，并根据给定的转移函数一步一步地转移至下一个状态。在读完该字符串后，如果该自动机停在一个属于S的接受
状态，那么它就接受该字符串，反之则拒绝该字符串
看到这里，我们可以很自然地想到这个理论的利用场景:
　　1) 正则的匹配(思考状态机的逐字符读取、以及最终状态的判定)
　　2) 目标字符串的搜索

0x2: 非确定有限状态自动机

在计算理论中，非确定有限状态自动机或非确定有限自动机(NFA)是对每个状态和输入符号对可以有多个可能的下一个状态的有限状态自动机。这区别于确定有限状态自动机(DFA)，它的下一个可能
状态是唯一确定的。
非确定有限自动机有时被称为有限类型的子移位(subshift)。非确定有限状态自动机可推广为概率自动机，它为每个状态转移指派概率。

"非确定有限状态自动机"的性质

机器开始于任意初始状态并"逐个读取"来自它的符号表的符号的字符串。
自动机使用状态转移函数:F来使用当前状态: q，和刚读入的符号:a或空串: null来确定下一个状态: p
如果在自动机完成读取的时候，它处于接受状态，则称 NFA 接受了这个字符串，否则称为它拒绝了这个字符串

0x3: 有限状态自动机的原理性伪码表示

关于确定有限状态自动机、非确定有限状态自动机，除了数学上的定义理解，我们还可以从伪代码的角度去理解

while(读取输入字母表的下一个字符: a)
{ 
    curState: q = 状态转移函数F(p, a);
    lastState: p = curState: q;
}

function 状态转移函数F(p, a)
{
    if(condition_1)
    {}
    else if(condition_2)
    {}
    else if
    ...
    else
    {}
    //condition_x: 状态和字符的笛卡儿积关系，以矩阵的形式表示了映射关系
}

这两张状态转移图很形象地说明了状态机的逻辑意义，我们可以很容易地将这个概念思想应用到编程实践中

2. 多模匹配算法简介

了解了状态机的基本概念之后，我们可以继续学习多模匹配算法的基本概念了

多模式匹配在这里指的是在"一个字符串"中寻找"多个模式字符字串"的问题。
一般来说，给出一个长字串和很多短模式字符串，如何最快最省的求出哪些模式字符串出现在长字串中是我们需要思考的(因为基本上大多数情况下是在给定的长字串中出现我们给的模式字串的其中
几个)
该算法的应用领域有很多，例如:
    1) 关键字过滤
    2) 入侵检测
    3) 病毒检测
    4) 分词等
多模匹配算法是一个概念性的称呼，它的具体实现有很多，例如:
    1) Trie树
    2) AC算法
    3) WM算法

简单来说，多模匹配就是要我们实现下面的功能，用demo代码进行演示

php
    public function CheckSql($db_string)
    {
      
        $express_1 = "/([A-Za-z])?(where)(.)*?(concat|char|(chr.*){4,}|case|floor|#.*|--)/i";   
        $express_2 = "/([A-Za-z])?(where).*(union)(\s)*(all)?(\s)*select(\s)*((\d|null),(\s)*){2,}/i"; 
        $express_3 = "/[^0-9a-z@\._-]{1,}(sleep|benchmark|load_file|outfile|(user\(\).*){1,})[^0-9a-z@\.-]{1,}/i";     
        $express_4 = "/([A-Za-z])?(where)(.|\s)*?(or|and|like)('\d'(=|>|<|like)'\d')/i";
        if (preg_match($express_1, $db_string) || preg_match($express_2, $db_string) || preg_match($express_3, $db_string) || 
preg_match($express_4, $db_string)) 
        { 
            //die("detected!!!"); 
            return 1;
        }  
        else
        {
            //die("good");
            return 0;
        }
    }
?>

文章介绍了多模算法的基本原理，以及一种算法的实现: dictmatch

3. Aho-Corasick算法学习

0x1: Aho-Corasick(AC)算法的总体流程

1. 建立树过程
    1) 根据关键字(即待搜索模式集合)建立起一颗Tire树
    2) 设置第一层的不匹配的转移节点
    3) 设置其余的不匹配转移节点
    4) 设置Tire树的各个节点的输出字符(即当到达某个状态时表明某个模式匹配成功，需要输出对应的字符串)
    5) 初始化状态到根节点

2. 查找过程
    1) 逐个输入待搜索字符串
    2) 根据状态机的转移结果判断是否有模式匹配成功

关于算法的原理、流程可以参阅文章头部给出的链接，我就不做重复的引用了。在这里，我想依托一个PHP的AC算法的DEMO，一边分析源代码，一边解析AC算法的流程

将下列文件放置在web目录下，即可运行

0x2: Aho-Corasick(AC)代码分析

demo.php

php 
/* 
    这个AC算法小程序的架构如下:
    1) demo.php: UI显示层
    2) php.ac.app.php: 业务实现层，封装了实现逻辑
    3) php.ac.search.php: AC多模式匹配的搜索查找算法的实现逻辑
    4) php.ac.pretreatment.php: AC算法的预处理(生成树)的实现逻辑 
*/

//引入文件
include("php.ac.app.php");
$obj = new ACAppClass(); 

echo "
=================
";
$words2 = array("microsome", "cytochrome", "cytochrome P450 activity", "gibberellic acid biosynthesis", "GA3", "cytochrome P450", "oxygen binding", 
"AT5G25900.1", "protein", "RNA", "gibberellin", "Arabidopsis", "ent-kaurene oxidase activity", "inflorescence", "tissue");
$text2 = "The ga3 mutant of Arabidopsis is a gibberellin-responsive dwarf. We present data showing that the ga3-1 mutant is deficient in ent-kaurene
oxidase activity, the first cytochrome P450-mediated step in the gibberellin biosynthetic pathway. By using a combination of conventional map-based 
cloning and random sequencing we identified a putative cytochrome P450 gene mapping to the same location as GA3. Relative to the progenitor line, 
two ga3 mutant alleles contained single base changes generating in-frame stop codons in the predicted amino acid sequence of the P450. A genomic 
clone spanning the P450 locus complemented the ga3-2 mutant. The deduced GA3 protein defines an additional class of cytochrome P450 enzymes. The 
GA3 gene was expressed in all tissues examined, RNA abundance being highest in inflorescence tissue.";
$res2 = $obj->findWordsInArray($words2, $text2);
var_dump($res2); 
?>

php.ac.app.php

php 

// 引入文件
include("php.ac.search.php");

class ACAppClass
{
    private $showtimeFlag;    // 是否显示运行时间，false：不显示；true：显示，默认为false
    
    /**
     * @function 构造函数
     * @param
     * @return
     */
    public function ACAppClass()
    {
        $this->showtimeFlag = false;
    }

    /**
     * @function 从字符串中查找单个关键词
     * @param string word 关键词
     * @param string text 被查找的字符串
     * @return Array
     */
    public function findSingleWord($word, $text)
    {
        try
        {            
            if(strlen(trim($word))==0)
            {
                throw new Exception("Key word's content is empty.");
            }            
        }
        catch(Exception $e)
        {
            echo $e->getMessage(); 
            return;          
        }     
        //复用了从字符串中查找多个字符串的代码逻辑(单个是多个的一种特殊情况)
        $arr = array(trim($word));
        return $this->findWordsInArray($arr, $text); 
    }


    /**
     * @function 从字符串中查找多个关键词
     * @param Array words 关键词数组
     * @param string text 被查找的字符串
     * @return Array
     */    
    public function findWordsInArray($words, $text)
    {
        $len = count($words);
        try
        {
            if($len==0)
            {
                throw new Exception("Array of keywords is empty.");
            }
        }
        catch(Exception $e)
        {
            echo $e->getMessage();
            return;
        }
        if($this->showtimeFlag)
        {
            $starttime = $this->getmicrotime();    
        }    
        /*
            构造AC算法"搜索关键词字典树"，主要有两个主要步骤
                1) 状态转移树的建立(将需要查找的关键字模式转换为一个树的形式)
                2) 失效转移树的建立(在状态转移树的基础上进行完善添加当出现转移失败时，状态应该跳转到的下一个状态)
                3) 状态输出的建立(在到达某个状态的时候，可以表明某个模式匹配成功，可以输出某个字符串)
        */
        $tree = new AhoCorasick();    
        try
        {    
            for ($i=0; $i<$len; $i++) 
            {
                if(trim($words[$i])=="")
                {
                    throw new Exception("Key word's content is empty.");
                }
                /*
                添加搜索词
                将搜索词(待匹配的模式)转化到状态转移树的形式中
                */
                $tree->add(trim($words[$i]));
            } 
        }
        catch(Exception $e)
        {
            echo $e->getMessage();
            return;
        }
        //向状态转移Tire树中添加"失效转移"部分
        $tree->prepare();
        //状态转移Tire树准备完毕        
        $res = array();

        /*
        开始在目标字符串中进行多模式搜索
        本质上来说: 搜索的过程是以目标字符串为输入参数，逐个输入来使状态在Tire树中进行状态转移，最终得到输出字符串
        */
        $obj = $tree->search($text);
        while($obj->hasNext())
        {
            $result = $obj->next();
            $res = array_unique(array_merge($res, $result->getOutputs()));
        }
        if($this->showtimeFlag)
        {        
            $endtime = $this->getmicrotime();    
            echo "
run time is: ".($endtime-$starttime)."ms
";    
        }
        return $res;    
    }
    
    /**
     * @function 从文件中查找关键词
     * @param string $keyfile 关键词所在的文件名称及路径
     * @param string $textfile 被查找的内容所在的文件名称及路径
     * @return Array
     */
    public function findWordsInFile($keyfile, $textfile){
        try{            
            if(!is_file($keyfile) || !is_file($textfile)){
                throw new Exception("Can not find the file.");
            }            
        }catch(Exception $e){
            echo $e->getMessage();   
            return;        
        }
        // 搜索词所在的文件内容为空时，抛出异常
        try{        
            if(strlen(trim(file_get_contents($keyfile)))==0){
                throw new Exception("File's content is empty.");
            }
        }catch(Exception $e){
            echo $e->getMessage();  
            return;         
        }
        // 打开文件
        $handle1 = fopen($keyfile, "r");
        $handle2 = fopen($textfile, "r");
        $arr = array();
        $contents = "";
        try{
            while (!feof($handle1)) {
                $line = trim(fgets($handle1));
                if(strlen($line)!=0){
                    $arr[] = $line;
                }
            }
            
            while (!feof($handle2)) {
               $line = trim(fgets($handle2));
                if(strlen($line)!=0){
                    $contents .= $line;
                }
            }            
        }catch(Excption $e){
            echo $e->getMessage(); 
            return;                    
        }
        // 关闭文件
        fclose($handle1);
        fclose($handle2);    
        return $this->findWordsInArray($arr, $contents);            
    }
    /**
     * @function 获取时间戳，单位为毫秒
     * @param
     * @return float
     */    
    function getmicrotime(){ 
        list($usec, $sec) = explode(" ",microtime());
        $value = (float)$usec*1000+(float)$sec;
        return round($value, 3); 
    }         
}
?>

php.ac.search.php

php
/**
 * @author: jessica.yang
 * @date: 2011-10-24
 * @filename: php.ac.search.php
 * @description: Aho Corasick多模式匹配算法，简称AC算法，包含两个阶段，第一个是预处理阶段，即字典树的生成；第二个是搜索查找阶段，该文件完成第二阶段的搜索查找功能
 */
// 引入文件
include("php.ac.pretreatment.php");
/**
 * @classname: AhoCorasick
 * @description: 用于实现AC多模式匹配的搜索查找算法
 */
class AhoCorasick 
{
    private $root;        // State对象，表示根节点
    private $prepared;    // boolean类型，表示搜索词是否装载完成。如果为true，则表示加载完成，并且不能再加载搜索词
    private $arr_keys;    // Array对象，存放第一级的搜索词
    
    /**
     * @function 构造函数
     * @param
     * @return
     */
    public function AhoCorasick() 
    { 
        $this->root = new State(0);                //构造字典树的单个状态节点
        $this->root->setFail($this->root);        //设置根节点的失效值，对于根节点来说，它的失效转移节点就是它自己本身
        $this->prepared = false;                //搜索词还未装载完成
        $this->arr_keys = array();                //存放第一级搜索词
    }

    /**
     * @function 获取根节点对象
     * @param
     * @return State
     */    
    public function getRoot() 
    {
        return $this->root;
    }
       
    /**
     *@function 添加搜索词
     *@param string $keywords 要查找的搜索词
     *@return 
    **/
    public function add($keywords="")
    {
        // 如果装载标志为true，则禁止再加载搜索词
        try
        {
            if ($this->prepared)
            {
                throw new Exception("can't add keywords after prepare() is called.");
            }
        }
        catch(Exception $e)
        {
            echo $e->getMessage(); 
            return;          
        }
        
        // 如果搜索词不是字符串类型，或者内容为空，则返回
        try
        {
            if(!is_string($keywords) || strlen(trim($keywords)) == 0)
            {
                throw new Exception("Added keywords is not string type, or content is empty.");    
            }
        }
        catch(Exception $e)
        {
            echo $e->getMessage();  
            return;        
        }
        $keywords = trim($keywords); 
        $words = $this->str_split_utf8($keywords);                                // 把搜索词按字符为单位转换成单字符数组(因为Tire树的每个节点必须是单字符) 
        $this->arr_keys = array_unique(array_merge($this->arr_keys, $words));    // 设置第一层级的搜索字符 

        /*
        将搜索词的单字符数组逐个"压入"状态转移Tire树中
        同时接收函数返回的: 添加完搜索词之后的最后一个State值(这个State代表某个模式匹配成功，可以输出对应的字符串)
        */
        $lastState = $this->root->extendAll($words); 

        /*
        向最后一个State值中添加输出内容
        这里要着重理解: lastState代表某个匹配模式匹配成功到了最后，即表示匹配成功，则对应的这个状态即为状态机中的"可接受状态"，这时可输出对应的搜索字符串
        */
        $lastState->addOutput($keywords);                                        
    }

    /**
     *@function 加载搜索词add()完成之后调用
     *@param 
     *@return 
    **/    
    public function prepare() 
    {
        $this->prepareFailTransitions();
        //进行失效转移处理之后就不允许继续增加节点了，如果需要再次增加节点，则需要重头构建这个Tire树
        $this->prepared = true;
    }

    /**
     *@function 设置字典树中每个State节点的失效值
     *@param 
     *@return 
    **/  
    private function prepareFailTransitions() 
    { 
        $q = array();    //存放第一层级的所有搜索词                    
        foreach($this->arr_keys as $value)
        {
            if(is_null($this->root->get($value)))
            {
                // 如果搜索词不存在于第一层级，则添加，并且设置失效值为根节点State对象
                $this->root->put($value, $this->root);
            }
            else
            {
                // 设置第一层级的失效值为根节点State对象，并且把搜索词对应的State值添加到$q数组中
                $this->root->get($value)->setFail($this->root);
                array_push($q, $this->root->get($value));
            }
        }
        die(var_dump($q));
        // 设置所有State节点的失效值
        while(!is_null($q)) 
        { 
            $state = array_shift($q);            // 将数组$q第一个State值移出该数组，并返回移出的State值 
            if(is_null($state))                    // 如果取出的$state内容为空，则结束循环
            {
                break;
            } 
            $keys = $state->keys();                // 获取$state值对应的下一级所有搜索词        
            $cnt_keys = count($keys);
            for($i=0; $i<$cnt_keys; $i++) 
            {        
                $r = $state;
                $a = $keys[$i];
                $s = $r->get($a);
                array_push($q, $s);
                $r = $r->getFail(); 
                /*
                递归查找失效值，直到根节点为止
                这里要重点理解一下: 类似KMP算法，同样采用实效实效函数推进的方法，假设当前状态为s，s的一个孩子结点的根结点根节点
                t状态，如果当前的失效函数已知为f(s)，则显然地，f(t)必定是f(s)的孩子结点状态，所要做的就是在状态f(s)处寻找接受字
                符同s->t下一个状态，如果能找到，那就是f(t)，否则说明到s处匹配串的前缀长度太长，需缩减，所以需要找到更短的后缀，
                于是就到f(s)处继续，如果仍然找不到，则转到f(f(s))处，形成状态的递归转移
                */
                while(is_null($r->get($a)))        
                {
                    //这是一个递归的过程，从根节点到当前节点，逐个向下，减少字符长度，并同时回溯查中啊是否有能够包含这个字符串的子节点
                    $r = $r->getFail();
                } 
                $s->setFail($r->get($a));                                
                $s->setOutputs(array_unique(array_merge($s->getOutputs(), $r->get($a)->getOutputs())));                
            }
        }
    }

    /**
     *@function 查找函数
     *@param string words 被查找的字符串
     *@return Searcher
    **/ 
    public function search($words)
    {
        return new Searcher($this, $this->startSearch($words));
    }    
    /**
     *@function 查找函数
     *@param string words 被查找的字符串
     *@return SearchResult
    **/  
    public function startSearch($words) 
    {
        // 加载未完成时，不允许进行搜索查找    
        try
        {
            if (!$this->prepared)
            {
                throw new Exception("Can't start search until prepare().");
            }
        }
        catch(Exception $e)
        {
            echo $e->getMessage();  
            return;         
        }        
        // 转换被查找的"字符串"为"单字符数组"。因为我们知道，AC搜索算法的过程是将被查找的字符串逐个的输入状态转换树，并根据转移状态结果进行判断
        $arr_words = $this->str_split_utf8($words);
        // 搜索查找后结果集
        $res = $this->continueSearch(new SearchResult($this->root, $arr_words, 0));
        return $res;
    }

    /**
     *@function 真正的查找函数
     *@param SearchResult lastResult SearchResult对象
     *@return SearchResult or NULL
    **/          
    public function continueSearch($lastResult) 
    {
        // 如果lastResult搜索结果对象为null，则返回
        if(is_null($lastResult))
        {
            return NULL;
        }
        
        $words = $lastResult->words;            // 被查找的字符数组
        $state = $lastResult->lastMatchedState;    // 开始查找的State值
        $start = $lastResult->lastIndex;        // 开始查找的位置
        $len = count($words);
        for($i=$start; $i<$len; $i++) 
        {    
            $word = $words[$i];                    // 获取单个字符
            // 如果获取的搜索词不存在，则递归转向失效值进行搜索，直到根节点为止
            while (is_null($state->get($word)))
            {
                $state = $state->getFail();
                if($state===$this->root)
                {
                    break;
                }
            }
            
            if(!is_null($state->get($word)))
            {
                // 获取搜索词对应的State值，如果有输出内容，则输出
                $state = $state->get($word);
                if (count($state->getOutputs())>0)
                {    
                    return new SearchResult($state, $words, $i+1);
                }    
            }                        
        }        
        return NULL;
    }

    /**
     *@function 字符串转换成字符数组，单位是字符
     *@param string str 转换的字符串内容
     *@return Array
    **/     
    function str_split_utf8($str)
    {                
        $split=1;
        $array = array();
        for($i=0; $i < strlen($str); )
        {
            $value = ord($str[$i]);
            /*
            处理宽字节的情况
            http://zh.wikipedia.org/wiki/UTF-8
            1) 对于UTF-8编码中的任意字节B，如果B的第一位为0，则B为ASCII码，并且B独立的表示一个字符;
            2) 如果B的第一位为1，第二位为0，则B为一个非ASCII字符（该字符由多个字节表示）中的一个字节，并且不为字符的第一个字节编码;
            3) 如果B的前两位为1，第三位为0，则B为一个非ASCII字符（该字符由多个字节表示）中的第一个字节，并且该字符由两个字节表示;
            4) 如果B的前三位为1，第四位为0，则B为一个非ASCII字符（该字符由多个字节表示）中的第一个字节，并且该字符由三个字节表示;
            5) 如果B的前四位为1，第五位为0，则B为一个非ASCII字符（该字符由多个字节表示）中的第一个字节，并且该字符由四个字节表示;
            */
            if($value > 127)
            {
                if($value >= 192 && $value <= 223)
                {//双字节
                    $split=2;
                } 
                else if($value >= 224 && $value <= 239)
                {//三字节
                    $split=3;
                }                    
                else if($value >= 240 && $value <= 247)
                {//四字节
                    $split=4;
                } 
            }
            else
            {//单字节
                $split=1;
            }
            
            $key = NULL;
            //根据当前字节长度来生成相应的单字符
            for($j = 0; $j < $split; $j++, $i++ ) 
            {
                $key .= $str[$i];
            }
            //http://www.w3school.com.cn/php/func_array_push.asp
            array_push( $array, $key );
        }
        return $array;
    }    
}

///
/**
 * @classname: SearchResult
 * @description: 搜索结果类，用于存储搜索查找后的结果集
 */
class SearchResult {
    var $lastMatchedState;// State对象，最后匹配的State值
    var $words;// Array对象，被搜索的内容
    var $lastIndex;// int类型，最后出现的位置
    /**
     * @function 构造函数
     * @param State state State对象
     * @param Array words 被查找的字符串
     * @param int index 查找位置
     * @return
     */
    public function SearchResult($state, $words=array(), $index=0) {
        $this->lastMatchedState = $state;
        $this->words = $words;
        $this->lastIndex = $index;
    }
    /**
     * @function 获取输出的内容
     * @param 
     * @return Array
     */
    public function getOutputs() {
        return $this->lastMatchedState->getOutputs();
    }
    /**
     * @function 获取查找的位置
     * @param 
     * @return int
     */
    public function getLastIndex() {
        return $this->lastIndex;
    }
}
 


////
/**
 * @classname: Searcher
 * @description: 搜索类
 */
class Searcher
{
    private $tree;// AhoCorasick对象    
    private $currentResult;// SearchResult对象
    /**
     * @function 构造函数
     * @param AhoCorasick tree AhoCorasick对象    
     * @param SearchResult result SearchResult对象
     */
    public function Searcher($tree, $result) {
        $this->tree = $tree;
        $this->currentResult = $result;
    }
    /**
     * @function hasNext 用于判断是否还有值存在
     * @param 
     * @param boolean true表示有值  false表示无值
     */
    public function hasNext() {
        return !is_null($this->currentResult);
    }
    /**
     * @function next 获取下一个值
     * @param 
     * @param 如果有值则返回SearchResult对象，否则返回NULL
     */
    public function next() {
        if (!$this->hasNext()){
            return NULL;
        }
        $result = $this->currentResult;
        $this->currentResult = $this->tree->continueSearch($this->currentResult);
        return $result;
    }
}

?>

php.ac.pretreatment.php

php
/**
 * @author: jessica.yang
 * @date: 2011-10-24
 * @filename: php.ac.pretreatment.php
 * @description: Aho Corasick多模式匹配算法，简称AC算法，包含两个阶段，第一个是预处理阶段，即字典树的生成；第二个是搜索查找阶段，该文件完成第一阶段的预处理功能
 */

/**
 * @classname: State
 * @description: 状态类，用于表示字典树中的每一个状态节点
 */
class State 
{
    private $depth;        // int类型，表示每一个状态对象的深度，从0开始表示
    private $edgeList;    // 类似于列表，用于包含该状态下所包含的下一级所有State对象
    private $fail;        // State对象，表示状态对象失效之后要跳转的地方
    private $outputs;    // array对象，存放某一状态下可以输出的内容
    
    /**
     * @function State 构造函数
     * @param int depth 状态所处的深度
     * @return
     */
    public function State($depth) 
    {
        $this->depth = $depth;                    //初始化状态当前状态节点的深度 
        
        /*
        存储State对象下一级对应的所有State内容，以数组形式存储
        这里要着重理解的是: 树是在数据结构是以一种链表的形式存储的，链表中的每个节点都要存储指向它的所有子节点的指针，或者以一种数组的形式存储(只要能达到可寻址的目的即可)
        */
        $this->edgeList = new DenseEdgeList();    
        
        $this->fail = NULL;                        //初始化当前状态节点发生失效时需要转移到的下一个节点(即失效转移指针)
        $this->outputs = array();                //初始化当前状态节点的输出字符串
    }

    /**
     *@function extend 添加单个搜索词
     *@param char character 单个搜索词，或者一个字母、数字、或者一个汉字等
     *@return State 
    **/
    public function extend($character) 
    { 
        if (!is_null($this->edgeList->get($character)))
        {
            return $this->edgeList->get($character);
        }
        /*
        新建一个新的State节点，作为当前节点的下级State节点
        */
        $nextState = new State($this->depth+1);
        $this->edgeList->put($character, $nextState);
        return $nextState;
    } 

    /**
     *@function extendAll 添加搜索词
     *@param array contents 搜索词数组
     *@return State
    **/
    public function extendAll($contents) 
    { 
        $state = $this;
        $cnt = count($contents);
        /*
        循环遍历搜索词单字符数组，逐个压入Tire树
        */ 
        for($i=0; $i < $cnt; $i++) 
        {
            // 如果搜索的关键词存在，则直接返回该关键词所处的State对象，否则添加该关键词
            if(!is_null($state->edgeList->get($contents[$i])))
            {
                //如果搜索词在当前节点中，则返回当前State节点
                $state = $state->edgeList->get($contents[$i]);
            }
            else
            {
                //如果搜索词不在当前节点中，则新建一个新的State节点作为当前节点的下级节点，并返回新的State节点，接下来就继续在新的State节点中插入搜索词
                $state = $state->extend($contents[$i]);
            }
        }
        //完成状态转移树的填充，最终的效果就是所有的搜索词都被填充到了一个层级的树状转移图中
        return $state;
    }

    /**
     * @function 计算搜索词的总长度
     * @param
     * @return int
     */
    public function size() {
        $keys = $this->edgeList->keys();
        $result = 1;
        $length = count($keys);
        for ($i=0; $i<$length; $i++){
            $result += $this->edgeList->get($keys[$i])->size();
        }
        return $result;
    }
    /**
     * @function 获取单个关键词所处的State对象
     * @param char character
     * @return State
     */
    public function get($character) 
    {
        $res = $this->edgeList->get($character);
        return $res;
    }
    /**
     * @function 向State对象中添加下一级的搜索词及对应的State值
     * @param char character
     * @param State state
     * @return
     */
    public function put($character, $state) 
    {
        $this->edgeList->put($character, $state);
    }
    /**
     * @function 获取State对象下一级的所有关键词
     * @param
     * @return Array
     */
    public function keys() 
    {
        return $this->edgeList->keys();
    }
    /**
     * @function 获取State对象失效时对应的失效值
     * @param
     * @return State
     */
    public function getFail() 
    {
        return $this->fail;
    } 

    /**
     * @function 设置State对象失效时对应的失效值(即失效时需要转移到的下一个状态)
     * @param
     * @return 
    */
    public function setFail($state) 
    {
        $this->fail = $state;
    }

    /**
     * @function 向State对象的outputs中添加输出内容
     * @param
     * @return 
     */
    public function addOutput($str)
    {
        array_push($this->outputs, $str);
    }

    /**
     * @function 获取State对象的输出内容
     * @param
     * @return Array
     */
    public function getOutputs() {
        return $this->outputs;
    }
     /**
     * @function 设置State对象的输出内容
     * @param
     * @return 
     */   
    public function setOutputs($arr=array()){
        $this->outputs = $arr;
    }
}






////
/**
 * @classname: DenseEdgeList
 * @description: 存储State对象下一级对应的所有State内容，以数组形式存储
 */
class DenseEdgeList
{
    private $array;                // State对象，包含对应的搜索词及State值
    
    /**
     * 构造函数
     */
    public function DenseEdgeList() 
    {
        $this->array = array();
    }

    /**
     * @function 从链表存储形式的内容转为数组存储形式的内容
     * @param SparseEdgeList list
     * @return DenseEdgeList
     */
    public function fromSparse($list) 
    {
        $keys = $list->keys();
        $newInstance = new DenseEdgeList();
        for($i=0; $i < count($keys); $i++) 
        {
            $newInstance->put($keys[$i], $list->get($keys[$i]));
        }
        return $newInstance;
    }
    /**
     * @function 获取搜索词对应的State值
     * @param char word
     * @return 如果存在则返回对应的State对象，否则返回NULL
     */
    public function get($word) 
    {
        if(array_key_exists($word, $this->array))
        {
            return $this->array["$word"];            
        }
        else
        {
            return NULL;
        }
    }

    /**
     * @function 添加搜索词及对应的State值到数组中
     * @param char word 单个搜索词
     * @param State state 搜索词对应的State对象
     * @return 
     */
    public function put($word, $state) 
    {
        $this->array["$word"] = $state;
    }

    /**
     * @function 获取所有的搜索词
     * @param 
     * @return Array
    */
    public function keys() 
    {
        return array_keys($this->array);
    }
}

///
/**
 * @classname: SparseEdgeList
 * @description: 存储State对象下一级对应的所有State内容，以链表形式存储
 */
class SparseEdgeList{    
    private $head;// Cons对象
    /**
     * 构造函数
     */
    public function SparseEdgeList() {
        $this->head = NULL;
    }
    /**
     * @function 获取搜索词对应的State值
     * @param char word
     * @return 如果存在则返回对应的State对象，否则返回NULL
     */
    public function get($word) {
        $cons = $this->head;
        while(!is_null($cons)){
            if ($cons->word === $word){
                return $cons->state;
            }
            $cons = $cons->next;
        }
        return NULL;
    }
    /**
     * @function 添加搜索词及对应的State值到链接中
     * @param char word 单个搜索词
     * @param State state 搜索词对应的State对象
     * @return 
     */
    public function put($word, $state){
        $this->head = new Cons($word, $state, $this->head);
    }
    /**
     * @function 获取所有的搜索词
     * @param 
     * @return Array
     */
    public function keys() {
        $result = array();
        $c = $this->head;
        while(!is_null($c)){
            array_push($result, $c->word);
            $c = $c->next;
        }
        return $result;
    }
    
}
/**
 * @classname: Cons
 * @description: 用于SparseEdgeList生成链表时表示的节点对象
 */
class Cons {
    var $word;// 单个搜索词
    var $state;// State对象
    var $next;// Cons对象
    /**
     * 构造函数
     */
    public function Cons($word, $state, $next){
        $this->word = $word;
        $this->state = $state;
        $this->next = $next;
    }
}
?>

上面是一个AC算法的PHP实现，为了更加清晰的说明这个算法的思想，我们接下来看几张图来进一步理解一下

下图是多模式he/ she/ his /hers构成的一个确定性有限状态机，做几点说明：

1. 该状态机优先按照实线标注的状态转换路径进行转换，当所有实线标注的状态转换路径条件不能满足时，按照虚线的状态转换路径进行状态转换。如：状态0时，当输入h，则转换到状态1；输入s，则转换到状态3；否则转换到状态0。
2. 匹配过程如下：从状态0开始进行状态转换，主串作为输入。如主串为：ushers，状态转换的过程是这样的：

3. 当状态转移到2，5，7，9等红色状态点时，说明发生了模式匹配。
如主串为：ushers，则在状态5、2、9等状态时发生模式匹配，匹配的模式串有she、he、hers

0x3: 关于AC算法的注意点

1. AC算法是一款非常优秀的算法，在Unix的fgrep中使用的就是这个算法
2. 要理解AC算法，我们的重点应该放到它的Tire树的建立上，将搜索词转换为一棵以字母顺序为索引关系的层次树(这里所谓的字母顺序就是转移方向)
3. 失效转换的思想和KMP算法的思想很类似，核心的思想是避免不必要的回溯，让搜索始终沿着向前的方向，尽最大可能减小时间复杂度
4. 输出字符串的个数和搜索词的数量是一致的，每个搜索词都会对应一条状态转移路径，这条路径的最后一个State状态会包含一个输出字符串
5. AC算法的时间复杂度为: O(m+n+z)，是线性的，所以非常高效

4. 多模正则匹配的编程学习

这里还有一些关于多模匹配算法的代码学习资料

http://sourceforge.net/projects/multifast/
http://www.codeproject.com/Articles/12383/Aho-Corasick-string-matching-in-C
http://search.cpan.org/~dankogai/Regexp-Trie-0.02/lib/Regexp/Trie.pm

5. Snort入门学习

我们之前说过，AC算法是一种多模匹配算法，它适用于一次匹配需要同时匹配多个模式的应用场景。我们在有了AC算法的原理基础之后，接下来可以继续深入学习一下Snort高速多规则匹配的原理了

0x1: Snort简介

Snort是一款开源的NIPS(Network Intrusion Prevention System)、NIDS(Network Intrusion Detection System)
http://www.snort.org/

NIDS(Network Intrusion Detection System)的功能点:
1) 实时流量分析
2) IP数据包Log记录
3) 协议分析
4) 内容搜索
    4.1) 单模式搜索
    4.2) 多模式搜索
5) 对攻击行为的检测
    1) 扫描器探针
    2) 操作系统指纹探测
    3) CGI(common gateway interface)探测
    4) 缓冲区溢出
    5) SMB探测
    6) 端口遍历扫描

Snort的工作模式
1) 嗅探模式(Sniffer): 对网络数据进行实时嗅探并显示
2) 数据包记录(packet logger): 对捕获到的数据包记录都磁盘上
3) 网络入侵检测(Network Intrusion Detection): 对流量进行监控，并应用用户定义的规则进行模式匹配，Snort会根据用户的定义采取相应的相应动作action

0x2: Snort的相关架构

Snort是一种以攻击特征为基础的的入侵检测系统，利用事先建立好的的已知的攻击资料特征码，来比对接收到的封包内容是否含有攻击行为。若符合特征码则触发相对应的动作

1. Packet Decoder(封包解码器)
当Snort取得原始的网络封包后，第一件事即将封包置入"封包解码器"模组中进行封包解码

2. Preprocessors(预处理器)
Snort的预处理器为外挂式程序(plusin)的架构，主要功能在于重新标准化网络流量，如
    1) 重组封包
    2) 分段、重组TCP Stream
    3) 编码的规范化、转换等
以使得网络流量能精确的被侦测引擎(Detection Engine)解析以及匹配特征码

3. Detection Engine(侦测模组)
Detection Engine(侦测模组)主要功能在于"规则分析"与"特征侦测"，Detection Engine将Snort的规则文件引入，并按照规则文件中的规则进行比对(单模比对、或者多模比对)。一旦发现
有符合规则文件定义的行为，即触发该规则文件中所定义的处理方式，当所有的规则都不符合时，即会丢弃该封包。
Snort的规则文件分为两个部分:
    1) 规则表头(Rule-Header)
        1.1) 决定封包比对来源范围(例如限定比对哪些范围的IP)
        1.2) 比对成功时的动作(log或者直接丢弃)
    2) 规则选项(Rule-Options)
    利用一至多个关键字设定欲侦测的流量特征，规则选项按照功能可以分为下列4个部分
        2.1) Meta-data: 设定欲显示的相关讯息，如当规则触发时所要产生的讯息
        2.2) Payload: 用来比对封包内容的规则
        2.3) Non-Payload: 用来比对各种协定的栏位值
        2.4) Post-Detection: 当封包内容与规则匹配时，除了在规则表头(Rule-Header)所定义的动作外，另外会触发的动作

Example:

alert tcp any any → any 5432 (msg:"someone access PSQL command:SELECT"; content:"select";)

alert(处理方式):    产生警示的 log
tcp(来源通讯协定):    侦测 TCP 的封包
any(来源 IP):        侦测任何的来源 IP
any(来源 port):        侦测任何的来源端口
any(目的 IP):        侦测任何的目的 IP
5432(目的 port):    侦测 5432 端口的封包
...(规则匹配內容):        若符合内容含有"select"的字串，则将 msg 后的字串记录起来

0x3: Snort安装、配置

http://linuxmantra.com/2010/10/install-snort-2-9-on-rhel-5.html
http://www.boyunjian.com/do/article/snapshot.do?uid=net.chinaunix.blog%2Fuid-522598-id-1764389.html
1. 下载准备环境
yum -y install mysql-bench mysql-devel php-mysql gcc pcre-devel php-gd gd glib2-devel gcc-c++ libpcap-devel
cd /root
mkdir  snort
cd snort
wget http://www.snort.org/downloads/867 
wget http://www.snort.org/downloads/860 


2. 安装Snort(在安装过程中需要解决依赖库的问题方可正常安装)
tar -zvxf snort-2.9.0.5.tar.gz
cd snort-2.9.0.5
./configure --with-mysql --enable-dynamicplugin
make && make install

遇到报错:
"ERROR!  dnet header not found, go get it from http://code.google.com/p/libdnet/ or use the --with-dnet-* options, if you have it installed in an 
unusual place"
tar -xzvf libdnet-1.12.tgz  
cd libdnet-1.12.tgz  
./configure 
make && make install

如果遇到报错
"ERROR!  daq_static library not found, go get it from  http://www.snort.org/"
cd /root/snort/  
tar -xzvf daq-0.5.tar.gz  
cd daq-0.5 
./configure  
make && make install

如果遇到报错:
"ERROR! Libpcap library version >= 1.0.0 not found. Get it from http://www.tcpdump.org"
cd /root/snort/ 
wget http://www.tcpdump.org/release/libpcap-1.1.1.tar.gz
tar -zvxf libpcap-1.1.1.tar.gz
cd libpcap-1.1.1
./configure -prefix=/usr  
make && make install


3. 配置Snort
groupadd snort
useradd -g snort snort -s /sbin/nologin
(添加一个不允许登录的虚拟账户)
mkdir /etc/snort
mkdir /etc/snort/rules
mkdir /etc/snort/so_rules
mkdir /var/log/snort
chown snort:snort /var/log/snort 
cd /root/snort/snort-2.9.0.5/etc
cp * /etc/snort 
cd /root/snort/  
tar -xzvf snortrules-snapshot-2.8.tar.gz
cd ./rules
cp * /etc/snort/rules
cp  ../so_rules/precompiled/CentOS-5.0/i386/2.6.1.5/*  /etc/snort/so_rules
wget https://www.snort.org/downloads/893 --no-check-certificate

vim /etc/snort/snort.conf
修改如下
将 RULE_PATH 和 SO_RULE_PATH 改为绝对路径 
var RULE_PATH /etc/snort/rules 
var SO_RULE_PATH /etc/snort/so_rule 

配置数据库(在同一个文件中)
在配置数据库信息之前先生成相应的数据库
mysql -uroot -p111
create database snort; 
use snort;
source /root/snort/snort-2.9.0.5/schemas/create_mysql; 

grant all privileges on snort.* to snort@'localhost' identified by 'snort';  
flush privileges; 

(在.conf中添加信息)
vim /etc/snort/snort.conf
output database: log, mysql, user=snort password=snort dbname=snort host=localhost 
 

4. 启动Snort

1) 监听模式(Sniffer)

监听所有来往的封包，但不做攻击模式的比对
snort -v

2) NIDS(网络型入侵检测系统)
让Snort不仅监听所有来往的封包，并会对封包中是否包含攻击模式进行比较
snort -u snort -g snort -c /etc/snort/snort.conf

0x3: Snort捕获数据的可视化显示

和我们之前学习Kippo蜜罐的学习中，将捕获到的数据进行可视化展示很重要，对于Snort来说，可以使用BASE(Basic Analysis and Security Engine)进行数据可视化展示

http://freecode.com/projects/base-php

要使用BASE，需要准备一些环境:

1) ADOdb(PHP连接数据库的通用接口)
2) BASE需要绘图和Email的相关功能
    2.1) Mail
    2.2) Image_Color
    2.3) Image_Canvas
    2.4) Image_Graph

pear list
BASE本质上就是一些PHP文件组成的脚本
http://sourceforge.net/projects/secureideas/

启动Snort的检测模式

snort -u snort -g snort -c /etc/snort/snort.conf

用WVS进行模拟攻击

后记

1. 本篇文章完成了对AC算法、Snort的入门学习
2. 我们现在已经知道，Snort、WAF高速正则规则匹配使用的是AC算法
3. 下一步准备研究一下Snort的开源源代码，从源代码的角度来深入学习一下Snort的检测原理、入侵检测相关模块，AC算法在产品中的应用

你可能感兴趣的:(Aho-Corasick算法、多模正则匹配、Snort入门学习)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
有舍才有得 _清净_
为什么经常讲放下？放下就是让你要舍得、舍去。喜舍心就是把自己喜欢的，用慈悲心喜舍出去。这就锻炼了你们在人间，学会放下原本不舍得的东西或一些事物，学会舍出去，学会帮助别人，学会多付出。你今天付出了慈悲心、喜舍心，以后会得到更多的缘助力。缘助力是什么？——贵人缘啊。今天没有付出，不懂得付出，什么都只会想到自己，那你也得不到缘助力。慈悲喜舍就是用慈悲心去帮助别人，用喜舍心去付出，最后也会得到别人回报。别
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
2022-11-17 无奇君
又去了一次社康，这次是急性支气管炎……太难了。半夜就猛咳，天天咳醒，还好他戴海绵耳塞睡吵不到他，要不然对他来说也是种煎熬。一累也会猛咳，希望这次是最后一次吃药，吃完就好。又想把头发剪短了，顺便染个色。可是刚刚去看人家还没开门，不是休息日老板好佛系。理发店是个夫妻店，一年多前刚搬来的时候老板还没对象呢，当时聊天老板就说希望能找个对象一起两个人守着店都比上班强。不久后再去他已经有对象了，而且在店里帮忙
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
读《人间鲁迅》有感琳语读书
上周读完《闻一多传》后，我对中国近代知识分子产生了兴趣，这周继续读了《人间鲁迅》。厚厚的两本书，记录了一个人的一生，苦痛，彷徨和挣扎，虽然只读了一小部分，却也心潮澎湃。闻一多和鲁迅是完全不同的。鲁迅是沉郁的，现实的，寂寞的，抗争的。除了天生性格的不同外，环境的塑造也是非常之大。鲁迅少年经历了家庭的变故，看尽了人间冷暖，世态炎凉。这种经历促使他很早就观察思考人生，立志用文学来改变中国国民的劣根。闻一
第九十章真情溪境
图片发自App图片发自App和雏田在一起的日子真的很开心。姐姐永远是最亲的最真的。佐助总来捣乱。小樱准备一盆水泼佐助。想到恋爱通告亦菲被泼水不免高兴。亦菲是最美的。没想到她也会有这种遭遇。也许不需要赚那么多钱。和家人在一起的日子真好。却轻易破碎。雏田的话语温软，依稀在耳边。她的微笑纯美温柔。喜欢温柔的哥哥，雏田就是这样啊。不知道雏田是喜欢男生还是女生。我都支持。过去门当户对。现在自由恋爱。想永远和
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
社保应该缴15年还是25年？那种方式最划算？袋鼠观保保险规划师
社保无论是缴费15年还是25年，影响最大的就是养老保险和医疗保险，缴费时间越长越有利！1.养老保险真的交满15年就够了吗？要知道，社保缴费时长，直接影响到退休后能拿多少养老金，而且交得越久，退休领得越多。我拿深圳作为例子，想拿到养老金必须满足两个条件：只要达到一定的退休年龄，养老保险累计交满15年就可以拿到养老金了。那如果多缴了20年、25年甚至30年，是不是浪费了？实际上，缴满15年只是刚好可以
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
在一起的日子少些期待
在一起已经三年多了，我是一个97年的摩羯座女生，他是一个89年的同样的摩羯座男生，刚开始是他追的我，我开始对他也挺有好感的，他从他朋友哪里，要到我的电话号，给我发信息，我没理他。然后我们的故事就这样开始了·····我不记得到底是什么，让我对他特别喜欢，想一心一意跟着他过日子，说白了我也就是个他的小跟班，又或者是个小跟屁虫，或者是个保姆，反正就是他在那里，我就得陪他到哪里，谈了半年多对象的时候，他因
大雄的新恐龙：养育生命，的确不易沧浪先生
哆啦A梦这个动画片，我小时候没有看过，长大了之后似乎对这种充满童真童趣的动画片也没有太多的喜爱，所以结果很明显，我并没有看过哆啦A梦这个动画片。但是近年来大屏幕的兴起，让各家影视剧制作者发现了电影化的好处，没错，电影不仅影响力更大，钱赚得也多。《哆啦A梦·大雄的新恐龙》是最新的一部大屏幕电影，大雄和柯南一样，都永远长不大，而且他和他的小伙伴日复一日、年复一年地和机器猫哆啦A梦在一起玩耍，永远的神奇
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
骑昆明到北海—119 砚山县 61清风i
从十年前第一次长途骑行青海湖开始每年一次长途骑行看风景，尝各地美食，探访异域文化，记录途中美食美景美事，已逐渐形成习惯。每年春季详细规划好线路，夏季出行，2020年因为疫情迟迟不能确定线路和行程。总算到了暑期疫情逐渐消失，规划了50多天的云南昆明—广西北海计划。本次行程从云南昆明出发到广西北海市结束，五十一天骑行二千多公里线路昆明-官渡古镇-环滇池--澄江市一抚仙湖—路居镇--江川区--通海县—龙
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。