DoubleArrayTrie和AhoCorasickDoubleArrayTrie的实用性对比

DoubleArrayTrie和AhoCorasickDoubleArrayTrie的实用性对比
前段时间开源了基于双数组Trie树的Aho Corasick自动机,当时认为在中文分词中,ACDAT应该能秒杀DAT。今天优化了DAT的多模式匹配后,竟然得出了意外的结果。当初的DAT实现中,为了支持多模式匹配,我写了一个Searcher结构,里面储存了当前扫描的起点,并且用一个链表储存了从当前起点开始途经的所有词串。接着只要不断地将起点往后挪一个,就支持了多模式匹配。也就是这个“挪一个单位”的动作,让我认为DAT在多模式匹配上,复杂度更高(应该是O(n2),n是母文本的长度)。要知道,理论上AC自动机是线...

继续阅读:码农场 » DoubleArrayTrie和AhoCorasickDoubleArrayTrie的实用性对比

原文链接:http://www.hankcs.com/program/algorithm/double-array-trie-vs-aho-corasick-double-array-trie.html

你可能感兴趣的:(DoubleArrayTrie和AhoCorasickDoubleArrayTrie的实用性对比)