chromium源码学习——访问历史匹配

上次看了个某个浏览器的网址补全,感觉比较弱鸡,所以想起来研究一下chromium是怎么实现这个地址匹配的。这个东西还是有点意思的,可以根据URL或title进行匹配,输入的单词没输全,或者几个单词的顺序反了都可以给你匹配到。然后主要是想看怎么快速匹配,其他无关部分就略过了。研究对象URLIndexPrivateData类,位于components/omnibox/browser/url_index_private_data.cc,以下内容基于chrome66版本源码。

可以先看一下URLIndexPrivateData的成员,这里主要关注的以下几个:

// 缓存之前的搜索结果,由于用户一般是一个个字符输入,所以每输入一个新字符时,
// 可以直接基于输入前的搜索的结果进行过滤,节省搜索时间
struct SearchTermCacheItem {
  WordIDSet word_id_set_;
  HistoryIDSet history_id_set_;
};
typedef std::map SearchTermCacheMap;

// 单词索引,根据word_id找单词,word_id为顺序增长
String16Vector word_list_;

// 从word_list_删除单词时将对应的空位放入这里,留待以后使用
base::stack available_words_;

// 查找包含某个字符的所有单词
CharWordIDMap char_word_map_;

// 根据单词找到对应的历史记录,即根据URL或title能匹配到的网址
WordIDHistoryMap word_id_history_map_;

所以懂的人估计就看出来其实这是个倒排索引了,现代搜索引擎的根基,但是很惭愧我看完了整个流程才发现是这个玩意。

功能入口URLIndexPrivateData::HistoryItemsForTerms,根据输入字符串返回一个匹配列表。

ScoredHistoryMatches URLIndexPrivateData::HistoryItemsForTerms(
    base::string16 original_search_string,
    size_t cursor_position,
    ...) {
        
  String16Vector search_strings;
  search_strings.push_back(original_search_string);
  if ((cursor_position != base::string16::npos) &&
      (cursor_position < original_search_string.length()) &&
      (cursor_position > 0)) {
    // 贴心的帮你从当前输入位置给你把字符串断开,当成两个字符串进行搜索,
    // 谷歌认为这样能提高匹配成功率(如果你是按顺序输入的,那这个就没什么用)
    base::string16 transformed_search_string(original_search_string);
    transformed_search_string.insert(cursor_position, base::ASCIIToUTF16(" "));
    search_strings.push_back(transformed_search_string);
  }

  ...

  bool history_ids_were_trimmed = false;
  // 这是一个基于单词的搜索,对字符串分词后可能会有重复的单词,用set去重避免重复搜索
  std::set search_string_words;
  for (const base::string16& search_string : search_strings) {
    // 转成小写,处理转义字符(诸如%xx)
    base::string16 lower_raw_string(base::i18n::ToLower(search_string));
    base::string16 lower_unescaped_string = net::UnescapeURLComponent(
        lower_raw_string,
        net::UnescapeRule::SPACES | net::UnescapeRule::PATH_SEPARATORS |
            net::UnescapeRule::URL_SPECIAL_CHARS_EXCEPT_PATH_SEPARATORS);

    // 分词
    String16Vector lower_words(
        String16VectorFromString16(lower_unescaped_string, false, nullptr));
    if (lower_words.empty())
      continue;
  
    if (search_string_words.find(lower_words) != search_string_words.end())
      continue;
    search_string_words.insert(lower_words);

    // 这里开始进行匹配工作
    HistoryIDVector history_ids = HistoryIDsFromWords(lower_words);
    ...
  }
  
  ...
}

对输入先做了一些预处理,之后对每个单词分别调用URLIndexPrivateData::HistoryIDsForTerm,查找匹配的项目,最终组合到一起,大体上的流程:
(1) 在char_word_map_中, 对关键词中的每个字符, 找到所有包含该字符的单词
(2) 在word_id_history_map_中, 对(1)中得到的每个单词, 找到所有包含该单词的记录

HistoryIDSet URLIndexPrivateData::HistoryIDsForTerm(
    const base::string16& term) {
  if (term.empty())
    return HistoryIDSet();

  size_t term_length = term.length();
  WordIDSet word_id_set;
  if (term_length > 1) {
    // 先在缓存中找最长前缀字符串,如果能找到,可以基于缓存的搜索结果进行过滤
    base::string16 term_lower = base::i18n::ToLower(term);
    SearchTermCacheMap::iterator best_prefix(search_term_cache_.end());
    for (SearchTermCacheMap::iterator cache_iter = search_term_cache_.begin();
         cache_iter != search_term_cache_.end(); ++cache_iter) {
      if (base::StartsWith(term_lower,
                           base::i18n::ToLower(cache_iter->first),
                           base::CompareCase::SENSITIVE) &&
          (best_prefix == search_term_cache_.end() ||
           cache_iter->first.length() > best_prefix->first.length()))
        best_prefix = cache_iter;
    }

    // 取出除前缀外的剩余部分, 进行匹配, 
    // 最后将这部分结果与缓存中前缀的匹配结果做交集
    Char16Set prefix_chars;
    base::string16 leftovers(term);
    if (best_prefix != search_term_cache_.end()) {
      // 有可能缓存中已经存在了相同的关键词的结果, 直接使用缓存结果
      size_t prefix_length = best_prefix->first.length();
      if (prefix_length == term_length) {
        best_prefix->second.used_ = true;
        return best_prefix->second.history_id_set_;
      }

      // 也有可能前缀的搜索结果是空的, 那就不用继续匹配下去了
      if (best_prefix->second.history_id_set_.empty()) {
        search_term_cache_[term] = SearchTermCacheItem();
        return HistoryIDSet();
      }
      word_id_set = best_prefix->second.word_id_set_;
      prefix_chars = Char16SetFromString16(best_prefix->first);
      leftovers = term.substr(prefix_length);
    }

    // 还是使用set对剩下的字符去重, 
    // 并找到前缀中不存在的字符, 这样才能进一步过滤结果集
    Char16Set leftover_chars = Char16SetFromString16(leftovers);
    Char16Set unique_chars =
        base::STLSetDifference(leftover_chars, prefix_chars);

    if (!unique_chars.empty()) {
      WordIDSet leftover_set(WordIDSetForTermChars(unique_chars));
      if (leftover_set.empty()) {
        search_term_cache_[term] = SearchTermCacheItem();
        return HistoryIDSet();
      }

      if (prefix_chars.empty()) {
        word_id_set = std::move(leftover_set);
      } else {
        // 做交集处理
        base::EraseIf(word_id_set, base::IsNotIn(leftover_set));
      }
    }

    // 之前都是按照出现的字符进行的过滤, 实际上出现的字符顺序可能是乱的,
    // 所以需要按照搜索字符串的方式再过滤一次, 保证关键词一定是结果的子字符串
    base::EraseIf(word_id_set, [this, &term](WordID word_id) {
      return word_list_[word_id].find(term) == base::string16::npos;
    });
  } else {
    // 如果只有一个字符就没什么好说的了, 直接按字符查找所有包含该字符的单词,
    // 再搜索所有包含该单词的记录, 就是最终结果
    word_id_set = WordIDSetForTermChars(Char16SetFromString16(term));
  }

  // 得到一个包含关键词的单词列表, 然后对该列表中的每个单词,
  // 在word_id_history_map_中取出所有匹配的记录, 并用set排重得到最终结果
  HistoryIDVector buffer;
  for (WordID word_id : word_id_set) {
    WordIDHistoryMap::iterator word_iter = word_id_history_map_.find(word_id);
    if (word_iter != word_id_history_map_.end()) {
      HistoryIDSet& word_history_id_set(word_iter->second);
      buffer.insert(buffer.end(), word_history_id_set.begin(),
                    word_history_id_set.end());
    }
  }
  HistoryIDSet history_id_set(buffer.begin(), buffer.end(),
                              base::KEEP_FIRST_OF_DUPES);

  // 将本次匹配结果加入缓存
  if (term_length > 1)
    search_term_cache_[term] = SearchTermCacheItem(word_id_set, history_id_set);

  return history_id_set;
}

匹配的流程就是这样,当然了这也要求了要对数据进行预处理,其实也挺简单,就是建立索引的过程可能有点耗时,所以chrome对索引本身做了文件缓存,这部分就没有仔细研究了,66版本好像是直接用protocol buffer序列成二进制流写到History Provider Cache文件里,但是从代码注释看,谷歌后面版本可能会改用数据库对索引进行存储。

知道倒排索引的话就很容易理解这个搜索过程;最后总结:

  1. 因为进行了分词处理,以单词为单位进行搜索,所以输入的几个单词之间顺序反了不影响匹配结果,每个单词都没输入全也不影响匹配结果;
  2. 使用int类型做为单词ID,并用单词ID去索引URL记录,相比于直接用单词当map的key来索引URL记录降低了内存占用,也加快了map的查找速度(这个正常人应该都能想到)
  3. 单词ID直接顺序增长,所有单词存一个vector就可以,然后删除的话不需要实际删除,只需要将留出来的index放入空闲列表中供后面使用就可以(我的第一感是算个hash然后存map,还是没这个省事)
  4. 索引本身也是可以缓存成文件的,节省了重新建立索引消耗的时间

你可能感兴趣的:(chromium源码学习——访问历史匹配)