3种方法:实现单词的压缩编码

题目

NO. 820

给定一个单词列表,我们将这个列表编码成一个索引字符串 S 与一个索引列表 A。

例如,如果这个列表是 ["time", "me", "bell"],我们就可以将其表示为 S = "time#bell#" 和 indexes = [0, 2, 5]。

对于每一个索引,我们可以通过从字符串 S 中索引的位置开始读取字符串,直到 "#" 结束,来恢复我们之前的单词列表。

那么成功对给定单词列表进行编码的最小字符串长度是多少呢?

示例:

输入: words = ["time", "me", "bell"]
输出: 10
说明: S = "time#bell#" , indexes = [0, 2, 5] 。

提示:

1 <= words.length <= 2000
1 <= words[i].length <= 7
每个单词都是小写字母 。


解法一(暴力法)

思路:对列表中所有字符串进行两两对比,如果字符串A属于字符串B的尾巴,则删除字符串A,统计最后剩余的字符串的总长度,即为题目所求。

  1. 对列表中字符串按字符串长度,由大到小排序
  2. 依次对所有字符串进行两两比较,对于每个母串,需要增加一个#分隔符
  3. 统计所有母串长度,并累计分隔符个数
  • 时间复杂度:O(N2)
  • 空间复杂度:O(N)
# author: [email protected]
class Solution:
    def minimumLengthEncoding(self, words: List[str]) -> int:
        words = list(set(words)) #去重
        words.sort(key = lambda x:len(x), reverse=True)#按长度右大到小排序
        rstCnt, wordsCnt = 0, len(words)
        wordsLen = [len(x) for x in words]#获取长度,减少循环中多次获取
        for i in range(0,wordsCnt):
            if len(words[i]) == 0:#字符串已经被删除
                continue
            rstCnt += wordsLen[i] + 1# 1是井号分隔符
            for j in range(i+1,wordsCnt):
                if len(words[j]) == 0:
                    continue
                if words[i][wordsLen[i] - wordsLen[j]:] == words[j]:#j是i的尾巴
                    words[j] = ''
        return rstCnt

解法二(后缀清除)

思路:对列表中的每个字符串,删除其后缀中包含的所有其它字符串,统计最后剩余的字符串长度

  1. 将列表转换为集合,可以去重
  2. 利用集合的discard函数,删除所有匹配到后缀的字符串集合
  3. 统计最后剩余字符串的长度,并增加井号分隔符个数
  • 时间复杂度:O(N len(N))
  • 空间复杂度:O(N)
# author: [email protected]
class Solution:
    def minimumLengthEncoding(self, words: List[str]) -> int:
        wordSet = set(words) #清除重复字符串,并返回set集合
        for word in words:
            for i in range(1,len(word)):
                wordSet.discard(word[i:]) #删除当前字符串所有后缀相同的子串集合
        rstCnt = sum([len(x) + 1 for x in wordSet])
        return rstCnt

解法三(字典树)

思路:将所有字符串组成一个字典树,统计所有树枝对应字符串长度,由于是对字符串后缀匹配,所以将字符串反转后构建字典树。

  1. 首先对原始数据去重,并对字符串反转
  2. 构建字典树,并存储当前节点深度
  3. 遍历字典树,累计叶子节点深度值
  • 时间复杂度:O(N len(N))
  • 空间复杂度:O(N)
# author: [email protected]
class TrieNode:
    def __init__(self):
        self.children = {}
        self.dept = 0 # 叶子节点深度

    #构建字典树
    def addWord(self,word:str, idx: int):
        if idx >= len(word):
            return
        tmpNode =  self.children[word[idx]] if self.children.__contains__(word[idx]) else TrieNode()
        tmpNode.dept = idx + 1 
        tmpNode.addWord(word,idx+1) #递归构建
        self.children[word[idx]] = tmpNode 

    #统计树中节点个数
    def count(self):
        rst = 0 
        for k in self.children:
            rst += self.children[k].count() #递归累加        
        if not self.children :# 统计所有叶子节点的深度,1是井号分隔符
            return self.dept + 1
        return rst

class Solution:
    def minimumLengthEncoding(self, words: List[str]) -> int:
        words = [word[::-1] for word in set(words)]#去重,反转
        trie = TrieNode()
        for word in words:
            trie.addWord(word,0)
        return trie.count()

你可能感兴趣的:(3种方法:实现单词的压缩编码)