Levenshtein莱文斯坦算法在项目中的应用

简介

根据维基百科的描述,在信息理论、语言学和计算机科学中,莱文斯坦距离是一个测量两个序列之间差异的字符串度量。非正式地,两个单词之间的莱文斯坦距离是将一个单词改变为另一个单词所需的最小单字符编辑次数(插入、删除或替换)。这个距离是以苏联数学家弗拉基米尔·莱文斯坦的名字命名的,他在1965年考虑过这个距离。莱文斯坦距离也可以被称为编辑距离,尽管这个术语也可以表示一个更大的距离度量系列,统称为编辑距离。它与成对的字符串排列密切相关。

实践

在UI自动化中维护元素的定位一直是比较头痛的问题,因为前端样式随着版本迭代一直在改变,导致UI自动化维护成本很高,大多数公司都不考虑。那么有没有一种算法可以自动维护定位元素,当元素的定位值发生改变时自动修改成最新的定位值呢。这个时候莱文斯坦映入眼帘。python的Levenshtein包中的ratio方法专门用来计算文本相似度

Levenshtein.ratio(str1, str2)

计算莱文斯坦比。计算公式 r = (sum – ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和,ldist是类编辑距离。注意这里是类编辑距离,在类编辑距离中删除、插入依然+1,但是替换+2。
在UI自动化中我们可以先拿到一个元素的所有属性值,根据元素的标签找到该html所有同类型标签,再利用正则提取出来,通过Levenshtein.ratio比较每个属性的相似度,最后遍历拿到分数最高的,分数最高的就是我们要找的元素,然后就能成功定位。下面代码只提供大概思路

# 以百度输入框举例
old_tag_data = ''
old_tag_name = re.findall(r'<(.+?) ',old_tag_data)[0]
old_id = re.findall(r'id="(.*?)"',old_html)[0]
...  # 获取所有属性,不一一举例
new_elements = driver.find_elements_by_tag_name(old_tag_name)  # 根据old_tag_name筛选出所有相同的标签
target_element = ''
target_element_index = ''
target_element_score = 0
for i in range(len(new_elements)):
    tmp_element_score = 0
    # 找出当前元素所有的属性值
    new_id = new_elements[i].get_attribute("id")
    tmp_element_score += Levenshtein.ratio(old_id, new_id)
    ...  # 通过莱文斯坦比计算依次相似度

    if tmp_element_score > target_element_score:  # 遍历找到得分最高且替换target_element
        target_element = new_elements[i]
        target_element_index = i
        target_element_score = tmp_element_score

你可能感兴趣的:(Levenshtein莱文斯坦算法在项目中的应用)