本文正在参加「Python主题月」,详情查看 活动链接
介绍
Levenshtein Distance 是最常用的文本编辑距离计算方法,通常用来计算两个字符串之间,从一个转变成另一个所需的最少编辑操作次数,编辑距离距离越小表示两个字符串的相似度越大,可允许的编辑操作有三种:
- substitute,将一个字符替换成另一个字符,编辑距离一般定义为 1 ,但也可能被定义为 2
- add,插入一个字符,编辑距离定义为 1
- delete,删除一个字符,编辑距离定义为 1
本文通过例子详细介绍了 Levenshtein Distance 的原理,并且根据原理进行了 Python 代码的实现。
原理
这里我们用两个字符串 abc 和 yab 来说明原理,图中的 ” 表示空字符串,这个图展示的是两个字符串的编辑距离细节,整个 4*4 数字矩阵有 D 表示,索引从 0 开始,纵坐标为 y ,横坐标为 x。如图中 D[1][1] 表示 y 和 a 的编辑距离为 1 。
” | a | b | d | |
---|---|---|---|---|
” | 0 | 1 | 2 | 3 |
y | 1 | 1 | 2 | 3 |
a | 2 | 1 | ||
b | 3 | |||
这里介绍几个关键点: |
-
当计算空字符串与非空字符串的编辑距离,结果其实就是非空字符串的长度
-
当计算 ya 变为 a 的编辑距离的时候,因为他们的最后一位字符都是 a ,所以直接将 y 变为空字符即可,这个编辑距离就是 D[1][0] ,也就是当两个字符串的最后一位字符相同的时候,D[y][x] 编辑距离就是 D[y-1][x-1]
-
当我们将 ya 变为 ab 的时候,我们有三种不同的操作:
-
substitute:将 a 替换为 b 编辑距离为 1 ,将 y 替换为 a 的编辑距离在图中为 D[1][1] ,两者加起来编辑距离为 2 ,也就是通过 substitute 操作计算的 D[y][x] 为 D[y-1][x-1] + 1
-
add:在 a 后面插入 b 编辑距离为 1 ,将 ya 变为 a 编辑距离为 D[2][1] ,两者加起来编辑距离为 2 ,也就是通过 add 操作计算的 D[y][x] 为 D[y][x-1] + 1
-
delete:将 a 删除的编辑距离为 1 ,将 y 变为 ab 的编辑距离在图中为 D[1][2] ,两者加起来编辑距离为 3 ,也就是通过 add 操作计算的 D[y][x] 为 D[y-1][x] + 1
-
取三种操作的最小值即位 D[y][x] 当前的值
-
-
经过上面的操作,可以最终得到下面的细节,最后的结果就是右下角的最后一个值
” | a | b | d | |
---|---|---|---|---|
” | 0 | 1 | 2 | 3 |
y | 1 | 1 | 2 | 3 |
a | 2 | 1 | 2 | 3 |
b | 3 | 2 | 1 | 2 |
实现
def distance(s1, s2):
d = [[x for x in range(len(s1)+1)] for _ in range(len(s2)+1)]
for y in range(1,len(s2)+1):
d[y][0] = d[y-1][0] + 1
for x in range(1, len(s1)+1):
for y in range(1, len(s2)+1):
if s1[x-1] == s2[y-1]:
d[y][x] = d[y-1][x-1]
else:
substute = d[y-1][x-1] + 1
add = d[y][x-1] + 1
delete = d[y-1][x] + 1
d[y][x] = min(add, substute, delete)
return d[-1][-1]
复制代码
结果
比较 abc 和 adb 的 Levenshtein Distance
print(distance('abd','yab'))
复制代码
结果打印
2
复制代码