Python 实现 Levenshtein Distance ｜Python 主题月-一一网

本文正在参加「Python主题月」，详情查看活动链接

介绍

Levenshtein Distance 是最常用的文本编辑距离计算方法，通常用来计算两个字符串之间，从一个转变成另一个所需的最少编辑操作次数，编辑距离距离越小表示两个字符串的相似度越大，可允许的编辑操作有三种：

substitute，将一个字符替换成另一个字符，编辑距离一般定义为 1 ，但也可能被定义为 2
add，插入一个字符，编辑距离定义为 1
delete，删除一个字符，编辑距离定义为 1

本文通过例子详细介绍了 Levenshtein Distance 的原理，并且根据原理进行了 Python 代码的实现。

原理

这里我们用两个字符串 abc 和 yab 来说明原理，图中的 ” 表示空字符串，这个图展示的是两个字符串的编辑距离细节，整个 4*4 数字矩阵有 D 表示，索引从 0 开始，纵坐标为 y ，横坐标为 x。如图中 D[1][1] 表示 y 和 a 的编辑距离为 1 。

	”	a	b	d
”	0	1	2	3
y	1	1	2	3
a	2	1
b	3
这里介绍几个关键点：

当计算空字符串与非空字符串的编辑距离，结果其实就是非空字符串的长度
当计算 ya 变为 a 的编辑距离的时候，因为他们的最后一位字符都是 a ，所以直接将 y 变为空字符即可，这个编辑距离就是 D[1][0] ，也就是当两个字符串的最后一位字符相同的时候，D[y][x] 编辑距离就是 D[y-1][x-1]
当我们将 ya 变为 ab 的时候，我们有三种不同的操作：
1. substitute：将 a 替换为 b 编辑距离为 1 ，将 y 替换为 a 的编辑距离在图中为 D[1][1] ，两者加起来编辑距离为 2 ，也就是通过 substitute 操作计算的 D[y][x] 为 D[y-1][x-1] + 1
2. add：在 a 后面插入 b 编辑距离为 1 ，将 ya 变为 a 编辑距离为 D[2][1] ，两者加起来编辑距离为 2 ，也就是通过 add 操作计算的 D[y][x] 为 D[y][x-1] + 1
3. delete：将 a 删除的编辑距离为 1 ，将 y 变为 ab 的编辑距离在图中为 D[1][2] ，两者加起来编辑距离为 3 ，也就是通过 add 操作计算的 D[y][x] 为 D[y-1][x] + 1
4. 取三种操作的最小值即位 D[y][x] 当前的值
经过上面的操作，可以最终得到下面的细节，最后的结果就是右下角的最后一个值

	”	a	b	d
”	0	1	2	3
y	1	1	2	3
a	2	1	2	3
b	3	2	1	2

实现

def distance(s1, s2):
    d = [[x for x in range(len(s1)+1)] for _ in range(len(s2)+1)]
    
    for y in range(1,len(s2)+1):
        d[y][0] = d[y-1][0] + 1

    for x in range(1, len(s1)+1):
        for y in range(1, len(s2)+1):
            if s1[x-1] == s2[y-1]:
                d[y][x] = d[y-1][x-1]
            else:
                substute = d[y-1][x-1] + 1
                add = d[y][x-1] + 1
                delete = d[y-1][x] + 1
                d[y][x] = min(add, substute, delete)
    return d[-1][-1]
复制代码

结果

比较 abc 和 adb 的 Levenshtein Distance

print(distance('abd','yab'))
复制代码

结果打印

2
复制代码

文章版权归作者所有，未经允许请勿转载。

THE END

后端

「网络通信基础」通俗易懂的讲解，让你彻底搞懂http各版本差异、https、数字证书等姿势

Drupal Restrict节点页面视图模块安全绕过漏洞

BEA WebLogic Server/Express远程拒绝服务和信息泄露漏洞

McAfee EWS/MEG 加密问题漏洞

Mhonarc Mail头HTML插入漏洞

12 JS-Web-API-Ajax

Python 实现 Levenshtein Distance ｜Python 主题月

介绍

原理

实现

结果