译/阿里云 – 秦奇
原文链接:wiki.pathmind.com/word2vec
Word2Vec 是一个两层神经网络,它可以把文本中的单词进行向量化表示。它的输入是一个语料库(Corpus),它的输出是一组向量。 Word2Vec 并非是一种深度神经网络,它只是将文本转换为深度神经网络可以理解的向量形式。
Word2Vec 不仅仅被用来 表示文本,还可以被应用于 表示基因、代码、喜欢的事物、 播放列表、社交媒体图表等其他任何有规律的序列(Sequence)。
为什么呢?因为单词(Words)和上面提到的其他数据一样都是一种离散状态,我们只是在计算这些状态之间的转换概率(即它们同时出现的可能性),所以Gene2Vec、Like2Vec和Follower2Vec都是可能的。考虑到这一点,下面的教程将帮助您了解如何为任何一组离散而又共现(Co-occurring)的状态创建神经嵌入(Neural Embeddings)。
Word2Vec 的目的和用处是在向量空间中将相似词的向量组合在一起,也就是说,它通过数学的方式来检测词之间的相似性。Word2Vec 创建的向量可以自动包含单词的特征信息,比如单词的上下文信息。
如果有足够的数据、用法和上下文信息,Word2Vec 可以根据已有的信息对单词的含义进行高度准确的猜测,这些猜测可用于建立单词与其他单词之间的关联性,(比如,“男人”之于“男孩” 和 “女人”之于“女孩”);或者对文档进行聚类和分类。这种关联性可以作为在科学研究、法律发现、电子商务和客户关系管理等不同领域实现搜索、情感分析和推荐等任务的基础。
Word2Vec 的输出是一个词汇表(Vocabulary),其中每一个单词(word)都附带一个向量表示。之后可以将其输入深度学习模型或者用来检测单词之间的关系。
常用的相似度衡量方式为 余弦相似度,90度代表没有任何相似性,0度代表相似度为1,即完全相同。比如参考下图,我们使用 Word2Vec 检测与“瑞典”相关联的单词列表,然后按接近程度排列,其中,瑞典完全等同于瑞典,而挪威与瑞典的余弦距离为 0.760124,也是任何其他国家中最高的。另外斯堪的纳维亚(Scandinavia, 这里指 挪威,译者注)和几个富裕的北欧、日耳曼国家位居前九名。
