前言
本文主要介绍了自然语言处理的概述,包括专栏初衷和NLP前景、自然语言处理的概念、自然语言处理的应用和自然语言处理的核心技术。
一、专栏初衷和NLP前景
1.系列设计的初衷
书写本系列的初衷:
- 培养合格的NLP/AI人才
目前,NLP的人才市场仍然存在大量的缺口。 - NLP是目前AI领域中最为火热的方向
2010年开始,AI变得很火,深度学习推动了AI飞速的发展。自然语言处理近几年变得异常火爆,其爆发(2015年)晚于CV(2012年)。虽然起步相比CV晚了几年,但它的势头非常强劲,而且预计在未来2-3年内仍然保持这种势头。 - 当前还没有特别体系化、细节的NLP系列
- 深度学习之前的技术
- 基于深度学习的方法论
- NLP近几年发展特别快,知识迭代更新迅速
- BERT
同时,自然语言处理处于高速发展时期,几乎呈指数级增长:
人工智能分为三大领域,计算机视觉(CV),自然语言处理(NLP)以及语音识别。计算机视觉主要处理并分析图片、视频等视觉相关的数据;自然语言处理则分析文本类数据。从这个角度,只要有文本数据的地方就有NLP技术的需求。目前,即便在金融科技领域也有着大量对文本分析的需求,比如通过阅读新闻、研报来分析市场的舆情,或者做事件的分析。
过去几年,可以看到一个明显的趋势是:文本数据在指数级增长。这其实离不开移动互联网所带来的数据暴增。可以想象一下,我们每天使用的社交软件如微信、抖音所承载的文本数据量有多大。文本数据的剧增必然会伴随着行业对文本分析需求的急速增加,随着而来的是对于NLP人才的需求。
同时对于初学者来说,NLP是一个较快的AI的入门选择和发展方向,同时门槛比CV更低。
2.NLP岗位待遇
目前从市场行情来看,NLP工程师的薪资还是非常理想的。这些薪资数据可以通过BOSS直聘、拉勾网等国内主流招聘网站中去了解。一位刚毕业的应届生在一线城市从事NLP工程师,一般的起薪也得有15K每个月(按照比较低的标准), 如果是背景好一些的,能力强一些的应届生则可以去争取20K-25K以上的月薪是完全可以的。
即便在AI技术最发达的美国,对于NLP人才的薪资也是居高不下,国外AI人才的薪资你可以通过glassdoor等网站去了解。 总而言之,目前加入NLP行列是没有错的,至少在未来2-3年这个坑仍然会存在,只不过市场对人才的要求也会变得越来越高。 所以,越早进入这个行业,优势越大。
3.如何学习NLP
可以看到,对于AI方向,机器学习是必备的基础;
数据结构与算法可以提升效率;
同时需要选择一个具体的方向进行系统学习,例如CV、NLP;
除此之外,还要有一定的编程基础;
在入门一个方向之后,需要沿着一个技术路线或应用场景深入,深入到某一个领域,直到掌握某一个方面的细节,努力养成T字型人才;
要有良好的论文阅读能力,包括英文文献的阅读能力。
学习本身的最大成本是时间,系列力求做到self-contained, 只需要学习这门课就足以成为一名合格的NLP工程师。其他所需要具备的能力如数学、数据结构与算法等方面的内容也穿插在了整个系列体系中,所以建议边学边把这些要点做回顾和总结。
至于还需要阅读哪些书籍?我的观点是不太需要。一方面,书籍里的内容容易过时;另外一方面,书里的知识点过于“太多”,导致花费的时间成本多,但相反收获未必很多。 可以围绕着系列来学习,并同时阅读一些网上的博客、论文等方式来配合系列中的内容,这也是我在学习过程中发现最有效的。
如果非要推荐书,会推荐这样的两本,实在很经典,虽然跟NLP并没有直接关系。 一本是Kevin Murphy写的 “Machine Learning: A probabilistic perspective“, 主要围绕机器学习内容。我们需要知道不管从事NLP还是CV, 机器学习是最重要的基础,对机器学习的理解决定了我们能在AI技术上走多远。 另外一本书是Boyd写的”Convex Optimization“。 优化理论是AI的核心,对于模型的训练过程你其实可以理解为是对这个模型优化的过程,从而找到最优的参数。背后起到作用的实际上是各类优化算法。把这两本书放在书柜上也会显得你真专业!
二、什么是自然语言处理
1.什么是自然语言处理
自然语言处理的三个概念:
- 自然语言处理(Natural Language Processing, NLP)
- 自然语言理解(Natural Language Understanding, NLU)——理解文本中的意思
- 自然语言生成(Natural Language Generation, NLG0——根据意思生成文本
人类进行交流的3个方式,语音、图像和文本。NLP的主要任务就是理解文本和生成文本,所以有一个公式: