1. 引入

使用nltk的tokenizer、模型、语料之前，都要先运行如下代码进行下载：

import nltk
nltk.download()
复制代码

但网络原因，笔者从未成功下载过。

发现一种离线安装方式（参考1，2），折腾配置成功了，步骤如下。

2. 具体步骤

注意下载branch为gh-pages，下载后得到：nltk_data-gh-pages.zip

将nltk_data-gh-pages.zip上传到ubuntu的/root/目录。

（1）创建/root/nltk_data/

（2）解压 nltk_data-gh-pages.zip

（3）cp -rf nltk_data-gh-pages/packages/* /root/nltk_data/

运行如下代码

from nltk import *
text = word_tokenize("They refuse to permit us to obtain the refuse permit")
复制代码

报错

  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')
复制代码

报错的解决方法
(1) 找到punkt所在目录

cd /root/nltk_data/
find . -name "punkt*"
复制代码

(2) 切换到punkt所在目录，并解压

cd /root/nltk_data/tokenizers
unzip punkt.zip
复制代码

再运行如上代码，不报错，则说明配置成功了

报错原因：报错说缺少punkt分词器，因为上面下载的punkt还是zip的，没有解压。必须要手动解压后才能被nltk识别使用。

步骤简单，但653M的ZIP下载上传耗带宽，还有些小坑，搞定一次有些浪费时间，记录一下。

文章版权归作者所有，未经允许请勿转载。

THE END