В этом руководстве вы узнаете -
- Установка NLTK в Windows
- Установка Python в Windows
- Установка NLTK в Mac / Linux
- Установка NLTK через Anaconda
- Набор данных NLTK
- Как скачать все пакеты NLTK
- Запуск сценария НЛП
- Как запустить скрипт NLTK
Установка NLTK в Windows
В этой части мы узнаем, как настроить NLTK через терминал (командная строка в Windows).
Приведенная ниже инструкция основана на предположении, что у вас не установлен python. Итак, первый шаг - установить python.
Установка Python в Windows:
Шаг 1) Перейдите по ссылке https://www.python.org/downloads/ , и выберите последнюю версию для окон.
Примечание . Если вы не хотите загружать последнюю версию, вы можете перейти на вкладку загрузки и просмотреть все выпуски.
Шаг 2) Щелкните загруженный файл
Шаг 3) Выберите Настроить установку.
Шаг 4) Нажмите ДАЛЕЕ
Шаг 5) На следующем экране
- Выберите дополнительные параметры
- Укажите место установки Custom. В моем случае для удобства работы выбрана папка на диске C
- Нажмите "Установить".
Шаг 6) После завершения установки нажмите кнопку «Закрыть».
Шаг 7) Скопируйте путь к папке со скриптами.
Шаг 8) В командной строке Windows
- Перейдите к расположению папки pip
- Введите команду для установки NLTK
pip3 install nltk
- Установка должна быть выполнена успешно
ПРИМЕЧАНИЕ . Для Python2 используйте команду pip2 install nltk.
Шаг 9) В меню «Пуск» Windows найдите и откройте PythonShell.
Шаг 10) Вы можете проверить правильность установки, выполнив следующую команду.
import nltk
Если вы не видите ошибки, установка завершена.
Установка NLTK в Mac / Linux
Для установки NLTK в Mac / Unix требуется пакет диспетчера пакетов python для установки nltk. Если pip не установлен, следуйте приведенным ниже инструкциям, чтобы завершить процесс.
Шаг 1) Обновите индекс пакета, введя команду ниже
sudo apt update
Шаг 2) Установка pip для Python 3:
sudo apt install python3-pip
Вы также можете установить pip с помощью easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Теперь easy_install установлен. Выполните приведенную ниже команду, чтобы установить pip
sudo easy_install pip
Шаг 3) Используйте следующую команду для установки NLTK
sudo pip install -U nltksudo pip3 install -U nltk
Установка NLTK через Anaconda
Шаг 1) Установите anaconda (который также можно использовать для установки различных пакетов), посетив https://www.anaconda.com/products/individual, и выберите, какую версию python вам нужно установить для anaconda.
Примечание: обратитесь к этому руководству для получения подробных инструкций по установке anaconda.
Шаг 2) В командной строке Anaconda
- Введите команду
conda install -c anaconda nltk
- Просмотрите обновление пакета, понизьте версию, установите информацию и введите да
- NLTK скачивается и устанавливается
Набор данных NLTK
В модуле NLTK доступно множество наборов данных, которые необходимо загрузить для использования. Более технически это называется корпусом . Некоторые из примеров игнорируемых слов , Гутенберг , framenet_v15 , large_grammars и так далее.
Как скачать все пакеты NLTK
Шаг 1) Запустите интерпретатор Python в Windows или Linux.
Шаг 2)
- Введите команды
import nltknltk.download ()
- Откроется окно загрузки NLTK. Нажмите кнопку «Загрузить», чтобы загрузить набор данных. Этот процесс займет время, в зависимости от вашего интернет-соединения.
ПРИМЕЧАНИЕ: Вы можете изменить место загрузки, щелкнув Файл> Изменить каталог загрузки.
Шаг 3) Для проверки установленных данных используйте следующий код
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'сказал',…]
Запуск сценария НЛП
Мы собираемся обсудить, как сценарий NLP будет выполняться на нашем локальном ПК. На рынке представлено множество библиотек для обработки естественного языка. Поэтому выбор библиотеки зависит от ваших требований. Вот список библиотек НЛП.
Как запустить скрипт NLTK
Шаг 1) В вашем любимом редакторе кода скопируйте код и сохраните файл как « NLTKsample.py ».
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Пояснение к коду:
- В этой программе цель состояла в том, чтобы удалить все типы знаков препинания из данного текста. Мы импортировали RegexpTokenizer, который является модулем NLTK. Он удаляет все выражения, символы, символы, числа и все, что угодно.
- Вы только что передали обычное выражение в модуль «RegexpTokenizer».
- Далее мы токенизировали слово с помощью модуля tokenize. Вывод сохраняется в переменной filterdText.
- И распечатал их с помощью «print ()».
Шаг 2) В командной строке
- Перейдите в место, где вы сохранили файл
- Запустите команду Python NLTKsample.py
Это покажет вывод как:
['Hello', 'Guru99', 'You', 'Have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' посещение ',' ваш ',' сайт ']