В этом руководстве мы проведем вас через пошаговый процесс установки Apache Hadoop на Linux (Ubuntu). Это двухступенчатый процесс
- Часть 1) Загрузите и установите Hadoop
- Часть 2) Настройка Hadoop
Есть 2 предпосылки
- У вас должен быть установлен и запущен Ubuntu
- У вас должна быть установлена Java.
Часть 1) Загрузите и установите Hadoop
Шаг 1) Добавьте пользователя системы Hadoop, используя команду ниже
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Введите свой пароль, имя и другие данные.
ПРИМЕЧАНИЕ. В процессе настройки и установки возможна нижеперечисленная ошибка.
"hduser отсутствует в файле sudoers. Об этом инциденте будет сообщено".
Эту ошибку можно устранить, войдя в систему как пользователь root.
Выполнить команду
sudo adduser hduser_ sudo
Re-login as hduser_
Шаг 2) Настройте SSH
Для управления узлами в кластере Hadoop требуется доступ по SSH.
Сначала переключите пользователя, введите следующую команду
su - hduser_
Эта команда создаст новый ключ.
ssh-keygen -t rsa -P ""
Включите SSH-доступ к локальному компьютеру с помощью этого ключа.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Теперь проверьте настройку SSH, подключившись к localhost как пользователь hduser.
ssh localhost
Примечание: обратите внимание: если вы видите ошибку ниже в ответ на «ssh localhost», то есть вероятность, что SSH недоступен в этой системе -
Чтобы решить эту проблему -
Очистите SSH, используя,
sudo apt-get purge openssh-server
Перед началом установки рекомендуется произвести продувку.
Установите SSH с помощью команды -
sudo apt-get install openssh-server
Шаг 3) Следующим шагом будет загрузка Hadoop.
Выберите стабильную
Выберите файл tar.gz (не файл с src)
После завершения загрузки перейдите в каталог, содержащий файл tar.
Войти,
sudo tar xzf hadoop-2.2.0.tar.gz
Теперь переименуйте hadoop-2.2.0 в hadoop.
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Часть 2) Настройка Hadoop
Шаг 1) Измените файл ~ / .bashrc
Добавьте следующие строки в конец файла ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Теперь создайте эту конфигурацию среды, используя команду ниже
. ~/.bashrc
Шаг 2) Конфигурации, относящиеся к HDFS
Установите JAVA_HOME внутри файла $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
С
В $ HADOOP_HOME / etc / hadoop / core-site.xml есть два параметра, которые необходимо установить:
1. 'hadoop.tmp.dir' - используется для указания каталога, который будет использоваться Hadoop для хранения файлов данных.
2. «fs.default.name» - определяет файловую систему по умолчанию.
Чтобы установить эти параметры, откройте core-site.xml.
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Скопируйте строку ниже между тегами
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Перейдите в каталог $ HADOOP_HOME / etc / Hadoop
Теперь создайте каталог, указанный в core-site.xml
sudo mkdir -p
Предоставить разрешения для каталога
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Шаг 3) Конфигурация уменьшения карты
Прежде чем вы начнете с этих конфигураций, давайте установим путь HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
И введите
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Далее введите
sudo chmod +x /etc/profile.d/hadoop.sh
Выйдите из Терминала и снова перезапустите
Введите echo $ HADOOP_HOME. Чтобы проверить путь
Теперь скопируйте файлы
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Откройте файл mapred-site.xml.
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Добавьте ниже строки настройки между тегами
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Откройте $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, как показано ниже,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Добавьте ниже строки настройки между тегами
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Создайте каталог, указанный в настройках выше -
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Шаг 4) Прежде чем мы запустим Hadoop в первый раз, отформатируйте HDFS, используя команду ниже
$HADOOP_HOME/bin/hdfs namenode -format
Шаг 5) Запустите кластер с одним узлом Hadoop, используя команду ниже
$HADOOP_HOME/sbin/start-dfs.sh
Вывод вышеуказанной команды
$HADOOP_HOME/sbin/start-yarn.sh
Используя инструмент / команду 'jps' , проверьте, все ли процессы, связанные с Hadoop, запущены или нет.
Если Hadoop запустился успешно, на выходе jps должны отображаться NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Шаг 6) Остановка Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh