Как установить Hadoop с пошаговой конфигурацией в Ubuntu

Содержание:

Anonim

В этом руководстве мы проведем вас через пошаговый процесс установки Apache Hadoop на Linux (Ubuntu). Это двухступенчатый процесс

  • Часть 1) Загрузите и установите Hadoop
  • Часть 2) Настройка Hadoop

Есть 2 предпосылки

  • У вас должен быть установлен и запущен Ubuntu
  • У вас должна быть установлена ​​Java.

Часть 1) Загрузите и установите Hadoop

Шаг 1) Добавьте пользователя системы Hadoop, используя команду ниже

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Введите свой пароль, имя и другие данные.

ПРИМЕЧАНИЕ. В процессе настройки и установки возможна нижеперечисленная ошибка.

"hduser отсутствует в файле sudoers. Об этом инциденте будет сообщено".

Эту ошибку можно устранить, войдя в систему как пользователь root.

Выполнить команду

sudo adduser hduser_ sudo

Re-login as hduser_

Шаг 2) Настройте SSH

Для управления узлами в кластере Hadoop требуется доступ по SSH.

Сначала переключите пользователя, введите следующую команду

su - hduser_

Эта команда создаст новый ключ.

ssh-keygen -t rsa -P ""

Включите SSH-доступ к локальному компьютеру с помощью этого ключа.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Теперь проверьте настройку SSH, подключившись к localhost как пользователь hduser.

ssh localhost

Примечание: обратите внимание: если вы видите ошибку ниже в ответ на «ssh localhost», то есть вероятность, что SSH недоступен в этой системе -

Чтобы решить эту проблему -

Очистите SSH, используя,

sudo apt-get purge openssh-server

Перед началом установки рекомендуется произвести продувку.

Установите SSH с помощью команды -

sudo apt-get install openssh-server

Шаг 3) Следующим шагом будет загрузка Hadoop.

Выберите стабильную

Выберите файл tar.gz (не файл с src)

После завершения загрузки перейдите в каталог, содержащий файл tar.

Войти,

sudo tar xzf hadoop-2.2.0.tar.gz

Теперь переименуйте hadoop-2.2.0 в hadoop.

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Часть 2) Настройка Hadoop

Шаг 1) Измените файл ~ / .bashrc

Добавьте следующие строки в конец файла ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Теперь создайте эту конфигурацию среды, используя команду ниже

. ~/.bashrc

Шаг 2) Конфигурации, относящиеся к HDFS

Установите JAVA_HOME внутри файла $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

С

В $ HADOOP_HOME / etc / hadoop / core-site.xml есть два параметра, которые необходимо установить:

1. 'hadoop.tmp.dir' - используется для указания каталога, который будет использоваться Hadoop для хранения файлов данных.

2. «fs.default.name» - определяет файловую систему по умолчанию.

Чтобы установить эти параметры, откройте core-site.xml.

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Скопируйте строку ниже между тегами

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Перейдите в каталог $ HADOOP_HOME / etc / Hadoop

Теперь создайте каталог, указанный в core-site.xml

sudo mkdir -p 

Предоставить разрешения для каталога

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Шаг 3) Конфигурация уменьшения карты

Прежде чем вы начнете с этих конфигураций, давайте установим путь HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

И введите

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Далее введите

sudo chmod +x /etc/profile.d/hadoop.sh

Выйдите из Терминала и снова перезапустите

Введите echo $ HADOOP_HOME. Чтобы проверить путь

Теперь скопируйте файлы

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Откройте файл mapred-site.xml.

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Добавьте ниже строки настройки между тегами и

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Откройте $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, как показано ниже,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Добавьте ниже строки настройки между тегами и

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Создайте каталог, указанный в настройках выше -

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Шаг 4) Прежде чем мы запустим Hadoop в первый раз, отформатируйте HDFS, используя команду ниже

$HADOOP_HOME/bin/hdfs namenode -format

Шаг 5) Запустите кластер с одним узлом Hadoop, используя команду ниже

$HADOOP_HOME/sbin/start-dfs.sh

Вывод вышеуказанной команды

$HADOOP_HOME/sbin/start-yarn.sh

Используя инструмент / команду 'jps' , проверьте, все ли процессы, связанные с Hadoop, запущены или нет.

Если Hadoop запустился успешно, на выходе jps должны отображаться NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Шаг 6) Остановка Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh