分布式hadoop【CentOS7】

admin · 发表于 2018-9-26 10:27:20

一、安装jdk （各个节点均操作）
1、环境准备

1) master.wyl.world (Master Node)
2) node01.wyl.world (Slave Node)
3) node02.wyl.world (Slave Node)

2、下载jdk包

[root@master ~]# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" \
http://download.oracle.com/otn-pub/java/jdk/8u71-b15/jdk-8u71-linux-x64.rpm

安装jdk

[root@master ~]# rpm -Uvh jdk-8u71-linux-x64.rpm
Preparing...             ############################## [100%]
1:jdk1.8.0_71          ############################## [100%]
Unpacking JAR files...
      rt.jar...
      jsse.jar...
      charsets.jar...
      tools.jar...
      localedata.jar...
      jfxrt.jar...

3、更改环境变量

[root@master ~]# vi /etc/profile
# 加在末尾
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

4、应用环境变量

[root@master ~]# source /etc/profile1

5、如果系统之前安装过其他版本的jdk，需要更改默认配置

[root@master ~]# alternatives --config java

There are 2 programs which provide 'java'.

  Selection Command
-----------------------------------------------
*+ 1          /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre/bin/java
2          /usr/java/jdk1.8.0_71/jre/bin/java

选择最新的
Enter to keep the current selection[+], or type selection number: 2

6、写入一个测试程序

[root@master ~]# vi day.java
import java.util.Calendar;

class day {
public static void main(String[] args) {
      Calendar cal = Calendar.getInstance();
      int year = cal.get(Calendar.YEAR);
      int month = cal.get(Calendar.MONTH) + 1;
      int day = cal.get(Calendar.DATE);
      int hour = cal.get(Calendar.HOUR_OF_DAY);
      int minute = cal.get(Calendar.MINUTE);
      System.out.println(year + "/" + month + "/" + day + " " + hour + ":" + minute);
}
}

7、编译

[root@master ~]# javac day.java

8、执行

[root@master ~]# java day
2015/3/16 20:30

二、安装hadoop
1、在各个节点上创建用户，并设置密码

[root@master ~]# useradd -d /usr/hadoop hadoop
[root@master ~]# chmod 755 /usr/hadoop
[root@master ~]# passwd hadoop
Changing password for user hadoop.
New password:
Retype new password:
passwd: all authentication tokens updated successfully.

2、通过hadoop用户登录到master节点上，生成秘钥，并拷贝到其他节点上
生成秘钥

[hadoop@master ~]$ ssh-keygen
Generating public/private rsa key pair.
Enter file in which to save the key (/usr/hadoop/.ssh/id_rsa):
Created directory '/usr/hadoop/.ssh'.
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /usr/hadoop/.ssh/id_rsa.
Your public key has been saved in /usr/hadoop/.ssh/id_rsa.pub.
The key fingerprint is:
xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx hadoop@master.wyl.world
The key's randomart image is:

3、发送到本机

[hadoop@master ~]$ ssh-copy-id localhost

4、分别拷贝到node节点

[hadoop@master ~]$ ssh-copy-id node01.wyl.world
[hadoop@master ~]$ ssh-copy-id node02.wyl.world

5、通过hadoop用户在各个节点上安装hadoop
可以通过下面路径下载最新的安装代码

https://hadoop.apache.org/releases.html

下载安装包

[hadoop@master ~]$ curl -O http://ftp.jaist.ac.jp/pub/apach ... hadoop-2.7.3.tar.gz

解压安装包

[hadoop@master ~]$ tar zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop --strip-components 1

写入系统变量

[hadoop@master ~]$ vi ~/.bash_profile
# 加在末尾
export HADOOP_HOME=/usr/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

应用系统变量

[hadoop@master ~]$ source ~/.bash_profile

6、通过hadoop用户在master节点上配置hadoop
创建目录

[hadoop@master ~]$ mkdir ~/datanode
[hadoop@master ~]$ ssh node01.wyl.world "mkdir ~/datanode"
[hadoop@master ~]$ ssh node02.wyl.world "mkdir ~/datanode"

7、修改~/etc/hadoop/hdfs-site.xml

在 <configuration> - </configuration> 之间加入如下内容
<configuration>
  <property>
<name>dfs.replication</name>
<value>2</value>
  </property>
  <property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/hadoop/datanode</value>
  </property>
</configuration>

8、拷贝到其他节点上

[hadoop@master ~]$ scp ~/etc/hadoop/hdfs-site.xml node01.wyl.world:~/etc/hadoop/
[hadoop@master ~]$ scp ~/etc/hadoop/hdfs-site.xml node02.wyl.world:~/etc/hadoop/

9、修改~/etc/hadoop/core-site.xml

在 <configuration> - </configuration> 之间加入如下内容
<configuration>
  <property>
<name>fs.defaultFS</name>
<value>hdfs://master.wyl.world:9000/</value>
  </property>
</configuration>

10、拷贝到其他节点上

[hadoop@master ~]$ scp ~/etc/hadoop/core-site.xml node01.wyl.world:~/etc/hadoop/
[hadoop@master ~]$ scp ~/etc/hadoop/core-site.xml node02.wyl.world:~/etc/hadoop/
[hadoop@master ~]$ sed -i -e 's/\${JAVA_HOME}/\/usr\/java\/default/' ~/etc/hadoop/hadoop-env.sh
[hadoop@master ~]$ scp ~/etc/hadoop/hadoop-env.sh node01.wyl.world:~/etc/hadoop/
[hadoop@master ~]$ scp ~/etc/hadoop/hadoop-env.sh node02.wyl.world:~/etc/hadoop/
[hadoop@master ~]$ mkdir ~/namenode

11、修改~/etc/hadoop/hdfs-site.xml

在 <configuration> - </configuration> 之间加入如下内容
<configuration>
  <property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/hadoop/namenode</value>
  </property>
</configuration>

12、创建~/etc/hadoop/hdfs-site.xml并写入

# create new
<configuration>
  <property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
  </property>
</configuration>

13、配置~/etc/hadoop/yarn-site.xml

在 <configuration> - </configuration> 之间新增如下内容
<configuration>
  <property>
<name>yarn.resourcemanager.hostname</name>
<value>master.wyl.world</value>
  </property>
  <property>
<name>yarn.nodemanager.hostname</name>
<value>master.wyl.world</value>
  </property>
  <property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
  </property>
</configuration>

14、在~/etc/hadoop/slaves写入各个节点信息

#添加所有节点信息，并删除localhost
master.wyl.world
node01.wyl.world
node02.wyl.world

15、格式化namenode并启动hadoop服务
格式化节点

[hadoop@master ~]$ hdfs namenode -format
15/07/28 19:58:14 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = master.wyl.world/10.0.0.30
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 2.7.3
.....
.....
15/07/28 19:58:17 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at master.wyl.world/10.0.0.30
************************************************************/

启动dfs

[hadoop@master ~]$ start-dfs.sh
Starting namenodes on [master.wyl.world]
master.wyl.world: starting namenode, logging to /usr/hadoop/logs/hadoop-hadoop-namenode-master.wyl.world.out
master.wyl.world: starting datanode, logging to /usr/hadoop/logs/hadoop-hadoop-datanode-master.wyl.world.out
node02.wyl.world: starting datanode, logging to /usr/hadoop/logs/hadoop-hadoop-datanode-node02.wyl.world.out
node01.wyl.world: starting datanode, logging to /usr/hadoop/logs/hadoop-hadoop-datanode-node01.wyl.world.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /usr/hadoop/logs/hadoop-hadoop-secondarynamenode-master.wyl.world.out

启动yarn

[hadoop@master ~]$ start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /usr/hadoop/logs/yarn-hadoop-resourcemanager-master.wyl.world.out
master.wyl.world: starting nodemanager, logging to /usr/hadoop/logs/yarn-hadoop-nodemanager-master.wyl.world.out
node02.wyl.world: starting nodemanager, logging to /usr/hadoop/logs/yarn-hadoop-nodemanager-node02.wyl.world.out
node01.wyl.world: starting nodemanager, logging to /usr/hadoop/logs/yarn-hadoop-nodemanager-node01.wyl.world.out

16、查看服务状态，正常如下，如异常，请返回检查配置

[hadoop@master ~]$ jps
2130 NameNode
2437 SecondaryNameNode
2598 ResourceManager
2710 NodeManager
3001 Jps
2267 DataNode

17、创建目录

[hadoop@master ~]$ hdfs dfs -mkdir /test

18、拷贝一个文件到/test

[hadoop@master ~]$ hdfs dfs -copyFromLocal ~/NOTICE.txt /test

19、展示文件内容

[hadoop@master ~]$ hdfs dfs -cat /test/NOTICE.txt
This product includes software developed by The Apache Software
Foundation (http://www.apache.org/).

20、执行程序

[hadoop@master ~]$ hadoop jar ~/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /test/NOTICE.txt /output01
15/07/28 19:28:47 INFO client.RMProxy: Connecting to ResourceManager at master.wyl.world/10.0.0.30:8032
15/07/28 19:28:48 INFO input.FileInputFormat: Total input paths to process : 1
15/07/28 19:28:48 INFO mapreduce.JobSubmitter: number of splits:1
.....
.....

21、查看结果

[hadoop@master ~]$ hdfs dfs -ls /output01
Found 2 items
-rw-r--r-- 2 hadoop supergroup    0 2015-07-29 14:29 /output01/_SUCCESS
-rw-r--r-- 2 hadoop supergroup 123 2015-07-29 14:29 /output01/part-r-00000

22、显示文件结果

[hadoop@master ~]$ hdfs dfs -cat /output01/part-r-00000
(http://www.apache.org/).    1
Apache       1
Foundation    1
Software       1
The          1
This          1
by             1
developed    1
includes       1
product       1
software       1

查看集群概要
http://(server’s hostname or IP address):50070

集群详细信息

http://(server’s hostname or IP address):8088/

admin · 发表于 2022-11-7 11:12:34

目的

本文描述了如何安装、配置和管理有实际意义的Hadoop集群，其规模可从几个节点的小集群到几千个节点的超大集群。

如果你希望在单机上安装Hadoop玩玩，从这里能找到相关细节。

先决条件

确保在你集群中的每个节点上都安装了所有必需软件。
获取Hadoop软件包。
! u- _+ H3 c5 d0 t; _. Q- ?: ?8 S* U

安装

安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。

通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves。

我们用HADOOP_HOME指代安装的根路径。通常，集群里的所有机器的HADOOP_HOME路径相同。

配置

接下来的几节描述了如何配置Hadoop集群。

配置文件

对Hadoop的配置通过conf/目录下的两个重要配置文件完成：

hadoop-default.xml - 只读的默认配置。
hadoop-site.xml - 集群特有的配置。
- R, D" L ^) T8 [( F

要了解更多关于这些配置文件如何影响Hadoop框架的细节，请看这里。

此外，通过设置conf/hadoop-env.sh中的变量为集群特有的值，你可以对bin/目录下的Hadoop脚本进行控制。

集群配置

要配置Hadoop集群，你需要设置Hadoop守护进程的运行环境和Hadoop守护进程的运行参数。

Hadoop守护进程指NameNode/DataNode 和JobTracker/TaskTracker。

配置Hadoop守护进程的运行环境

管理员可在conf/hadoop-env.sh脚本内对Hadoop守护进程的运行环境做特别指定。

至少，你得设定JAVA_HOME使之在每一远端节点上都被正确设置。

管理员可以通过配置选项HADOOP_*_OPTS来分别配置各个守护进程。下表是可以配置的选项。

守护进程	配置选项
NameNode	HADOOP_NAMENODE_OPTS
DataNode	HADOOP_DATANODE_OPTS
SecondaryNamenode	HADOOP_SECONDARYNAMENODE_OPTS
JobTracker	HADOOP_JOBTRACKER_OPTS
TaskTracker	HADOOP_TASKTRACKER_OPTS

例如，配置Namenode时,为了使其能够并行回收垃圾（parallelGC），要把下面的代码加入到hadoop-env.sh :
export HADOOP_NAMENODE_OPTS="-XX:+UseParallelGC ${HADOOP_NAMENODE_OPTS}"

其它可定制的常用参数还包括：

HADOOP_LOG_DIR - 守护进程日志文件的存放目录。如果不存在会被自动创建。
HADOOP_HEAPSIZE - 最大可用的堆大小，单位为MB。比如，1000MB。这个参数用于设置hadoop守护进程的堆大小。缺省大小是1000MB。" x0 R" I8 Q8 y- _, B" M9 c i5 P ~

配置Hadoop守护进程的运行参数

这部分涉及Hadoop集群的重要参数，这些参数在conf/hadoop-site.xml中指定。

参数	取值	备注
fs.default.name	NameNode的URI。	hdfs://主机名/
mapred.job.tracker	JobTracker的主机（或者IP）和端口。	主机:端口。
dfs.name.dir	NameNode持久存储名字空间及事务日志的本地文件系统路径。	当这个值是一个逗号分割的目录列表时，nametable数据将会被复制到所有目录中做冗余备份。
dfs.data.dir	DataNode存放块数据的本地文件系统路径，逗号分割的列表。	当这个值是逗号分割的目录列表时，数据将被存储在所有目录下，通常分布在不同设备上。
mapred.system.dir	Map/Reduce框架存储系统文件的HDFS路径。比如/hadoop/mapred/system/。	这个路径是默认文件系统（HDFS）下的路径，须从服务器和客户端上均可访问。
mapred.local.dir	本地文件系统下逗号分割的路径列表，Map/Reduce临时数据存放的地方。	多路径有助于利用磁盘i/o。
mapred.tasktracker.{map\|reduce}.tasks.maximum	某一TaskTracker上可运行的最大Map/Reduce任务数，这些任务将同时各自运行。	默认为2（2个map和2个reduce），可依据硬件情况更改。
dfs.hosts/dfs.hosts.exclude	许可/拒绝DataNode列表。	如有必要，用这个文件控制许可的datanode列表。
mapred.hosts/mapred.hosts.exclude	许可/拒绝TaskTracker列表。	如有必要，用这个文件控制许可的TaskTracker列表。

通常，上述参数被标记为 final 以确保它们不被用户应用更改。

现实世界的集群配置

这节罗列在大规模集群上运行sort基准测试(benchmark)时使用到的一些非缺省配置。

运行sort900的一些非缺省配置值，sort900即在900个节点的集群上对9TB的数据进行排序：

参数	取值	备注
dfs.block.size	134217728	针对大文件系统，HDFS的块大小取128MB。
dfs.namenode.handler.count	40	启动更多的NameNode服务线程去处理来自大量DataNode的RPC请求。
mapred.reduce.parallel.copies	20	reduce启动更多的并行拷贝器以获取大量map的输出。
mapred.child.java.opts	-Xmx512M	为map/reduce子虚拟机使用更大的堆。
fs.inmemory.size.mb	200	为reduce阶段合并map输出所需的内存文件系统分配更多的内存。
io.sort.factor	100	文件排序时更多的流将同时被归并。
io.sort.mb	200	提高排序时的内存上限。
io.file.buffer.size	131072	SequenceFile中用到的读/写缓存大小。

运行sort1400和sort2000时需要更新的配置，即在1400个节点上对14TB的数据进行排序和在2000个节点上对20TB的数据进行排序：

参数	取值	备注
mapred.job.tracker.handler.count	60	启用更多的JobTracker服务线程去处理来自大量TaskTracker的RPC请求。
mapred.reduce.parallel.copies	50
tasktracker.http.threads	50	为TaskTracker的Http服务启用更多的工作线程。reduce通过Http服务获取map的中间输出。
mapred.child.java.opts	-Xmx1024M	使用更大的堆用于maps/reduces的子虚拟机

Slaves

通常，你选择集群中的一台机器作为NameNode，另外一台不同的机器作为JobTracker。余下的机器即作为DataNode又作为TaskTracker，这些被称之为slaves。

在conf/slaves文件中列出所有slave的主机名或者IP地址，一行一个。

日志

Hadoop使用Apache log4j来记录日志，它由Apache Commons Logging框架来实现。编辑conf/log4j.properties文件可以改变Hadoop守护进程的日志配置（日志格式等）。

历史日志

作业的历史文件集中存放在hadoop.job.history.location，这个也可以是在分布式文件系统下的路径，其默认值为${HADOOP_LOG_DIR}/history。jobtracker的web UI上有历史日志的web UI链接。

历史文件在用户指定的目录hadoop.job.history.user.location也会记录一份，这个配置的缺省值为作业的输出目录。这些文件被存放在指定路径下的“_logs/history/”目录中。因此，默认情况下日志文件会在“mapred.output.dir/_logs/history/”下。如果将hadoop.job.history.user.location指定为值none，系统将不再记录此日志。

用户可使用以下命令在指定路径下查看历史日志汇总
$ bin/hadoop job -history output-dir
这条命令会显示作业的细节信息，失败和终止的任务细节。
关于作业的更多细节，比如成功的任务，以及对每个任务的所做的尝试次数等可以用下面的命令查看
$ bin/hadoop job -history all output-dir

一但全部必要的配置完成，将这些文件分发到所有机器的HADOOP_CONF_DIR路径下，通常是${HADOOP_HOME}/conf。

Hadoop的机架感知

HDFS和Map/Reduce的组件是能够感知机架的。

NameNode和JobTracker通过调用管理员配置模块中的APIresolve来获取集群里每个slave的机架id。该API将slave的DNS名称（或者IP地址）转换成机架id。使用哪个模块是通过配置项topology.node.switch.mapping.impl来指定的。模块的默认实现会调用topology.script.file.name配置项指定的一个的脚本/命令。如果topology.script.file.name未被设置，对于所有传入的IP地址，模块会返回/default-rack作为机架id。在Map/Reduce部分还有一个额外的配置项mapred.cache.task.levels，该参数决定cache的级数（在网络拓扑中）。例如，如果默认值是2，会建立两级的cache－一级针对主机（主机 -> 任务的映射）另一级针对机架（机架 -> 任务的映射）。

启动Hadoop

启动Hadoop集群需要启动HDFS集群和Map/Reduce集群。

格式化一个新的分布式文件系统：
$ bin/hadoop namenode -format

在分配的NameNode上，运行下面的命令启动HDFS：
$ bin/start-dfs.sh

bin/start-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动DataNode守护进程。

在分配的JobTracker上，运行下面的命令启动Map/Reduce：
$ bin/start-mapred.sh

bin/start-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动TaskTracker守护进程。

停止Hadoop

在分配的NameNode上，执行下面的命令停止HDFS：
$ bin/stop-dfs.sh

bin/stop-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止DataNode守护进程。

在分配的JobTracker上，运行下面的命令停止Map/Reduce：
$ bin/stop-mapred.sh

bin/stop-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止TaskTracker守护进程。

admin · 发表于 2022-11-7 11:12:46

目的
本文描述了如何安装、配置和管理有实际意义的Hadoop集群，其规模可从几个节点的小集群到几千个节点的超大集群。

如果你希望在单机上安装Hadoop玩玩，从这里能找到相关细节。

先决条件
确保在你集群中的每个节点上都安装了所有必需软件。
获取Hadoop软件包。
安装
安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。

通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves。

我们用HADOOP_HOME指代安装的根路径。通常，集群里的所有机器的HADOOP_HOME路径相同。

配置
接下来的几节描述了如何配置Hadoop集群。

配置文件
对Hadoop的配置通过conf/目录下的两个重要配置文件完成：

hadoop-default.xml - 只读的默认配置。
hadoop-site.xml - 集群特有的配置。
要了解更多关于这些配置文件如何影响Hadoop框架的细节，请看这里。

此外，通过设置conf/hadoop-env.sh中的变量为集群特有的值，你可以对bin/目录下的Hadoop脚本进行控制。

集群配置
要配置Hadoop集群，你需要设置Hadoop守护进程的运行环境和Hadoop守护进程的运行参数。

Hadoop守护进程指NameNode/DataNode 和JobTracker/TaskTracker。

配置Hadoop守护进程的运行环境
管理员可在conf/hadoop-env.sh脚本内对Hadoop守护进程的运行环境做特别指定。

至少，你得设定JAVA_HOME使之在每一远端节点上都被正确设置。

管理员可以通过配置选项HADOOP_*_OPTS来分别配置各个守护进程。下表是可以配置的选项。

守护进程配置选项
NameNode HADOOP_NAMENODE_OPTS
DataNode HADOOP_DATANODE_OPTS
SecondaryNamenode HADOOP_SECONDARYNAMENODE_OPTS
JobTracker HADOOP_JOBTRACKER_OPTS
TaskTracker HADOOP_TASKTRACKER_OPTS
例如，配置Namenode时,为了使其能够并行回收垃圾（parallelGC），要把下面的代码加入到hadoop-env.sh :
export HADOOP_NAMENODE_OPTS="-XX:+UseParallelGC ${HADOOP_NAMENODE_OPTS}"
其它可定制的常用参数还包括：

HADOOP_LOG_DIR - 守护进程日志文件的存放目录。如果不存在会被自动创建。
HADOOP_HEAPSIZE - 最大可用的堆大小，单位为MB。比如，1000MB。这个参数用于设置hadoop守护进程的堆大小。缺省大小是1000MB。
配置Hadoop守护进程的运行参数
这部分涉及Hadoop集群的重要参数，这些参数在conf/hadoop-site.xml中指定。

参数取值备注
fs.default.name NameNode的URI。 hdfs://主机名/
mapred.job.tracker JobTracker的主机（或者IP）和端口。主机:端口。
dfs.name.dir NameNode持久存储名字空间及事务日志的本地文件系统路径。当这个值是一个逗号分割的目录列表时，nametable数据将会被复制到所有目录中做冗余备份。
dfs.data.dir DataNode存放块数据的本地文件系统路径，逗号分割的列表。当这个值是逗号分割的目录列表时，数据将被存储在所有目录下，通常分布在不同设备上。
mapred.system.dir Map/Reduce框架存储系统文件的HDFS路径。比如/hadoop/mapred/system/。这个路径是默认文件系统（HDFS）下的路径，须从服务器和客户端上均可访问。
mapred.local.dir 本地文件系统下逗号分割的路径列表，Map/Reduce临时数据存放的地方。多路径有助于利用磁盘i/o。
mapred.tasktracker.{map|reduce}.tasks.maximum 某一TaskTracker上可运行的最大Map/Reduce任务数，这些任务将同时各自运行。默认为2（2个map和2个reduce），可依据硬件情况更改。
dfs.hosts/dfs.hosts.exclude 许可/拒绝DataNode列表。如有必要，用这个文件控制许可的datanode列表。
mapred.hosts/mapred.hosts.exclude 许可/拒绝TaskTracker列表。如有必要，用这个文件控制许可的TaskTracker列表。
通常，上述参数被标记为 final 以确保它们不被用户应用更改。

现实世界的集群配置
这节罗列在大规模集群上运行sort基准测试(benchmark)时使用到的一些非缺省配置。

运行sort900的一些非缺省配置值，sort900即在900个节点的集群上对9TB的数据进行排序：

参数取值备注
dfs.block.size 134217728 针对大文件系统，HDFS的块大小取128MB。
dfs.namenode.handler.count 40 启动更多的NameNode服务线程去处理来自大量DataNode的RPC请求。
mapred.reduce.parallel.copies 20 reduce启动更多的并行拷贝器以获取大量map的输出。
mapred.child.java.opts -Xmx512M 为map/reduce子虚拟机使用更大的堆。
fs.inmemory.size.mb 200 为reduce阶段合并map输出所需的内存文件系统分配更多的内存。
io.sort.factor 100 文件排序时更多的流将同时被归并。
io.sort.mb 200 提高排序时的内存上限。
io.file.buffer.size 131072 SequenceFile中用到的读/写缓存大小。
运行sort1400和sort2000时需要更新的配置，即在1400个节点上对14TB的数据进行排序和在2000个节点上对20TB的数据进行排序：

参数取值备注
mapred.job.tracker.handler.count 60 启用更多的JobTracker服务线程去处理来自大量TaskTracker的RPC请求。
mapred.reduce.parallel.copies 50
tasktracker.http.threads 50 为TaskTracker的Http服务启用更多的工作线程。reduce通过Http服务获取map的中间输出。
mapred.child.java.opts -Xmx1024M 使用更大的堆用于maps/reduces的子虚拟机
Slaves
通常，你选择集群中的一台机器作为NameNode，另外一台不同的机器作为JobTracker。余下的机器即作为DataNode又作为TaskTracker，这些被称之为slaves。

在conf/slaves文件中列出所有slave的主机名或者IP地址，一行一个。

日志
Hadoop使用Apache log4j来记录日志，它由Apache Commons Logging框架来实现。编辑conf/log4j.properties文件可以改变Hadoop守护进程的日志配置（日志格式等）。

历史日志
作业的历史文件集中存放在hadoop.job.history.location，这个也可以是在分布式文件系统下的路径，其默认值为${HADOOP_LOG_DIR}/history。jobtracker的web UI上有历史日志的web UI链接。

历史文件在用户指定的目录hadoop.job.history.user.location也会记录一份，这个配置的缺省值为作业的输出目录。这些文件被存放在指定路径下的“_logs/history/”目录中。因此，默认情况下日志文件会在“mapred.output.dir/_logs/history/”下。如果将hadoop.job.history.user.location指定为值none，系统将不再记录此日志。

用户可使用以下命令在指定路径下查看历史日志汇总
$ bin/hadoop job -history output-dir
这条命令会显示作业的细节信息，失败和终止的任务细节。
关于作业的更多细节，比如成功的任务，以及对每个任务的所做的尝试次数等可以用下面的命令查看
$ bin/hadoop job -history all output-dir
一但全部必要的配置完成，将这些文件分发到所有机器的HADOOP_CONF_DIR路径下，通常是${HADOOP_HOME}/conf。

Hadoop的机架感知
HDFS和Map/Reduce的组件是能够感知机架的。

NameNode和JobTracker通过调用管理员配置模块中的APIresolve来获取集群里每个slave的机架id。该API将slave的DNS名称（或者IP地址）转换成机架id。使用哪个模块是通过配置项topology.node.switch.mapping.impl来指定的。模块的默认实现会调用topology.script.file.name配置项指定的一个的脚本/命令。如果topology.script.file.name未被设置，对于所有传入的IP地址，模块会返回/default-rack作为机架id。在Map/Reduce部分还有一个额外的配置项mapred.cache.task.levels，该参数决定cache的级数（在网络拓扑中）。例如，如果默认值是2，会建立两级的cache－一级针对主机（主机 -> 任务的映射）另一级针对机架（机架 -> 任务的映射）。

启动Hadoop
启动Hadoop集群需要启动HDFS集群和Map/Reduce集群。

格式化一个新的分布式文件系统：
$ bin/hadoop namenode -format

在分配的NameNode上，运行下面的命令启动HDFS：
$ bin/start-dfs.sh

bin/start-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动DataNode守护进程。

在分配的JobTracker上，运行下面的命令启动Map/Reduce：
$ bin/start-mapred.sh

bin/start-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动TaskTracker守护进程。

停止Hadoop
在分配的NameNode上，执行下面的命令停止HDFS：
$ bin/stop-dfs.sh

bin/stop-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止DataNode守护进程。

在分配的JobTracker上，运行下面的命令停止Map/Reduce：
$ bin/stop-mapred.sh
bin/stop-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止TaskTracker守护进程。

admin · 发表于 2022-11-7 11:13:57

Hadoop伪分布式环境搭建

   （1）三种模式

            Local (Standalone) Mode  本地模式：不使用HDFS文件系统，使用本地文件系统，程序员调试用；

            Pseudo-Distributed Mode  伪分布式模式：单节点，一台机器，使用HDFS文件系统，程序员调试用；

            Fully-Distributed Mode  完全分布式模式：真实生产环境用，集群。

   （2）解压JDK

            $ tar  -zxf  jdk-7u67-linux-x64.tar.gz  -C  /opt/modules/

            配置环境变量

            #JAVA_HOME
            export JAVA_HOME=/opt/modules/jdk1.7.0_67
            export PATH=$PATH:$JAVA_HOME/bin

   （3）解压Hadoop

            $ tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/

   （4）建议：删除rm -rf /opt/modules/hadoop-2.5.0/share/doc/，里面是英文文档，没有作用

   （5）配置过程

            <1>hadoop-env.sh、mapred-env.sh、yarn-env.sh指定Java的安装路径
                  export JAVA_HOME=/opt/modules/jdk1.7.0_67

            <2>core-site.xml，指定namenode所在机器位置及交互端口号，另外也是指定使用的是HDFS文件系统
                  <property>
                           <name>fs.defaultFS</name>
                           <value>hdfs://hadoop-senior.ibeifeng.com:8020</value>
                  </property>

            <3>hdfs-site.xml，指定副本数个数
                  <property>
                           <name>dfs.replication</name>
                           <value>1</value>
                  </property>

            <4>core-site.xml，更改Hadoop默认的临时目录位置，用于存放块文件和元数据文件
                  <property>
                        <name>hadoop.tmp.dir</name>
                        <value>/opt/modules/hadoop-2.5.0/data/tmp</value>
                  </property>

            <5>slaves，指定从节点位置（主机名），包括datanode和nodemanager

            <6>格式化namenode，对于元数据进行初始化，否则无法读取元数据

                  bin/hdfs namenode -format

         <7>更改mapred-site.xml文件名称，指定MR运行在yarn上
                  <property>
                           <name>mapreduce.framework.name</name>
                           <value>yarn</value>
                  </property>

         <8>yarn-site.xml
                  <property>
                        <name>yarn.nodemanager.aux-services</name>
                        <value>mapreduce_shuffle</value>
                  </property>
                  <property>
                        <name>yarn.resourcemanager.hostname</name>
                        <value>hadoop-senior.ibeifeng.com</value>
                  </property>

         <9>yarn外部管理界面端口号：8088

               HDFS外部管理界面端口号：50070

               secondarynamenode外部管理界面端口号：50090

7、组件启动

   启动namenode：

   sbin/hadoop-daemon.sh start namenode

   启动datanode：

   sbin/hadoop-daemon.sh start datanode

   启动resourcemanager：

   sbin/yarn-daemon.sh start resourcemanager

   启动nodemanager：

   sbin/yarn-daemon.sh start nodemanager

8、日志

   日志文件：分析日志文件的格式.log和.out

   .log：通过log4j记录的，记录大部分应用程序的日志信息

   .out：记录标准输出和标准错误日志，少量记录

   日志文件的命名规则：【框架名称-用户名-进程名-主机名.日志格式后缀】

   出错一定要学会看日志，看错误信息，看.log的日志

9、Hadoop自带历史服务器

   配置：mapred-site.xml

   <property>
               <name>mapreduce.jobhistory.address</name>
               <value>hadoop-senior.ibeifeng.com:10020</value>
      </property>
      <property>
               <name>mapreduce.jobhistory.webapp.address</name>
               <value>hadoop-senior.ibeifeng.com:19888</value>
      </property>

   启动历史服务器：sbin/mr-jobhistory-daemon.sh start historyserver

10、日志聚集

   日志聚合是YARN提供的日志中央化管理功能，它能将运行完成的Container/任务日志上传到HDFS上，从而减轻NodeManager负载，且提供一个中央化存储和分析机制。默认情况下，Container/任务日志存在在各个NodeManager上，如果启用日志聚合功能需要额外的配置。

   yarn-site.xml

      <property>
               <name>yarn.log-aggregation-enable</name>
               <value>true</value>
      </property>
      <property>
               <name>yarn.log-aggregation.retain-seconds</name>
               <value>106800</value>
      </property>

      单位：秒

   重启resourcemanager、nodemanager和historyserver：

   sbin/yarn-daemon.sh stop resourcemanager

   sbin/yarn-daemon.sh stop nodemanager

   sbin/mr-jobhistory-daemon.sh stop historyserver

   sbin/yarn-daemon.sh start resourcemanager

   sbin/yarn-daemon.sh start nodemanager

   sbin/mr-jobhistory-daemon.sh start historyserver

11、HDFS用户权限检查

   hdfs-site.xml

   <property>
               <name>dfs.permissions.enabled</name>
               <value>false</name>
   </property>

   core-site.xml

   <property>
               <name>hadoop.http.staticuser.user</name>
               <value>beifeng</value>
   </property>

   重启namenode、datanode、resourcemanager、nodemanager和historyserver：

   sbin/hadoop-daemon.sh stop namenode

   sbin/hadoop-daemon.sh stop datanode

   sbin/yarn-daemon.sh stop resourcemanager

   sbin/yarn-daemon.sh stop nodemanager

   sbin/mr-jobhistory-daemon.sh stop historyserver

   sbin/hadoop-daemon.sh start namenode

   sbin/hadoop-daemon.sh start datanode

   sbin/yarn-daemon.sh start resourcemanager

   sbin/yarn-daemon.sh start nodemanager

   sbin/mr-jobhistory-daemon.sh start historyserver

12、SecondaryNameNode

   NameNode启动后的元数据存放在内存中，启动前的元数据存放在本地文件系统文件中。

   HDFS格式化后生成fsimage镜像文件，其中存放文件系统元数据，NameNode会读取此元数据，并存放在内存中。

   edits文件，编辑日志文件，用于保存用户对于HDFS文件系统的每一步行为操作。

   NameNode启动后，先读取fsimage镜像文件，得到元数据，再读取edits日志文件，数据就不会丢失。

   SecondaryNameNode用于减少NameNode重启的时间、合并文件，SecondaryNameNode读取两类文件，加载到内存，写到一个新的fsimage镜像文件，然后再生成一个edits编辑日志文件，每隔一段时间将新生成的fsimage和新生成的edits合并成一个fsimage镜像文件，即每隔一段时间获取HDFS元数据的快照，这样NameNode重启只需要读取内存中的fsimage镜像文件即可，读取镜像文件比读取日志文件快很多。

   hdfs-site.xml

   <property>
               <name>dfs.namenode.secondary.http-address</name>
               <value>hadoop-senior.ibeifeng.com:50090</value>
      </property>

   启动命令：$ sbin/hadoop-daemon.sh start secondarynamenode

13、块文件存放地址

   /opt/modules/hadoop-2.5.0/data/tmp/dfs/data/current/BP-2012260383-192.168.74.128-1516569449179/current/finalized

   镜像文件、日志文件存放地址

   /opt/modules/hadoop-2.5.0/data/tmp/dfs/name/current

   dfs.blocksize自定义块大小属性（单位字节），在hdfs-site.xml中

14、SSH免密码登陆

   使用sbin/start-dfs.sh脚本文件启动namenode、datanode和secondarynamenode时，需要输入用户密码，使用SSH免密码登陆的话，就给用户生成公钥和私钥，用户将自己的公钥储存在远程主机上，将公钥发到需要登陆的服务器，当需要登陆时，远程主机会向用户发送一段随机字符串，用户用自己的私钥加密后，再发回去，远程主机用事先存储的公钥进行解密，如果解密成功，就证明用户是可信的，直接允许登陆shell，不再要求密码。

   配置SSH免密码登陆：

   cd home/beifeng/.ssh

   ssh-keygen -t rsa

   即生成id_rsa和id_rsa.pub文件，其中id_rsa是私钥，id_rsa.pub是公钥。

   ssh-copy-id hadoop-senior.ibeifeng.com

   即生成authorized_keys和known_hosts文件，其中authorized_keys是向远程主机发送的用户公钥，known_hosts是记录文件，有记录文件就不需要再输入密码了。

15、Hadoop配置常见错误

   <1>不要多次格式化namenode，如需再次格式化，需要先删除data/tmp/下的所有文件。

   <2>集群ID不一致，即

         /opt/modules/hadoop-2.5.0/data/tmp/dfs/name/current/VERSION

         /opt/modules/hadoop-2.5.0/data/tmp/dfs/data/current/VERSION

         两文件中的clusterID不一致，这是由于多次格式化导致的，解决方法可以如<1>，也可以依据namenode中的clusterID来修改datanode中的clusterID。

   <3>端口号被占用，使用netstat -tlun查看。

   <4>多用户混用。即/tmp目录下有多个用户的pid，多个用户在各自的环境中启动了同一个进程，造成pid文件冲突。解决方法：将/tmp目录下的.pid文件全部删除，再用一个用户启动进程。

16、Hadoop配置文件

   Hadoop配置文件分为默认的和自定义的，每个模块对应一个文件。

   系统启动会先加载默认配置文件。默认配置文件存放在jar包中，/opt/modules/hadoop-2.5.0/share/hadoop/common/hadoop-common-2.5.0.jar中存放有core-default.xml，/opt/modules/hadoop-2.5.0/share/hadoop/hdfs/hadoop-hdfs-2.5.0.jar中存放有hdfs-default.xml，/opt/modules/hadoop-2.5.0/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.5.0.jar中存放有mapred-default.xml，/opt/modules/hadoop-2.5.0/share/hadoop/yarn/hadoop-yarn-common-2.5.0.jar中存放有yarn-default.xml。

   自定义配置文件优先级高于默认配置文件，如果自定义配置文件中有配置，会覆盖默认配置文件中的相应属性。

17、安装rz工具

   切换到root用户后，用yum安装lrzsz。rz工具用于将Windows中的文件上传到虚拟机中，如CentOS中，只能在远程工具中使用，不能在虚拟机中使用。

   su

   password:

   yum -y install lrzsz

		自动登录	找回密码
密码			注册

分布式hadoop【CentOS7】

浏览过的版块