Hadoop学习之路Hadoop集群搭建和简单应用

admin · 发表于 2022-11-7 11:16:59

目录

概念了解
集群服务器规划
软件安装步骤概述
Hadoop安装
1、规划
2、上传解压缩
3、修改配置文件
4、把安装包分别分发给其他的节点
5、配置Hadoop环境变量
6、查看hadoop版本
7、Hadoop初始化
8、启动
9、查看4台服务器的进程
10、启动HDFS和YARN的web管理界面
Hadoop的简单使用
创建文件夹
查看创建的文件夹
上传文件
下载文件
运行一个mapreduce的例子程序： wordcount

正文

回到顶部
概念了解
主从结构：在一个集群中，会有部分节点充当主服务器的角色，其他服务器都是从服务器的角色，当前这种架构模式叫做主从结构。

主从结构分类：

1、一主多从

2、多主多从

Hadoop中的HDFS和YARN都是主从结构，主从结构中的主节点和从节点有多重概念方式：

1、主节点　　从节点

2、master　　slave

3、管理者　　工作者

4、leader　　follower

Hadoop集群中各个角色的名称：

服务主节点从节点
HDFS NameNode DataNode
YARN ResourceManager NodeManager
回到顶部
集群服务器规划
使用4台CentOS-6.7虚拟机进行集群搭建

回到顶部
软件安装步骤概述
1、获取安装包

2、解压缩和安装

3、修改配置文件

4、初始化，配置环境变量，启动，验证

回到顶部
Hadoop安装
1、规划
规划安装用户：hadoop

规划安装目录：/home/hadoop/apps

规划数据目录：/home/hadoop/data

注：apps和data文件夹需要自己单独创建

2、上传解压缩
注：使用hadoop用户

[hadoop@hadoop1 apps]$ ls
hadoop-2.7.5-centos-6.7.tar.gz
[hadoop@hadoop1 apps]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz
3、修改配置文件
配置文件目录：/home/hadoop/apps/hadoop-2.7.5/etc/hadoop

A.　hadoop-env.sh
[hadoop@hadoop1 hadoop]$ vi hadoop-env.sh
修改JAVA_HOME

export JAVA_HOME=/usr/local/jdk1.8.0_73

B.　core-site.xml

[hadoop@hadoop1 hadoop]$ vi core-site.xml
fs.defaultFS ：这个属性用来指定namenode的hdfs协议的文件系统通信地址，可以指定一个主机+端口，也可以指定为一个namenode服务（这个服务内部可以有多台namenode实现ha的namenode服务

hadoop.tmp.dir : hadoop集群在工作的时候存储的一些临时文件的目录

复制代码
<configuration>
      <property>
            <name>fs.defaultFS</name>
            <value>hdfs://hadoop1:9000</value>
      </property>
      <property>
            <name>hadoop.tmp.dir</name>
            <value>/home/hadoop/data/hadoopdata</value>
      </property>
</configuration>
复制代码

C.　hdfs-site.xml

[hadoop@hadoop1 hadoop]$ vi hdfs-site.xml
dfs.namenode.name.dir：namenode数据的存放地点。也就是namenode元数据存放的地方，记录了hdfs系统中文件的元数据。

dfs.datanode.data.dir： datanode数据的存放地点。也就是block块存放的目录了。

dfs.replication：hdfs的副本数设置。也就是上传一个文件，其分割为block块后，每个block的冗余副本个数，默认配置是3。

dfs.secondary.http.address：secondarynamenode 运行节点的信息，和 namenode 不同节点

复制代码
<configuration>
      <property>
            <name>dfs.namenode.name.dir</name>
            <value>/home/hadoop/data/hadoopdata/name</value>
            <description>为了保证元数据的安全一般配置多个不同目录</description>
      </property>

      <property>
            <name>dfs.datanode.data.dir</name>
            <value>/home/hadoop/data/hadoopdata/data</value>
            <description>datanode 的数据存储目录</description>
      </property>

      <property>
            <name>dfs.replication</name>
            <value>2</value>
            <description>HDFS 的数据块的副本存储个数, 默认是3</description>
      </property>

      <property>
            <name>dfs.secondary.http.address</name>
            <value>hadoop3:50090</value>
            <description>secondarynamenode 运行节点的信息，和 namenode 不同节点</description>
      </property>
</configuration>
复制代码

D.　mapred-site.xml

[hadoop@hadoop1 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[hadoop@hadoop1 hadoop]$ vi mapred-site.xml
mapreduce.framework.name：指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行。

复制代码
<configuration>
      <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
      </property>
</configuration>
复制代码

E.　yarn-site.xml

[hadoop@hadoop1 hadoop]$ vi yarn-site.xml
yarn.resourcemanager.hostname：yarn总管理器的IPC通讯地址

yarn.nodemanager.aux-services：

复制代码
<configuration>



      <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>hadoop4</value>
      </property>

      <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
            <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
      </property>

</configuration>
复制代码

F.　slaves

[hadoop@hadoop1 hadoop]$ vi slaves
hadoop1
hadoop2
hadoop3
hadoop4

4、把安装包分别分发给其他的节点
重点强调：每台服务器中的hadoop安装包的目录必须一致，安装包的配置信息还必须保持一致
重点强调：每台服务器中的hadoop安装包的目录必须一致，安装包的配置信息还必须保持一致
重点强调：每台服务器中的hadoop安装包的目录必须一致，安装包的配置信息还必须保持一致

[hadoop@hadoop1 hadoop]$ scp -r ~/apps/hadoop-2.7.5/ hadoop2:~/apps/
[hadoop@hadoop1 hadoop]$ scp -r ~/apps/hadoop-2.7.5/ hadoop3:~/apps/
[hadoop@hadoop1 hadoop]$ scp -r ~/apps/hadoop-2.7.5/ hadoop4:~/apps/
注意：上面的命令等同于下面的命令

[hadoop@hadoop1 hadoop]$ scp -r ~/apps/hadoop-2.7.5/ hadoop@hadoop2:~/apps/
5、配置Hadoop环境变量
千万注意：

1、如果你使用root用户进行安装。 vi /etc/profile 即可系统变量

2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量

[hadoop@hadoop1 ~]$ vi .bashrc
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使环境变量生效

[hadoop@hadoop1 bin]$ source ~/.bashrc
6、查看hadoop版本
复制代码
[hadoop@hadoop1 bin]$ hadoop version
Hadoop 2.7.5
Subversion Unknown -r Unknown
Compiled by root on 2017-12-24T05:30Z
Compiled with protoc 2.5.0
From source with checksum 9f118f95f47043332d51891e37f736e9
This command was run using /home/hadoop/apps/hadoop-2.7.5/share/hadoop/common/hadoop-common-2.7.5.jar
[hadoop@hadoop1 bin]$
复制代码

7、Hadoop初始化
注意：HDFS初始化只能在主节点上进行

[hadoop@hadoop1 ~]$ hadoop namenode -format
View Code

8、启动
A.　启动HDFS

注意：不管在集群中的那个节点都可以

复制代码
[hadoop@hadoop1 ~]$ start-dfs.sh
Starting namenodes on [hadoop1]
hadoop1: starting namenode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-namenode-hadoop1.out
hadoop3: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop3.out
hadoop2: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop2.out
hadoop4: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop4.out
hadoop1: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop1.out
Starting secondary namenodes [hadoop3]
hadoop3: starting secondarynamenode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-secondarynamenode-hadoop3.out
[hadoop@hadoop1 ~]$
复制代码

B.　启动YARN

注意：只能在主节点中进行启动

复制代码
[hadoop@hadoop4 ~]$ start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/apps/hadoop-2.7.5/logs/yarn-hadoop-resourcemanager-hadoop4.out
hadoop2: starting nodemanager, logging to /home/hadoop/apps/hadoop-2.7.5/logs/yarn-hadoop-nodemanager-hadoop2.out
hadoop3: starting nodemanager, logging to /home/hadoop/apps/hadoop-2.7.5/logs/yarn-hadoop-nodemanager-hadoop3.out
hadoop4: starting nodemanager, logging to /home/hadoop/apps/hadoop-2.7.5/logs/yarn-hadoop-nodemanager-hadoop4.out
hadoop1: starting nodemanager, logging to /home/hadoop/apps/hadoop-2.7.5/logs/yarn-hadoop-nodemanager-hadoop1.out
[hadoop@hadoop4 ~]$
复制代码

9、查看4台服务器的进程
hadoop1

hadoop2

hadoop3

hadoop4

10、启动HDFS和YARN的web管理界面
HDFS : http://192.168.123.102:50070
YARN ： http://hadoop05:8088

疑惑： fs.defaultFS = hdfs://hadoop02:9000

解答：客户单访问HDFS集群所使用的URL地址

同时，HDFS提供了一个web管理界面端口：50070

HDFS界面

点击Datanodes可以查看四个节点

YARN界面

点击Nodes可以查看节点

回到顶部
Hadoop的简单使用
创建文件夹
在HDFS上创建一个文件夹/test/input

[hadoop@hadoop1 ~]$ hadoop fs -mkdir -p /test/input
查看创建的文件夹
复制代码
[hadoop@hadoop1 ~]$ hadoop fs -ls /
Found 1 items
drwxr-xr-x - hadoop supergroup       0 2018-03-03 11:33 /test
[hadoop@hadoop1 ~]$ hadoop fs -ls /test
Found 1 items
drwxr-xr-x - hadoop supergroup       0 2018-03-03 11:33 /test/input
[hadoop@hadoop1 ~]$
复制代码

上传文件
创建一个文件words.txt

[hadoop@hadoop1 ~]$ vi words.txt
hello zhangsan
hello lisi
hello wangwu
上传到HDFS的/test/input文件夹中

[hadoop@hadoop1 ~]$ hadoop fs -put ~/words.txt /test/input
查看是否上传成功

[hadoop@hadoop1 ~]$ hadoop fs -ls /test/input
Found 1 items
-rw-r--r-- 2 hadoop supergroup       39 2018-03-03 11:37 /test/input/words.txt
[hadoop@hadoop1 ~]$

下载文件
将刚刚上传的文件下载到~/data文件夹中

[hadoop@hadoop1 ~]$ hadoop fs -get /test/input/words.txt ~/data
查看是否下载成功

[hadoop@hadoop1 ~]$ ls data
hadoopdata  words.txt
[hadoop@hadoop1 ~]$

运行一个mapreduce的例子程序： wordcount
[hadoop@hadoop1 ~]$ hadoop jar ~/apps/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /test/input /test/output

在YARN Web界面查看

查看结果

复制代码
[hadoop@hadoop1 ~]$ hadoop fs -ls /test/output
Found 2 items
-rw-r--r-- 2 hadoop supergroup       0 2018-03-03 11:42 /test/output/_SUCCESS
-rw-r--r-- 2 hadoop supergroup       35 2018-03-03 11:42 /test/output/part-r-00000
[hadoop@hadoop1 ~]$ hadoop fs -cat /test/output/part-r-00000
hello 3
lisi 1
wangwu 1
zhangsan 1
[hadoop@hadoop1 ~]$
复制代码

admin · 发表于 2022-11-11 16:30:05

5.1 配置hadoop-env.sh
给hadoop配置Java路径，三个节点都需要配置，但无需每台去设置，因为后面会把整个/opt/hadoop-3.1.2/etc/hadoop拷贝到另外两个dn节点

[root@nn hadoop]# pwd
/opt/hadoop-3.1.2/etc/hadoop
vi hadoop-env.sh
export JAVA_HOME=/opt/jdk1.8.0_161

5.2 core-site.xml
<configuration>

<property>
      <name>fs.defaultFS</name>
      <value>hdfs://nn:9000</value>
</property>


<property>
      <name>hadoop.tmp.dir</name>
      <value>/opt/hadoop-3.1.2/tmp</value>
</property>
</configuration>

13
5.2 hdfs-site.xml
<configuration>
<!-把dn2 设为secondary namenode，端口不能缺少 -->
      <property>
               <name>dfs.namenode.secondary.http-address</name>
               <value>dn2:50090</value>
      </property>

<property>
      <name>dfs.namenode.name.dir</name>
      <value>/opt/hadoop-3.1.2/namenode</value>
</property>


<property>
      <name>dfs.datanode.data.dir</name>
      <value>/opt/hadoop-3.1.2/datanode</value>
</property>


<property>
      <name>dfs.replication</name>
      <value>3</value>
</property>

</configuration>

5.3 mapred-site.xml

<configuration>

<property>
      <name>mapreduce.framework.name</name>
      <value>Yyarn</value>
</property>


<property>
<name>mapreduce.jobhistory.address</name>
<value>dn1:10020</value>
</property>

  
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>dn1:19888</value>
</property>

  
<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>/history/done</value>
</property>

<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/history/done_intermediate</value>
</property>

  

<property>
      <name>Yyarn.app.mapreduce.am.env</name>
      <value>HADOOP_MAPRED_HOME=/opt/hadoop-3.1.2</value>
</property>

<property>
      <name>mapreduce.map.env</name>
      <value>HADOOP_MAPRED_HOME=/opt/hadoop-3.1.2</value>
</property>

<property>
      <name>mapreduce.reduce.env</name>
      <value>HADOOP_MAPRED_HOME=/opt/hadoop-3.1.2</value>
</property>

</configuration>

5.4 yarn-site.xm;
<configuration>


<property>
      <name>yarn.resourcemanager.hostname</name>
      <value>dn1</value>
</property>


<property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
</property>

</configuration>

5.5 workers
三个节点都设为datanode，当然也生产环境中，负责数据物理文件存储DD不要跟DN放在同一台服务器

[root@nn hadoop-3.1.2]# vi etc/hadoop/workers
nn
dn1
dn2

5.6 设置start-dfs.sh 和 stop-dfs.sh
在/opt/hadoop-3.1.2/sbin/start-dfs.sh 文件开头

[root@nn hadoop-3.1.2]# vi sbin/start-dfs.sh
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

5.7 设置start-yarn.sh 和 stop-yarn.sh
都是在文件开头处添加

[root@nn hadoop-3.1.2]# vi sbin/start-yarn.sh
yarn_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
yarn_NODEMANAGER_USER=root

5.8 将hadoop包添加到linux环境变量，三个节点都需要加这个hadoop环境设置
vi /etc/profile
export HADOOP_HOME=/opt/hadoop-3.1.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

直接将以上的配置文件所在目录拷贝到另外两个节点上，避免繁琐配置

[root@nn hadoop-3.1.2]# scp -r /opt/hadoop-3.1.2/etc/hadoop/ dn1:/opt/hadoop-3.1.2/etc/

[root@nn hadoop-3.1.2]# scp -r /opt/hadoop-3.1.2/sbin dn1:/opt/hadoop-3.1.2/

5.9 初始化hadoop文件系统
因为nn是作为namenode管理节点，因此只需在nn节点进行相应的格式化

[root@nn bin]# pwd
/opt/hadoop-3.1.2/bin
[root@nn bin]# hdfs namenode -format
****
*** INFO common.Storage: Storage directory /opt/hadoop-3.1.2/namenode has been successfully formatted.
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at nn/192.188.0.4

以上说明namenode格式化成功

6 启动hadoop服务
6.1 在namenode上启动服务
一键启动所有：如果使用start-all.sh，表示把集群的所有配置的服务都启动，它会调用start-dfs.sh和start-yarn.sh

单个节点启动：使用start-dfs.sh和start-yarn.sh，这里要注意，比如nn节点是作为namenode节点，那么在nn节点执行start-dfs.sh，无需执行start-yarn.sh

网上绝大部分教程会教你用start-all.sh启用集群服务，但这不是官方的推荐方式，个人推荐在每个节点启动相应服务

nn节点：NameNode,Datanode,NodeManager，只需运行start-dfs.sh

[root@nn ~]# start-dfs.sh

dn1节点：DataNode,ResourceManager,NodeManager，因为需要使用yarn服务，且作为ResourceManager节点（本身也是NodeManager）,需运行start-yarn.sh

此外：dn1节点还是作为yarn主节点的JobHistoryServer服务，还需通过命令mapred --daemon start historyserver启动之，启动JobHistoryServer后，可以在yarn的web服务直观查看每个job的运行历史，后面会给截图

[root@dn1 ~]# start-yarn.sh
[root@dn1 sbin]# pwd
/opt/hadoop-3.1.2/sbin
[root@dn1 sbin]# mapred --daemon start historyserver

dn2节点：DataNode,Secondarynode,NodeManager，因为nn节点的hdfs-site.xml已经配置了dn2节点作为sn节点，那么nn节点启动服务时，就已经自动在dn2节点启动了Secondarynode进程。

查看各个节点服务进程：

[root@nn ~]# jps
9957 NameNode
10553 Jps
10092 DataNode
10430 NodeManager

[root@dn1 ~]# jps
31792 DataNode
32133 NodeManager
32492 Jps
31998 ResourceManager
17428 JobHistoryServer

[root@dn2 ~]# jps
31105 NodeManager
30898 DataNode
31235 Jps
31005 SecondaryNameNode

也可通过查看web服务来确认NameNode服务和yarn服务

		自动登录	找回密码
密码			注册