对于集群来说,什么是客户端
可以理解为:
客户端是一台可以去访问集群,向集群发送/获取数据文件,可以执行分布式作业的机器(服务器)。
客户端就像是一个抓手。
在Hadoop和Spark(或者mapreduce,或者storm)集群搭建好了之后,
如果我们需要向集群中发送、获取文件,或者执行MapReduce、Spark作业,
我们的做法通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。
而不是直接在集群的NameNode或者DataNode上进行。
此时,集群和客户端的结构如下图(简化图,没有考虑NameNode的高可用),本文将介绍如何快速搭建一个集群客户端(有时也叫gateway)。
下图就是hadoop集群和客户端的结构。
复制代码
在上图的网络配置方面,可以遵循集群仅开放内网访问(因为集群内的服务器一般不需要同外部环境有交流),
而客户端开放外网访问,所有对集群的访问和管理,均通过客户端来完成。
复制代码
配置集群客户端的步骤
<1>配置hosts
客户端的主机名是dc1(DataClient1的缩写,192.168.0.150),
Hadoop集群中的NameNode主机名hadoop01(192.168.0.34)。
首先配置hosts让两台机器相互“认识”一下:
修改dc1的hosts,把hadoop001添加进去,这样客户端就认识了namenode节点
#vim /etc/hosts
添加:192.168.0.34 hadoop01
修改hadoop01的hosts,把客户端添加进去,这样namenode就认识了客户端了。
#vim /etc/hosts
添加:192.168.0.150 dc1
当数据中心的服务器很多时,配置hosts可能不够方便,此时可以部署一台DNS(Domain Name Service)服务器,用于解析主机名。
复制代码
<2>配置ssh免密登录
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END