对于集群来说，什么是客户端

可以理解为：
   客户端是一台可以去访问集群，向集群发送/获取数据文件，可以执行分布式作业的机器(服务器)。
   客户端就像是一个抓手。
  
在Hadoop和Spark(或者mapreduce，或者storm)集群搭建好了之后，
如果我们需要向集群中发送、获取文件，或者执行MapReduce、Spark作业，
我们的做法通常是搭建一个外围的、集群的客户端，在这个客户端上进行操作。
而不是直接在集群的NameNode或者DataNode上进行。
此时，集群和客户端的结构如下图（简化图，没有考虑NameNode的高可用），本文将介绍如何快速搭建一个集群客户端（有时也叫gateway）。
下图就是hadoop集群和客户端的结构。
复制代码

 在上图的网络配置方面，可以遵循集群仅开放内网访问(因为集群内的服务器一般不需要同外部环境有交流)，
 而客户端开放外网访问，所有对集群的访问和管理，均通过客户端来完成。
 
复制代码

配置集群客户端的步骤

<1>配置hosts

客户端的主机名是dc1（DataClient1的缩写，192.168.0.150），
Hadoop集群中的NameNode主机名hadoop01（192.168.0.34）。

首先配置hosts让两台机器相互“认识”一下：
    修改dc1的hosts，把hadoop001添加进去，这样客户端就认识了namenode节点
    #vim /etc/hosts
    添加：192.168.0.34 hadoop01
    
    
    修改hadoop01的hosts，把客户端添加进去，这样namenode就认识了客户端了。
    #vim /etc/hosts
    添加：192.168.0.150 dc1

当数据中心的服务器很多时，配置hosts可能不够方便，此时可以部署一台DNS（Domain Name Service）服务器，用于解析主机名。
复制代码