大数据3-MapReduce

Hadoop的文字简介

  • Hadoop是Apache的一个开源的分布式计算平台,以HDFS分布式文件系统和MapReduce分布式计算 框架为核心,为用户提供了一套底层透明的分布式基础设施
  • Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce 提供了对数据的计算。
  • Hadoop框架中最核心的设计就是: HDFS 和MapReduce
    • HDFS是Hadoop分布式文件系统,具有高容错性、高伸缩性,允许用户基于廉价硬件部署,构建分布式存储系统,为分布式计算存储提供了底层支持
    • MapReduce提供简单的API,允许用户在不了解底层细节的情况下,开发分布式并行程序,利用大 规模集群资源,解决传统单机无法解决的大数据处理问题
    • 设计思想起源于Google GFS、MapReduce Paper
  • Doug Cutting在Yahoo开发,2008年贡献给Apache基金会

Hadoop核心项目

HDFS

HDFS: Hadoop Distributed File System分布式文件系统

MapReduce

MapReduce:编程模型和并行计算框架

MRv1

第一代MapReduce。它由两部分组成:

  • 编程模型
  • 运行时环境(计算框架)

设计的目的:

  • 主要解决搜索引擎面临的海量数据处理扩展性差的问题
  • 易于编程,简化分布式程序设计,用户只需专注于自己的应用程序逻辑实现

MRv1编程模型

编程模型:多线程编程模型

image.png

  • 并行处理
  • 数据共享
  • 需要通过锁协调
  • 写操作复杂

编程模型:数据驱动型编程模型

image.png

  • 通过到达的数据触发
  • 处理单元之间禁止数据共享
  • 不需要通过锁做协调

编程模型:MapReduce编程模型

image.png

  • 特殊的数据驱动型
  • 分为map和reduce两个阶段
  • 并发只在同一个作业中发生
  • 不同作业的数据访问不需要协调
© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享