大数据框架Hadoop(四)-MapReduce1

MapReduce概述

  • MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。
  • MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立程序,有很多节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多节点同时运行,每个节点处理一部分数据。
  • MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算。两个函数的形参和返回值都是<key,value>

大数据框架Hadoop(二)HDFS

hdfs是是一个分布式的(Distributed)文件(File)系统(System)

  • 通俗的说,hdfs是一个可以管理多台机器文件的管理系统。
  • 允许文件通过网络在多台主机上分析的文件系统,可以让多机器上的多用户分享文件和存储空间。
  • 通透性。让实际上通过网络来访问文件的动作,由程序与用户看来,就像是访问本地磁盘一样。
  • 容错。若系统中有些节点宕机,整体来说系统可以持续运作而不会有数据损失(通过副本机制实现)
  • 分布式文件管理系统(hdfs,S3,GFS等)很多,hdfs只是其中一种,hdfs不适合存储小文件。

大数据框架Hadoop(一)

Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

Hadoop特点

  • 扩容能力:可以横向扩容
  • 成本低:普通机器就可以组件集群
  • 高效率:分发计算到数据节点
  • 可靠性:数据多副本,失败后可自动恢复.
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×