大数据框架Hadoop(四)-MapReduce1

MapReduce概述

  • MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。
  • MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立程序,有很多节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多节点同时运行,每个节点处理一部分数据。
  • MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算。两个函数的形参和返回值都是<key,value>

大数据框架Hadoop(三) HDFS的HA和联邦

hdfs 2的HA机制

  • HDFS的HA,指的是在一个集群中存在两个NameNode,分别运行在独立的物理节点上。在任何时间点,只有一个NameNode是处于Active状态,另一种是standby状态。Activite NameNode负责所有客户端操作,而standby NameNode用来同步Active NameNode的状态信息来提高快速的故障恢复能力。

大数据框架Hadoop(二)HDFS

hdfs是是一个分布式的(Distributed)文件(File)系统(System)

  • 通俗的说,hdfs是一个可以管理多台机器文件的管理系统。
  • 允许文件通过网络在多台主机上分析的文件系统,可以让多机器上的多用户分享文件和存储空间。
  • 通透性。让实际上通过网络来访问文件的动作,由程序与用户看来,就像是访问本地磁盘一样。
  • 容错。若系统中有些节点宕机,整体来说系统可以持续运作而不会有数据损失(通过副本机制实现)
  • 分布式文件管理系统(hdfs,S3,GFS等)很多,hdfs只是其中一种,hdfs不适合存储小文件。

大数据框架Hadoop(一)

Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

Hadoop特点

  • 扩容能力:可以横向扩容
  • 成本低:普通机器就可以组件集群
  • 高效率:分发计算到数据节点
  • 可靠性:数据多副本,失败后可自动恢复.

新一代大数据引Flink(一)——简单介绍

Flink简介

  • Apache Flink 是一个开源的分布式、高性能、高可用、准确的流处理框架。
  • 支持实时流(Stream)处理和批(Batch)处理,批处理是流处理的一个极限特例。
  • Flink原生支持迭代计算、内存管理和程序优化。

大数据框架概念初级整合

Hadoop

  • Hadoop是一个适合海量数据的分布式存储和分布式计算平台。

  • Hadoop由HDFS,Map Reduce,Yarn三大组件组成。

    • HDFS是一个分布式文件系统
    • MapReduce是一个海量数据计算框架
    • Yarn是一个资源管理和任务调度框架

zookeeper介绍

zookeeper

  • Zookeeper是一个分布式协调服务。
  • 分布式应用程序可以基于zookeeper实现同步服务,配置维护和命名服务等。
  • zookeeper可以保证数据在zookeeper集群之间的数据的事务性一致。

impala

Impala

  • impala是参照谷歌新三篇论文Dremel的开源实现。Impala是Cloudera公司主导开发并开源。基于Hive并使用内存进行计算,兼顾数据仓库,具有实时、批处理、多并发等优点。是使用CDH的首选PB级大数据实时查询(OLAP)分析引擎。有测试表明,Impala的性能较Hive提高了3~90倍。

Python基础— 文件读写模式

Python2.7 文件读写模式简单介绍

ELK全量日志查询浅析

ELK 全量日志查询项目

需求由来

1. 开发人员不能登录线上服务器查看详细日志,经过运维周转费时费力
2. 日志散落在多个系统上,难以查找和整合。
3. 日志数量巨大,查询速度太慢,难以满足需求。
4. 无法全局掌握项目运行情况
5. 日志数据查询不够实时
6. 数据分析人员不会写代码,无法分析统计数据。
7. .......
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×