新一代大数据引Flink(一)——简单介绍

新一代大数据引Flink(一)——简单介绍

Flink简介

  • Apache Flink 是一个开源的分布式、高性能、高可用、准确的流处理框架。
  • 支持实时流(Stream)处理和批(Batch)处理,批处理是流处理的一个极限特例。
  • Flink原生支持迭代计算、内存管理和程序优化。

flink_architecture

Flink基本组件

flink_partitions

Flink的流处理和批处理详解

  • 在大数据领域,批处理任务和流处理任务一般被认为是两种不同的任务,一个大数据框架一般会被设计为只能处理其中一个任务。
    • Storm仅支持流处理任务,MapReduce、Spark只支持批处理任务。Spark Streaming是Apache Spark上一个支持流处理的子系统,Spark Streaming采用了一种micro-batch的架构,即把输入的数据流切分成细粒度的batch,并为每一个batch数据提交一个批处理的Spark任务,所有Spark Streaming本质上还是基于Spark批处理系统对流式数据进行处理,和Storm等完全流式的数据处理方式完全不同。
  • Flink通过灵活的执行引擎,能够同时支持批处理任务与流处理任务。

Flink应用场景分析

flink_application_scenario

  • 优化电商网站的实时搜索结果
    • 阿里巴巴所有基础团队使用Flink实时更新产品细节和库存信息(Blink)。
  • 针对数据分析团队提供实时流处理服务
    • 通过Flink数据分析平台实时提供数据分析服务,即使发现问题。
  • 网络/传感器检测和错误检测
    • Bouygues电信公司,法国最大电信供应商之一使用Flink监控其有线和无线网络,实现快速故障响应。
  • 商业智能分析ETL
    • Zalando使用Flink转换数据以便加载到数据仓库,将复杂的转换操作转化为相对简单的并确保分析终端用户可以更快的访问数据(实时ETL)

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×