Spark优化

Spark优化

Spark 性能优化分析

  • Spark的性能优化,主要手段包括
    1. 使用高性能序列化类库,如使用kryo来代替java序列化
    2. 优化数据结构(算子函数内部使用到的局部数据或者算子函数外部的数据都可以进行数据结构的优化,优化以后,都会减少对内存的消耗和占用。)
    3. 对多次使用的RDD进行持久化/Checkpoint,避免后面使用需要重复计算,降低性能
    4. 使用序列化的持久化级别
    5. Java虚拟机垃圾回收优化
    6. 提高并行度
    7. 广播共享数据
    8. 数据本地化
    9. reduceByKey和groupByKey的适当使用
    10. Shuffle调优

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×