性能调优之在实际项目中分配更多资源
|
|
性能调优之在实际项目中调节并行度
|
|
性能调优之在实际项目中重构RDD架构以及RDD持久化
首先避免第二种情况(上上图红圈2),优化成第一种情况 然后在第一种情况的基础上去持久化RDD
性能调优之在实际项目中广播大变量
性能调优之在实际项目中使用Kryo序列化
性能调优之在实际项目中使用fastutil优化数据格式
|
|
性能调优之在实际项目中调节数据本地化等待时长
这一节印象不是很深
我理解这个调优的点在于:好的本地化级别,就像是进程间的本地化级别,它计算起来性能高,没错。但是我可能整个集群资源不是很富裕,可能80%的情况都不是task和数据处在同一进程的情况,那这个时候spark.locality.wait.process
就可以设短一点,因为大部分情况你等不到嘛,那你何苦再花时间去尝试走捷径呢(捷径大概率不存在啊)