消息关闭
    暂无新消息!

Spark 作业指定 partion数量大于实际Block 数量时,数据如何分布?


1个回答

︿ 0

Partition只是一个抽象的数据集。实际数据存储在Block上,Block存储方式、副本数由persist(StorageLevel)决定。目前Spark默认使用的分区器是org.apache.spark.RangePartitioner。