Spark|Spark aggregateByKey 算子详解
admin
2023-08-16 20:15:38
0

aggregateByKey

def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)]

  • zeroValue: 初始值,每个分区中,同一种key,只用一次初始值,第一个值和zeroValue的结果,用于对应key的剩余值计算;初始值不参与combOp的计算
  • seqOp: 区间内计算,每个分区中,同一种key的value进行操作
  • combOp: 区间之间计算,各个分区得到的结果,与其他分区相同key的value结果进行操作
  • RDD[(K, U)]:返回值类型,有多少个不同的key,肯定就有多少个(k,U)
    示例:
//将数据分成4个分区 var z=sc.makeRDD(List(("a",1),("b",2),("a",2),("a",3),("b",0),("c",1),("c",2),("c",9)),4) //查看每个分区的数据 z.glom.collect // Array[Array[(String, Int)]] = Array(Array((a,1), (b,2)), Array((a,2), (a,3)), Array((b,0), (c,1)), Array((c,2), (c,9))) z.aggregateByKey(0)(Math.max(_,_),_+_).collect //Array[(String, Int)] = Array((a,4), (b,2), (c,10))

结果分析:
第一分区:Array((a,1), (b,2))
第二分区:Array((a,2), (a,3))
第三分区:Array((b,0), (c,1))
第四分区:Array((c,2), (c,9))
  1. 初始值0先和第一个分区进行计算,第一个分区不同的key有两个,分别为a和b,所以初始值0会被a和b分别使用一次;对于a:max(0,1),结果为1,对于b:max(0,2),结果为2;第一个分区结束,结果为(a,1)(b,2)
  2. 初始值和第二个分区进行计算,由于第二个分区的key只有a,所以初始值0只使用1次,对于a:
    max(0,2)得到2,然后2再和(a,3)求最大值,(2,3)得到3;第二个分区结束,结果为(a,3)
  3. 剩下两个分区以此类推,结果分别为:
    第三分区:(b,0), (c,1)
    第四分区: (c,9)
  4. 每个区计算结束,然后对各个区间,相同的key进行计算,采用函数_+_
  5. 第一分区的(a,1)和第二分区的(a,3)进行_+操作,得到(a,4);第一分区的(b,2)和第三分区的(b,0)进行+操作,得到(b,2); 第三分区的(c,1)和第四分区的(c,9)进行+_操作,得到(c,10)
  6. 将这三个结果进行返回,得到Array[(String, Int)] = Array((a,4), (b,2), (c,10))
    备注:如果分区只有1个,那么combOp就不会执行啦
var z=sc.makeRDD(List(("a",1),("b",2),("a",2),("a",3),("b",0),("c",1),("c",2),("c",9)),1) //由于只有一个分区,所以_*_没执行 z.aggregateByKey(1)(_+_,_*_).collect// Array((a,7), (b,3), (c,13))

【Spark|Spark aggregateByKey 算子详解】补充:用aggregateByKey进行wordCount
var z=sc.makeRDD(List(("a",1),("b",1),("a",1),("a",1),("b",1),("c",1),("c",1),("c",1)),1) //几个分区不重要 z.aggregateByKey(0)(_+_,_+_).collect//Array((a,3), (b,2), (c,3))

相关内容

热门资讯

超... 本文目录导航: 超级云计算是什么 怎么做难看的PPT 1、...
谢... 本文目录导航: 请问云主机是什么 云主机有什么好处 具体的教程,谢谢! 云...
w... 本文目录导航: wps是什么意思 ppt的新配置designer和morp...
大... 本文目录导航: 大专学什么专业务工率高? 未来十年务工率最高的几大专业都是...
软... 本文目录导航: 软件技术专升本可以报什么专业 云计算专升本可以报医学吗 ...
云... 本文目录导航: 云计算务工前景 云计算务工方向及前景怎样样 ...
学... 本文目录导航: 学云计算进去无能嘛 云计算技术与运行是干什么的 ...
中... 本文目录导航: 如何了解云计算,中国的云计算产业开展现状如何 云计算未来几...
云... 本文目录导航: 云计算1+x证书含金量 云计算须要考什么证书 ...
云... 本文目录导航: 云计算股票龙头股票有哪些? 普通云计算概念龙头股有哪些?...
大... 本文目录导航: 大专云计算技术运行务工方向 大专毕业证上是物联网,实践学习...
大... 本文目录导航: 大数据云计算有必要升本吗 内蒙古大专云计算技术与运行专业升...
9... 本文目录导航: 99%学霸假期逆袭必看网站 99%学霸假期逆袭必看网站 ...
云... 本文目录导航: 云计算属于哪个专业 云计算属于什么专业 计...
计... 本文目录导航: 计算机二级MSOffice上机操作题及答案 想做一篇关于解...
A... 本文目录导航: AI能否会彻底扭转上流职业市场,如律师、会计师和医师? A...
人... 本文目录导航: 人工智能芯片产业链有哪些? 更多本行业钻研剖析详见前瞻产业...
人... 本文目录导航: 人工智能会带来哪些风险? 或许有一天,人工智能机器人将取代...
a... 本文目录导航: ai智能写作软件哪个好 ai智能写作软件有哪些?ai智能对...
自... 本文目录导航: 自考本科计算机专业难吗 自考计算机专业须要考哪些科目 ...