SPARK基础4(DataFrame操作)
admin
2023-08-16 05:02:11
0

【SPARK基础4(DataFrame操作)】在上文《SPARK基础2(读入文件、转临时表、RDD与DataFrame)》中,我们简单介绍了spark中的DataFrame,我们知道了spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。在本文中我们主要介绍,DataFrame基本API常用操作。
查看数据

// 默认只显示20条 commodityDF.show() // 是否最多只显示20个字符,默认为true commodityDF.show(false) // 完整查看10条数据 commodityDF.show(10, false) // 取前n行数据, 和take与head不同的是,limit方法不是Action操作。 commodityDF.limit(5).show(false)

加载数据到数组
// 将数据加载到集合里面 commodityDF.collect().foreach(println) // 和collect类似,只不过转换成list commodityDF.collectAsList()

获取指定字段的统计信息
// 获取指定字段的统计信息count, mean, stddev, min, max 返回的还是Dataframe commodityDF.describe("price", "yprice").show(false) // 遍历每个统计信息 commodityDF.describe("price", "yprice").collect().foreach(println) // 取0行的 "count" 数据 println(commodityDF.describe("price", "yprice").collect()(0))

去重
// 去除一行数据完全相同的 println(df.distinct().count()) // 删除指定字段存在相同的数据 println(df.dropDuplicates(Seq("price", "yprice")).count())

获取n行数据
// 获取第一行数据 println(commodityDF.first()) println(commodityDF.head()) // 获取前5条数据 commodityDF.head(5).foreach(println) commodityDF.take(5).foreach(println) // 以行数据list返回 commodityDF.takeAsList(5)

条件查询
// where和filter方法和SQL的where后面的语句一样 commodityDF.where("price>100 or yprice<200").show() commodityDF.filter("price>100 or yprice<200").show()

选取字段
// 选取 name ,price字段 commodityDF.select("name", "price").show(5, false) // 对price字段的数据都+100 commodityDF.select(commodityDF("name"), commodityDF("price") + 100).show(5) // 对指定字段进行特殊处理; price字段重名名为 p, 对price取四舍五入 commodityDF.selectExpr("name", "price as p", "round(price)").show(10) // 只获取单个字段 val name = commodityDF.col("name") val parice = commodityDF.apply("price")

删除指定字段
// 删除指定字段 price val c1 = commodityDF.drop("price") val c2 = c1.drop(c1("yprice")) c2.show(5)

排序
// 降序排序 commodityDF.orderBy(-commodityDF("price")).show(5) commodityDF.orderBy(commodityDF("price").desc).show(5) // 升序排序 commodityDF.orderBy("price").show(5) commodityDF.orderBy(commodityDF("price")).show(5) //多列排序 df.sort(df.age.desc(), df.name.asc()).show()

分组
// 对字段数据分组, 再对分组后的数据处理 count max mean sum agg commodityDF.groupBy("degree").count().show(5) commodityDF.groupBy(commodityDF("degree")).count().show(5) commodityDF.groupBy(commodityDF("degree")).max("price", "yprice").show(5)

agg聚合
// 聚合agg一般和group by一起使用 commodityDF.agg("price" -> "max", "yprice" -> "sum").show() // 对degree分组然后取 price字段的最大值和downNum的平均值 commodityDF.groupBy("degree").agg("price" -> "max", "downNum" -> "mean").show()

join
// 组合数据DF val df1 = commodityDF.limit(5) val df2 = commodityDF.limit(10) val df3 = commodityDF.filter("id>5 and id<11") // 只有id字段相同的才会横向组合 inner df1.join(df2, "id").show() df1.join(df2, df1("id") === df2("id")).show() df1.join(df2, df1("id") === df2("id"), "inner").show() // 根据 id和name两个字段join df2.join(df3, Seq("id", "name")).show()Leaddetails.join( Utm_Master, Leaddetails("LeadSource") <=> Utm_Master("LeadSource") && Leaddetails("Utm_Source") <=> Utm_Master("Utm_Source") && Leaddetails("Utm_Medium") <=> Utm_Master("Utm_Medium") && Leaddetails("Utm_Campaign") <=> Utm_Master("Utm_Campaign"), "left" )

重命名
// 重命名字段名,如果指定的字段名不存在,不进行任何操作 commodityDF.limit(5).show() commodityDF.withColumnRenamed("name", "reName").limit(5).show() df.select(df.name.alias("username"),df.age).show()

添加字段
// 往当前DataFrame中新增一列 commodityDF.withColumn("newCol", commodityDF("name")).show()

上一篇:冬日之霜

下一篇:梦归处

相关内容

热门资讯

超... 本文目录导航: 超级云计算是什么 怎么做难看的PPT 1、...
谢... 本文目录导航: 请问云主机是什么 云主机有什么好处 具体的教程,谢谢! 云...
w... 本文目录导航: wps是什么意思 ppt的新配置designer和morp...
大... 本文目录导航: 大专学什么专业务工率高? 未来十年务工率最高的几大专业都是...
软... 本文目录导航: 软件技术专升本可以报什么专业 云计算专升本可以报医学吗 ...
云... 本文目录导航: 云计算务工前景 云计算务工方向及前景怎样样 ...
学... 本文目录导航: 学云计算进去无能嘛 云计算技术与运行是干什么的 ...
中... 本文目录导航: 如何了解云计算,中国的云计算产业开展现状如何 云计算未来几...
云... 本文目录导航: 云计算1+x证书含金量 云计算须要考什么证书 ...
云... 本文目录导航: 云计算股票龙头股票有哪些? 普通云计算概念龙头股有哪些?...
大... 本文目录导航: 大专云计算技术运行务工方向 大专毕业证上是物联网,实践学习...
大... 本文目录导航: 大数据云计算有必要升本吗 内蒙古大专云计算技术与运行专业升...
9... 本文目录导航: 99%学霸假期逆袭必看网站 99%学霸假期逆袭必看网站 ...
云... 本文目录导航: 云计算属于哪个专业 云计算属于什么专业 计...
计... 本文目录导航: 计算机二级MSOffice上机操作题及答案 想做一篇关于解...
A... 本文目录导航: AI能否会彻底扭转上流职业市场,如律师、会计师和医师? A...
人... 本文目录导航: 人工智能芯片产业链有哪些? 更多本行业钻研剖析详见前瞻产业...
人... 本文目录导航: 人工智能会带来哪些风险? 或许有一天,人工智能机器人将取代...
a... 本文目录导航: ai智能写作软件哪个好 ai智能写作软件有哪些?ai智能对...
自... 本文目录导航: 自考本科计算机专业难吗 自考计算机专业须要考哪些科目 ...