SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

2024-04-02 19:04:59 958人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

目录1.使用idea开发spark sql1.1创建DataFrame/DataSet1.1.1指定列名添加Schema1.1.2StructType指定Schema1.1.3反射推

1.使用IDEA开发Spark SQL

1.1创建DataFrame/DataSet

1、指定列名添加Schema

2、通过StrucType指定Schema

3、编写样例类，利用反射机制推断Schema

1.1.1指定列名添加Schema


//导包
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
//代码
// 1.创建SparkSession
    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
// 2.使用spark 获取sparkContext 上下文对象
    val sc = spark.sparkContext
// 3.使用SparkContext 读取文件并按照空格切分 返回RDD
    val rowRDD: RDD[(Int, String, Int)] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
    import spark.implicits._
//5.将RDD 转换为DataFrame 指定元数据信息
    val dataFrame = rowRDD.toDF("id","name","age")
//6.数据展示
    dataFrame.show()

1.1.2StructType指定Schema


//导包
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
//编写代码
//1.实例SparkSession
    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
//2.根据SparkSession获取SparkContext 上下文对象
    val sc = spark.sparkContext
// 3.使用SparkContext读取文件并按照空开切分并返回元组
    val rowRDD = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Row(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
    import spark.implicits._
//5.使用StructType 添加元数据信息
    val schema = StructType(List(
      StructField("id", IntegerType, true),
      StructField("name", StringType, true),
      StructField("age", IntegerType, true)
    ))
//6.将数据与元数据进行拼接 返回一个DataFrame
    val dataDF = spark.createDataFrame(rowRDD,schema)
//7.数据展示
    dataDF.show()

1.1.3反射推断Schema


//导包
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
//定义单例对象
  case class Person(Id:Int,name:String,age:Int)
//编写代码
//1.实例sparkSession
    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()
//2.通过sparkSession获取sparkContext 上下文对象
    val sc = spark.sparkContext
//3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中
    val rowRDD: RDD[Person] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Person(x(0).toInt,x(1),x(2).toInt))
// 4.导入隐式类
    import spark.implicits._
//5.将rowRDD转换为dataFrame
    val dataFrame = rowRDD.toDF()
    //6.数据展示
    dataFrame.show()

到此这篇关于SparkSQL使用IDEA快速入门DataFrame与DataSet的文章就介绍到这了,更多相关SparkSQL快速入门内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

本文链接: https://www.lsjlt.com/news/132221.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

目录1.使用IDEA开发Spark SQL1.1创建DataFrame/DataSet1.1.1指定列名添加Schema1.1.2StructType指定Schema1.1.3反射推...

99+

2024-04-02
vue3+pinia的快速入门使用教程

目录1. pinia介绍2. 安装3. 使用1. src文件夹下新建store/index.js2. main.ts引入3.store下新建js文件，比如userInfo.js4. ...

99+

2024-04-02
Go语言快速入门指针Map使用示例教程

目录1. 指针1.1 指针地址和指针类型1.2 指针取值1.3 空指针1.4 new 的使用1.5 new与make的区别2. Map2.1 什么是Mapkey，value存储has...

99+

2024-04-02
Android中的常用尺寸单位（dp、sp）快速入门教程

常见尺寸单位Android开发中的常用尺寸单位有如下几种： dp (dip) px pt inch sp 算不知道确切含义，相信对于以上这几种尺寸单位大家也都比较脸熟，这里先让我们重新认识一下它们： dp (dip): 即设备...

99+

2023-05-31

android 尺寸单位 dp
Java快速入门掌握类与对象及变量的使用

目录类1.什么是类2.想要知道Java中类是什么3.怎么写一个类对象1.什么是对象2.创建对象的格式3.怎么使用对象中的属性4.怎么使用对象中的行为5.实例变量1.什么是局部变量2....

99+

2024-04-02
Koa2框架快速入门与基本使用的方法是什么

本篇内容介绍了“Koa2框架快速入门与基本使用的方法是什么”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！Koa2 是什么？简单来讲，它是一个...

99+

2023-07-05
快速入门Go语言异步编程：使用IDE的函数技巧。

快速入门Go语言异步编程：使用IDE的函数技巧 Go语言是一种高效的编程语言，具有强大的并发支持和高性能的特点，因此被广泛应用于分布式系统、云计算等领域。其中异步编程是Go语言的一大特色，可以大大提高程序的并发处理能力。本文将介绍如何使用I...

99+

2023-11-11

异步编程 ide 函数
react-router-dom入门使用教程(路由的模糊匹配与严格匹配)

目录模糊匹配开启严格匹配Redirect的使用嵌套路由使用模糊匹配  <NavLink to="/home/a/b">Home&...

99+

2022-11-13

react-router-dom使用 react-router-dom入门 react-router-dom