更新時(shí)間:2021年11月01日10時(shí)54分 來(lái)源:傳智教育 瀏覽次數(shù):
SparkSQL不僅能夠查詢(xún)MySQL數(shù)據(jù)庫(kù)中的數(shù)據(jù),還可以向表中插人新的數(shù)據(jù),實(shí)現(xiàn)方式的具體代碼如文件4-5所示。
文件4-5 SparkSqlToMysql.scala
import java.util.Properties import org.apachen.spark.rdd.RDD import org.apache.spark.sq1.{DataFrame, SparkSession} //創(chuàng)建樣例類(lèi)Person case class Person (id: Int, name:String,age: Int) object SparkSqlToMysql { def main(args:ArrayL String]): Unit ={ //1.創(chuàng)建sparkSession對(duì)象 val spark: SparkSession=sparksession.builder() .appNamne("SparksqIToMysql") .master("local[2]") . getOrCreate() //2.創(chuàng)建數(shù)據(jù) val data=spark.sparkContext .patgoarrav("3,wangwu,22","4,zhaoliu,26")) //3.按MySQL列名切分?jǐn)?shù)據(jù) val arRRD:RRD[Arey[String]] =data.map(_.split(",")") //4.RDD關(guān)聯(lián)Person樣例類(lèi) val personRDD:RDD[Person]= arrRDD.map(x=>Person(x(0).toInt,x(1),x(2).toInt). //導(dǎo)人隱式轉(zhuǎn)換 import spark.implicits_ //5.將RDD轉(zhuǎn)換成DataFrame val personDF:DataFrame=personRDD.toDF() //6.設(shè)置JDBC配置參數(shù) val prop =new Properties() prop.setProperty("user","root") prop.setProperty("password","123456") prop.setProperty("driver","com.mysql.jdbc.Driver") //7.寫(xiě)入數(shù)據(jù) personDF.write.mode("append").jdbc( "jdbc:mysql://192.168.121.134:3306/spark","spark.person",prop) personDF.show() } }
在文件4-5中,第5行代碼首先創(chuàng)建case class Person樣例類(lèi);第9~ 12行代碼用來(lái)創(chuàng)建SparkSession對(duì)象;第14~15行代碼則通過(guò)spark.SparkContext.parallelize( )方法創(chuàng)建一個(gè)RDD,該RDD值表示兩個(gè)person數(shù)據(jù);第17~24行代碼表示將數(shù)據(jù)按照逗號(hào)切分并匹配case class Person中的字段用于轉(zhuǎn)換成DataFrame對(duì)象;第26~29行代碼表示設(shè)置JDBC配置參數(shù),訪問(wèn)MySQL數(shù)據(jù)庫(kù);第31行代碼personDF. write. mode()方法表示設(shè)置寫(xiě)人數(shù)據(jù)方式,該參數(shù)append是一個(gè)枚舉類(lèi)型,枚舉參數(shù)分別有append、overwriteerrorIfExistsignore4個(gè)值,分別表示為追加、覆蓋、表如果存在即報(bào)錯(cuò)(該值為默認(rèn)值)、忽略新保存的數(shù)據(jù)。
運(yùn)行文件4-5中的代碼,返回sQLyog工具查看當(dāng)前數(shù)據(jù)表,數(shù)據(jù)表內(nèi)容如圖4-7所示。
什么是Spark SQL?Spark SQL簡(jiǎn)介
Mongodb和MySQL存儲(chǔ)爬蟲(chóng)數(shù)據(jù)的特點(diǎn)是什么?
北京校區(qū)