弹性分布式数据集 RDD及常用算子( 四 ) _生活百科

cartesian：转换算子，可以对两个RDD做笛卡尔积def main(args: Array[String]): Unit = {/*** cartesian：转换算子，可以对两个RDD做笛卡尔积** 当数据重复时很容易触发笛卡尔积造成数据的膨胀*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo14cartesian")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val idNameKVRDD: RDD[(String, String)] = sc.parallelize(List(("001", "zs"), ("002", "ls"), ("003", "ww")))val genderAgeKVRDD: RDD[(String, Int)] = sc.parallelize(List(("男", 25), ("女", 20), ("男", 22)))idNameKVRDD.cartesian(genderAgeKVRDD).foreach(println)}sortBy：转换算子可以指定一个字段进行排序默认升序def main(args: Array[String]): Unit = {/*** sortBy：转换算子可以指定一个字段进行排序默认升序*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo15sortBy")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val intRDD: RDD[Int] = sc.parallelize(List(1, 3, 6, 5, 2, 4, 6, 8, 9, 7))intRDD.sortBy(i => i).foreach(println) // 升序intRDD.sortBy(i => -i).foreach(println) // 降序intRDD.sortBy(i => i, ascending = false).foreach(println) // 降序val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")// 按照年龄进行降序stuRDD.sortBy(s => -s.split(",")(2).toInt).foreach(println)}常见的Action算子def main(args: Array[String]): Unit = {/*** 常见的Action算子：foreach、take、collect、count、reduce、save相关* 每个Action算子都会触发一个job**/val conf: SparkConf = new SparkConf()conf.setAppName("Demo16Action")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")/*** foreach：对每条数据进行处理，跟map算子的区别在于，foreach算子没有返回值*/stuRDD.foreach(println)// 将stuRDD中的每条数据保存到MySQL中/*** 建表语句：* CREATE TABLE `stu_rdd` (* `id` int(10) NOT NULL AUTO_INCREMENT,* `name` char(5) DEFAULT NULL,* `age` int(11) DEFAULT NULL,* `gender` char(2) DEFAULT NULL,* `clazz` char(4) DEFAULT NULL,* PRIMARY KEY (`id`)* ) ENGINE=InnoDB DEFAULT CHARSET=utf8;*/// 每一条数据都会创建一次连接，频繁地创建销毁连接效率太低，不合适//stuRDD.foreach(line => {//val splits: Array[String] = line.split(",")//// 1、建立连接//val conn: Connection = DriverManager.getConnection("jdbc:mysql://master:3306/student?useSSL=false", "root", "123456")//println("建立了一次连接")//// 2、创建prepareStatement//val pSt: PreparedStatement = conn.prepareStatement("insert into stu_rdd(id,name,age,gender,clazz) values(?,?,?,?,?)")////// 3、传入参数//pSt.setInt(1, splits(0).toInt)//pSt.setString(2, splits(1))//pSt.setInt(3, splits(2).toInt)//pSt.setString(4, splits(3))//pSt.setString(5, splits(4))////// 4、执行SQL//pSt.execute()////// 5、关闭连接//conn.close()////})/*** take : Action算子，可以将指定条数的数据转换成Scala中的Array**/// 这里的foreach是Array的方法，不是算子stuRDD.take(5).foreach(println)/*** collect : Action算子，可以将RDD中所有的数据转换成Scala中的Array*/// 这里的foreach是Array的方法，不是算子stuRDD.collect().foreach(println)/*** count : Action算子，统计RDD中数据的条数*/println(stuRDD.count())/*** reduce : Action算子，将所有的数据作为一组进行聚合操作*/// 统计所有学生的年龄之和println(stuRDD.map(_.split(",")(2).toInt).reduce(_ + _))/*** save相关:* saveAsTextFile、saveAsObjectFile*/}【弹性分布式数据集 RDD及常用算子】

弹性分布式数据集 RDD及常用算子( 四 )

经验总结扩展阅读

抑郁症患者抑郁症：若想走向康复与强大，你必须学会与自己的灵魂对话

菠萝蜜的功效及禁忌

一月份适合去哪里旅游旅游景点告诉你

炒花蛤怎么做

出汗对痘印有改善吗对人体有哪些好处

白墙上的胶带留下印怎么去除

温州|行拘＋退学处理！温州高校深夜通报两起男生骚扰女性事件处理进展

擦眼镜怎么擦才正确

宝宝咳嗽吃什么好得快

水培铜钱草分盆分株的方法

2022年农历腊月初七开学典礼吉日 2022年12月29日适合开学典礼吗

罗兰会算命吗_啥八字的女人易被抛弃

moss时尚圈过年了！来“蹦迪”的明星们用了什么？

什么东西好吃健康不胖

福泉市的特色景点有哪些?

财运线杂乱的手相好不好

vivoT1和荣耀50哪个好_vivoT1和荣耀50参数对比

鲈鱼蒸多久就可以熟了鲈鱼蒸多长时间可以熟

许三观卖血记|活着是生命的力量，活得好是人生的态度

2023年1月9日安装门户好吗 2023年1月9日是安装门户的黄道吉日吗