弹性分布式数据集 RDD及常用算子( 二 ) _生活百科

filter:转换算子def main(args: Array[String]): Unit = {/*** filter:转换算子* 用于过滤数据，需要接受一个函数f* 函数f：参数只有一个，类型为RDD中每一条数据的类型 => 返回值类型必须为Boolean* 最终会基于函数f返回的Boolean值进行过滤，得到一个新的RDD* 如果函数f返回的Boolean为true则保留数据* 如果函数f返回的Boolean为false则过滤数据*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo05filter")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val seqRDD: RDD[Int] = sc.parallelize(1 to 100, 4)println(seqRDD.getNumPartitions) // getNumPartitions并不是算子，它只是RDD的一个属性//seqRDD.foreach(println)// 将奇数过滤出来seqRDD.filter(i => i % 2 == 1).foreach(println)// 将偶数过滤出来seqRDD.filter(i => i % 2 == 0).foreach(println)}sample：转换算子def main(args: Array[String]): Unit = {/*** sample：转换算子* 用于对数据进行取样* 总共有三个参数：* withReplacement：有无放回* fraction：抽样的比例（这个比例并不是精确的，因为抽样是随机的）* seed：随机数种子*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo06sample")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")stuRDD.sample(withReplacement = false, 0.1).foreach(println)// 如果想让每次抽样的数据都一样，则可以将seed进行固定stuRDD.sample(withReplacement = false, 0.01, 10).foreach(println)}mapValues：转换算子def main(args: Array[String]): Unit = {/*** mapValues：转换算子* 同map类似，只不过mapValues需要对KV格式的RDD的Value进行遍历处理*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo07mapValues")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val kvRDD: RDD[(String, Int)] = sc.parallelize(List("k1" -> 1, "k2" -> 2, "k3" -> 3))// 对每个Key对应的Value进行平方kvRDD.mapValues(i => i * i).foreach(println)// 使用map方法实现kvRDD.map(kv => (kv._1, kv._2 * kv._2)).foreach(println)}join:转换算子def main(args: Array[String]): Unit = {/*** join:转换算子* 需要作用在两个KV格式的RDD上，会将相同的Key的数据关联在一起*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo08join")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)// 加载学生数据，并转换成KV格式，以ID作为Key，其他数据作为Valueval stuKVRDD: RDD[(String, String)] = sc.textFile("Spark/data/students.txt").map(line => {val id: String = line.split(",")(0)// split 指定分割符切分字符串得到Array// mkString 指定拼接符将Array转换成字符串val values: String = line.split(",").tail.mkString("|")(id, values)})// 加载分数数据，并转换成KV格式，以ID作为Key，其他数据作为Valueval scoKVRDD: RDD[(String, String)] = sc.textFile("Spark/data/score.txt").map(line => {val id: String = line.split(",")(0)val values: String = line.split(",").tail.mkString("|")(id, values)})// join : 内连接val joinRDD1: RDD[(String, (String, String))] = stuKVRDD.join(scoKVRDD)//joinRDD1.foreach(println)//stuKVRDD.leftOuterJoin(scoKVRDD).foreach(println)//stuKVRDD.rightOuterJoin(scoKVRDD).foreach(println)stuKVRDD.fullOuterJoin(scoKVRDD).foreach(println)}union：转换算子，用于将两个相类型的RDD进行连接def main(args: Array[String]): Unit = {// union：转换算子，用于将两个相类型的RDD进行连接val conf: SparkConf = new SparkConf()conf.setAppName("Demo09union")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")val sample01RDD: RDD[String] = stuRDD.sample(withReplacement = false, 0.01, 1)val sample02RDD: RDD[String] = stuRDD.sample(withReplacement = false, 0.01, 1)println(s"sample01RDD的分区数：${sample01RDD.getNumPartitions}")println(s"sample02RDD的分区数：${sample02RDD.getNumPartitions}")// union 操作最终得到的RDD的分区数等于两个RDD分区数之和println(s"union后的分区数：${sample01RDD.union(sample02RDD).getNumPartitions}")val intRDD: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))//sample01RDD.union(intRDD) // 两个RDD的类型不一致无法进行union// union 等同于SQL中的union allsample01RDD.union(sample02RDD).foreach(println)// 如果要进行去重即等同于SQL中的union 则可以在 union后再进行distinctsample01RDD.union(sample02RDD).distinct().foreach(println)}


上一页
1
2
3
4
下一页
		  	


经验总结扩展阅读

           
                  
              
                  2023年1月4日制作房梁黄道吉日 2023年农历腊月十三制作房梁吉日 
                
                   
                
              
            

                  
              
                  家具品牌选哪些牌子好 十大环保品牌家具排行榜 
                
                   
                
              
            

                  
              
                  2023年5月定亲黄道吉日 2023年5月哪天适合定亲 
                
                   
                
              
            

                  
              
                  健康周谈|冬天是脑梗高发季，该如何度过？医生：做好4件事，或能安稳过冬 
                
                   
                
              
            

                  
              
                  五行缺火100分女孩名字 缺火的高分女孩名字 
                
                   
                
              
            

                  
              
                  睡美人的睡眠秘籍 
                
                   
                
              
            

                  
              
                  发型只热衷于一款发型的发型师 | 爆笑视频 
                
                   
                
              
            

                  
              
                  床垫对睡眠有什么影响 怎么挑选好床垫 
                
                   
                
              
            

                  
              
                  立冬节气特点 
                
                   
                
              
            

                  
              
                  籽字取名的寓意是什么? 
                
                   
                
              
            

                  
              
                  宝莲灯前传和宝莲灯的关系是什么? 
                
                   
                
              
            

                  
              
                  越南|中国男性和越南男性有啥区别？听听越南姑娘是怎么说的 
                
                   
                
              
            

                  
              
                  玻璃种翡翠值多少钱 
                
                   
                
              
            

                  
              
                  8月，4大星座财运大涨，横财正财偏财齐聚满堂，富贵满堂 
                
                   
                
              
            

                  
              
                  六学家什么梗？ 
                
                   
                
              
            

                  
              
                  芝兰是什么意思 芝兰的解释 
                
                   
                
              
            

                  
              
                  含笑的秋水是什么意思  含笑的秋水应该是什么意思 
                
                   
                
              
            

                  
              
                  有一句俗话：“早起的鸟儿有虫吃。|早睡早起的时间，早起的人更容易获取成功机会 
                
                   
                
              
            

                  
              
                  上颌窦真菌病65例诊治体会 
                
                   
                
              
            

                  
              
                  裸妆|看来看去，浓妆艳抹不算啥，还是裸妆最百搭，关键实用又简单 
                
                   
                
              
            

          

Redis系列8：Bitmap实现亿万级数据计算 

数据科学学习手札146 geopandas中拓扑非法问题的发现、诊断与修复 

小样本利器4. 正则化+数据增强 Mixup Family代码实现 

python3使用libpcap库进行抓包及数据处理 

分布式ID生成方案总结整理 

Python数据分析：实用向 

.NET API 接口数据传输加密最佳实践 

SQL分层查询 

data删除了没事吧 data数据能删除吗 

华为手机怎么连接电脑方法（华为usb数据线接电脑)

弹性分布式数据集 RDD及常用算子( 二 )

经验总结扩展阅读

2023年1月4日制作房梁黄道吉日 2023年农历腊月十三制作房梁吉日

家具品牌选哪些牌子好十大环保品牌家具排行榜

2023年5月定亲黄道吉日 2023年5月哪天适合定亲

健康周谈|冬天是脑梗高发季，该如何度过？医生：做好4件事，或能安稳过冬

五行缺火100分女孩名字缺火的高分女孩名字

睡美人的睡眠秘籍

发型只热衷于一款发型的发型师 | 爆笑视频

床垫对睡眠有什么影响怎么挑选好床垫

立冬节气特点

籽字取名的寓意是什么?

宝莲灯前传和宝莲灯的关系是什么?

越南|中国男性和越南男性有啥区别？听听越南姑娘是怎么说的

玻璃种翡翠值多少钱

8月，4大星座财运大涨，横财正财偏财齐聚满堂，富贵满堂

六学家什么梗？

芝兰是什么意思芝兰的解释

含笑的秋水是什么意思含笑的秋水应该是什么意思

有一句俗话：“早起的鸟儿有虫吃。|早睡早起的时间，早起的人更容易获取成功机会

上颌窦真菌病65例诊治体会

裸妆|看来看去，浓妆艳抹不算啥，还是裸妆最百搭，关键实用又简单