V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
anonymoustian
V2EX  ›  Hadoop

Spark 如何将一个 RDD 分成多个 RDD?

  •  
  •   anonymoustian · 2018-03-29 22:30:54 +08:00 · 9113 次点击
    这是一个创建于 2191 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在有这么一个需求,原始数据的格式是

    小明 语文成绩,数学成绩,英语成绩

    所以 RDD 的格式就为

    JavaPairRDD<String, String> chengji; 其中 chengji 数据结构为<小明,[语文成绩,数学成绩,英语成绩]>

    现在想把这一个 RDD 拆分成 3 个 RDD

    即 JavaPairRDD<小明,语文成绩>

    JavaPairRDD<小明,数学成绩>

    JavaPairRDD<小明,英语成绩>

    这个应该怎么写 请教, 用 flatmap 可以做么? 谢谢!

    15 条回复    2018-03-30 08:56:53 +08:00
    zhusimaji
        1
    zhusimaji  
       2018-03-29 23:15:30 +08:00 via iPad
    不可以啊,flatmap 就是先 map 后 flat 展开,你要是拆开三个 rdd,最简单的就是 map 三次
    liucudliucud
        2
    liucudliucud  
       2018-03-29 23:19:08 +08:00
    不用拆,放在一起处理
    capric
        3
    capric  
       2018-03-29 23:41:35 +08:00 via Android
    sparksql 支持 array explode
    select expode(items) as item
    anonymoustian
        4
    anonymoustian  
    OP
       2018-03-29 23:54:33 +08:00
    @zhusimaji 但是我是举个例子。。 就是 这个个数是不同的。 每个 RDD 是 N 个 ,N 各不相同
    anonymoustian
        5
    anonymoustian  
    OP
       2018-03-29 23:55:59 +08:00
    @capric 这个在 hive 里是一个字符串处理的,也可以这么做么
    anonymoustian
        6
    anonymoustian  
    OP
       2018-03-29 23:56:13 +08:00
    @liucudliucud 但是要用这个做 reducebykey
    capric
        7
    capric  
       2018-03-29 23:58:17 +08:00 via Android
    @anonymoustian 可以的
    explode 支持 split
    zjxzhqq
        8
    zjxzhqq  
       2018-03-29 23:59:04 +08:00 via Android
    map 就可以了
    zjxzhqq
        9
    zjxzhqq  
       2018-03-29 23:59:29 +08:00 via Android
    升级吧,用 ds
    capric
        10
    capric  
       2018-03-30 00:02:47 +08:00 via Android   ❤️ 1
    @capric
    @anonymoustian
    explode 字符串
    explode(split(tags ",")) as tag

    explode 数组
    explode(tags) as tag
    anonymoustian
        11
    anonymoustian  
    OP
       2018-03-30 00:10:08 +08:00
    @capric 非常感谢 已经成功了,谢谢。 另外我很好奇有没有其他的做法呢?
    capric
        12
    capric  
       2018-03-30 00:18:05 +08:00 via Android
    @anonymoustian 函数级别也支持
    df.withColumn("tag", explode($"tags"))
    zhusimaji
        13
    zhusimaji  
       2018-03-30 07:30:51 +08:00 via iPhone
    @anonymoustian。。。你用 sparksql explode 也只是生成 dataframe,最后做成单独的 rdd,还是要转换
    liucudliucud
        14
    liucudliucud  
       2018-03-30 08:55:46 +08:00 via Android
    把数据 flatten 再详细写 reduce 方法呗
    可以详细说下需求
    类似于 name type score
    liucudliucud
        15
    liucudliucud  
       2018-03-30 08:56:53 +08:00 via Android
    拆 rdd 这种一个两个还可以,多了效率很低的,强行串行了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2918 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 15:11 · PVG 23:11 · LAX 08:11 · JFK 11:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.