首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Mvpanswer7
V2EX  ›  Elasticsearch

sparksql 查询 elasticsearch 速度很慢

  •  1
     
  •   Mvpanswer7 · 2018-06-28 16:52:31 +08:00 · 1891 次点击
    这是一个创建于 576 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 sparksql 查询 es 集群的时候特别慢,es 集群有三个节点,总共大概有 200 亿条数据,jvm 堆内存 32G。 spark 查询时 pushdown 了之后结果集大概有 20 亿条数据,一个简单的字段匹配查询要跑一两个小时,目前连接时只用到了这些配置 es.scroll.size="10000" pushdown="true" es.scroll.keepalive="10m"

    sparksql 代码:

    val conf = new SparkConf().setAppName("SimpleExample").set("es.resource","myIndex/info").set("es.read.field","field1,field2,field3").set("es.scroll.size","10000").set("es.scroll.keepalive","10m").set("es.nodes","192.168.12.12").set("es.port","9200").set("pushdown","true");

    val sc = new SparkContext(conf);

    val df = sc.sql("select * from myIndex where name = 'exampleName'")

    从 sparkUI 上的 metrics 看,99% 时间都浪费在了 executor compute time 上,但是我只是简单的 select 然后 save 到 hdfs 文件而已。 https://i.stack.imgur.com/IJ0oQ.jpg

    2 回复  |  直到 2019-12-11 15:21:03 +08:00
    wsc449
        1
    wsc449   2018-09-19 00:17:26 +08:00
    es 的问题查询获取少量数据很快,但是大数据出口就慢的出奇。
    clancyliu
        2
    clancyliu   45 天前
    我现在也遇到了这个问题,请问你后面解决了这个问题了么?
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   767 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 22ms · UTC 20:08 · PVG 04:08 · LAX 12:08 · JFK 15:08
    ♥ Do have faith in what you're doing.