首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Coding
V2EX  ›  Elasticsearch

搜索引擎的召回问题

  •  
  •   owenliang · 2018-01-06 16:56:42 +08:00 · 2557 次点击
    这是一个创建于 706 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如果我用 ES 做搜索,查询可以召回千万级的文档,难道 ES 要给所有文档打分后再返回给我 topN?

    求做这行的同学指点。

    3 回复  |  直到 2018-01-07 10:01:47 +08:00
        1
    WinMain   2018-01-06 21:31:52 +08:00
    那就根据不同算法召回最有可能的一部分呗,不知道我说的对不对。
        2
    Morriaty   2018-01-07 00:34:21 +08:00
    ES 检索的过程相当于一个 map reduce 的过程,在各个 shard 里分别检索,最后再有 coordinator 整合。所以大数据量的计算是被分配到集群的各个 shard 上去了。

    而且如果真的一个 query 召回了太多的 doc,那基本可以认为该 query 是个 stopword。
        3
    owenliang   2018-01-07 10:01:47 +08:00 via Android
    @Morriaty 这么说单个 shard 的数据量是单机计算的一个上限量。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2339 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 23ms · UTC 02:38 · PVG 10:38 · LAX 18:38 · JFK 21:38
    ♥ Do have faith in what you're doing.