首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Elasticsearch

elasticsearch 搜索求助

  •  
  •   wico97 · 63 天前 · 1112 次点击
    这是一个创建于 63 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近做一个小说站,准备用 ES 当数据库。一个小说有上百个章节。目前获取单个章节内容的策略是先把小说获取到,然后取特定章节的内容。考虑到一个小说的内存占用有点大,有没有更好点的搜索方式。或者小说章节的存储方式。

    谢谢

    8 回复  |  直到 2019-02-18 08:17:06 +08:00
        1
    ericgui   63 天前
    先用 mysql 吧
        2
    wico97   63 天前
    @ericgui 暂时不想用 mysql。因为网站跟另一个网站放在一块,都用了 ES 做数据库。ES 对大数据搜索比较好
        3
    ericgui   63 天前
    @wico97 假如你网站有那么大流量的话
        4
    Wisho   63 天前
    一部小说存一个 index,一章存成一个 document,document 的 mapping 里搞个字段存纯文本的章节内容,然后设好分词
        5
    theks   63 天前 via Android   ♥ 1
    感觉没有必要。小说站主要是靠百度之类外部搜索引擎来搜索内容顺便引流吧,所以做好外部搜索引擎的收录就行了,它会给你的被收录的章节内容建全文索引。而站内的搜索往往是用小说名、作者名、主角名字等关键字做精确匹配,关系型数据库完全适用。
    另外 sqlserver、mysql 等关系型数据库也可以建全文索引,用关键字作模糊搜索也是可以的,虽然不推荐这么做。
    es 是基于 lucene 的,本质上做的是文档之间的相似度匹配,就是说会把用户输入的内容也当作一篇文档,也会对它分词,而用户只输入一个关键词是其中的一种最简单的情况。设想一下场景,我完全不记得小说名、作者、主角名,只记得关键情节“攻打明教光明顶”,那我第一反应是去百度,而不是在你小说站内搜索,因为小说站收录的小说是有限的,可能没有我要找的小说,除非是热门小说,而热门小说又不记得名字、作者的概率就很低了。
    再说用 es 做数据库倒是可以,不过不太合适,它在关联、统计查询这些方面挺弱的,还是用传统关系型数据库存数据,es 只做搜索比较好。顺便说一下 es 挺吃服务器内存的。
        6
    lqw3030   63 天前 via iPhone
    你用多大机子跑,我试过 2g 机子 docker run 镜像跑不起来,后来改用 solr,跑三四个月状态良好
        7
    wico97   62 天前
    @lqw3030 16G 内存。
        8
    lqw3030   62 天前 via iPhone
    @wico97 舒服
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2219 人在线   最高记录 4385   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 20ms · UTC 08:27 · PVG 16:27 · LAX 01:27 · JFK 04:27
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1