首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
q409640976
V2EX  ›  程序员

请问 Python 爬虫,配合什么数据库效果最佳

  •  
  •   q409640976 · 73 天前 via Android · 2228 次点击
    这是一个创建于 73 天前的主题,其中的信息可能已经有所发展或是发生改变。
    要爬的数据量比较大,机器配置还不高,请问怎么搭配最优
    22 回复  |  直到 2019-11-18 07:49:01 +08:00
    renmu
        1
    renmu   73 天前 via Android
    MongoDB 简单粗暴
    lhx2008
        2
    lhx2008   73 天前 via Android
    文本追加
    eq06
        3
    eq06   73 天前
    多线程吗?多线程弄 SQLite 拆几个数据库呢
    w2er
        4
    w2er   73 天前 via iPhone
    搬好小板凳,听大佬讲课
    tomczhen
        5
    tomczhen   73 天前
    哪个数据库熟悉用哪个,爬太快小心变成 DDOS/CC 直接进去包吃包住。
    ClutchBear
        6
    ClutchBear   73 天前
    阿里云的 表格存储
    RicardoY
        7
    RicardoY   73 天前 via Android
    配置不高就直接写文件 或者 MongoDB 现在 v2 一提到爬虫就是监狱警告..
    cepczkd
        8
    cepczkd   73 天前
    配合消息队列先,再管数据库
    locoz
        9
    locoz   73 天前
    数据量比较大是多大?配置不高是多高?爬完之后要做什么用?数据分析还是文本检索?啥都没有那只能说哪个熟悉用哪个了
    crclz
        10
    crclz   73 天前   ♥ 1
    只写过玩具爬虫。一点其他领域得来的拙见:如果存储空间够的话,postgres 的插入速度完全够用:用 N+1 个线程,N 个线程往 1 个 queue 里面写数据,1 个线程定期( 100ms )将数据 bulk insert 到数据库。普通的 insert 可能吃力。
    也建议了解 Cassandra。
    mongo 可能速度不够用。
    wangyzj
        11
    wangyzj   73 天前
    kafka -> es
    scriptB0y
        12
    scriptB0y   73 天前
    Mongo 最简单实用了,感觉到千万的数据都问题不大。再大可能要具体情况具体分析了。
    dbow
        13
    dbow   73 天前
    选一个 Key-Value 数据库用, 比如 leveldb, rocksdb 啥的, 自建 Mysql 顶不住千万级写入。
    ClericPy
        14
    ClericPy   73 天前
    这个不能闭着眼来啊...
    数据量大, 有多大? 不过单机放的下, 估计也不会有太大...
    数据类型是什么样的, 结构化? 半结构化? 非结构化? 文章那种段文本?
    用途是什么, 热数据还是冷数据, 给什么部门用, 怎么用

    你这问的有点宽泛了, 如果是跟我一样的羊毛机, mysql 可以涵盖多数需求了, 几百兆内存能跑起来一个
    q409640976
        15
    q409640976   73 天前 via Android
    大家分析的好专业,暂定 mongo 谢谢各位
    wangxiaoaer
        16
    wangxiaoaer   73 天前
    无脑用 MongoDB 的怕不是磁盘不要钱?
    0x400
        17
    0x400   73 天前 via Android
    .csv
    sadfQED2
        18
    sadfQED2   73 天前
    mongodb 后期做分析好用,另外容错率高,比如爬价格,Mysql 你用 int 存,但是某个数据可能给你返一个“100 以上”,然后你就 GG 了,如果 mysql 用 json 存,后期分析数据贼难用

    But,用 mongodb 可能机器配置要求比 mysql 高,装了 mongodb 的机器基本上没法干其他的了
    lc7029
        19
    lc7029   72 天前
    MongoDB
    encro
        20
    encro   72 天前
    分布式爬虫:
    缓存队列在 redis 部署开发方便,
    索引存 mysql 查询方便,
    内容存 leveldb 压缩比好
    onyourroad
        21
    onyourroad   71 天前
    爬虫是犯法的知道吗?
    indicoliteplus
        22
    indicoliteplus   71 天前 via iPhone
    postgres 吧,存 json 也无压力。mongodb 虽说对开发友好,但是对业务就有点恶心了
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1899 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 26ms · UTC 16:05 · PVG 00:05 · LAX 08:05 · JFK 11:05
    ♥ Do have faith in what you're doing.