V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
EagerTo
V2EX  ›  生活

如何爬取一个网站不被禁用 ip

  •  1
     
  •   EagerTo · 332 天前 · 2146 次点击
    这是一个创建于 332 天前的主题,其中的信息可能已经有所发展或是发生改变。

    随机浏览器头和限速都试了。还是被封。代理 ip 也找不到很多

    16 条回复    2023-05-22 20:17:15 +08:00
    vcbal
        1
    vcbal  
       332 天前
    你看下是不是有特殊的接口,或者特殊的 http 头,这个是根据网站来,不同网站不同的反爬机制
    brader
        2
    brader  
       332 天前
    禁不禁你 IP ,是看别人网站开发者的反爬机制决定的,不是你能控制的
    qrobot
        3
    qrobot  
       332 天前   ❤️ 3
    参照隔壁 v2explus, 分布式爬虫, 每人每天执行任务
    cosmain
        4
    cosmain  
       332 天前
    策略:“如果一个 IP 五分钟内访问了 1000 个页面,禁止 ip 访问 24 小时”

    这任你怎么折腾都不行,除非换 ip
    glfpes
        5
    glfpes  
       332 天前
    单 ip 是不可能做爬虫的
    cnrting
        6
    cnrting  
       332 天前 via iPhone
    这是能问的吗🐶
    8355
        7
    8355  
       332 天前
    爬的本质就是增加成本破解反爬
    反爬的本质就是通过增加爬的成本来反爬
    dawn009
        8
    dawn009  
       332 天前
    随机浏览器头有可能特征更明显。有些 UA 在正常用户中是很少见的,足够触发反爬规则了。
    blankmiss
        9
    blankmiss  
       332 天前
    代理池即可
    ding2dong
        10
    ding2dong  
       332 天前
    无解,掏钱上动态代理 ip
    maxssy
        11
    maxssy  
       332 天前
    用别人的 IP
    gablic
        12
    gablic  
       332 天前
    网上买代理 ip 资源吧
    cherryas
        13
    cherryas  
       332 天前
    爬网站的 ipv6 地址 (有的概率很低)
    locochen
        14
    locochen  
       332 天前
    欢迎试用 `https://www.bright.cn/`
    YouKnowIt
        15
    YouKnowIt  
       332 天前
    @locochen 你这是国外那个 brightdata 中文版吗,还是国内人新搞的?
    locochen
        16
    locochen  
       332 天前
    @YouKnowIt 就是你认为的那个国外的, 出海到中国来了. 🤓
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3058 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 14:48 · PVG 22:48 · LAX 07:48 · JFK 10:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.