首页   注册   登录
 WaJueJiPrince 最近的时间轴更新

WaJueJiPrince

人生苦短,我用Python!
V2EX 第 339031 号会员,加入于 2018-08-06 22:47:39 +08:00
WaJueJiPrince 最近回复了
真香警告!
@halfer53 谢谢 这个看到了 但是感觉淘宝应该不会只是设置了这个
@konikoo 淘宝的判断 Selenium 的原理是什么呢?
@beneo 您破解过淘宝登陆的验证码的那个吗?淘宝现在好像又升级了,似乎能检测到 Selenium,您有什么解决方案吗?
76 天前
回复了 lryepoch 创建的主题 程序员 现在的爬虫还用 Java 吗
@letitbesqzr 有的语言还是有优势的,很少见过有人用 C 或者 VB 直接写爬虫的,不同的语言的出现就是为了弥补其他语言的不足的,所有还是有差距的,不同的语言有不同的优点和缺点。另外,爬虫也不一定就注重的是异步,任务调度,一味追求快速的爬虫不是好的爬虫,也要兼顾对方的负载均衡,稳定性也很重要。另外验证码,js 加密,账号登陆这些不容易追求快速,
@CriseLYJ 嗨,我看了您的 github 中的采集淘宝的爬虫代码,您采用的是 Sphash 的方式,但是淘宝应该需要登陆才能采集商品页面吧?也就是当我点击一类商品的时候会出现这种页面
https://i.loli.net/2019/03/07/5c80b61730d91.png
也就是要求登陆,请问您是怎么解决的呢?而且我在代码中似乎没有看到有关 Cookie 的信息。
92 天前
回复了 mapnaqi 创建的主题 Python 有没有什么好的打码平台推荐?
超级鹰打码平台
不知道你的账号多不多 不多的话可以尝试手动登陆:
1. 让浏览器记住账号密码
2. 在代码中指定 Selenium 的 user-data-dir[该路径保存了你的浏览器记录的账号信息]
3. 用代码打开浏览器[这种方式吃内存]
尝试解决方法:
采用 Docker 的 selenium/hub 和 selenium/node-chrome
[效果我没测试]
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1338 人在线   最高记录 5043   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 13ms · UTC 23:28 · PVG 07:28 · LAX 16:28 · JFK 19:28
♥ Do have faith in what you're doing.
沪ICP备16043287号-1