做了一个新浪微博的爬虫，用的 casperjs+nodejs，遇到了一些问题想请教大家

3.cluster 模块。我想用下 node 原生的负载均衡，但是 cluster 只能创建 nodejs 子进程。最初的想法是每个子进程再创建一个 casperjs 子进程，我是用 socket 作为进程通讯方式，就这样的话有多少 worker 我就得开多少端口，这种方案，我又觉得很蠢了。。。不知道有没有更好的解决方式

4.和谐问题。貌似新浪现在不用验证码卡人了，现在应该到了某个临界值，你模拟点击粉丝啊微博等页面，有很大可能会跳转到 http://weibo.cn/pub 这个页面，但是时机不定，虽然我写了跳转后校验 url 然后重连，但是有时候前一个页面所有的点击事件都会跳到这个网址，及其影响效率，但是不知道应该怎么防止跳转，开页面随机等待事件和一段时间后冷却我都有，但还是会有这种情况，不知道咋办。

casperjs

实例

创建

Nodejs

1 条回复

Magic347

2016-07-12 18:24:12 +08:00

模拟浏览器下拉刷新页面并不是最优解，不过在数据采集中也不失为一种有效手段。
因为无限制的下拉刷新和重新加载页面势必造成系统资源的大量消耗，
当页面数据量过大时便会影响整个系统的采集效率。
理论上应该能找到获取页面数据的 ajax 请求，然后通过 hack 参数获取实际的格式化数据内容。
对于拉取数据的接口而言，往往都是有分页接口的。