V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sohoer  ›  全部回复第 6 页 / 共 35 页
回复总数  696
1 ... 2  3  4  5  6  7  8  9  10  11 ... 35  
2016-04-11 14:40:30 +08:00
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
2016-04-11 14:34:29 +08:00
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
@leehon 一直都是一个人开发

有时候想想都觉得自己很强大,坚持这么久做一件事情
无数次编译,数不清的重构,每一次重构都很痛苦
刚开始程序员生涯的时候做过很多垃圾站,也用过不少采集器
后面知道 GAE 免费,于是想用很多的 GAE APP 来搭一个免费的爬虫网络(违反 TOS )
基于 GAE 开发后发现 PAAS 平台限制太多,后来加上了标准的 JAVA 环境支持
目前同时支持 GAE 与标准 JAVA 环境,开发上也增加不少难度,
谁让我想吃免费的蛋糕呢!

最后大家都能有免费蛋糕吃
2016-04-11 13:43:52 +08:00
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
上一次发布有人说访问太慢,
所以我自己实现了分布式同步,目前有三个节点, aliyun 、 gae 、 linode
被墙的资源如 GAE 请使用 linode(海外节点)访问
2016-04-11 13:40:07 +08:00
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
@FanError 请切换到海外节点,在 LOGO 边上
2016-04-11 11:24:38 +08:00
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
@kukat 还没有,之前准备用 BWG 做 DOCKER 弄了好久发现不支持,后续会加上

不有安装脚本也还方便吧


@mew7wo 有任何意见,建议请给我留言,重构太多目前应该还有不少 BUG
2016-04-11 11:11:27 +08:00
回复了 sohoer 创建的主题 分享发现 鸟巢网页数据采集系统 V2.2
@rubyvector 可以实现基于代理池的网页抓取插件,也可以是独立于采集器的多线 ADSL+ROS 解决方案
其实我的终极目标是基于鸟巢采集器做爬虫共享

多谢各位的友情支持
2016-04-08 17:58:32 +08:00
回复了 jack2code 创建的主题 分享发现 一键出书, O'Reilly 出版,童叟无欺,你也可以!
2016-04-07 21:38:32 +08:00
回复了 odirus 创建的主题 问与答 爬虫请教,请问如何爬 "http://www.kuaidaili.com/" 的数据
更正一下,看了半天源码发现有 API
Status >= 400 时可以通过 HttpURLConnection getErrorStream() 获取 InputStream;
2016-04-07 20:39:51 +08:00
回复了 odirus 创建的主题 问与答 爬虫请教,请问如何爬 "http://www.kuaidaili.com/" 的数据
JAVA API HttpURLConnection 还不支持 521 拿不到那段源码
2016-04-07 20:14:03 +08:00
回复了 odirus 创建的主题 问与答 爬虫请教,请问如何爬 "http://www.kuaidaili.com/" 的数据
521 不是标准的 http status code ,是他自定义的,
浏览器会把他当成 200 解析

还是 Fiddler 好, chrome 、 ie 都看不到那段 js 加密跳转代码
2016-03-31 21:33:06 +08:00
回复了 gkiwi 创建的主题 程序员 爬虫挑战。。求支援
CSS 与 PNG 图片是一一对应的,只能通过 CSS 位置再切字符图片做 OCR 处理
这个 OCR 已经很简单了,转成位图多少个字符做多少个模板,(还可以使用相似度匹配算法,基本上 100%正确)
对字符做 OCR 后可以得到一张 CLASS 对应字符的表
2016-02-22 14:05:37 +08:00
回复了 wangleineo 创建的主题 问与答 怎样设计一个分布式的爬虫服务?
一个 Crawler 负责任务调度,将需要采集网址通过负载均衡的方式分发给其它 Crawler
2016-02-22 13:42:16 +08:00
回复了 kelos 创建的主题 问与答 想写个爬虫程序,用什么技术好,谁能帮我呢
2016-01-28 15:57:37 +08:00
回复了 himacat 创建的主题 问与答 求一个 http 代理服务器部署及管理系统。
docker ?
2016-01-20 18:00:28 +08:00
回复了 Neagle 创建的主题 Python 怎么维护 爬虫代理池谢谢
淘宝买 的那些代理维护成本太高不建议用
ROS+多路 ADSL 是不错的多 IP 方案
也可以看看这个
https://luminati.io/
2016-01-14 09:01:50 +08:00
回复了 xiyangyang 创建的主题 问与答 要做采集系统,怎么设计采集系统的架构最好
跟我合作吧,完全满足

https://coding.net/u/speed/p/newcrawler/paas
test
test
2016-01-01 23:11:00 +08:00
回复了 alertpic 创建的主题 职场话题 大龄程序员生存攻略......
当没有房贷没有压力的时候,生活就会过得比较安逸,只有压力大的时候才会想着法子去赚钱。
仔细想想有压力的人创业与没压力的人创业肯定不一样,创业真不应该给自己留退路,这样至少成功的希望会大些
2015-12-07 17:05:49 +08:00
回复了 valjean 创建的主题 问与答 各位关于买春节票有什么高招吗?
准备明天开三台阿里云服务器刷,安装抢票软件的镜像已经备好,
抢到了我再来回复
2015-12-02 12:23:21 +08:00
回复了 88250 创建的主题 分享创造 Java 开源博客 Solo 1.2.0 发布 - 一键启动
内嵌 JRE 太大了是吧,最好还是用脚本一键安装
2015-11-19 09:09:52 +08:00
回复了 tinywenwen 创建的主题 深圳 求合租,桃园地铁站附近。预算 900。求好心 V 友收留。
楼主是妹子没人收留
1 ... 2  3  4  5  6  7  8  9  10  11 ... 35  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   949 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 19:34 · PVG 03:34 · LAX 12:34 · JFK 15:34
Developed with CodeLauncher
♥ Do have faith in what you're doing.