V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
sohoer
V2EX  ›  分享创造

做了两年多的一个项目,第一次邀请测试,希望对您有用

  •  
  •   sohoer ·
    speed · 2013-04-09 13:35:34 +08:00 · 14918 次点击
    这是一个创建于 4041 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前没想过把他做成产品只是按照自己的实际需求做,断断续续用业余时间做了快两年,为了完成这个项目在去年12月断然离职到现在全职做了4个月,
    现在总算是可以晒出来给大家用用了。

    他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
    鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
    鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
    通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。

    鸟巢采集器访问地址:
    http://www.newcrawler.com/

    鸟巢采集器能做些什么:
    采集数据、博客迁移、友情链接检查、定向采集实现垂直搜索 等等。

    鸟巢采集器相比其它采集器的优势:
    1、平台无关,可以在任何系统上运行如:Linux、Windows ...
    2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
    3、Raspberry Pi 也是支持的。
    4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
    5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
    6、使用WEB的管理方式,可以在任何终端上操作。
    总之最大的优势是WEB版平台无关,其它核心功能也都有。


    目前唯一一个在用鸟巢采集器抓取数据的网站:
    http://www.shishibi.com/

    如果您只想看看效果请使用下面的账号密码登录
    test
    test

    如果您想试用请留下邮箱,我将给您发送邀请码

    PS: 正式版发布后会考虑收费但肯定会至少有1个月的试用期,试用期过后后端应用还是可以正常使用的,只是不可以通过WEB端进行可视化管理,对于邀请注册的用户在正式版发布后至少可以多免费使用1年。
    提前声明英文版还没找专业人士翻译目前是直接GOOGLE的。
    鸟巢采集器还有一个爬虫分享计划,试想一下每抓取一个页面换一个IP是不是很爽呢,只是目前尚未启动 ^^
    第 1 条附言  ·  2013-04-09 19:19:35 +08:00
    不知道有没有人发布应用,附上安装说明

    1.下载GAE发布工具 “windows-gae-deploy-tools.zip” 与采集器应用包 “soso-crawler-gae.zip”
    http://pan.baidu.com/share/link?shareid=359591&uk=539995500
    http://pan.baidu.com/share/link?shareid=366793&uk=539995500

    2.解压 windows-gae-deploy-tools.zip
    解压 soso-crawler-gae.zip 到发布工具的war目录,war目录结构如下:
    -war
    -WEB-INF
    -index.html
    -favicon.ico
    ....

    2.修改project-app-deploy.xml配置文件,
    your.gae.app.id #Google App Engine 的App Id
    your.gae.account #Google App Engine 的账户
    your.gae.account.password #Google App Engine 的账户密码

    3.双击运行 deploy.bat 进行发布

    4.发布成功后接入你的采集器应用到WEB端
    登录newcrawler.com在
    系统设置 > 采集器管理
    填上你的刚刚发布的应用地址和名称点添加,成功后你就可以在WEB端管理你的采集器应用了
    第 2 条附言  ·  2013-04-09 20:28:22 +08:00
    还需要注意的一点,GAE应用需要Datastore Indexes创建好之后才能使用,大家可以在GAE的控制台查看Datastore Indexes 状态
    谢谢刚刚反馈的用户。
    149 条回复    2015-04-25 00:43:13 +08:00
    1  2  
    flank
        101
    flank  
       2013-04-12 17:22:18 +08:00
    看起来很不错的
    flashack
        102
    flashack  
       2013-04-13 01:23:28 +08:00
    演示站是没放开爬?我看才2w多数据
    sohoer
        103
    sohoer  
    OP
       2013-04-13 03:11:47 +08:00
    @flashack 目前只是爬了10个商城,手机分类中的所以产品,每小时更新一次
    dotbuddle
        104
    dotbuddle  
       2013-04-14 22:39:49 +08:00
    谢谢楼主!
    dotbuddle 在鸡媚儿
    我这登录你的后台好慢。
    jezal
        105
    jezal  
       2013-04-14 22:54:27 +08:00
    也写过这个爬虫,比如这个自动更新的站xiaoshangpinpifawang.com
    不过没有楼主牛逼。

    求邀请码,thx.
    ahshengchen@鸡媚儿
    1to3
        106
    1to3  
       2013-04-14 23:14:55 +08:00
    ahaharegister#126.com
    加油.
    Rei
        107
    Rei  
       2013-04-16 13:47:06 +08:00
    加油~
    maxthon3x3#126.com
    v5ke
        108
    v5ke  
       2013-04-16 21:01:45 +08:00
    打开有点小慢,这个和火车头有什么区别。除了是web。
    不错哦
    open163com#gmail.com
    hengxin196
        109
    hengxin196  
       2013-04-20 20:43:50 +08:00
    CoderGeek
        110
    CoderGeek  
       2013-04-25 09:36:28 +08:00
    [email protected] 求邀请码!
    fixture
        111
    fixture  
       2013-04-26 09:14:42 +08:00
    yeshang
        112
    yeshang  
       2013-04-26 09:20:22 +08:00
    非常棒的东西, 服务器采集的好处就是更快. 求邀请 0o (AT) outlook.com
    chunshuai
        113
    chunshuai  
       2013-04-28 15:21:50 +08:00
    shunai
        114
    shunai  
       2013-04-28 16:31:12 +08:00
    379527241(at)马化腾
    lookhi
        115
    lookhi  
       2013-04-28 16:50:58 +08:00
    @sohoer 很强大啊。 那个Xpath读取时 出来的各种选择效果怎么出来的啊?感觉应该是JS做的把
    sohoer
        116
    sohoer  
    OP
       2013-04-28 17:09:06 +08:00
    @lookhi Jquery的从百度那里偷来的,不过也花了我大把时间
    winterx
        117
    winterx  
       2013-04-28 18:06:43 +08:00
    我也求一个码~~~
    winterx # vip.qq.com
    wenjuncool
        118
    wenjuncool  
       2013-04-28 18:09:14 +08:00
    求邀请码,邮箱:[email protected]
    khao
        119
    khao  
       2013-05-01 06:54:08 +08:00
    ke_mail # 163.com

    谢谢
    Geass
        120
    Geass  
       2013-05-01 11:40:41 +08:00
    lidashuang
        121
    lidashuang  
       2013-05-01 18:24:49 +08:00
    xiaoyao
        122
    xiaoyao  
       2013-05-03 15:43:19 +08:00
    [email protected]
    十分感谢~
    boangs
        123
    boangs  
       2013-05-03 16:33:47 +08:00
    xiaoyao
        124
    xiaoyao  
       2013-05-04 10:46:59 +08:00
    添加应用时出现
    错误: Status code:404
    leehomsf
        125
    leehomsf  
       2013-05-04 11:21:53 +08:00
    leehomsf#gmail.com谢谢
    1dian01
        126
    1dian01  
       2013-05-05 23:20:49 +08:00
    @sohoer 有个网站开发的项目不知道是否有空帮忙 http://www.v2ex.com/t/67755#reply8
    yxling
        127
    yxling  
       2013-05-06 02:16:07 +08:00
    529145096#qq.com
    newsentry
        128
    newsentry  
       2013-05-06 09:34:10 +08:00
    求邀请码 [email protected]
    blueshark
        129
    blueshark  
       2013-05-06 14:26:14 +08:00
    求邀请码riskstar#163.com谢谢
    zzzyb
        130
    zzzyb  
       2013-05-06 22:58:09 +08:00
    求邀请: zhangyubo001#gmail.com
    Rei
        131
    Rei  
       2013-05-09 10:30:27 +08:00
    登陆后的页面是NOT FOUND
    sohoer
        132
    sohoer  
    OP
       2013-05-09 11:04:02 +08:00
    @Rei 测试了是正常的,能帮忙看下是哪个文件没有加载吗?
    mantianyu
        133
    mantianyu  
       2013-05-11 14:16:46 +08:00
    UI 也是自己做的嘛?
    sohoer
        134
    sohoer  
    OP
       2013-05-11 15:23:03 +08:00
    @mantianyu 我就觉得我设计的LOGO不错,呵呵!
    TONYHEAD
        135
    TONYHEAD  
       2013-05-23 13:47:18 +08:00
    求邀请码 info [at] boxup.org ,谢谢。
    solo7net
        136
    solo7net  
       2013-05-28 09:59:02 +08:00
    密码忘了~~~
    注册邮箱也不记得是哪个了...
    sohoer
        137
    sohoer  
    OP
       2013-05-28 10:28:00 +08:00
    @solo7net 再过段时间吧,个人账号我会免费开放的。
    orzcc
        138
    orzcc  
       2013-06-03 18:08:11 +08:00
    如果实际应用的话,会有以下几个功能需求必须解决:
    1. 代理自动换ip
    2. OCR
    3. cookie
    4. 采集中目标站点页面规则变化后的报警机制。
    ……

    随便说几个~呵呵
    sohoer
        139
    sohoer  
    OP
       2013-06-03 19:51:26 +08:00
    @orzcc 是的说得很中肯,
    1.代理自动换IP只能靠插件实现,因为GAE不可能实现代理。
    2.OCR也需要使用插件或接口,目前我自己就实现了简单的价格图片识别
    3.COOKIE不是问题目前就可以模拟登录
    4.在网址检测中有一个使用站点规则检测,当没有匹配到数据时会认为规则失效可以发送邮件通知
    orzcc
        140
    orzcc  
       2013-06-04 10:23:23 +08:00
    @sohoer 这类工具我倒是挺需要的,但是我希望最好是php的,这样子有一些特殊脚本自己也可以二次开发和构造。等楼主这个工具成熟了以后倒是可以考虑合作下,再做一个php的版本。
    sohoer
        141
    sohoer  
    OP
       2013-06-04 13:31:40 +08:00
    @orzcc 嗯,我也挺想实现PHP版的,只能慢慢完善了,现在上班了
    orzcc
        142
    orzcc  
       2013-06-04 16:29:35 +08:00
    @sohoer 做的成熟点可以商业化的~
    orzcc
        143
    orzcc  
       2013-06-04 16:30:57 +08:00
    @sohoer 留个联系方式给我吧~
    sohoer
        144
    sohoer  
    OP
       2013-06-04 22:13:01 +08:00
    @orzcc 网站上有我的联系方式 :)
    burgleaf
        145
    burgleaf  
       2014-01-13 22:26:55 +08:00
    @sohoer 您好,我是javaer一枚。热诚于技术,三年java开发经验。之前在北京做了两年java,主要是开发 www.secoo.com 这个电商网站。于13年5月份到现在在华新水泥以外派的形式做java开发,想在年后找一个创业团队,主要私心是为了提升技术。看到你在v2上面留言说明年打算在武汉组团需要java成员,同时看到你的《鸟巢采集器》项目,不明觉厉,所以很希望成为你年后团队的一员。
    在武汉工作期间项目给的时间都很充裕,所以有很多时间去学习。我现在在投入时间写一个小型的java web框架,也花时间学习python。但是一直没有去做过爬虫,如果你对我有意的话,我会从现在开始投入时间去学习爬虫以不至于参加你的团队后为你拖后腿。

    写这么多其实无非是想给您留个联系方式,希望能收纳:qq:327075297 gmai:burgleaf[AT]gamil.com
    TONYHEAD
        146
    TONYHEAD  
       2014-09-11 12:10:45 +08:00
    这个网站已经终止了吗?
    sohoer
        147
    sohoer  
    OP
       2014-09-11 12:20:22 +08:00
    @TONYHEAD 没有终止,一直在完善
    disidea
        148
    disidea  
       2015-04-14 11:57:25 +08:00
    [email protected] 求邀请码!
    akax
        149
    akax  
       2015-04-25 00:43:13 +08:00 via Android
    正需要,求邀请
    akax001#gmail.com
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2210 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 05:12 · PVG 13:12 · LAX 22:12 · JFK 01:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.