首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
宝塔
V2EX  ›  分享创造

一款全新的网页数据采集工具:爬山虎

  •  
  •   oness · 2017-12-02 17:26:25 +08:00 · 13103 次点击
    这是一个创建于 715 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前言

    现在互联网上有这么多的采集器,我们为什么要开发爬山虎呢?

    原因很简单,大部分已有的软件用起来不爽,于是我们就自己开发了一个。

    特性

    爬山虎采集器是一款全新的网页数据采集工具。作为一款工具软件,我们:

    1. 放弃了花哨的界面,换之以快速流畅的体验。
    2. 放弃了复杂的规则配置,开发了智能的自动提取算法。
    3. 在基于浏览器的可视化操作上,同时保留了快速的 HTTP 引擎架构。

    爬山虎采集器在保持了用户体验、用户低学习成本的同时,兼顾了软件的数据抓取效率。

    数据采集

    爬山虎采集器能够采集互联网上的绝大部分网页,比如动态网页、静态网页、单页程序、表格数据、列表数据、文章数据、搜索引擎结果、下载图片等等。

    发布数据

    在采集到数据后,还可以发布到 CSV、Excel、MySQL、SQLite、Access、MSSQL、以及网站 API 接口上。

    当然爬山虎采集器作为一个新上场的选手,跟前辈们相比,可能会有些缺点、问题。

    欢迎您下载试用,并且给我们提供宝贵的意见。(如果你懒得下载,可以看下网站首页的演示视频:)

    爬山虎采集器网站

    爬山虎采集器 编辑器 爬山虎采集器

    第 1 条附言  ·  2017-12-23 01:51:18 +08:00

    补充下

    采集功能:

    可自动分析网页结构,自动提取数据。还有可以自动识别分页。支持下载图片、文件。对于复杂的页面,可以深入采集多级页面,灵活配置。

    新版增加的功能:

    1. 增加了采集前执行脚本命令功能,对于一些单页程序,可以自动填写表单,点击,运行JS代码。
    2. 增加了瀑布流分页,针对类似微博、今日头条这种瀑布流网页,采集非常方面,不用自己去分析抓包。

    关于免费版本:

    目前免费版能够导出txt 1千条/每天,我觉得应该足够一般用户使用。

    除此,还有一些高级功能限制,比如: 增量更新、下载文件、计划任务、自定义屏蔽请求

    第 2 条附言  ·  2017-12-29 20:47:29 +08:00
    之前的描述可能不够直观,贴张自动识别算法的效果图吧

    81 回复  |  直到 2018-10-01 13:13:16 +08:00
        1
    ResidualSoils   2017-12-02 17:40:18 +08:00
    不开源的话不会是打算用来挣钱吧?
        2
    hundan   2017-12-02 17:46:13 +08:00 via Android
    一楼这话听着怎么这么别扭
        3
    oh   2017-12-02 17:57:30 +08:00 via iPhone   ♥ 9
    来发个软件用来挣钱有啥问题吗……
        4
    i730   2017-12-02 19:22:20 +08:00 via Android
    一楼。。。。。。
        5
    1931   2017-12-02 19:26:06 +08:00 via iPhone
    P2p 种子搜索神器宇宙超级无敌加强版
        6
    est   2017-12-02 19:29:58 +08:00
    bandicam 亮点。
        7
    ctsed   2017-12-02 19:31:40 +08:00 via Android
    @ResidualSoils 碍着你了?
        8
    dzxx36gyy   2017-12-02 20:09:22 +08:00   ♥ 1
    客户端软件为啥要用导出数据条数区分不同套餐... 感觉这个一般是在线服务才这么搞吧,为啥不以导出的数据源类型以及其他售后服务来区分套餐_(:з」∠)_
        9
    oness   2017-12-02 20:26:48 +08:00
    @dzxx36gyy 感谢建议,我在好好想下
        10
    f2f2f   2017-12-02 20:35:32 +08:00   ♥ 2
    现在一在 v2 看到爬虫我就想到了煎蛋……
        11
    gouchaoer   2017-12-02 20:56:31 +08:00 via Android
    面向开发者不太讨好的说
        12
    cxd44   2017-12-02 21:33:11 +08:00 via Android
    迫切想体验
        13
    cxd44   2017-12-02 21:34:32 +08:00 via Android
    价格 499 元没有优惠了吗
        14
    cxd44   2017-12-02 21:35:41 +08:00 via Android
    支持采集论坛帖子的附件吗?
        15
    lhx2008   2017-12-02 21:48:58 +08:00 via Android
    和同类软件比,比如火车头比,没什么竞争力吧。
    和自己写程序比,反爬虫,复杂的 ajax 数据,登录,验证码识别这些基本做不了
        16
    oness   2017-12-02 22:08:09 +08:00
    @lhx2008 验证码目前还在开发,其他的都可以解决的。
    正是看到火车头、八爪鱼他们的优劣势,我才自己开发了这个。
        17
    oness   2017-12-02 22:09:10 +08:00
    @cxd44 赶紧体检,账号名发我,给你开通个权限
        18
    yeshang   2017-12-02 22:22:21 +08:00
    @oness 可以帮我开通个权限吗? 账号名同 V2EX ID
        19
    oness   2017-12-02 22:27:42 +08:00
    @yeshang 可以
        20
    yeshang   2017-12-02 22:31:00 +08:00
    @oness 非常感谢. 等上班的时候使用一段时间啊.
        21
    yeshang   2017-12-02 22:32:06 +08:00
    用户后台登入信息一直是这个: 小 bug

    登陆统计
    本次登录 IP:36.*.*.2
    上次登录 IP:36.*.*.2
    注册时间:2017/3/22 20:04:56
    上次登录时间:2017/3/22 20:04:56
        22
    oness   2017-12-02 23:03:01 +08:00
    @yeshang 一个月经验的 web 程序员表示尽快改[捂脸]
        23
    cxd44   2017-12-02 23:03:10 +08:00 via Android
    @oness 账户 cxd44,谢谢
        24
    oness   2017-12-02 23:36:48 +08:00
    @cxd44 你先注册一个账号- -!
        25
    yakun4566   2017-12-02 23:52:29 +08:00
    yakun4566 老铁 给个权限,先谢谢咯
        26
    cxd44   2017-12-03 08:51:57 +08:00 via Android
    @oness 做好啦
        27
    BlueFly   2017-12-03 14:34:22 +08:00
    如果可以,也申请一个测试账号,ID 同名,谢谢
        28
    oness   2017-12-03 15:11:45 +08:00
    @BlueFly 已经开通一个月标准版
        29
    BlueFly   2017-12-03 15:52:57 +08:00
    @oness 谢谢,程序非 UTF8 ?英文 Windows 上半乱码,任务列表
        30
    gelilaohuang   2017-12-03 16:12:30 +08:00
    求个号体验 id 同名
        31
    imnpc   2017-12-03 17:11:14 +08:00
    @oness ID:imnpc 求测试体验
        32
    oness   2017-12-03 18:09:03 +08:00
    @BlueFly 就任务列表的节点乱码吗?其他正常?
        33
    bb2018   2017-12-03 20:48:35 +08:00
    同求个号体验 id 同名  bb2018
        34
    oness   2017-12-03 21:18:02 +08:00
    @bb2018 @imnpc @gelilaohuang
    已经开通一个月标准版,赠送今天就到此为止啦
        35
    BlueFly   2017-12-03 23:07:22 +08:00
    @oness 菜单栏没乱码,但默认自带写好的规则是乱码
        36
    jisibencom   2017-12-04 08:29:37 +08:00
    收费为什么我不用成熟的火车头呢
        37
    oness   2017-12-04 09:45:25 +08:00
    @jisibencom 也有免费版,大部分的数据采集免费版就够了。
    相比火车头,也容易上手一点。
        38
    mikii   2017-12-04 14:23:39 +08:00
    开发给个权限体验下,账号:mikii
        39
    glchaos   2017-12-05 00:11:32 +08:00
    如果可以,还请开个权限体验下,账号 glchaos,谢谢
        40
    frankyxu   2017-12-05 09:31:49 +08:00
    如果可以,还请开个权限体验下,账号 franky,谢谢
        41
    zhangfeiwudi   2017-12-06 15:49:10 +08:00
    可以爬指定人的淘宝订单吗
        42
    q99103248   2017-12-08 12:02:35 +08:00
    不知道能不能通过 api 来动态修改爬取列表呢,在用八爪鱼,发现没有这个 api,只能手动提交链接,很是不爽
        43
    oness   2017-12-09 11:36:09 +08:00
    @zhangfeiwudi 你有该指定人的账号密码,就可以
    @q99103248 api 目前木有。不过你可以通过代码修改爬山虎采集器的任务 XML,来修改爬取列表。
        44
    zhangfeiwudi   2017-12-09 19:59:01 +08:00
    @oness 验证码也能过? 淘宝的滑动验证码
        45
    oness   2017-12-09 23:55:57 +08:00
    @zhangfeiwudi 目前登陆是手动登陆,所以是可以的。
    但是只针对单个人的,批量账号就木办法了。
        46
    1ku   2017-12-11 15:06:29 +08:00
    怎么去知乎提示浏览器版本过低,我最新版 Chrome
        47
    oness   2017-12-11 18:12:39 +08:00
    @1ku 在第三步 设置里,修改下 UA
        48
    1ku   2017-12-12 09:15:39 +08:00
    @oness 在第一步就是这提示的
        49
    oness   2017-12-12 09:35:55 +08:00
    @1ku 额,先随便建个字段,到第三部设置,然后回到第二步清空字段,重新加载下网页。
    目前浏览器设置放在第三步,可能有点不合理。
        50
    1ku   2017-12-12 09:49:33 +08:00
    @oness 放在第三部超级不合理是其一;其二添加字段和修改字段名称的交互可以再吻合协调一下的,一左一右会逼死强迫症,对了,浏览器问题解决了,但是爬知乎的图片,没成功过一次,好尴尬;其三,官方的交流群没人吗?加了好几次了
        51
    oness   2017-12-12 10:31:06 +08:00
    @1ku 谢谢建议,后续优化一下
        52
    hardman   2017-12-13 22:42:12 +08:00
    这是用啥写的
        53
    oness   2017-12-14 20:37:54 +08:00
    @hardman .net
        55
    oness   2017-12-19 16:31:59 +08:00
    测试了下,这个网站要手动选择下列表。
    或者直接设置列表 XPath://*[@id="content"]/div[1]/table[2]/tbody[1]/tr//td[1]/p[1]
        56
    oness   2017-12-19 16:32:31 +08:00
        57
    taurenshaman   2017-12-20 10:01:26 +08:00
    @oness
    默认分类的第一页可以抓到了。
    还有 2 个问题 -_-|||
    1、它的 URL 是固定的,如果我想从左侧选择 [特殊食品] - [保健食品] ,怎么做?这种切换,URL 是固定、不变的,都是通过 POST 请求数据。载入网页后,左侧的导航无效,只能选择字段。
    2、关于分页。目前,政府的网站正在大量使用 MmEwMD 特性(动态混淆 Javascript ),我试了手动设置分页然后点击 [下一页] ,运行的时候,只能抓到第一页的数据,第二页就没效果了。
        58
    dengyunxuan   2017-12-20 14:22:14 +08:00
    如果可以,还请开个权限体验下,账号 yimosecai,谢谢
        59
    oness   2017-12-20 15:51:14 +08:00
    @taurenshaman
    1. 这个需求已经搞定,采集前执行脚本命令,这几天发布
    2. 看了下,这个页面第一页和第二页的列表结构不同,可设置列表 Xpath://table/tbody[1]/tr//td[1]/p[1]
        60
    oness   2017-12-20 15:53:05 +08:00
    @dengyunxuan 免费版可以使用大部分功能的。直接下载
        61
    iambin   2017-12-22 18:28:20 +08:00
    爬山虎用过,挺好上手的,先不说功能如何,不过这免费版也太水了吧 只能导出一千条 txt 这也叫免费版可以使用大部分功能 ??? 付费没问题 ,限制条数也算了 ,起码要让用户知道你这除了导出 txt 之外的其他导出是否实用吧
        62
    bravecarrot   2017-12-23 01:08:26 +08:00 via iPhone
    可以把广告打得详细一点,包括功能和收费情况;
    需要数据的时候自己爬确实麻烦
        63
    oness   2017-12-23 01:36:13 +08:00
    @iambin 免费版本每天导出 1K txt,相比同类软件导出按照积分,我觉得要实在点。
    其他导出是否实用这个问题,后面考虑增加试用版。
        64
    oness   2017-12-23 01:39:01 +08:00
    @bravecarrot 谢谢建议。尤其是对不会程序代码的人来说,好的工具就是生产力
        65
    sxw11   2017-12-24 01:31:45 +08:00
    为什么火绒和 360 都报木马呢?能不能解释一哈。。
        66
    oness   2017-12-24 10:12:26 +08:00
    @sxw11 ... 肯定是误报,我去看看提交下
        67
    oness   2017-12-27 00:06:02 +08:00
    @sxw11 测试了火绒,正常,没有报木马。
        68
    zenze   2017-12-28 10:29:27 +08:00
    反馈个问题 为何官网下载安装包 速度如此之慢,迅雷一直只有 6kb/s.....
        69
    xuebi1109   2017-12-28 11:10:59 +08:00
        70
    rickwise   2017-12-28 11:22:40 +08:00 via iPhone
    @oness 还有赠送么?
        71
    oness   2017-12-28 13:50:33 +08:00
    @zenze 谢谢反馈。你是什么网络
        72
    oness   2017-12-28 13:51:04 +08:00
    @rickwise 木有了。先试试免费版吧
        73
    zenze   2017-12-28 13:58:43 +08:00
    @oness 上海电信 就上午反馈那个时间点 现在稍微好点 100kb/s 左右
        74
    graetdk   2017-12-29 09:37:06 +08:00
    如果是客户端的话,不能换 IP 很容易被封啊
        75
    oness   2017-12-29 11:45:44 +08:00
    @graetdk,自动换 IP 更新正在开发:)
        76
    graetdk   2017-12-29 13:19:29 +08:00
    @oness 要是搞个 Mac 版就更好了
        77
    vus520   2017-12-29 18:48:54 +08:00
    我记得火车头也支持这几个功能,可视化,xpath,自动分页什么的
        78
    oness   2017-12-29 20:49:08 +08:00
    @vus520 刚追加了效果图,可以看看
        79
    geekyoung   2018-01-03 10:53:35 +08:00
    看起来不错 帮顶
        80
    datocp   2018-08-18 19:37:45 +08:00
    支持一下,最近爬公司系统的图片转换成对应的产品图号在网上搜了一下找到爬山虎马上可以上手,不像别的什么八爪鱼说是免费还要积分,还要注册登录之类。
    确实挺不错的非常容易上手,也达到了最终的目的,感谢楼主的作品,谢谢!
        81
    ys746663912   2018-10-01 13:13:16 +08:00
    @oness 考虑开发 mac 版吗?
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   901 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 24ms · UTC 23:05 · PVG 07:05 · LAX 15:05 · JFK 18:05
    ♥ Do have faith in what you're doing.