V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
greensea
V2EX  ›  分享创造

做了一个 Chrome 插件,自动把访问过的网页全文保存到自己的 WebDAV 上

  •  
  •   greensea ·
    greensea · 2023-02-15 15:45:01 +08:00 · 4367 次点击
    这是一个创建于 426 天前的主题,其中的信息可能已经有所发展或是发生改变。

    先丢插件地址:

    https://chrome.google.com/webstore/detail/page-auto-archiver/inbfhpapklekaajibkklfjieklbbmmke/related

    做这个东西起源于我自己的一个很实际的需求:有时候我想找前几天刚刚看过的网页的资料,但是网页标题已经不记得了,所以没办法通过历史记录去搜索,但是我记得网页上的文字内容,如果可以根据网页内容搜索历史记录就好了。

    于是就做了这个插件,安装之后,日常浏览的时候会默默地把网页全文保存到自己的 WebDAV 上,等到想搜索的时候,直接去插件里搜索就好了。(当然更极端也更快的方法是去服务器上 grep )

    反正做都做了,干脆就完善一下丢出来,万一有和我一样收集癖的人呢。

    45 条回复    2023-03-11 09:16:04 +08:00
    mhqschen
        1
    mhqschen  
       2023-02-15 15:52:36 +08:00
    我的密码里也有"@"……懵逼了~
    tool2d
        2
    tool2d  
       2023-02-15 16:00:01 +08:00
    我也做了一个插件,只不过是保存所有历史 URL 到本地 indexdb 里。

    原因是 chrome 默认会清空三个月前的历史记录!而且无法设置。

    这点完全没办法忍,凭什么动我数据啊?
    eaststarpen
        3
    eaststarpen  
       2023-02-15 16:00:36 +08:00 via Android
    "有时候我想找前几天刚刚看过的网页的资料,但是网页标题已经不记得了" 同样的情况遇到很多次了。

    实际上几天前的内容在历史记录里翻一翻还是能找到的,只不过效率太低。 几个月甚至半年那种就麻烦了。

    不知道 op 数据保留 /清理的策略是什么。如果把几个月所有浏览记录全文保留感觉存储代价太大,查询效率可能也不高。

    我的做法是利用简悦的稍候读功能,遇到觉得可能以后会复读的 post 就 dd 保持下来,固定时间整理。

    这样做虽然麻烦了点但能让我保持内容敏感度和养成定期回顾的习惯
    greensea
        4
    greensea  
    OP
       2023-02-15 16:03:34 +08:00
    @mhqshen 这是一个笔误,你不说我都还没发现,捂脸……
    @eaststarpen 没有清理功能,手动清理,反正会用 WebDAV 的都会……其实我自己是保存到 NAS 上的,纯文本再多还能给我撑爆了不成。话说历史记录……我一天几百个网页的浏览量,想找一天的都难,别说几天了
    HeyWeGo
        5
    HeyWeGo  
       2023-02-15 16:11:09 +08:00
    整个网页直接离线下来?显示效果如何呢?目前自己 nas 上弄了个 linkding ,当收藏夹用
    TrembleBeforeMe
        6
    TrembleBeforeMe  
       2023-02-15 16:13:24 +08:00
    保存的是网页而不是纯文本吗
    caomu
        7
    caomu  
       2023-02-15 16:14:54 +08:00 via Android   ❤️ 1
    类似项目:

    WorldBrain's Memex https://sspai.com/post/44088 这个据说现在只能索引书签的正文了

    https://www.v2ex.com/t/888303

    https://meta.appinn.net/t/topic/36432

    还是很期待类似的项目的,个人觉得未来趋势或许就是 ChatGPT 类应用本地化,可以支持语义搜索,那就完全相当于外置大脑了。
    caomu
        8
    caomu  
       2023-02-15 16:22:25 +08:00 via Android
    另一个讨论 https://meta.appinn.net/t/topic/10011

    楼主可以考虑增加建立本地索引的功能?
    TrembleBeforeMe
        9
    TrembleBeforeMe  
       2023-02-15 16:35:21 +08:00   ❤️ 1
    greensea
        10
    greensea  
    OP
       2023-02-15 16:49:41 +08:00
    @HeyWeGo 显示就像没有 CSS 的网页,反正只是回溯一下文字内容而已,不是经常看,显示效果完全无视
    @TrembleBeforeMe 保存的是存文本,主要是考虑到连图片一起保存的话太大了,而且我自己主要是需要找文字内容而已。
    @caomu 浏览器限制太大,本地索引不好做,真要做的话还是在服务端实现比较好,但是服务端实现的话部署就比较困难,不像现在这样随便整个 NAS 就行


    我倒是想做一个类似 Rewind 的东西,就直接屏幕截图,然后 OCR 文字,全文索引
    timeance
        11
    timeance  
       2023-02-15 16:50:30 +08:00
    我是看着觉得不错的就通过插件保存在 zetero 里 有空就手动标注 tag ,当文献来管理...
    xujinhui1
        12
    xujinhui1  
       2023-02-15 16:58:38 +08:00
    刚安装了插件,报"加载配置文件失败,无法浏览或搜索文件"
    greensea
        13
    greensea  
    OP
       2023-02-15 17:04:03 +08:00
    @xujinhui1 应该是要先设定 WebDAV 链接,然后才能用,这地方的提示应该是没做好
    wanguorui123
        14
    wanguorui123  
       2023-02-15 17:06:21 +08:00
    如果能自动生成 mht 单文件保存就好了
    wanguorui123
        15
    wanguorui123  
       2023-02-15 17:08:53 +08:00
    或者截屏保存也行
    caomu
        16
    caomu  
       2023-02-15 17:17:11 +08:00 via Android
    保存 mht 会不会太大啊
    puck260
        17
    puck260  
       2023-02-15 17:19:56 +08:00
    maybe 网页长图也是一个方向,只需要文件名是网址
    hamsterbase
        18
    hamsterbase  
       2023-02-15 17:56:09 +08:00 via Android   ❤️ 5
    如果想自动保存,可以试试看 singlefile

    singlefile 支持自动保存浏览过的网站,还可以设置停留多久才保存。

    除了保存到本地 ,singlefile 支持保存到 webdav GitHub


    顺便提一下,我开发了一个稍后读工具 hamsterbase 。 支持导入 singlece ,mhtml ,webarchive 等常见网页格式。 导入后支持批注,全文搜索,打标签。
    hamsterbase 完全离线,有桌面版和 docker 版。 看我之前发的帖子就可以了
    Bingchunmoli
        19
    Bingchunmoli  
       2023-02-15 17:59:54 +08:00 via Android
    有需求做不出来,见过开源项目通过 chrome ,py pdf 等各种方式留存以方便后续寻找及原站 404 后仍然可用,都有点麻烦
    ourongxing
        20
    ourongxing  
       2023-02-15 20:01:25 +08:00
    直接用 cubox 吧,可以用快照。
    leqoqo
        21
    leqoqo  
       2023-02-15 20:37:05 +08:00
    请问一下能支持保存到本地一个目录吗?,最好支持一下点击"加入索引",然后保存该记录.
    顺便分享一下我的 iPhone 历史记录方法
    https://www.icloud.com/shortcuts/c8320ec70d0b4bfb8b876e5f2509f85e
    截屏并 OCR 生成富文本 html 保存到文件
    leqoqo
        22
    leqoqo  
       2023-02-15 20:39:52 +08:00
    设置成双击手机背面 执行上面捷径
    wayne3602
        23
    wayne3602  
       2023-02-15 20:46:26 +08:00 via Android
    不错,支持一下,我也有这个困扰,而且除了这个困扰之外我有个癖好,我在输入框输入东西的时候不想被曾经输入过的相似内容打扰,我只能清除浏览数据,但是这样一来我以后想找曾经浏览过的网页就彻底找不到了
    zouzhi
        24
    zouzhi  
       2023-02-15 21:15:55 +08:00
    挺好,我一般是保存到 notion ,也还不错
    31415926535x
        25
    31415926535x  
       2023-02-15 21:23:22 +08:00
    把所有浏览过的页面都缓存的话,感觉是不是有些冗余(因为一般只需要备份感兴趣的就行,不过好像也没法预知后续是否重新感兴趣)

    如果只是为了 backup 浏览过的链接,以及快速回复标签页对应的窗口的话,可以试试 sessionbuddy 这个插件
    zooo
        26
    zooo  
       2023-02-15 21:27:57 +08:00
    支持

    之前有过这种想法,没想到挺多人都已经做出来工具了
    zooo
        27
    zooo  
       2023-02-15 21:29:34 +08:00
    @zooo 其实如果支持后续一些功能就能强大了,比如自动分类,自动建立一些帮助人记忆消化的索引,就能好了,相当于第二大脑,人脑用来将建立的索引进行记忆。
    wynemo
        28
    wynemo  
       2023-02-15 22:38:17 +08:00
    @greensea #10 老哥 插件描述可以更新下吗 应该是这种形式吧 https://username:passwordmimie@foo:bar:5006/archive/
    m4d3bug
        29
    m4d3bug  
       2023-02-15 23:06:13 +08:00 via Android
    能多一个树状图记录浏览痕迹也是极好的
    lovestudykid
        30
    lovestudykid  
       2023-02-16 03:41:58 +08:00
    https://www.rewind.ai
    这个工具可以把电脑上浏览过的任何东西存档并可检索
    adrianzhang
        31
    adrianzhang  
       2023-02-16 04:47:58 +08:00 via iPhone
    非常非常棒啊!早就需要这类工具了!
    dasenlin
        32
    dasenlin  
       2023-02-16 08:58:24 +08:00
    用户名或者密码中含有 @ 是不是就不能用了
    Spoter
        33
    Spoter  
       2023-02-16 09:39:21 +08:00
    @wayne3602 直接关闭那一个搜索结果就好了
    lelandsu
        34
    lelandsu  
       2023-02-16 11:51:36 +08:00
    不能用, 输入带用户名和密码的地址,测试连接失败,DevTools 看了下,密码被当作域名发起了请求。
    Rookiewan
        35
    Rookiewan  
       2023-02-16 16:30:27 +08:00
    试了下,指定文件夹下只有 3 个文件夹,但是却一直搜索,搜索 1000 多个还在继续,被我终止了。不会是从根目录开始搜索的吧?
    ufo5260987423
        36
    ufo5260987423  
       2023-02-16 17:38:18 +08:00
    @eaststarpen 我直接用 vim 插件,在打开网页的时候可以直接搜索
    XiaoBaiYa
        37
    XiaoBaiYa  
       2023-02-17 10:33:26 +08:00
    @hamsterbase #18 感谢推荐,挺好用,基本无感,已经存了 1 个 G 的历史记录了
    greensea
        38
    greensea  
    OP
       2023-02-17 11:19:18 +08:00
    @wynemo 昨天提交新版本了,现在审核已经通过,应该会自动更新下来了

    @wanguorui123 你是想自动保存网页的 mht ,而仅仅是纯 HTML ?这样会很大的哦,估计一天就能有几个 GB 出来

    @zooo 曾经想过做全文索引然后加快搜索速度,但是考虑到本地没法实现,而如果在服务端实现的话对个人来说部署又太麻烦,于是还是直接采用扫描的方法搜索

    @dasenlin 这是一个问题,做的时候确实没考虑到这种情况,过几天会更新一个版本出来解决

    @Rookiewan 如果指定目录的话应该就只搜索这个目录下的,我回头再测试确认一下
    greensea
        39
    greensea  
    OP
       2023-02-17 11:22:09 +08:00
    @lelandsu 这个是一个问题,过几天的新版会修复
    atshow
        40
    atshow  
       2023-02-18 02:38:24 +08:00
    @greensea 是的,用户名是邮箱,被识别为网址了
    Champa9ne
        41
    Champa9ne  
       2023-02-18 09:39:08 +08:00
    楼主感觉保存成类似用 save page we 插件下载下来的那种包含图片的 html 的形式还是有必要的。刚才粗略看了一下昨天刷的网页大概在 800 左右,一个正经技术贴含图片下载下来大概大小在 5-10MB ,这样算一天估计在 4-8g 。

    800 这个值只是没排除下面说的肯定没必要下载的访问和我昨天几乎屁事没干一直在刷网页的前提下的测量值。

    而且因为也不是所有浏览的网页都有必要下载,感觉可以在下载的时候过一次正则匹配,因为有时候访问主站或者打开翻译器,在搜索引擎上搜索关键字不打开帖子这种操作反而会产生大量浏览记录。

    比如访问 https://www.v2ex.com/则不下载,访问 https://www.v2ex.com/t/*则下载,访问 https://translate.google.com/则不下载这样。

    实际上感觉如果是正经干活,一天按匹配规则刷下来可能 200-400 贴左右需要被下载就顶天了。感觉再多一天的存储量可能在两三 g 左右,如果是丢到 nas 上那应该问题不大吧。
    yy915cn
        42
    yy915cn  
       2023-02-18 12:59:52 +08:00
    webdav 连接不了(其它软件挂载是没问题的,网页打开也没问题)
    http://xx:[email protected]:8080/data/
    然后试了 SingleFile ,也连接不了 webdav 。。。这种是什么问题呢
    Magicmadoka
        43
    Magicmadoka  
       2023-03-02 15:06:01 +08:00
    感谢 OP 开发的插件,我用的是世纪互联 OneDrive 作为 webdav 服务器,体验相当不错,就是使用的时候发现在 YouTube 看视频的时候,每隔十几秒插件就会数字+1 ,实际上又没有保存内容,不知道是不是 bug 。
    yy915cn
        44
    yy915cn  
       2023-03-03 22:08:29 +08:00
    webdav 错误提示
    This server could not verify that you are authorized to access the document requested. Either you supplied the wrong credentials (e.g., bad password), or your browser doesn't understand how to supply the credentials required.
    HuPu
        45
    HuPu  
       2023-03-11 09:16:04 +08:00
    @yy915cn 同样的问题 我没怎么用过 webdav 随便用 docker 跑了个
    docker run --restart always -v ~/srv/dav:/var/lib/dav \
    -e AUTH_TYPE=Digest -e USERNAME=alice -e PASSWORD=secret1234 \
    --publish 80:80 -d bytemark/webdav
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3395 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 12:34 · PVG 20:34 · LAX 05:34 · JFK 08:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.