首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  互联网

如何优雅的保存网页正文?

  •  1
     
  •   creedowl · 2018-07-04 15:40:25 +08:00 · 7879 次点击
    这是一个创建于 414 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看到一些好的文章 /博客,想要保存下来,方便以后查阅,用过 pocket 体验不好,会丢格式,代码高亮...

    目前想法是把文章正文保存为 PDF,考虑用 puppeteer,但是它好像只能将整个页面保存为 PDF,请问有什么更优雅的方法?

    93 回复  |  直到 2019-07-24 13:42:09 +08:00
        1
    VVVVVEX   2018-07-04 15:44:21 +08:00
    收藏链接
        2
    nulIptr   2018-07-04 15:48:47 +08:00
    pdf 可以的话屏幕剪辑也行啊,我用 onenote
        3
    creedowl   2018-07-04 15:49:11 +08:00
    @VVVVVEX 怕时间久了链接凉了,毕竟挺多个人博客域名经常换..
        4
    creedowl   2018-07-04 15:50:09 +08:00
    @nulIptr #2 那样不能复制吧..想用 PDF 就是因为可以复制,图片可以放大
        5
    lurenw   2018-07-04 15:51:40 +08:00
    diggo
        6
    randyzhao   2018-07-04 15:55:36 +08:00
    我好像听人说过印象笔记可以直接保存整个网页副本?
        7
    randyzhao   2018-07-04 15:57:02 +08:00   ♥ 1
    #5 我补充一下 5 楼的

    https://www.diigo.com/premium

    Store your online resources with annotations intact forever, regardless of whether the original source is still active. (Premium Feature)
        8
    haimall   2018-07-04 15:58:22 +08:00 via Android
    滚动截屏,放 onenote 之类的
        9
    fakeJas0n   2018-07-04 15:58:26 +08:00
        10
    creedowl   2018-07-04 15:58:31 +08:00
    @lurenw #5 老哥好像打错了 emm..我看看这个
        11
    creedowl   2018-07-04 15:58:47 +08:00
    @haimall 那样不能复制吧..想用 PDF 就是因为可以复制,图片可以放大
        12
    JackEggie   2018-07-04 15:59:25 +08:00
    evernote 的 chrome 插件
        13
    smdbh   2018-07-04 15:59:26 +08:00
    evernote
        14
    creedowl   2018-07-04 15:59:56 +08:00
    @randyzhao #6 整个网页的话有多余元素不好去掉..
        15
    pexcn   2018-07-04 16:02:11 +08:00
    网页滚动截屏: https://sspai.com/post/42193
        16
    Mbin   2018-07-04 16:02:49 +08:00
    我也想知道,一直没什么特别舒服的方法,有道和印象体验都不好
        17
    haimall   2018-07-04 16:03:14 +08:00 via Android
    @creedowl 看你复制的机率有多大,有一种功能叫识别图片文字。想完美,总要牺牲点东西的。
        18
    logOo   2018-07-04 16:04:20 +08:00 via Android
    页面千千万,没啥特别优雅的方案
        19
    cdfmr   2018-07-04 16:09:21 +08:00
    Firefox 的插件 Scrapbook,坚守 ESR 52 的最大原因。
        20
    radio777   2018-07-04 16:10:13 +08:00
    chrome 浏览器 打印 里面可选择保存为 pdf 格式
        21
    randyzhao   2018-07-04 16:10:56 +08:00
    @creedowl 误解你的意思了,你的意思是只保留文章的正文?

    那我暂时不知道了。。。
        22
    creedowl   2018-07-04 16:12:32 +08:00
    @randyzhao 因为现在页面总有各种乱七八糟的东西..
        23
    aice114   2018-07-04 16:13:32 +08:00
    有道云笔记,chrome 插件
        24
    imn1   2018-07-04 16:18:10 +08:00
    前两天不是有个人发了个 maoxian 什么的剪切扩展么?
        25
    goodniuniu   2018-07-04 16:19:10 +08:00
    印象笔记!
        26
    ericzeng   2018-07-04 16:19:20 +08:00
    印象笔记保存这个不错,还能提醒
        27
    Trumeet   2018-07-04 16:21:56 +08:00 via Android
    archive.is 和类似网站 试试?
        28
    cuzfinal   2018-07-04 16:37:18 +08:00
    打印成 pdf 文件存起来。
        29
    geying   2018-07-04 16:40:48 +08:00
    全屏截图
        30
    JCZ2MkKb5S8ZX9pq   2018-07-04 16:45:01 +08:00
    onenote 也有 chrome 插件,但后来我嫌太占空间了,还是 pocket 了。
        31
    nosay   2018-07-04 16:58:51 +08:00
    有过类似的需求,找了一圈都不太好用。无奈用自己上次搭车买的良心云服务器,做了个相关服务,用到现在。
    不过不是截取正文,只是简单的生成图片以及下载相应页面然后分类入库。
        32
    tabris17   2018-07-04 17:02:29 +08:00
    要格式还要带图片,mht 格式是最好的。

    页面要剪裁,可以用开发者工具来清除元素,再另存 pdf,或者存 evernote
        33
    v2sir   2018-07-04 17:11:02 +08:00   ♥ 4
    哎嘛, 那么多回答, 没一个能轻松而优雅的解决问题的。 这届程序员不行?
    chrome,选定所需内容, 右键点击,选择打印... (注意要选定内容,并且右键菜单选择打印)
    绝大多数网站都能适配,个别网站打印的 PDF 排版有点问题, 还有的网站有分享浮动条的, 会导致右键弹出菜单失效。
    回答完毕。
        34
    janus77   2018-07-04 17:31:33 +08:00
    onenote evernote 类似的网页剪藏
        35
    glasslion   2018-07-04 17:38:16 +08:00
    我现在是 印象笔记剪藏, 印象桌面客户端可以导出为 html,定期 用 calibre 转成 epub 电子书
        36
    hebwjb   2018-07-04 17:39:21 +08:00
    印象笔记·剪藏
        37
    hebwjb   2018-07-04 17:40:04 +08:00
        38
    zangbob   2018-07-04 17:46:10 +08:00
        39
    randyzhao   2018-07-04 17:49:54 +08:00
    @v2sir 这种方法我知道的,不过每次都要选择全文。。。并不优雅啊
        40
    SeptimusX   2018-07-04 17:50:51 +08:00
    Evernote 之前的 Clearly 干这个最合适,简阅似乎也可以…
        41
    sudoz   2018-07-04 17:52:01 +08:00
    @nulIptr onenote 的网页截屏非常难用,排版、字体都极差
        42
    Seanfuck   2018-07-04 17:56:36 +08:00
    @cdfmr Firefox 自带截屏功能,不需要插件;用开发者工具也方便复制文字。
        43
    frozenthrone   2018-07-04 18:18:25 +08:00 via iPhone
    阅读模式转 pdf,保存到 icloud
        44
    nulIptr   2018-07-04 18:26:18 +08:00
    @sudoz ???我用火狐,有个 onenote 的插件,一件截图整个网页啊
        45
    StarRED   2018-07-04 18:27:08 +08:00 via Android
    有软件可以搬网站😀😀😀
        46
    sammo   2018-07-04 18:28:39 +08:00
    收藏链接,收藏到 archive.is 或 Wayback Machine
        47
    mikezhang0515   2018-07-04 18:34:03 +08:00   ♥ 1
    mhtml,这个难道没人知道吗?我的天
        48
    Vitameans   2018-07-04 18:49:17 +08:00 via iPhone
        49
    iMusic   2018-07-04 18:53:28 +08:00   ♥ 1
    Chrome 开发者工具,<kbd>ctrl</kbd>+<kbd>shift</kbd>+<kbd>p</kbd> 输入 `capture`选择,可以截图整个网页或者 某个 DOM 的内容,比如下面评论区的截图

    ![image]( )
        50
    FanWall   2018-07-04 18:57:34 +08:00 via Android
    Evernote+1,用了两年效果很好,移动端效果差些,chrome 插件则完全满足我的需求。
        51
    Davidwg   2018-07-04 19:08:41 +08:00
    push to kindle
        52
    Pai   2018-07-04 19:18:14 +08:00
    左上角 设置 另存为 放一个文件夹
        53
    windsage   2018-07-04 19:19:32 +08:00 via iPhone
    印象笔记裁剪插件了解一下
        55
    loryyang   2018-07-04 19:36:11 +08:00
    pdf + 印象笔记插件,基本够用了
        56
    Qzier   2018-07-04 19:38:17 +08:00 via iPhone
    保存为 mhtml
        57
    snw   2018-07-04 19:40:20 +08:00 via Android
    Firefox 全网页截图:Shift+F2,然后输入 screenshot --fullscreen
        58
    Messiv2   2018-07-04 19:50:21 +08:00
    @randyzhao 是的。大象还可以截图保存网页的一部分。不过我一般都是用大象保存正文。
        59
    Pyjamas   2018-07-04 20:51:37 +08:00
    有 rss 的话可以用 inoreader 之类的软件订阅然后打印成 pdf
        60
    omph   2018-07-04 23:04:58 +08:00
    简悦,存 pdf 或 md
        61
    zhangbohun   2018-07-04 23:48:57 +08:00
    为知笔记的 chrome 扩展,识别很准
        62
    xiadong1994   2018-07-05 01:05:45 +08:00 via iPhone
    网页另存为就是干这个的……虽然会把所有杂七杂八的东西都存了
        63
    oscargong   2018-07-05 01:12:23 +08:00
    我用 Python 包了一下 Mercury API,然后保存为 HTML。

    https://mercury.postlight.com/web-parser/
        64
    dobelee   2018-07-05 01:17:47 +08:00 via Android
    无敌大象。
        65
    CEBBCAT   2018-07-05 01:52:52 +08:00 via Android
    深夜了,推荐个 简阅 ,多个浏览器都能用,不细介绍了
        66
    elvisyao   2018-07-05 05:49:28 +08:00
    印象笔记最重要,对我来说也是唯一卖点,就是 非常简单的剪辑页面 保存到云端

    现在我就是想,今日头条什么时候也能保存到印象笔记
        67
    wtdd   2018-07-05 06:16:34 +08:00 via Android
    没有,互联网就不是让这么用的,强行本地化,要么肥要么累
        68
    marknote   2018-07-05 07:09:49 +08:00
    必须推荐一下自己的作品:MarkNote

    内容会被自动抓取并被转换为 Markdown 格式
    然后你可以随便修随便改
    加标签方便管理

    demo:
    https://www.jianshu.com/p/8949e11da186
        69
    standin000   2018-07-05 07:39:46 +08:00
    @oscargong 能分享下代码吗,谢谢
        70
    wofave   2018-07-05 07:44:07 +08:00   ♥ 1
        71
    zhishidahao   2018-07-05 08:19:19 +08:00
    @wofave 我就用的这个
        72
    yingfengi   2018-07-05 08:42:15 +08:00 via Android
    Ctrl + P 打印成 PDF
        73
    siagasky   2018-07-05 08:51:39 +08:00
    用 evernote 的话 evernote 最佳,不用的话 wallabag 了解一下
        74
    oska874   2018-07-05 09:42:39 +08:00
    evernote 啊,最佳。
        75
    Clarencep   2018-07-05 09:48:40 +08:00
    印象笔记·剪藏 +1
        76
    LichMscy   2018-07-05 10:15:12 +08:00
    保存正文
    用 Pocket 啊
        78
    ZRS   2018-07-05 11:31:07 +08:00
    instapaper
        79
    inter1908   2018-07-05 13:37:26 +08:00
    Safari 选择阅读器,然后导出 PDF。
        80
    FaiChou   2018-07-05 13:42:09 +08:00
    single file
        81
    FaiChou   2018-07-05 13:42:32 +08:00
    SIngleFile 和 SingleFile Core 这两个 chrome 插件
        82
    echo404   2018-07-05 14:13:53 +08:00
    印象笔记 chrome 插件
        83
    tsukiikekaoru   2018-07-05 14:15:29 +08:00 via Android
    先用简悦,然后选择你喜欢的方式导出
        84
    donglongfei2008   2018-07-05 14:42:07 +08:00
    记得火狐很早之前就有截取整个网页的功能,保存成图片
        85
    ibolee   2018-07-05 15:10:03 +08:00
    先用 fireshot 插件整页截图,再用 10987654321 点 com 做在线图像识别转文本。
        86
    ajan   2018-07-05 15:27:39 +08:00
        87
    standin000   2018-07-05 20:29:10 +08:00
    @randyzhao diigo 能够导出 html 文件吗?
        88
    randyzhao   2018-07-06 08:56:08 +08:00
    @standin000 这个我就不知道了,你喊一下 5 楼的同学
        89
    laxapple   2018-07-06 10:16:59 +08:00
    Safari Reader 模式打印保存为 PDF
        90
    standin000   2018-07-06 19:25:43 +08:00
    好吧,继续请教 @lurenw
        91
    H0TSp1RnG   2018-08-18 01:40:23 +08:00
    楼主有结论了吗
        92
    creedowl   2018-08-18 13:44:26 +08:00
    @H0TSp1RnG #91 上面推介的简阅不错
        93
    PANWCS   29 天前
    @v2sir 这个方法是真好评,方便。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   908 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 29ms · UTC 22:22 · PVG 06:22 · LAX 15:22 · JFK 18:22
    ♥ Do have faith in what you're doing.