首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
宝塔
V2EX  ›  分享创造

新闻网页正文通用抽取工具 Node.js 版本

  •  
  •   jason94 · 44 天前 · 1295 次点击
    这是一个创建于 44 天前的主题,其中的信息可能已经有所发展或是发生改变。

    上个月看到大佬发的/t/599166,国庆研究了一下代码和论文,把大佬的代码用 JavaScript 写了一遍,做了一些修改,目前感觉效果还可以。

    下一步考虑在浏览器中运行。

    repo: zenghongtu/general-news-extractor-js

    online demo: https://general-news-extractor-demo.stayin.cn

    8 回复  |  直到 2019-10-11 11:28:41 +08:00
        1
    Sanko   44 天前 via Android
    资瓷
        2
    momocraft   44 天前
    不是新闻网页(比如没有日期)也适用吗?
        3
    cydian   44 天前 via Android
    图片呢?
        4
    0o0O0o0O0o   44 天前
    早就想要了,感谢楼主。

    整到了 cloudflare workers 上

    ```sh
    $ curl -s -o test.html http://baijiahao.baidu.com/s?id=1646431966952708911

    $ curl -s -X POST https://demo.extract.workers.dev/demo -d @test.html | jq
    {
    "title": "国庆黄金...000 万人次",
    "author": "",
    "publishTime": "10 月 4 日",
    "content": "..."
    }
    ```
        5
    optional   44 天前
        6
    jason94   43 天前 via Android
    @momocraft 不是日期的问题,算法不适用额
        7
    mrjiejiejie   42 天前
        8
    jason94   42 天前
    @mrjiejiejie 这篇应该正文太短了,最后算出来的分数低了一点,晚点我看看怎么修正
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1078 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 23ms · UTC 18:33 · PVG 02:33 · LAX 10:33 · JFK 13:33
    ♥ Do have faith in what you're doing.