V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
xray887
V2EX  ›  Python

关于百度爬虫的问题,有些问题必须要提出来了

  •  1
     
  •   xray887 · 2017-08-01 17:39:43 +08:00 · 2727 次点击
    这是一个创建于 2457 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问题:关于百度转码为百度网站的内容显示的问题如下图:

    alt hello

    原网站如下图:

    alt hello

    请问:

    1. 百度每天抓数十万的网站,他们的正文提取,标题提取,发表时间统一格式化,文章出处等,都是专人去写 xpath, re, css selector, bs 吗?
    2. 还有个问题,数十万的网站,他们的文章翻页有上千种,他们怎么去做到的翻页问题,难道也是专人去写 xpath, re, css selector, bs 吗?
    3. 很多网站做了图片、视频防盗链,但是百度将原网站所有的图片、视频等全包同步到了自己的存储器里面,请问,对于防盗链的网站的资源,他们也是专人去做处理吗?
    4. 本人是个爬虫新手,遇到的问题就是上面的问题,其实这几个问题也是通用爬虫的问题,求各位给点意见和建议。
    5. 不胜感激涕零。
    
    6 条回复    2017-08-02 14:15:16 +08:00
    xray888
        1
    xray888  
       2017-08-01 17:53:26 +08:00
    有人给解答一下吗
    gamexg
        2
    gamexg  
       2017-08-01 18:12:18 +08:00   ❤️ 1
    /t/309948

    1.2.
    都是可以机器识别的。

    3.爬虫的 referer 一般是空或者是网站 url,都不会碰到防盗链问题。
    gamexg
        3
    gamexg  
       2017-08-01 18:26:53 +08:00
    对了,关于 1.2. 记得有开源实现,google 网页 正文 识别 。
    huangfs
        4
    huangfs  
       2017-08-01 23:56:26 +08:00
    会有抓取模版匹配的。
    yeless
        5
    yeless  
       2017-08-02 13:10:32 +08:00
    正文抽取算法:
    1.基于文本长度的算法,计算字符集密度
    2.K-means,聚类中心点取值算法
    3.标签模板
    xray888
        6
    xray888  
       2017-08-02 14:15:16 +08:00
    @yeless
    @gamexg
    @gamexg
    @huangfs
    谢谢回答。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1442 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 17:25 · PVG 01:25 · LAX 10:25 · JFK 13:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.