首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
宝塔
V2EX  ›  Python

按教程用正则表达式提取不到内容怎么办?

  •  
  •   xiaozaiziwyt · 270 天前 · 1145 次点击
    这是一个创建于 270 天前的主题,其中的信息可能已经有所发展或是发生改变。
    爬取猫眼 100 名电影,结果检测正则表达式提取内容的时候返回的结果为空。

    def parse_one_page(html):
    pattern = re.compile(
    '<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>',
    re.S)
    items = re.findall(pattern, html)
    print(items)
    这是第一个;

    import re
    def parse_one_page(html):

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name">'
    + '<a.*?>(.*?)</a>.*?"star">(.*?)</p>.*?releasetime">(.*?)</p>'
    + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    items = re.findall(pattern, html)

    for item in items:
    yield {
    'index': item[0],
    'image': item[1],
    'title': item[2],
    'actor': item[3].strip()[3:],
    'time': item[4].strip()[5:],
    'score': item[5] + item[6]
    }
    def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    for item in parse_one_page(html):
    print(item)
    这是第二种方式。
    发现都提取不出来内容,但是如果用完整的代码则在最后运行的时候会正确显示……
    8 回复  |  直到 2019-02-25 16:37:12 +08:00
        1
    Kacxxia   270 天前   ♥ 1
    https://regex101.com
    推荐你用这个测试正则,右上会有语法解析
        2
    xiaozaiziwyt   270 天前
    @Kacxxia 谢谢了。不过重新写代码后发现居然能运行了
        3
    fzinfz   270 天前   ♥ 1
    写这么长正则解析 html 的教程是为了找人切磋不是教人的吧,劝楼主另寻教程。。。关键词:bs4
        4
    msg7086   270 天前
    比较好的办法是先用正则提取出主要数据,再用 XML / HTML 解析器解成结构化数据,再去读取遍历。
        5
    hakono   270 天前 via Android
    楼主你看的么破教程啊,教人抽取复杂的网页用正则。。。。
    乖乖去用 beautiful soup 去,一个 css 选择器就抽出来,节省自己点时间和生命吧
        6
    xpresslink   270 天前
    建议楼主学习 一下 xPath 语法,写代码效率比正则要高多了,在 scrapy 中直接就可以用。 比较容易入手还是推荐 BS4
        7
    E1n   269 天前 via Android
    正则写的爽
        8
    hjq98765   269 天前
    bs4+1
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3278 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 57ms · UTC 04:30 · PVG 12:30 · LAX 20:30 · JFK 23:30
    ♥ Do have faith in what you're doing.