V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
karlxu
V2EX  ›  问与答

请教个 python2.7 读取 html 文件的编码问题

  •  
  •   karlxu · 2018-06-25 17:53:52 +08:00 · 1277 次点击
    这是一个创建于 2137 天前的主题,其中的信息可能已经有所发展或是发生改变。

    截图是个 html 文件,编码是:<meta http-equiv="Content-Type" content="text/html; charset=unicode">
    python 想查找有没有 table class 关键字:

    但是找不到 table class,感觉是编码的问题,我也试过中间加上空格,也找不到。
    代码最开头已经加了:

    应该怎么写才能正确读到?谢谢!
    5 条回复    2018-06-26 09:32:14 +08:00
    ThirdFlame
        1
    ThirdFlame  
       2018-06-25 18:44:27 +08:00
    我觉得里面有空格吧。 用 16 进制的方式看一看 到底是什么内容。
    另外复制 查找也不行么?
    karlxu
        2
    karlxu  
    OP
       2018-06-25 21:26:16 +08:00
    @ThirdFlame 在 notepad++里展示和查找是正常的,没有空格,就是 print 的时候发现有空格
    msg7086
        3
    msg7086  
       2018-06-25 22:02:31 +08:00
    charset=unicode

    你为什么要用 utf-8 去读?又不是 charset=utf-8。
    aiver
        4
    aiver  
       2018-06-26 07:26:31 +08:00
    如果是标准 HTML 文件,用 BS 库打印了看看。另外,楼上说的对,unicode 为什么用 utf-8 解析啊
    karlxu
        5
    karlxu  
    OP
       2018-06-26 09:32:14 +08:00 via iPhone
    @msg7086
    @aiver
    一开始不知道是 unicode,这个是 beyond compare 生成的 html,对比 2 个 Excel
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2238 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 07:42 · PVG 15:42 · LAX 00:42 · JFK 03:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.