请教个 python2.7 读取 html 文件的编码问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 2137 天前的主题，其中的信息可能已经有所发展或是发生改变。

截图是个 html 文件，编码是：<meta http-equiv="Content-Type" content="text/html; charset=unicode">
python 想查找有没有 table class 关键字：

但是找不到 table class，感觉是编码的问题，我也试过中间加上空格，也找不到。
代码最开头已经加了：

应该怎么写才能正确读到？谢谢！

5 条回复 • 2018-06-26 09:32:14 +08:00

ThirdFlame

2018-06-25 18:44:27 +08:00

我觉得里面有空格吧。用 16 进制的方式看一看到底是什么内容。
另外复制查找也不行么？

karlxu

2018-06-25 21:26:16 +08:00

@ThirdFlame 在 notepad++里展示和查找是正常的，没有空格，就是 print 的时候发现有空格

msg7086

2018-06-25 22:02:31 +08:00

charset=unicode

你为什么要用 utf-8 去读？又不是 charset=utf-8。

aiver

2018-06-26 07:26:31 +08:00

如果是标准 HTML 文件，用 BS 库打印了看看。另外，楼上说的对，unicode 为什么用 utf-8 解析啊

karlxu

2018-06-26 09:32:14 +08:00 via iPhone

@msg7086
@aiver
一开始不知道是 unicode，这个是 beyond compare 生成的 html，对比 2 个 Excel