请教一个反爬的技术

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 465 天前的主题，其中的信息可能已经有所发展或是发生改变。

新加坡联合早报 https://www.zaobao.com/
新闻详情页面采用了一种没见过的技术应对复制与爬虫
例如 https://www.zaobao.com/news/china/story20230110-1351792

在 P 标签内加入了 data-s="yGMGEZQ===="这种标签,导致页面看起来段落顺序是正确的,但复制,或者爬取,就是错的请大神指点一下

data-s

ygmgezq

标签

页面

22 条回复 • 2023-01-16 12:27:19 +08:00

viewrules

2023-01-10 11:59:32 +08:00

html 里的结构和视觉效果的结构不一致，这种你要打断点研究排序的那个方法，反向还原

xiaopc

2023-01-10 12:05:04 +08:00

参考： https://github.com/DIYgod/RSSHub/issues/10309

Eiden

2023-01-10 13:21:15 +08:00

根据 data-s 标签算出来的排序, 感兴趣且有时间的可以跟进去看看, 混淆了有点费时间, o 值就是正常的顺序

wangxiaoaer

2023-01-10 13:40:34 +08:00

这玩意儿是不是一个无头浏览器就解决了？

sparklee

2023-01-10 13:47:30 +08:00

@wangxiaoaer +1, 就是需要在获取到数据之后浏览器执行一遍 js 重新排序

yang3121099

2023-01-10 13:49:45 +08:00

@Eiden 所以是数组定义了一层映射来打乱段落的顺序吗，确实直接复制段落就会隔三差五的，第一次见 hhh

guaguaguaxia1

2023-01-10 13:57:24 +08:00

@wangxiaoaer 爬虫一般都不用浏览器的，效率极低

gezimonkey

2023-01-10 14:36:28 +08:00

@wangxiaoaer 我尝试过了,Firefox 无法获得 html 内容,chrome 获得的同样是乱序

lkwfive

2023-01-10 14:55:04 +08:00

浏览器截图 + OCR

BeforeTooLate

2023-01-10 14:57:04 +08:00

那这样是否意味着搜索引擎也无法收录了？

blankmiss

2023-01-10 14:58:08 +08:00

@lkwfive 这样效率是不是太慢了况且 ocr 还有识别不精准的问题,但确实是一种解决方法（狗头

leaflxh

2023-01-10 15:01:56 +08:00

（右键可以复制全文

bluedawn

2023-01-10 15:13:14 +08:00 via iPhone

没研究过但是
不妨看看 rsshub 对联合早报的 rss 爬取策略？
如果只是想获取新闻内容

likeme

2023-01-10 15:16:18 +08:00

@guaguaguaxia1 不用浏览器用什么？好奇...

corcre

2023-01-10 15:22:24 +08:00

@likeme 我只知道无头浏览器, 如果他说的不是无头浏览器的话我也很好奇这种需要执行 js 去计算 DOM 的内容要怎么抓取...

jishuliu

2023-01-10 15:44:44 +08:00

@Eiden 把这个老哥的函数给扣下里就好了，i.default.d 扣下来本地跑 js 代码解析 data-s

chenzhe

2023-01-10 15:58:59 +08:00

const axios = require("axios");
const cheerio = require("cheerio");

axios.get("https://www.zaobao.com/news/china/story20230110-1351792").then(res => {
const $ = cheerio.load(res.data)
const context = []
$("#article-body").children().each((i, el) => {
if (i > 0 && $(el).text() !== "") {
context.push($(el).text())
}
})
console.log(context.join("\n"))
})

getcharch

2023-01-10 16:05:01 +08:00

https://cmd.im/pmhr

关键代码传入参数 data-s.substring(3)
```
d = function (e) {
var t, n, o, i = e["length"], s = "ABCDEFGHIJKLMNOPQRSTUVWXYZ234567=", l = 0, u = 0, c = "";
e = e["toUpperCase"]();
for (var d = 0; d < i; d += 1)
(t = s["indexOf"](e["charAt"](d))) >= 0 && t < 32 && (n = n << 5 | t, u += 5, u >= 8 && (o = 255 & n >> (u - 8), c = (c + String["fromCharCode"](o)), u -= 8));
if ((u > 0) && (o = (n << (8 - u) & 255) >> (8 - u), (o !== 0))) {
c = c + String.fromCharCode(o)
}
return c
}
```

jishuliu

2023-01-10 16:11:02 +08:00

@getcharch 大佬牛逼，能分享一下定位用的工具和思路吗

ripperts

2023-01-10 16:39:14 +08:00

简单看了下就是 data-s 字符串截取 3 位，然后 base32 加码就行了。
比如，data-s="6qsGE3A====" 然后 base32 解码 GE3A==== 直接返回 16
随便找了个在线解码： https://www.usetoolbar.com/developer/base32.html

试试吧，没仔细确认

gezimonkey

2023-01-10 16:41:37 +08:00

@getcharch 大佬你就是生产力!!!

NoOneNoBody

2023-01-16 12:27:19 +08:00

@likeme #14
@corcre #15
如果要爬取的内容是完整文字，js 只是用于渲染和排版，可以摒弃 DOM ，直接用正则，按自己规则重建排版

其实爬取万级以上页面，每页建 DOM(即使非 js)搜索和正则搜索，耗费资源差别很大，正则快很多
两者各有优劣，如果内容边界随机，例如随机的 class name 样式，正则要确定内容的位置不容易，要一定技巧，dom 就可以简单地用 path 就能找到