V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  woshichuanqilz  ›  全部回复第 3 页 / 共 10 页
回复总数  189
1  2  3  4  5  6  7  8  9  10  
2020-10-25 11:12:24 +08:00
回复了 woshichuanqilz 创建的主题 Python Chrome 如何快速获取 request header?
解决了谢谢各位的帮助, 主要参考的是 @Cleric 的思路, 我用了 pychrome

基本代码在这里比较粗糙

```
import pychrome
from urllib.parse import urlparse
import subprocess, signal
import os
import time


def killprocess(pname):
p = subprocess.Popen(['ps', '-A'], stdout=subprocess.PIPE)
out, err = p.communicate()
for line in out.splitlines():
pinfo = line.decode().lower()
if pname in pinfo:
pid = int(line.split(None, 1)[0])
os.kill(pid, signal.SIGKILL)

header = dict()
url = "https://www.dogedoge.com"
if not url.endswith('/'):
url += '/'
domain = urlparse(url).netloc
killprocess('chrome')
cmd = 'google-chrome-stable --remote-debugging-port=9222'
p = subprocess.Popen(cmd.split(), stdout=subprocess.PIPE)
time.sleep(3)

# 创建一个浏览器实例
browser = pychrome.Browser(url="http://127.0.0.1:9222")

# 新建一个页签
tab = browser.new_tab()


# 需要注册的回调函数
def request_will_be_sent(**kwargs):
if url == kwargs.get('request').get('url'):
header = kwargs.get('request').get('headers')
return


tab.Network.requestWillBeSent = request_will_be_sent

# 开始接收消息, requestWillBeSent 事件发生时被注册的回调函数也可以执行
tab.start()

# 调用方法
tab.Network.enable()

# 调用方法并设置超时时间
tab.Page.navigate(url=url, _timeout=5)
input()
# 等待页面加载
tab.wait(5)

# 停止处理事件, 停止从 chrome 接收消息
tab.stop()

# 关闭页签
browser.close_tab(tab)

```
2020-10-05 11:42:31 +08:00
回复了 woshichuanqilz 创建的主题 问与答 Python 二进制读文件 转换 float 失败
@lcdtyph Thanks 已感谢
2020-08-26 16:44:51 +08:00
回复了 woshichuanqilz 创建的主题 Linux Linux 命令行设置剪切板的问题
@secondwtq 正解,alias xclip='xclip -sel clipboard' xlicp 默认不是我们一般认为的剪切板
@Trim21 可以但是这个是是代理的问题吗
@gesse 两个方法用的信息基本是一样的 你说的指纹具体指的是什么这个例子能修改吗
@locoz
你好我用了 fiddler 抓包 但是 aiohttp 的请求在 fiddler 里面不显示。

requests 是正常的。

aiohttp 的抓取过程是有的 有页面保存下来
2020-07-28 14:26:11 +08:00
回复了 woshichuanqilz 创建的主题 Python 爬取亚马逊使用代理的问题
@ooh 什么意思
2020-07-28 14:25:56 +08:00
回复了 woshichuanqilz 创建的主题 Python 爬取亚马逊使用代理的问题
@zh1997 一个验证页面就是填验证码的页面
2020-07-28 14:25:30 +08:00
回复了 woshichuanqilz 创建的主题 Python 爬取亚马逊使用代理的问题
@gluttony 本地 IP 不加代理可以的
2020-07-21 10:25:46 +08:00
回复了 kexming250 创建的主题 问与答 实验楼的会员有人共享么,一个月 30,包年太贵了~~~
@ggggitfkbjg 你好想共享一下账号
@imn1

谢谢 按照你的思路弄出来了


[code]
import re
text = """
LTOPOALG: ### got the S1 jump, sline 36, ts 1594566036, mbox mt-000000001004
LTOPOALG: mt-000000001012 [0 0]: 2485 2485 [ 2485 2485 2485 2485 ] 2485 2485
LTOPOALG: mt-000000001016 [0 0]: 50758 50752 [ 50746 50740 50734 50728 ] 50722 50716
LTOPOALG: mt-000000001010 [0 0]: 3477 3477 [ 3477 3477 3477 3477 ] 3477 3477
LTOPOALG: mt-000000001011 [0 0]: 55265 55263 [ 55261 55259 55257 55255 ] 55253 55251
LTOPOALG: mt-000000001014 [0 0]: 555 555 [ 555 555 555 555 ] 555 555
LTOPOALG: mt-000000001013 [0 0]: 793 792 [ 791 790 789 788 ] 787 786
LTOPOALG: mt-000000001015 [0 0]: 2053 2053 [ 2053 2053 2053 2053 ] 2053 2053
LTOPOALG: mt-000000001009 [0 0]: 348 354 [ 360 366 372 378 ] 384 390
LTOPOALG: mt-000000001007 [0 0]: 99 99 [ 99 99 99 99 ] 99 99
LTOPOALG: mt-000000001002 [0 0]: 3442 3442 [ 3442 3442 3442 3442 ] 3442 3442
LTOPOALG: mt-000000001006 [0 0]: 152 152 [ 152 152 152 152 ] 152 152
LTOPOALG: mt-000000001018 [0 0]: 1382 1396 [ 1410 1424 1438 1452 ] 1466 1480
LTOPOALG: mt-000000001017 [0 0]: 6699 6681 [ 6663 6645 6627 6609 ] 6591 6573
LTOPOALG: mt-000000001004 [0 1]: 25831 25852 [ 25852 21595 5897 4851 ] 4847 4849
LTOPOALG: mt-000000001008 [0 0]: 89 89 [ 89 89 89 89 ] 89 89
LTOPOALG: bt-000000001001-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001005-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001003-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001020-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001001-2 [0 0]: 3522 3522 [ 3522 3522 3522 3522 ] 3522 3522
LTOPOALG: bt-000000001005-2 [0 0]: 34861 34865 [ 34889 34845 18830 13368 ] 13376 13395
LTOPOALG: bt-000000001003-2 [0 0]: 302 306 [ 310 314 318 322 ] 326 330
LTOPOALG: bt-000000001020-2 [0 0]: 119 119 [ 119 119 119 119 ] 119 119
LTOPOALG: bt-000000001001-3 [0 0]: 55414 55412 [ 55410 55408 55406 55404 ] 55402 55400
LTOPOALG: bt-000000001020-3 [0 0]: 7339 7337 [ 7335 7333 7331 7329 ] 7327 7325
LTOPOALG: bt-000000001003-3 [0 0]: 2357 2357 [ 2357 2357 2357 2357 ] 2357 2357
LTOPOALG: bt-000000001005-3 [0 0]: 3684 3685 [ 3686 3687 3688 3689 ] 3690 3691
LTOPOALG: bt-000000001020-4 [0 0]: 956 958 [ 960 962 964 966 ] 968 970
LTOPOALG: bt-000000001001-4 [0 0]: 50406 50405 [ 50404 50403 50402 50401 ] 50400 50399
LTOPOALG: bt-000000001003-4 [0 0]: 403 403 [ 403 403 403 403 ] 403 403
LTOPOALG: bt-000000001005-4 [0 0]: 7499 7505 [ 7511 7517 7523 7529 ] 7535 7541
LTOPOALG: bt-000000001003-5 [0 0]: 817 816 [ 815 814 813 812 ] 811 810
LTOPOALG: bt-000000001020-5 [0 0]: 25925 25949 [ 25947 25955 6115 4841 ] 4835 4847
LTOPOALG: bt-000000001001-5 [0 0]: 2304 2304 [ 2304 2304 2304 2304 ] 2304 2304
LTOPOALG: bt-000000001005-5 [0 0]: 113987 -1 [ -1 -1 113612 113682 ] 113752 113822
LTOPOALG: **ltopo_alg_proc_s1_jump, got the SINGLE jump, sline 36, box 000000001004, father 000000000522
LTOPOALG: gen ev mt-000000001004
"""


regex = "LTOPOALG: ### .*?\n(?!LTOPOALG: mt)(?!LTOPOALG: bt)"
for i in re.findall(regex, text, re.M|re.DOTALL):
print('-' * 20)
print(i)

[/code]
@imdong
text = """
###
1.
2.
xxxxx
###
1.
2.
1.
2.
1.
xxxx
1. <---- 这行不会被匹配因为不连续
"""

regex = "^[\#]{3,}\s([0-9]+\.\s+){2,}"
for i in re.findall(regex, text, re.M):
print('-' * 20)
print(i)

这个是我的测试结果:
--------------------
2.

--------------------
1.
@dbw9580

```
import re
text = """
LTOPOALG: ### got the S1 jump, sline 36, ts 1594566036, mbox mt-000000001004
LTOPOALG: mt-000000001012 [0 0]: 2485 2485 [ 2485 2485 2485 2485 ] 2485 2485
LTOPOALG: mt-000000001016 [0 0]: 50758 50752 [ 50746 50740 50734 50728 ] 50722 50716
LTOPOALG: mt-000000001010 [0 0]: 3477 3477 [ 3477 3477 3477 3477 ] 3477 3477
LTOPOALG: mt-000000001011 [0 0]: 55265 55263 [ 55261 55259 55257 55255 ] 55253 55251
LTOPOALG: mt-000000001014 [0 0]: 555 555 [ 555 555 555 555 ] 555 555
LTOPOALG: mt-000000001013 [0 0]: 793 792 [ 791 790 789 788 ] 787 786
LTOPOALG: mt-000000001015 [0 0]: 2053 2053 [ 2053 2053 2053 2053 ] 2053 2053
LTOPOALG: mt-000000001009 [0 0]: 348 354 [ 360 366 372 378 ] 384 390
LTOPOALG: mt-000000001007 [0 0]: 99 99 [ 99 99 99 99 ] 99 99
LTOPOALG: mt-000000001002 [0 0]: 3442 3442 [ 3442 3442 3442 3442 ] 3442 3442
LTOPOALG: mt-000000001006 [0 0]: 152 152 [ 152 152 152 152 ] 152 152
LTOPOALG: mt-000000001018 [0 0]: 1382 1396 [ 1410 1424 1438 1452 ] 1466 1480
LTOPOALG: mt-000000001017 [0 0]: 6699 6681 [ 6663 6645 6627 6609 ] 6591 6573
LTOPOALG: mt-000000001004 [0 1]: 25831 25852 [ 25852 21595 5897 4851 ] 4847 4849
LTOPOALG: mt-000000001008 [0 0]: 89 89 [ 89 89 89 89 ] 89 89
LTOPOALG: bt-000000001001-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001005-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001003-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001020-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001001-2 [0 0]: 3522 3522 [ 3522 3522 3522 3522 ] 3522 3522
LTOPOALG: bt-000000001005-2 [0 0]: 34861 34865 [ 34889 34845 18830 13368 ] 13376 13395
LTOPOALG: bt-000000001003-2 [0 0]: 302 306 [ 310 314 318 322 ] 326 330
LTOPOALG: bt-000000001020-2 [0 0]: 119 119 [ 119 119 119 119 ] 119 119
LTOPOALG: bt-000000001001-3 [0 0]: 55414 55412 [ 55410 55408 55406 55404 ] 55402 55400
LTOPOALG: bt-000000001020-3 [0 0]: 7339 7337 [ 7335 7333 7331 7329 ] 7327 7325
LTOPOALG: bt-000000001003-3 [0 0]: 2357 2357 [ 2357 2357 2357 2357 ] 2357 2357
LTOPOALG: bt-000000001005-3 [0 0]: 3684 3685 [ 3686 3687 3688 3689 ] 3690 3691
LTOPOALG: bt-000000001020-4 [0 0]: 956 958 [ 960 962 964 966 ] 968 970
LTOPOALG: bt-000000001001-4 [0 0]: 50406 50405 [ 50404 50403 50402 50401 ] 50400 50399
LTOPOALG: bt-000000001003-4 [0 0]: 403 403 [ 403 403 403 403 ] 403 403
LTOPOALG: bt-000000001005-4 [0 0]: 7499 7505 [ 7511 7517 7523 7529 ] 7535 7541
LTOPOALG: bt-000000001003-5 [0 0]: 817 816 [ 815 814 813 812 ] 811 810
LTOPOALG: bt-000000001020-5 [0 0]: 25925 25949 [ 25947 25955 6115 4841 ] 4835 4847
LTOPOALG: bt-000000001001-5 [0 0]: 2304 2304 [ 2304 2304 2304 2304 ] 2304 2304
LTOPOALG: bt-000000001005-5 [0 0]: 113987 -1 [ -1 -1 113612 113682 ] 113752 113822
LTOPOALG: **ltopo_alg_proc_s1_jump, got the SINGLE jump, sline 36, box 000000001004, father 000000000522
LTOPOALG: gen ev mt-000000001004
"""

regex = "^.*###.*\n(.*(mt).*\n)+"
for i in re.findall(regex, text, re.M):
print('-' * 20)
print(i)
```

问下我这么写的代码, 为什么匹配到的结果。
是这样
> ('LTOPOALG: mt-000000001008 [0 0]: 89 89 [ 89 89 89 89 ] 89 89\n', 'mt')
@imn1 xxx 不一定是结束标志 我用 xxx 指代其他文本
@ClericPy 能不能发下你的代码谢谢
@ClericPy 我就是在网页上上直接点击一个页面比如 31 然后开发者页面网络那块就出来我说的这个 post 连接了
@ClericPy 我直接 f12 看的 我问下你这个链接怎么看到的? 用的什么抓包工具? 你不是看的开发者页面吗
@ClericPy
```
data = {"channel": "web", "os": "browser", "leagueId": "31", "season": "2019-2020", "round": 1}
response = requests.get(url, headers=headers, data=json.dumps(data))
with open('{}.txt'.format(1), 'w+', encoding='utf-8') as the_file:
the_file.write(response.text)

data = {"channel": "web", "os": "browser", "leagueId": "31", "season": "2019-2020", "round": 2}
response = requests.get(url, headers=headers, data=json.dumps(data))
with open('{}.txt'.format(2), 'w+', encoding='utf-8') as the_file:
the_file.write(response.text)
```
我这边这么弄的两次结果都是一样的
不知道是不是因为用了插件的问题, 没法给各位感谢, 这里谢谢各位的帮助, 就是在 node 中没有 jquery 的问题。
@Miksztowi 多谢 这个给我提供方向了。
1  2  3  4  5  6  7  8  9  10  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1127 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 36ms · UTC 23:36 · PVG 07:36 · LAX 16:36 · JFK 19:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.