caneman 最近的时间轴更新
caneman

caneman

V2EX 第 101294 号会员,加入于 2015-02-28 19:27:58 +08:00
根据 caneman 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
caneman 最近回复了
344 天前
回复了 caneman 创建的主题 Python 正则,请问如何实现匹配最内层的内容
上面那个链接,测试文字前面应该再加一行干扰行,用下面这个比较好
https://regex101.com/r/qWCjxp/2
344 天前
回复了 caneman 创建的主题 Python 正则,请问如何实现匹配最内层的内容
@shyrock 可以理解为,分隔符为,由 start 和无序字符组成的行,由 end 和无序字符组成的行,中间夹着的东西(最内层)

至于我为什么要从\n 开始匹配,是因为,我对这个行的总字数是有要求的,更可能的情况下应该是类似下面这样的

(?s)\n[^\n]{0,10}start[^\n]{0,10}\n((?:(?<!start).)*?)\n[^\n]{0,10}end
344 天前
回复了 caneman 创建的主题 Python 正则,请问如何实现匹配最内层的内容
@shyrock 111 也不要,只要最内层的
可以理解为最后一个 start 所在的那一行(不包括此行)和第一个 end 所在那一行(不包括此行)中间夹着的东西

你可以见上面我回复中贴的 regex101 链接
344 天前
回复了 caneman 创建的主题 Python 正则,请问如何实现匹配最内层的内容
@lululau
谢谢~

@lovecy
可以的,上面那个第二条才可以
(?s)\n[^\n]*start[^\n]*\n((.(?!start))*?)\n[^\n]*end
这个有倆 group,在 group1 里面

下面这个就只有一个组了
(?s)\n[^\n]*start[^\n]*\n((?:.(?!start))*?)\n[^\n]*end

https://regex101.com/r/qWCjxp/1/
2019-12-30 16:11:14 +08:00
回复了 zhaofy 创建的主题 程序员 公司要用爬虫抓取数据,不知道是否侵权
@locoz #41 这个当然知道了,有些数据来源非常单一,举个简单的例子,抖音 /微博的博主信息,点赞关注回复之类的,假使抖音 /微博他们完全不开放相关接口,你无论怎么加工,只要提供了相关服务必然会暴露你拥有信息这个事情,抖音虽然无法从服务器上面知道究竟是谁在爬它,但是它很容易知道谁在提供服务。只要想盈利你不可能把数据捂着放一边把,告了公司,法院和警方会寻找真正的爬虫 er,爬虫被抓的,基本也都不是从源头被追踪到的,都是从下游一直往上捋,捋到的。

也可以做,但是大环境确实比以前难多了,说到底,低调就对了,出头就是找死,除非你的服务对被爬方有益,但是也难说被卸磨杀驴,当然这些前提都是在商用领域,
2019-12-30 15:42:01 +08:00
回复了 zhaofy 创建的主题 程序员 公司要用爬虫抓取数据,不知道是否侵权
@abcbuzhiming 是啊,感觉就是赌,赌对面不会告你,保不齐哪次就栽了...
2019-12-30 15:39:36 +08:00
回复了 zhaofy 创建的主题 程序员 公司要用爬虫抓取数据,不知道是否侵权
@locoz 其实说到底,能让你爬的数据一般价值有限,真正有价值的数据是不可能给你授权的。(购买接口就不叫爬虫了)。现在的形势,感觉做爬虫的就是走钢丝,把选择权交给对方,不告你啥事没有,一告你百分百出事....

有商业价值的数据,感觉有一个算一个,只要爬,没一个是具有合法性的。。。只能想各种办法来规避对方告你的风险(要么不要让对方知道你在爬,要么你爬的速率和规模在对方容忍范围内),因为告你也是需要成本的。

还是好难做啊...
2019-12-30 15:24:21 +08:00
回复了 zhaofy 创建的主题 程序员 公司要用爬虫抓取数据,不知道是否侵权
@locoz 那现在爬虫的出路在哪?只能逼迫转行?
2019-12-09 16:36:15 +08:00
回复了 KaynW 创建的主题 程序员 Postman 都有女票了,你萌呢?
我这里有个绿色的帽子你要不要。。
关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1093 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 58ms · UTC 23:36 · PVG 07:36 · LAX 15:36 · JFK 18:36
♥ Do have faith in what you're doing.