dfgddgf

dfgddgf

V2EX 第 498257 号会员,加入于 2020-07-08 16:29:02 +08:00
dfgddgf 最近回复了
82 天前
回复了 daijinming 创建的主题 程序员 有没有简单,开源 CMS 系统可以推荐
Http File Server
https://rejetto.com/hfs/

内部使用,无非是资源共享,这个软件集成上传,文件共享,网页展示。
既然可以用文件作为媒介来交流,为什么要 cms

回归原始不香吗
@dbow
perl 5.36.0 is now available

Date: May 28, 2022 00:33
@wxf666 VirtualBox 虚拟机 linux mint 安装 apache2 ,使用 84KB 的网页文件作为主页,使用上面的代码稍作修改

在 cygwin 环境执行上面的 perl 代码,重复下载本地的 84KB 的网页文件( http://192.168.1.5/index.html) 10 万次数
耗时

real 3m25.076s
user 2m5.890s
sys 0m31.780s


算下来,连同网页正则匹配,平均请求速率是 100000/205s=487.8 个 /每秒

perl 做异步爬虫够不够强大

那些说 perl 没落、过时、已死的网友,其实是不了解 perl 语言及其生态的。
@wxf666 300M 带宽 每秒 37.5-40MB/s 下载速度,按照一个网页 0.7MB 计算,每秒可以下载 50 个。

如果网页比较小,每秒下载几百个网页轻轻松松。

别把人家服务器搞崩溃了。

爬虫学的好,牢饭吃得饱。
@wxf666 300M 宽带跑满,必应和百度都能坚挺,扛得住
85 天前
回复了 dfgddgf 创建的主题 程序员 请问最佳的爬虫语言是什么
@zzzkkk guzzle 看了一些源代码,底层貌似没有依赖 c 或者 c++

应该是底层没有设计成高度可靠的组件。

perl 的爬虫模块 mojo::useragent 配合 libEV ,确实很强大。

cygwin 平台并发 50 轻轻松松,而且还保持 http 连接可以复用
86 天前
回复了 dfgddgf 创建的主题 程序员 请问最佳的爬虫语言是什么
@shuimugan 这个思路新奇,复杂的问题拆解为更为简单的基础问题。

这是 linux shell 编程的基本思路。

您的观点可以得到验证。在异步的环境里做网页解析,确实占用率比较高。大概异步使用高精度的时间作为时间的区分标准,不停地查询 io 状态,这个比较耗费资源。

按照这样的逻辑推断。应该把异步交给一个专门的组件(软件)来搞,而同步的工作、大量耗费 cpu 资源的用队伍列表的方式使用常规的软件来搞。

学习了。这种专业的问题,只有资深专家,做过大型项目的前辈才能了解其中的诀窍。
关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1243 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 41ms · UTC 23:22 · PVG 07:22 · LAX 15:22 · JFK 18:22
Developed with CodeLauncher
♥ Do have faith in what you're doing.