V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  cy97cool  ›  全部回复第 14 页 / 共 14 页
回复总数  280
1 ... 5  6  7  8  9  10  11  12  13  14  
2017-11-07 13:01:53 +08:00
回复了 cy97cool 创建的主题 GitHub github 不准 baidu 爬取 难道这就是 baidu 比 google 菜的原因
@chenwenup 但反过来说 爬不了 github 的项目信息,用户想搜个 github 上的项目搜不到,自然更加比不上咯
即使封了 25 端口也没关系吧 改用 SSL 的 465 端口或 587 端口即可
https://kf.qq.com/faq/120322fu63YV130422nqIrqu.html

对应的 flask 配置加一条 MAIL_USE_SSL = True
2017-11-05 00:30:56 +08:00
回复了 asdfg6818 创建的主题 路由器 求问一个组网问题(校园网环境下)
也许你误解为 文件共享服务器 就不能自己做账号验证+授权管理? 就一定要打开就能匿名管理文件?
2017-11-05 00:28:28 +08:00
回复了 asdfg6818 创建的主题 路由器 求问一个组网问题(校园网环境下)
好奇 “不暴露在校园网内” 这个需求,建个 seafile 即使对校园网开放也没关系啊。。。
做好验证,再强迫症一点强制 https 以防监听密码,就不会有问题咯

如果你一定不能让校园网其他人访问,事先收集好所有人 IP 地址 用 iptables 限制即可
再复杂一点 自己建一个 openvxn,自己建一套内网
@WordTian 然而 openvz 和 Docker 容器不能加 swap
2017-11-05 00:19:00 +08:00
回复了 ding212 创建的主题 分享创造 写了一个仿 GitHub 风格的个人博客
不能 Fork 差评 哈哈哈
2017-11-04 22:48:59 +08:00
回复了 Discuss 创建的主题 分享创造 在线小工具:网页一键转 Markdown
有开源打算喵?如果目标网页需要登录怎么解决

感觉可以用于采集后展示
2017-11-03 23:59:07 +08:00
回复了 vtoexsir 创建的主题 HTML 请问有什么软件可以精简 html 代码?
你也许可以看看的做汤(误)教程 → https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
2017-11-03 23:58:09 +08:00
回复了 vtoexsir 创建的主题 HTML 请问有什么软件可以精简 html 代码?
2017-11-03 23:57:30 +08:00
回复了 vtoexsir 创建的主题 HTML 请问有什么软件可以精简 html 代码?
2017-11-03 23:54:36 +08:00
回复了 vtoexsir 创建的主题 HTML 请问有什么软件可以精简 html 代码?
python 直接 replace("<span>","").replace("</span>","")可好?

![]( https://d.py3.io/img/bzszSrs2ZBhBiJ5E.png)
2017-11-03 01:04:53 +08:00
回复了 cy97cool 创建的主题 问与答 Linux 下爬虫即将写满硬盘,有啥实时数据迁移方法?
可以用这种方式多次调用逐步迁移已经写完整的文件夹

问题来了,有没有轮子自动完成这种事情:
* 判断一个文件夹当前有没有被写入(也许比较 du -s 就够了)
* 如果没有 此次循环跳过
* 如果文件夹已经写好了,记录文件列表,调用 /通知远程调用 rsync --remove-source-files (服务器也许不能主动连接到数据迁移的目标服务器,比如迁移到自己电脑 自己电脑没有公网 IP ); rsync 完成后按文件列表恢复为 0 字节的文件
* 循环直到爬虫进程结束&&所有文件迁移完成
2017-11-03 00:59:22 +08:00
回复了 cy97cool 创建的主题 问与答 Linux 下爬虫即将写满硬盘,有啥实时数据迁移方法?
找到了个靠点边但不完全满足需求的:

rsync 有这个参数可以复制完成之后删除,但它不能识别正在被写入的文件,而要求使用排除*.new 这种方法避免正在被写入的文件

可以用这种方式多次调用逐步迁移进行写好的文件夹

```
--remove-source-files
This tells rsync to remove from the sending side the files (meaning non-directories) that are a
part of the transfer and have been successfully duplicated on the receiving side.

Note that you should only use this option on source files that are quiescent. If you are using
this to move files that show up in a particular directory over to another host, make sure that the
finished files get renamed into the source directory, not directly written into it, so that rsync
can ’ t possibly transfer a file that is not yet fully written. If you can ’ t first write the files
into a different directory, you should use a naming idiom that lets rsync avoid transferring files
that are not yet finished (e.g. name the file "foo.new" when it is written, rename it to "foo"
when it is done, and then use the option --exclude='*.new' for the rsync transfer).
```
2017-11-03 00:57:04 +08:00
回复了 cy97cool 创建的主题 问与答 Linux 下爬虫即将写满硬盘,有啥实时数据迁移方法?
@oott123 写入进程已经在运行了。。。即使写 fuse 也来不及了吧 Orz
2017-10-28 09:41:39 +08:00
回复了 ericgui 创建的主题 Python 准备学 Python 了,请问 Python 的环境配置一般怎么办?
@yezhiye 试试卸载杀毒软件

退出杀毒软件还不行,必须卸载
2017-10-27 13:08:15 +08:00
回复了 helloworld12 创建的主题 问与答 docker 部署方式
镜像文件太大应该考虑压缩 600 多 M 压缩成 7z 可能不到 200M

https://py3.io/Docker.html
其中搬运镜像部分
2017-10-27 12:22:23 +08:00
回复了 microhard 创建的主题 游戏 动作生硬 过程重复 真以为把用户当猪能挣钱?
可能是这个?


国产独立游戏《幻》发布公告指责喷子,但玩家们齐声对开发者说:滚!
http://mp.weixin.qq.com/s/WCvp1jUW6HS7-NaOZky91Q
2016-04-05 21:34:49 +08:00
回复了 mytsing520 创建的主题 信息安全 据说学信网被脱库了
@mobeiyibei @inorysa 求回复一下密码,能直接 copy 的
2016-04-05 14:33:24 +08:00
回复了 mytsing520 创建的主题 信息安全 据说学信网被脱库了
@inorysa 已经从百度云下载完成,解压密码是什么?
注释是“吉祥物是小骨 is http://www.xiaogu.me
但这个注释我尝试了很多种可能密码都不对,这个域名也没有 dns 解析
1 ... 5  6  7  8  9  10  11  12  13  14  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1211 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 18:07 · PVG 02:07 · LAX 11:07 · JFK 14:07
Developed with CodeLauncher
♥ Do have faith in what you're doing.