首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
V2EX  ›  全球工单系统

知乎、新浪微博、各种号、各大厂的人:请至少允许互联网档案馆(Internet Archive)抓你们的数据

  ChineseTeacher · 117 天前 · 10749 次点击
这是一个创建于 117 天前的主题,其中的信息可能已经有所发展或是发生改变。

今天发一个特殊一点的工单。

最近那篇在网上传得很火的黑百度的文章《搜索引擎百度已死》,指出现在百度搜索结果里大多都是“百家号”的文章。而逼百度搞“百家号”的原因,很大程度上是因为中文互联网上的资源很多集中在了微信公众号里面;而微信公众号只允许跟腾讯旗下的搜狗抓取其中内容,百度不能抓取,等同于说腾讯垄断了这些内容,百度无奈之下只能另起炉灶,搞了“百家号”。

这种现象叫“围墙花园”。腾讯通过微信公众号自己打造了自己的生态系统,让用户逃不出去、更让内容创作者逃不出去。而腾讯禁止其他搜索引擎索引的行为,保证了腾讯自己的利益,却侵害了整个互联网的内容循环。

十年前,互联网上涌现的新内容,无论是在网易新浪博客、QQ 空间、百度贴吧还是天涯论坛,所有搜索引擎都可以平等抓取。现在各种“号”把互联网禁锢住,实在让人无奈。

最近发现,知乎、新浪微博都开始对爬虫实行更严格的限制政策。知乎只允许有限的几种搜索引擎来抓资料,涵盖了大多数常用的搜索引擎的爬虫,但是一些新兴搜索引擎(比如 Duckduckgo )的爬虫则没有包含在内。

但除了新兴搜索引擎之外,还有一个重要的爬虫也被大多数网站的 robots.txt 排除在外。它是互联网档案馆( Internet Archive,https://archive.org )的爬虫。

可能很多人对互联网档案馆还很陌生。他们最有名的服务是“ wayback machine ”,字面意思为“时光机”。网上一些“带你看看二十年前的互联网”之类的文章就是用的他们的截图。

除了带人们回到 20 年前之外,互联网档案馆还担负了一些其他的责任。他们的爬虫会跟搜索引擎的一样爬网站,并把爬到的信息存档下来。有很多网站因为经营不善等原因关闭,或是 URL 因为网页改版失效,而这时互联网档案馆成了能找到这些网页的唯一方法。

对于国内网站,互联网档案馆还担负了另一个重要作用:保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机,没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说,读到这里大家都明白。

其他也有一些存档网站(比如 archive.is ),他们可以无视 robots.txt 。但是他们的界面操作、自动化程度等远不如互联网档案馆,且互联网档案馆是唯一一个会主动派出爬虫爬网站的存档服务。互联网档案馆成立于 1996 年,“翻车”的可能性几乎为零;而其他的存档网站很有可能因为服务器不稳定或站长负担不起开销等原因停止运作。互联网档案馆是注册在美国的非营利机构,每年收支基本稳定,可见的将来是倒不下的。

除了网站存档之外,互联网档案馆还给很多其他值得珍藏的视频、图片等提供收藏服务。

希望各大网站有权限的工作人员,在 robots.txt 里面加上一句。他们爬虫的 UA 叫 archive.org_bot。谢谢各位。

88 回复  |  直到 2019-01-31 03:23:52 +08:00
    1
loli   117 天前   ♥ 11
对于国内网站,互联网档案馆还担负了另一个重要作用:保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机,没有规律可言。至于另外一些常见网站上容易被和谐掉的内容——这点更不用多说,读到这里大家都明白。
????????????????
你其实是。。。
    2
BigbyWolf   117 天前 via iPhone
楼主过于坦诚,/水深火热见(/ω\)
    3
agagega   117 天前   ♥ 5
我以前看到过一个叫「自由微博」的东西,原理是不是跟它差不多?
    4
rockss   117 天前
这事不是工作人员能做的吧
    5
rayhy   117 天前   ♥ 7
archive.org 可以帮忙保存易被和谐的内容”,就这一点,国内公司反而会主动屏蔽 archive.org
    6
suhongbo   117 天前 via Android
主管都不一定能做主
    7
hwcj123   117 天前
这就是传中说的队友吗
    8
crab   117 天前
知乎 谷歌快照都不能正常看。
    9
asdqaz   117 天前 via Android
搜狗什么时候变成腾讯旗下了?
我穿越了?
    10
asdqaz   117 天前 via Android
真按你说的
现场被墙
    11
baiduer123   117 天前
@asdqaz 早就被收购了
    12
Daming   117 天前   ♥ 2
archive.org 不是已经被墙了吗?
    13
May725   117 天前 via iPhone
第一次了解到还有这类爬虫,十分有意义。
    14
luckytanka   117 天前 via Android
涉政......
    15
yihaomizhijia   117 天前 via iPhone
看了一下,已经被屏蔽
    16
junjieyuanxiling   117 天前 via Android
duck duck go 不是用的谷歌吗?怎么还需要爬虫
    17
just1   117 天前 via Android   ♥ 2
有时候会喜欢看快照,但其实就算是我自己的个人网站,我也并不愿意被存档
    18
WDD   117 天前 via Android
我也没设置什么,但是 archive 一直不保存我网站上的内容
    19
azh7138m   117 天前 via Android
zz 原因导致的删稿子,还想存下来,小伙子怕不是要月底加急了
    20
Hsinyao   117 天前 via iPhone
前两天还倒回去看 apple.com.cn 以前的网页来着,很有感觉
    21
shlyren   117 天前 via iPhone
Bbbb
    22
tiaod   117 天前 via Android
这不是这些公司能决定的。
    23
gadflysu   117 天前
无视 robots.txt 的 archive.is ( archive.fo ) 最近都无法存档他们的网页了,你开个工单就想让他们允许自动被存档?别幻想了。
    24
gadflysu   117 天前
另外,由于审查撤下的稿件,依赖 archive.org 自动抓取太慢了。这方面本来就讲究时效。
    25
CruelMoon   117 天前
感觉楼主猪队友...archive.org 确实很不错,偶最近几年每年都响应募捐邮件捐款来着
    26
trait   117 天前   ♥ 1
反对,主动删除的东西再被检索出来很恶心,个人网站屏蔽了这些网站的机器人
    27
FInt1620   117 天前   ♥ 3
“微信公众号只允许跟腾讯旗下的搜狗抓取其中内容,百度不能抓取,等同于说腾讯垄断了这些内容,百度无奈之下只能另起炉灶,搞了‘百家号’。”
即使限制所有搜索引擎抓取,文章尚且能在未经授权的情况下被他人自由转载,更不用说文章内容随意被搜索引擎自由抓取和收录了。
如果腾讯不限制其他搜索引擎抓取公众号发表的内容,完全允许搜索引擎收录任何创作的内容,一旦有人编写出自动抓取搜索引擎收录内容的工具并将这些文章转载于其他内容创造平台,这将给内容创作者和创作平台带来不可预计的损失。不仅著作权更容易遭受侵害,网站的访问流量也将直线下滑。对于国内的搜索引擎所属企业,权益受损方尚可以起诉并要求停止侵权并索赔;但如果是国外的搜索引擎,维护自身权益就不那么容易了。
更重要的一点是,限制搜索引擎的无限制抓取,在一定意义上可以维护和提升社区的创作及互动氛围。如果任何内容都能被搜索引擎抓取并收录,访问者就不会再轻易通过内容创作平台提供的特定媒介访问这些同样有意义的不可见内容。典型例子如酷安,假如访问者在网页端就能通过某个应用页的评论轻易获取有关此应用有价值的评论信息(如评论者给出的去广告、破解版等版本评论内容),那么受损的将是酷安(网页被收录方)的根本利益。
另外,你强调
“对于国内网站,互联网档案馆还担负了另一个重要作用:保存容易被和谐的文章。国内很多新闻网站会集体撤稿。这种撤稿行为有时非常随机,没有规律可言”
一篇发布的文章被删除,它既可能是创作者本人所为,也可能是创作平台所为。但是,请你牢记:诋毁污蔑、造谣诽谤、挑唆离间、混淆是非、辱骂攻击、恶意侵害他人正当利益的行为都是绝不可被接受的。这一定律适用于任何人。如果你是一个内容创作者或在一个内容收录平台工作,你必须对你所有的创作文章或收录文章负责,并在必要时为之承担相应的一切法律责任。
@Livid 请考虑将这一主题移动至“ Chamber ”节点。
    28
laoyur   117 天前   ♥ 24
楼上有做管理员的资质
    29
Jex   117 天前   ♥ 1
有什么样的网民,就有什么样的互联网,百度最适合他们
    30
yksoft1ex   117 天前
archive.org 现在是很多老机模拟器用的资源的避风港。被墙多年了。
    31
jacketma   117 天前 via Android
APP 化之后,时光机也没什么大用了,Facebook twitter snapchat 包括大量音视频信息都没有办法 wayback。
    32
agagega   117 天前 via iPhone   ♥ 2
破坏开放互联网的行为,商业上可以理解,但是强行从用户利益角度去洗,真是思路清奇。

另外,互联网档案馆又不是没被告过。用法律手段就行。因噎废食的道理,到这就不适用了?
    33
ryanlid   117 天前
隐私权 VS 知情权
    34
laqow   117 天前 via Android
@FInt1620 需要维权的东西就不应该以网页的形式发表,很多发公众号的人也只是文章没地方发,要不是
    35
dacapoday   117 天前
互联网早就不是互联的了。
    36
whypool   117 天前
相反,即使小网站也不会允许这玩意抓取

一旦涉及到非法信息,敏感信息,或者版权,这都是历史副本证据
    37
shyangs   117 天前
网际网络早就不是互联的了

未来会建造墙中墙
    38
H0TSp1RnG   117 天前 via Android
不知道你哪里来的自信 小站没什么办法就算了 大站你还想为所欲为
    39
chen006   117 天前 via Android
@asdqaz 腾讯有搜狗股份的,只有搜狗能搜微信内容。
    40
wtdd   117 天前   ♥ 1
说实话,这股风气是 facebook 为了和 google 竞争带起的吧,然后 alibaba 和 tencent 发扬光大,已经积重难返了
    41
hxt   117 天前
找被删网页内容还是用 his.sh 靠谱点,各大主流搜索引擎的爬虫肯定比 archive 爬虫触及更深。
    42
wjm2038   117 天前 via Android
@hxt 主要问题是网页快照时效性不高
    43
asdqaz   117 天前 via Android
@chen006
@baiduer123
感谢打脸
腾讯只占 45%
不算旗下吧
    44
sosilver   117 天前
"因为中文互联网上的资源很多集中在了微信公众号里面",source ?
    45
JoostShao   117 天前
不好意思,我带个节奏!
每天用着百毒,还想着给他们立贞洁牌坊。

是真的年轻!
    46
dongxiaozhuo   117 天前
其实从 iPhone 的 App Store 模式开始,就已经确定了内容不共享的模式,每个 App 之间是相互独立的,顶部的流量分发就是应用商店。用户进入 App 之后就不再有机会跳转到其他地方,这当然是内容方最想要的结果了,后来有了 App 间跳转,这也不代表厂商就愿意把流量给其他 App,再后来索性某些服务干脆不提供 Web 了,这才是搜索引擎残废的原因。

现在做互联网服务的,愿意把 App 做的美如画,也不愿意做个像样的 Web 站点。
    47
kernel   117 天前 via Android
人家微信微博用尽各种手段防止你扒人家内容,被你档案馆一索引,人家都扒档案馆了,你让人家怎么愿意
    48
Wicked   117 天前 via iPhone
微博微信上的被重重审查过的低劣内容,不看也罢
    49
sharkrice   117 天前
@wtdd #40 我觉得还是苹果的 AppStore 起了决定性作用
    50
hanbing135   117 天前 via Android
有些人给腾迅洗地简直是
    51
passerbytiny   117 天前
我只想说,你说的哪些厂,屏蔽了最好,开放了还得想办法不去抓它。既然叫 archive/互联网档案馆,那么这些即时消费的东西,存个屁的档。
    52
MonkeyCoder   117 天前
理想很好,情怀也好,在利益面前是根本不可能的
    53
Track13   117 天前 via Android   ♥ 2
你举例的这些我巴不得不在搜索结果里
    54
Lostars   117 天前
互联网之子死了
    55
cyspy   117 天前
没事,国安总能找到他们的历史资料的
    56
hoyixi   117 天前
知不知道还是装不知道?
删了贴,这些 Archive 能同步删除吗?
    57
lyshine   117 天前
如果百度不做那么多恶事, 我们或许会同情百度. 但是看到你的洗地, 我只能暗暗高兴, 终于百度要为自己的行为付出代价了
    58
liyuhang   117 天前
微信公众号真是让人又爱又恨
    59
lihongjie0209   117 天前
想多了, 这种不可控并且是国外的服务是不可能的
    60
mayorbryant   116 天前
国内:首先要可控,不然就是白扯
    61
CRight   116 天前 via iPhone
像自由微博这样,原作者都不能控制的保存下来,不会让原作者很烦恼吗?
    62
luoway   116 天前
虽然有悖“互联”,但墙、暗网、APP 内建社区都是事实存在的。
苹果的万亿市值也让大家看到了实在的利益。
信息不对称衍生的商业服务,本身就是一种商品。

互联网终究还是会由早期的开放互联,走向现实的封闭社会。
    63
across   116 天前
叫内容网站放弃内容独占,好比当面给人讲:我们给你拍照片了,你可以去死了·····
    64
Jay54520   116 天前 via iPhone
@rayhy 扩展一下原因。因为你保存了它们想要删除的不和谐的证据。既然他们想要删除,就说明他们不想保留,所以他们不会同意这样的爬虫。
    65
est   116 天前
幻觉和现实碰撞的帖子。2333
    66
var   116 天前
@Lostars #54 可惜 Aaron 的梦依旧是个梦
    67
radiolover   116 天前
因为我们讲的是肥水不流外人田,IT 创始人等“大佬”追求的是独霸天下煮酒论英雄。这和西方世界有本质不同。
事实上,中国的所谓“互联网公司”其实不是互联网公司,而是基于互联网的中间商和媒体,技术只是处于从属地位。互联网公司是技术驱动型的,而不是依靠烧钱、风口、流量、公关....等一堆造出来的名词。
    68
Choooooose   116 天前
多谢楼主,我已经把(archive.org_bot)这个 UA 加入到我的网站访问黑名单了。
才不想要哪天被别人看到黑历史呢。
    69
rizon   116 天前
互联网档案馆这个名字我很喜欢,担当 档案馆这个职责的很多公益事情我觉得都是非常有价值的,也是非常感人的,比如 种质资源库、国家基因库这类的(我忘了具体的名字了)。

但是很遗憾的是很多网站出于当下的一些利益拒绝了这种被备份的行为,这虽然对企业来说是友好,但是对历史是不友好的。可是也没办法啊,就像我们现在所研究的历史一样,总会存在一些就是不想被人知道的事情。

虽然非常遗憾,但是又能如何。
    70
rizon   116 天前


随便翻了一下 csdn 的历史,哈哈~这种看历史的感觉,真的很棒哟~~
    71
1762628386   116 天前
不是,人家凭啥答应你抓你们的数据?
    72
charlie21   116 天前
还防爬虫,搞笑
你应该知道的是如果是暴力抓取那么你的黑历史就是逃不到的
幼儿园小朋友一样,“主动删除的东西再被检索出来很恶心” 是你自己恶心自己,过去的你恶心现在的你,好吗?
    73
bzshow1   116 天前
互联网精神被国内大厂玩坏了。
    74
zyq2280539   116 天前
第一次听说这个网站,于是好奇的点进去查询了自己博客的几年变迁历史,那一瞬间我被惊呆了,竟有如此完整的保存了个人博客的变迁历史轨迹。。佩服佩服。。。
    75
clippit   116 天前
archive.org 还是很厉害的,上次找一个 199x 年的独立游戏,一个只有几十 KB 的 exe,国内网站上都是各种添油加醋的魔改汉化版,在 archive.org 上面竟然找到了原版,而且还带着当年作者写的 changelog
    76
zappos   116 天前 via Android
百度自己都不遵守 robots.txt ,估计他的这个文件是瞎写的。
    77
zappos   116 天前 via Android
另外有本事你就自己创建个内容站抓取他们的数据,就像 chuansong.me 一样。
    78
bravecarrot   116 天前
现在很多人已经在抱怨自己的上网行为变成电子纹身了,楼主还要保留每一点证据。
有意思,观点和论据真是章口就来
    79
FakeLeung   116 天前   ♥ 1
2333333333.
    80
luguanyu1234   116 天前
qq 和 360 浏览器是不是已经针对某些网站“优化”了。
    81
snw   116 天前 via Android   ♥ 1
我完全支持网络档案馆,哪怕可能被翻出黑历史。对黑历史的恐惧其实并不源自于黑历史本身,而是黑历史被大肆曝光后的困扰。

我觉得网络档案馆应该做到如下几点(基本上是围绕中立性):

1. 署名
必须标注网页的原始 url。如果网页标题、页脚、照片信息有作者署名,不能擦除。

2. 禁止商用
不得用于任何商业目的,包括广告。

3. 禁止演绎
必须原原本本地呈现原页面,不能截取内容、增加内容、混合内容、有损地转换。
但允许因为技术原因舍弃部分内容(例如文件过大)。

4. 禁止搜索
只能直接用原始 url 或原站的超链接访问,不能使用关键词搜索,尤其是跨站搜索。

5. 禁止索引
不能主动对相关内容或关键词制作索引目录。

6. 禁止宣传
不能诱导用户访问某个存档内容,比如维基百科首页的典范条目、你知道吗、历史上的今天等等
    82
phy25   116 天前 via Android
这帖子下面这么多的不同意见(对遗忘权的重视),叠加上 V2EX 不对用户提供编辑删除功能的事实来看,还是挺有意思的。
    83
imn1   116 天前
嗯,黑历史解决不掉,解决提出黑历史的人就对了,这样黑历史就不存在了

这思路一直指导着我们前进发展
    84
puncsky   116 天前
支持楼主
    85
WDD   116 天前 via Android
@imn1 “谁提出问题我们就打倒谁”
    86
MineDog   116 天前 via Android
大数据时代,数据就是立身之本,别幻想了
    87
ddlee   115 天前
Archive.org 自己的原因陈述:

Why is the Internet Archive collecting sites from the Internet? What makes the information useful?

Most societies place importance on preserving artifacts of their culture and heritage. Without such artifacts, civilization has no memory and no mechanism to learn from its successes and failures. Our culture now produces more and more artifacts in digital form. The Archive's mission is to help preserve those artifacts and create an Internet library for researchers, historians, and scholars. The Archive collaborates with institutions including the Library of Congress and the Smithsonian.


(来源: https://help.archive.org/hc/en-us/articles/360004716091-Wayback-Machine-General-Information

Wayback Machine 在抓取网址输入框下面的提示语:

Capture a web page as it appears now for use as a trusted citation in the future. Only available for sites that allow crawlers.


(来源: https://archive.org/web/)

希望“自己的回复能够对别人有帮助”。
    88
asdqaz   114 天前 via Android
目前无法使用了
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2450 人在线   最高记录 5043   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 26ms · UTC 03:21 · PVG 11:21 · LAX 20:21 · JFK 23:21
♥ Do have faith in what you're doing.
沪ICP备16043287号-1