V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kaiki
V2EX  ›  随想

全世界的服务器里大概有多少数据是有效数据呢?

  •  
  •   kaiki · 2023-01-25 23:17:49 +08:00 · 2547 次点击
    这是一个创建于 428 天前的主题,其中的信息可能已经有所发展或是发生改变。

    重复数据,如备份、缓存等应该占了大部分服务器的内容吧,如果当做一个图书馆,那就像三国演义的书架就有成百上千,而这些书架上放的还都是同一个版本,这样大概可以看做是“无效数据”了。 如果不考虑实际作用,只把每一种有用的数据的第一份当做有效数据,即复制 /切片等衍生的数据都当做无效数据的话,全世界的服务器里的有效数据的占比能有多少呢?

    10 条回复    2023-01-26 12:37:54 +08:00
    opengps
        1
    opengps  
       2023-01-25 23:48:48 +08:00
    360 的总裁某个时刻曾经有过一个说法,全互联网的数据是 2EB 。
    不过,op 所说的“无效数据”是难以界定的,比如你买的三国演义,阅读范围是你周边的人,我买的三国演义,阅读范围是我周边的人,书虽然相同,但显然并非无效
    xiadong1994
        2
    xiadong1994  
       2023-01-26 00:00:35 +08:00 via Android
    一些国际巨头自己的数据都有 EB 级别了
    723X
        3
    723X  
       2023-01-26 01:00:16 +08:00 via Android
    想想你脑子里有多少数据是有效数据,这玩意搞不好是收敛于某个值的
    Rocketer
        4
    Rocketer  
       2023-01-26 02:29:14 +08:00 via iPhone
    所以云服务才能节约啊,重复的东西可以只存一份,闲置的资源可以动态分配给有需要的用户……

    一个速度更快、有多重备份、有专业人员维护的服务,比你自己租裸机搭建还要便宜,你觉得这钱是从哪里省出来的呢?
    em70
        5
    em70  
       2023-01-26 03:05:33 +08:00
    可以从训练大型 AI 模型用的数据量来估计,目前最大的语言模型 gpt3 训练用了 45TB,假设只占总数据的 1%,那整个网络有效数据就是 4.5EB

    事实上整理比 gpt3 大的训练集数据已经非常困难了,不低于 1%应该是可信的
    snw
        6
    snw  
       2023-01-26 08:30:44 +08:00 via Android
    @em70
    TB 上面是 PB ,再上面才是 EB
    leonshaw
        7
    leonshaw  
       2023-01-26 09:48:28 +08:00
    信息熵?
    alect
        8
    alect  
       2023-01-26 11:13:59 +08:00
    @Rocketer #4 这个不是云服务器吧,而是云网盘。
    Rocketer
        9
    Rocketer  
       2023-01-26 11:40:37 +08:00 via iPhone
    @alect 云服务,没有器。

    网盘是一种云服务,还有其他云服务如函数计算、对象存储、云数据库等,都是云服务
    NoOneNoBody
        10
    NoOneNoBody  
       2023-01-26 12:37:54 +08:00
    定义请求:“有效”,按你的定义似乎是 unique
    那身份证号仅有身份证排号的最初数据才是有效的,制卡时印上去的已经算是复制了

    即使是缓存、备份、历史……数据,我认为都是有效的,只是低频使用而已
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2724 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 997ms · UTC 12:43 · PVG 20:43 · LAX 05:43 · JFK 08:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.