V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
lopssh
V2EX  ›  云计算

阿里 ECS 是一台物理机器构成的还是多台物理机器构成的?

  •  
  •   lopssh · 156 天前 · 6445 次点击
    这是一个创建于 156 天前的主题,其中的信息可能已经有所发展或是发生改变。

    阿里 ECS 是一台机器构成的还是多台机器构成的?

    1. 是一台物理机实现(某一台池化机器上的某个虚拟机)
    2. 还是多台物理机构成的网络计算机(即:纯粹基于网络的计算机,比如:内存由北京的一个服务器组成,CPU 由广东和福建的两台服务器共同构成,硬盘是浙江的三台服务器构成的)

    请问是 1 还是 2 ?

    如果不是 2 ,那么现在的技术世界里 存不存在 2 这种实现?

    第 1 条附言  ·  156 天前
    了解到有一项叫做“超融合”的技术,有点类似于 2 的情况。
    51 条回复    2021-12-22 15:22:53 +08:00
    ThirdFlame
        1
    ThirdFlame  
       156 天前
    显然是 1
    2 的话成本有点高 而且开销有点大
    julyclyde
        2
    julyclyde  
       156 天前
    古代有个 mosix 可以把多个机器合并为一个
    不过后来这东西没继续发展了

    现在的 ecs 应该都是小于等于一台物理机的
    wy315700
        3
    wy315700  
       156 天前
    内存和 CPU 应该是一起的,硬盘分本地硬盘和云硬盘
    PopRain
        4
    PopRain  
       156 天前   ❤️ 1
    你在开玩笑吗? 内存、CPU 不在一台计算机上? 硬盘可能是网络的,但是一般也是在同一个机房,不太可能异地,异地也只是备份而已。
    andyskaura
        5
    andyskaura  
       156 天前   ❤️ 1
    太看得起网络带宽了吧
    seasona
        6
    seasona  
       156 天前
    1 ,ecs 其实就是 QEMU/KVM 开出的一台虚拟机,CPU 和内存都是一台本地服务器的,硬盘基本都是网络盘
    swulling
        7
    swulling  
       156 天前
    CPU 和内存是一台宿主机上的,硬盘通常挂载同一个可用区的云盘。

    这是因为网络带宽和时延,也就刚刚追上硬盘,离内存还远(受到物理规律限制可能永远追不上)
    stoneabc
        8
    stoneabc  
       156 天前
    @PopRain 不过最新的各种内存、gpu pooling 的研究,过个几年真有可能 cpu 、内存、gpu 等设备都不在一台物理机上了…
    t6attack
        9
    t6attack  
       156 天前
    研究过 GPU 编程的朋友,可能会发现一个问题:当运算数据量很小的时候,速度提升并不明显,甚至比 CPU 计算更慢。原因是 GPU 带来的速度提升,被“向 GPU 传递数据所消耗的时间”所抵消。
    你看,半个主板的距离,速度损耗都让人无法接受。你这直接给拉开两个城市了。
    Alexonx
        10
    Alexonx  
       156 天前 via Android   ❤️ 2
    2 的实现的话,目前受限于网络带宽,很少有大规模的应用。OSDI '18 有篇论文挺类似的,这个论文描述的系统架构把硬件分成了处理器、内存和存储三种,中间通过网络进行通信,但是其中操作系统要付出大量的代价来保证一致性和容错。
    PDF:https://www.usenix.org/system/files/osdi18-shan.pdf
    2i2Re2PLMaDnghL
        11
    2i2Re2PLMaDnghL  
       156 天前
    @stoneabc 但做法也不太可能是表现为一台机器(一个操作系统),而是表现为一个任务分发器(一个编排系统)
    justs0o
        12
    justs0o  
       156 天前
    第二种除非有突破光速的东西出来,否则永远不可能
    kenshin912
        13
    kenshin912  
       156 天前
    显然是 1
    内存和 CPU 必然在一台宿主机上 , 不然那延迟......
    硬盘也应该在同一个机房内.
    lopssh
        14
    lopssh  
    OP
       156 天前
    @Alexonx

    @julyclyde

    @stoneabc

    有一项叫做“超融合”的技术,不知道是否部分符合了 2 的定义。
    felixcode
        15
    felixcode  
       156 天前
    带宽可能可以通过技术革新来解决,但延时是受物理规律限制的。

    CPU 和内存间有几到几十毫秒,再融合也不行,超融合也不行,再多的超字也不行。
    FantaMole
        16
    FantaMole  
       156 天前
    超融合老是让我出戏到打牌
    westoy
        17
    westoy  
       156 天前
    红帽的超融合是基于软件方案的定义, 又不是你说的那种六神合体......
    loading
        18
    loading  
       156 天前
    @lopssh #14 你知道现在的超融合是怎么回事吗?约等于坑人。
    你说的那种是集群,超过一台计算机能力的才需要把一个实例分布到多台物理机,你说的可能是指超级计算机。你自己查一下,阿里的 ECS 哪一个配置超过现在一台普通的服务器的配置了?
    echo1937
        19
    echo1937  
       156 天前
    freelancher
        20
    freelancher  
       156 天前
    @lopssh 无语了都。超融合能突破物理极限吗?

    超融合的本质是分布式存储 + 虚拟化融合部署,核心是分布式存储。

    存储放另一个地区都会造成巨大的网络延迟。

    没事就多看看计算机的书!我潜水的都被炸出来了!
    stoneabc
        21
    stoneabc  
       156 天前
    @felixcode 先不说能不能实现。。现在云厂商普通 vpc 内网的延时也就个位数 ms 。。上 Roce 之类东西的话能到个位数 us 级别
    mikuazusa
        22
    mikuazusa  
       156 天前
    只能是 1 ,2 的情况目前的超融合也达不到。
    想了解超融合的,看一下什么是超融合一体机就知道了。
    felixcode
        23
    felixcode  
       156 天前
    @stoneabc
    "内存由北京的一个服务器组成,CPU 由广东和福建的两台服务器共同构成"
    这个怎么能达到 us 级别?
    freelancher
        24
    freelancher  
       156 天前   ❤️ 2
    令人震惊的计算机文盲。不多说了。看完帖子我能气晕。
    stoneabc
        25
    stoneabc  
       156 天前
    @felixcode 仅指 “多台物理机构成” ,跨地域当然不行
    felixcode
        26
    felixcode  
       156 天前
    @stoneabc
    roce 的个位数 us 级延时是指适配器延时,没算上传输延时。
    哪怕是个位数 us 级的延时,放到现有的架构上,内存与 cpu 之间的延时也是现有单机的上百倍了。
    Chase2E
        27
    Chase2E  
       156 天前
    <=一台物理机器,云计算的本质就是利用冗余资源嘛
    b1u2g3
        28
    b1u2g3  
       156 天前
    无知,半知半解 =》无畏
    interim
        29
    interim  
       156 天前   ❤️ 1
    一时无力吐槽,这竟然是个开发问出的问题,建议重修计算机。
    msg7086
        30
    msg7086  
       156 天前 via Android
    超融合我记得只有存储是共享的吧,而且也是走 IB 之类互联的。
    这些技术的难点都在于突破光(电)速。
    CPU 和内存之间十几厘米的距离到顶了,拉到隔壁桌子都不行,你还跨省。这么远的距离,4GHz 的 CPU 瞬间被拉成 4KHz 。
    markgor
        31
    markgor  
       156 天前
    所谓的超融合其实就是现在云厂推的无服务器应用...单纯跑一个应用的。
    只涉及到存储 /计算 /带宽 能力。
    和虚拟机完全不是一个级别的。
    另外阿里 ecs 也不是一台物理机器;

    存储->建立存储池,末端是多台物理机器;
    CPU/内存->集群中建立的虚拟机;
    比方 A 集群中由 3 台物理机组成,虚拟机的配置运行仅仅会在其中一台节点中生效。
    当发现这个节点异常时,集群会把配置文件移动到另一个节点中。由于数据的存储是存储池中的,所以这个移动其实仅仅是配置。

    如果你有租用超过 3 年的云主机,你细心查看会发现有过自动重启的日志(可能看运气吧,但我其中一台试过),提交工单后答复由于宿主机异常,导致了转移,所以引起云服务器重启....

    内存带宽大概是 4200MT/s ,网络带宽需要达到怎样的条件才能这样异地组机呢,而且还没考虑稳定性...
    这有点过渡设计了....
    eason1874
        32
    eason1874  
       156 天前
    硬盘可以通过网络连接,大部分场景能满足,需要高 I/O 的除外

    CPU 和内存通过网络连接不可行,损耗极其大,说可行的要么不懂,要么骗子

    这题目让我想起好多人以为超算就是堆 CPU 堆内存。。。
    julyclyde
        33
    julyclyde  
       156 天前
    @lopssh 那只是个市场用语
    ch2
        34
    ch2  
       156 天前
    你用过就知道,哪台机器性能指标啥样都得提前文档里写好的,同一个大区不同小区之间高几毫秒延迟都得说的清清楚楚,不在一台机器上的都能猜得到
    xingHI
        35
    xingHI  
       156 天前
    香港轻量最低配什么价格
    PMR
        36
    PMR  
       156 天前 via Android
    内存延迟超过 80/90ns 都已经出现计算能力下降的情况



    内存 cpu 在上广的情况
    天翼云在两地网络延迟能摸到 29ms
    这延迟带来是非常致命
    l4ever
        37
    l4ever  
       156 天前
    内存、CPU 必须在一起, 人家厂商为了最大化的加速, 恨不得把内存集成到 CPU 里面去.
    vhwwls
        38
    vhwwls  
       156 天前
    底层是高度定制化的 KVM ,CPU 和内存当然只能是同一台机器上的,至于硬盘视情况而定,大部分情况是分布式存储上的。
    tinybaby365
        39
    tinybaby365  
       156 天前
    CPU 和内存来自同一台 host ,( CPU 和内存都归为计算资源),磁盘可以来自该 host ,也可以是外部的云盘。云盘也是不会出 zone 的,不可能跨 region 的,延迟太大了。云盘使用的是 RDMA 类的方案。
    littlewing
        40
    littlewing  
       156 天前
    如果你买的是 1024C1024T 的配置的话,有可能是 2
    lamesbond
        41
    lamesbond  
       156 天前
    应该是 1 ,阿里专有云资源快用完的时候,能开好几台 1 核,2 核的 ecs ,但开不出一台高配的,这些 1 核,2 核的就是每台物理机的“边角料”
    dianso
        42
    dianso  
       156 天前
    内存一般都在香港吧,网线应该在美国和欧洲,硬盘在国内,毕竟数据重要。
    Buges
        43
    Buges  
       156 天前 via Android
    除了硬盘都是 1 。其实 serverless 可以算是一种类似 2 的实现,不过你关心的不再是机器而是应用程序本身。
    Barnard
        44
    Barnard  
       156 天前
    不应该,异地的通信已经是大大制约了,即使在同一个主板都要想方设法增加内存和 cpu 之间的总线带宽,更别说异地了,所以现在 SOC 集成 CPU 和内存,性能提升明显。

    另外这些都应该是很基础的计算机知识,楼主不知道么 ?
    ganbuliao
        45
    ganbuliao  
       156 天前
    就是用了超融合 也得在一个机房里面 网络延迟是个大问题
    thtznet
        46
    thtznet  
       156 天前
    1 和 2 事实上是统一的,任何计算机的所有联接目前都是物理联接,网线也是通过物理连上的,所以 1 和 2 的区别只是联接的线是 PCB 上的金线还是光纤+PCB 金线,理论上 PCB 金线的数据传输极限也是光速,光纤的传速极限也是光速,但是基于物理地点的差距,那么即便都在光速的情况下传输信号,那么 [方案 1] 永远都比 [方案 2] 快,那么现实的问题是,如果 [方案 1] 的计算资源不够了怎么办?目前计算机设计的方案就是在物理地点附近堆硬件,将 2 台物理计算机相邻放置,并将 CPU 和内存和硬盘等多个组件全部联起来,用什么连?用 PCB 连,所以它成了多路服务器,规模再大点,还要继续堆硬件,物理地点还要更靠近,一个 PCB 板有制造极限,那么用多个 PCB 联接起来,所以它成了刀片服务器,规模再大点,继续堆。。。所以它成了超算。。。
    Rorysky
        47
    Rorysky  
       156 天前
    连核与核之间的 cpu cache 同步都嫌代价大,你还搞 异地的?

    2 不存在
    cholerae
        48
    cholerae  
       155 天前
    。。。。
    Felldeadbird
        49
    Felldeadbird  
       155 天前
    第二个方案需要在 硬件上做设计. 不然怎样调度每个硬件? 抛开网络物理限制,每次请求接收运算就消耗了时间. 如果是一台超售的机房, 容错率怎样解决?
    hyq
        50
    hyq  
       155 天前
    阿里云不太了解,但是从 AWS 来看,最大型号的虚拟机和唯一的物理机 baremetal 是相同配置,是不是可以断定是方案 1
    libook
        51
    libook  
       155 天前
    我的了解是 CPU 和内存在一个集群里,存储在另一个集群里。

    所以可以算是大体上是方案 1 ,存储部分像方案 2 分离成独立的集群。

    一台虚拟机的 CPU 、内存部分不会跨物理机,因为现在计算机性能太强了,网络是没法满足这么大强度的数据交换的。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3326 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 04:14 · PVG 12:14 · LAX 21:14 · JFK 00:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.