首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xwander
V2EX  ›  硬件

实验室想采购个深度学习工作站,候选采购商给了个配置建议,菜鸡不是很懂,希望大佬们给个建议

  •  2
     
  •   xwander · 31 天前 · 2401 次点击
    这是一个创建于 31 天前的主题,其中的信息可能已经有所发展或是发生改变。

    实验室情况是:

    1.人很多,并且目前没有旧的可用,好像是原来有但出问题了,我之前帮师兄跑实验都是自费买的 GPU 租赁服务,泪目。

    2.主要的计算任务是 NLP 方向的。

    3.GPU 服务器计划放入空调房,噪音和产热问题好像并不用太过担心。

    4.预算方面不能一次性超 10 万,如果存储空间不够,可以后续添加。


    楼上实验室给我推荐的采购商的建议是:

    CPU:2* 英特尔 XEON E5-2680V4/14 核 /28 线程 /2.4GHz-3.3GHz

    内存:6* 32GB R-ECC DDR4 2666MHz 服务器内存(共有 24 个内存插槽,剩余 18 个)

    硬盘:960G SATA 2.5 寸 企业级固态硬盘+4TB SATA 7.2K 3.5 寸 企业级机械硬盘(共有 24 个硬盘插槽,剩余 22 个)

    电源:2000W 2+2 钛金级冗余电源,最大支持 8 块 GPU

    显卡:4*NVIDIA Geforce RTX 2080Ti 11G (共有 8 个 GPU 插槽,剩余 4 个)


    本人的一些不成熟的想法:SSD 是不是该上 nvme (或 M.2 的 nvme ),速度才是重点,空间是其次?以后有其他预算是扩容还是另外选购新机器?

    第 1 条附言  ·  30 天前
    感谢大佬们的意见。

    综合一下,我们打算改成:

    1.效率相关,内存要么 4 条,要么 8 条,我们用 4 条就好了。

    2.是我上面写得不够明白,其实电源是 4 个,一组两个,一组共 4000W,第二组做备用,应该够用了。

    3.显卡改为 RTX8000 或 RTX6000,单卡显存大还是很重要,因为现在模型趋势是越来越大。

    4.全上 SSD,NVMe 最好,主硬盘还是尽量 NVMe ( PCIe 也行),本地持久化存储空间不需要很大,可以另外组 nas 。

    5.CPU 选新款的,选 epyc 或者 Xeon W 。
    32 条回复    2020-06-05 17:50:56 +08:00
    aptx4689
        1
    aptx4689   31 天前
    显然空间才是最重要的,人这么多,要放的数据必然多
    chenchangjv
        2
    chenchangjv   31 天前
    建议硬盘再来一个 4TB 的,固态并不重要。
    服务器的 SAS 盘性能不错,系统不太需要放到固态里面。对 NLP 来说的话,内存也足够大了,应该也不用直接跟硬盘交互数据,所以硬盘性能不太重要,容量比较重要。/home 盘最好是 4T 的,2TB 的盘不是很禁用,因为大家都习惯把东西放在 /home 。我们二十多人的组,三台服务器加起来硬盘也有 20T 了。显卡的话看你们的人数了,不跑 BERT 的话,一般一个人独占一张卡还是有必要的。其他的没啥可挑的。如果你要跑 BERT 之类的话,可能就不太能多人共用了。
    xwander
        3
    xwander   31 天前
    @aptx4689 #1 但 sata 的和 nvme 的速度真的差好大··· ···,不过计算型任务也的确不怎么受存储速度左右。
    Xbluer
        4
    Xbluer   31 天前
    存储什么的可以上 NAS 啊
    chizuo
        5
    chizuo   31 天前
    挺好的,如果还有预算的话建议内存再加一点。考虑到实验室多人使用,数据都要 load 到内存。
    cepczkd
        6
    cepczkd   31 天前
    建议硬盘要 raid
    idclight
        7
    idclight   31 天前
    SSD 换 6T sas 组 raid0,记得上 raid 卡。
    johnchshen
        8
    johnchshen   31 天前 via Android   ❤️ 2
    cpu 是几年前的老款,很可能主板 CPU 都是洋垃圾回收。

    内存要不 4 个,要不 8 个,不然多通道效果可能差,且内存频率未标。

    硬盘没 raid1,raid5,速度慢且数据没安全。且简单标个企业级。奸商都直接给淘汰备品的。

    硬盘容量太小,没 ssd cache,图形类机器学习的话,空间必然不够。

    总结:换家有经验的有实力的供应商
    bnuliujing
        9
    bnuliujing   31 天前
    我们半年前也配了一台类似的设备,Supermicro 的机器,cpu 是 Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz * 2,,内存 256G,硬盘是 500G SSD (RAID 0) + 8T ( RAID 5 )如果没记错的话。XEON E5-2680V4 有点老了,换新一点的 cpu 吧,另外硬盘考虑扩容+RAID 。
    Tink
        10
    Tink   31 天前 via iPhone
    内存加两个
    redstar78kg
        11
    redstar78kg   31 天前 via Android
    内存条用六个莫名其妙。
    zhaidoudou123
        12
    zhaidoudou123   31 天前
    Cpu 是不是有点旧了,硬盘要组 raid 吧
    说起来这个配件其实指的是 Apple 的配件😂
    gainsurier
        13
    gainsurier   31 天前 via iPhone
    好奇为啥不上 epyc
    longbye0
        14
    longbye0   30 天前
    容天?
    ssd 很重要,对 cv 来说至少是的。
    alphatoad
        15
    alphatoad   30 天前 via iPhone
    Nvme 占 pcie 通道啊,sata 便宜很多
    superlc
        16
    superlc   30 天前 via iPhone
    NLP 不清楚,可能对 IO 要求低?我个人感觉 cv 方面 ssd 非常重要,严重影响速度。我们之前数据盘用 HDD,gpu 只有 70%左右的利用率,后来我插了块自己的 ssd 上去,四个 gpu 都是 99%利用率,爽到

    而且内存需要这么大吗?我们 64G 基本用不完,你要是 HDD+大内存的话可以搞 ramdisk ?

    我们去年 9 月买的 4 块 2080ti 才人民币大概 7.5w 左右,现在 10w 应该可以买更好的吧
    superlc
        17
    superlc   30 天前 via iPhone
    @chizuo 应该是只有正在做 argumentation 的几个 batch 会临时在内存里,然后很快就挪到显存去了。如果显存只有 44G,内存应该不是瓶颈了,除非是做 ramdisk,把整个数据集放到内存里去
    abcdabcd987
        18
    abcdabcd987   30 天前
    NLP 的话 2080Ti 显存是不是非常不够?
    fatelight
        19
    fatelight   30 天前
    如果追求 io 速度,单个 nvme 是不够的,可以组个数据服务器,如果 io 需求很大的话,比如组一个 ceph 节点(二手便宜志强也行,主要吃内存),64G 内存 64T HDD,io 上基本可以满足了。但是不太了解 io 需求多大
    twl007
        20
    twl007   30 天前 via iPhone
    电源功率不够 一块卡基本都得 300w 左右全速跑 需要升级到 3000w 的电源 而且 CPU 太老了 不推介

    另外你需要全上 SSD 能上 NVME 最好 拿 HDD 存训练集还行 跑训练就算了 需要存储的话可以单独采购一个做存储的机器

    现在这个配置基本不适合你跑机器学习 另外把内存加到 256G 比较好
    twl007
        21
    twl007   30 天前 via iPhone
    我是按照你们以后升级 GPU 到 8 卡算的 那个电源现在可以用 但以后升级潜力堪忧就是了
    weiziyan
        22
    weiziyan   30 天前
    为什么要买老至强?不需要多路就买 Xeon W,需要的话就买 Xeon Scalable
    nnqijiu
        23
    nnqijiu   30 天前
    显卡才是最重要的,内存没必要用那么大
    Porphet
        24
    Porphet   30 天前
    @abcdabcd987 现在 nlp 各种模型的趋势就是越大越好,11g 能用,但是对大模型就得想办法分到多块卡上了,对科研人员很不友好。所以推荐 RTX8000,😂
    madeye
        25
    madeye   30 天前
    主要做 NLP 的话,显存肯定是不够的。

    以 BERT-large 为例,如果你想要本地 fine-tune 的话,12G 显存差不多对应 batch size 12,这个 batch size 太小因而很难收敛。
    NCZkevin
        26
    NCZkevin   30 天前
    硬盘 NLP 的话没必要,分区的时候 home 多分点,否则以后会后悔的。我们实验室配置和这差不多,主要是显卡最好用显存大的,要不然跑 bert 有点吃力。
    sl0000
        27
    sl0000   30 天前
    我个人用的 c621 准系统
    supermicro 7049gp-trt ¥:11000
    亚马逊特价买的,这个自带双钛金 2100w 冗余电源,8 * sata 硬盘 raid
    2 * intel gold 6244 es 2.8ghz 工程样品 ¥:1800 工程样品性价比比较高
    4TB wd blue ssd ¥:3500
    2 * 8T sata hgst 最强空气盘 ¥:2400
    4*32GB ecc 2993 ¥:3200
    sl0000
        28
    sl0000   30 天前
    大船货 intel 200G 傲腾 m.2 ¥:2000 主板唯一的一个 m.2 接口插的这个作系统盘
    geniussoft
        29
    geniussoft   30 天前
    听着不明型号的企业级固态,感觉就是骗钱的或者拆机翻新的。

    机械盘上 UltraStar HC520/530,预算不紧张可以富裕一点。
    另外个人认为主硬盘还是尽量 NVMe ( PCIe 也行)。

    处理器确实也有嫌疑。
    lsylsy2
        30
    lsylsy2   30 天前
    有资质的对公供应商,洋垃圾回收什么的可能性还是不大
    但确实会用几年前的库存款式,在合理合法的范围内缩水
    chizuo
        31
    chizuo   30 天前
    @superlc 嗷,对于数据集我一般是整个 load 到内存的,而不是到一个 batch 了,在从硬盘 read,这样会很慢
    fengdra
        32
    fengdra   30 天前 via Android
    我们以前也是买了几台四卡机器,但是据我观察,大部分人每次都只用一张卡。所以我觉得不如把一台 HEDT+四卡换成两台消费级平台+双卡,这样划算很多
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1835 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 16:39 · PVG 00:39 · LAX 09:39 · JFK 12:39
    ♥ Do have faith in what you're doing.