现在买 3090TI 玩 AI 靠谱吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› 下载 GeForce Experience

› NVIDIA SHIELD

› GPU Ray Tracing

› ShadowPlay

› NVIDIA Unix Driver

这是一个创建于 70 天前的主题，其中的信息可能已经有所发展或是发生改变。

想入一张显卡研究下 AI 。对比下来觉得要么 3090TI ，要么 4070TIS ，倾向于 3090TI ，因为 24g 显存宽裕一点，照现在模型的发展 16g 担心以后会不够用。16g 跑现阶段的模型大部分时候压力都不大，但比如开个 SDXL+四五个 lora ，估计 16g 也带不动了。

现在的问题是对显卡一无所知😂看到说 30 系默认全矿的，又有说 3090TI 不是矿的。想问下老哥们，3090ti 现在能入吗，能的话什么渠道比较靠谱，合理的价格大概多少？

另外我不玩游戏，实话说如果没有太大的性能差异我是能接受矿卡的，就怕以为是轻度锻炼没想到是深度锻炼，那就不能接受了。。

91 条回复 • 2024-05-24 05:35:42 +08:00

digd

70 天前

如果只是玩 llm ，建议 mac pro

hunk

69 天前

要不要考虑租用主机，试用先，4090 我记得有的才 3-5 块/小时。
硬件投入感觉变数大。

x86

69 天前

试试 2080ti 改 22g 的方案？

go522000

69 天前

现在能用，但明年就不一定了，我的显存 12G 只能下载别人量化好的来用。
我看到群友们是搞魔改版本 22G * 4 , 才能跑 72b 的模型，而 110b 以上模型得自己量化为 4bit 才能跑。

jamfer

69 天前

最近刚好看到一个视频，说苹果的统一内存（显存），对训练大模型很有用，本人不太懂，仅给 LZ 一个参考： https://www.bilibili.com/video/BV1MH4y1g77V

jamfer

69 天前

@jamfer 视频比较长，可以直接看 5:10 的位置

sleepybear1113

69 天前

虽然我不懂跑 ai 模型的需求，但是为啥这里也有无脑吹 mac 的果粉啊

Desiree

69 天前

@hunk 在哪里能出租？

vivisidea

69 天前

@Desiree 直接 google 搜 4090 租用，我看选择还不少的，没试过，可以先买几个小时试试看

rabbbit

69 天前

先按需租个试试,便宜的几块钱一小时，L4 T4 v100 A100 型号一大堆。

plasticman64

69 天前

@sleepybear1113 所以你不懂为什么要出来叫，M 芯片跑 LLM 性能确实很好啊

libook

69 天前 via Android

显存大小是硬性需求，算力只是速度快慢的问题。

看你要玩的模型要多大显存，另外训练和推理需要的显存大小可能是不一样的，以及你是否有需要同时加载多个模型。

pinecone1

69 天前

M 芯片因为有统一内存结构，笔记本都上 36G-48G 的统一内存了，是能跑起更大参数量的模型的。但是推理速度会比 4090 慢好多

pinecone1

69 天前

@pinecone1 即使 ultra 128 个 G 的统一内存能跑起 70b 的模型，估计一秒钟都吐不出几个 token

WilliamZuo

69 天前

不了解硬件，但如果 AI 无法在短时间内把推理硬件门槛降低到 3090Ti 或者 4060 ，那这个行业真的值得被长期看好吗？

imoru

69 天前

偶尔使用的话推荐租用 GPU,我用的是这个平台
https://www.autodl.com/
只花了 150 都不到就退烧了,因为其实真的没有那么多喜欢的角色 lora 需要训练,而且画了快一万张图感觉有点腻了😂

jadehare

69 天前

@plasticman64 性能确实好性价比确实好么？买下来加内存买下来比 4090 还贵，跑下来还不如 4090 。有 mac 可以不用买显卡，但是已经有台式机更新肯定是更新显卡，推荐 mac 不是搞耍？

sweat89

69 天前

@sleepybear1113 所以你不懂还要在这尬喷？人麻了都

neteroster

69 天前 via Android

真要考虑 Apple Silicon 跑 LLM 的话先看看这个：

https://github.com/ggerganov/llama.cpp/discussions/4167

不是所有 M 芯片都是那么快的。等级森严在苹果这里也是不会变的。

除非你非跑超大模型不可，否则就性能而言 M 芯片的性价比是不如 NVIDIA 的。总之就是先想清楚需求。

然后就是如果涉猎比较广泛，不止玩 LLM ，当然还是 NVIDIA ，毕竟生态再这里。

devlnt

69 天前

@pinecone1 #14 m3max 64G 跑 llama3:70b 能达到 9tokens/s ，而 4090+64G 内存只能 2tokens/s 。8b 的话 4090 能 100tokens/s, m3max 是 50 多 tokens/s 。

liuyangmengqi

69 天前

@sleepybear1113 虽然你什么都不懂，但是也不妨碍你看到苹果就咬啊

neteroster

69 天前

@neteroster 再补充几句，70B 还没到 Mac 的适应区间，2 * 3090 就能拉爆 M3 Max 了，还是在便宜的多的情况下。拉高 batch size 差距应该会更加显著。

再大的模型？那就要想清楚你是不是真的需要那么大的模型了，现在大部分模型都集中在 <100B 区间，就算 >100B 的模型 Mac 也跑不快的。唯一有优势的可能是 MoE ，不过现阶段并不多，可能战未来吧。

Caitlyn

69 天前

我的 4070tis 跑 ai 绘图、ai 唱歌，速度非常快，显存占用基本在 14g 左右，我觉得 70tis 性价比很高，4080s 贵了 1500 提升不是很大不划算了

JayZXu

69 天前

如果只是玩一玩，组个 GPU 的钱也就几块钱一个小时，就当上网吧了，而且环境配置时还不算钱，挺合算。自己试试真实需求再下手不迟

如果是真的深入要微调模型啊之类的需求，买一张 3090ti 也不顶用。
哪怕是 24G 跑大模型也顶多只能跑个优化好的 13B ，14B 。70B 就不要想了。
画图参数拉高了，显存一样不够用。

thinkershare

69 天前

租卡是最合适的，弄个 A100*2 或者 3090*4 的集群，基本啥都能跑。。另外你是要搞推理还是训练?
等到你真的需要自己训练大模型时，你一样需要专业的集群，而不能靠你手头那点资源。

clear

69 天前

上面吹 Mac 跑大模型的自己真的用过吗，那么多坑都淌完了？

还是看了个视频张口就来了。

— 来自顶配 Studio 用户的评论。

另附：租用目前是最合适的，退烧快，性价比高，以 AI 名义打游戏另说。

tr1v1z

69 天前 via Android

说 mac 的基本就是限定了顶配，然后只适用 llama.cpp ，然后呢，买回来纯推理 llama ？楼主都说了 sdxl ，怎么可能推荐 mac ，不知道咋想的…

至于为啥 4090 看上去拉，因为显存不够只能走 pcie 走内存走 cpu 。换成 2x3090 就会立竿见影。话又说回来，sd 又不特别吃显存，4090 绝对是好选择。

不要只看评测视频吧。。

kenvix

69 天前

有很多人说 mac 跑 LLM 很好，我比较好奇，这个跑是推理还是微调？ mac 能 SFT 微调 LLM 吗？

LaurelHarmon

69 天前

3090 很好的，跑跑模型没啥问题，训练推理都在行，老当益壮

herozzm

69 天前

小模型可以，稍大就抓瞎

ansor

69 天前

mac 跑 LLM,跟 wsl 跑 LLM 有什么区别，价格还更便宜。

sola97

69 天前 via Android

推理速度太慢没有实用价值，什么 14b 都不如免费的 kimi

lithiumii

69 天前 via Android

@sleepybear1113 因为老黄的显存跟果子的统一内存都是金子价。果子 96G 内存的机器是一台可以拎走的笔记本，同等价格 96G 显存的机器是一台体积功耗噪音都惊人的服务器。个人玩特别大的模型，苹果忽然就有性价比了。

sighforever

69 天前

@ansor mac 现在是统一内存，内存也是显存，mac 有个 192G 版本的，相当于有 150+ 的显存了，等于 6 块 4090 了

SkywalkerJi

69 天前 via Android

果粉只考虑显存大小，不考虑算力的吗？ gt610 大狂牛？

michaelzxp

69 天前

就等苹果 wwdc 看会不会发布自己的 ai ，年底上 m4 大内存版本

1138743695

69 天前

感觉想学习不管是从成本还是便利性上都推荐用租的，能避免很多问题（我是本科 ai 专业，长时间的课题自然用实验室的，平时自己想试点什么就用租的，我用的 autodl ）

Francost

69 天前

我是在 runpod 上租用 gpu ，有很多 option 可供选择，或者你也可以在 vast.ai 上看看

BernieDu

69 天前

@tr1v1z Mac 跑 sdxl 有什么问题吗，sdxl 这种啥机器跑不了，无非是快点慢点，大部分家庭需求还在乎时间？后台慢慢生成就是了。

secondwtq

69 天前

SD 和 LLM 这两个需求其实是不一样的
LLM 看个人需求，跑得快当然好，有的场景慢一点也无所谓
但是 SD 实际使用中需要迭代调参才能试出相对满意的结果，这种情况下能快速推理生成预览是非常有用的
就像过去 3D 建模调材质，CPU 渲染很慢影响效率，但是后来 CPU 核数上来了，又可以用 GPU 硬件加速光追，效率指数级上升

kenvix

69 天前

@ansor #31 WSL 也是统一内存，但只限软件层面，然后 x86 兼容机的内存和 CPU 离得很远，又受接口带宽限制，导致速度非常慢

muxiaofei

69 天前

请教一下大佬们，如果只是做向量模型来跑模型，以及微调模型，这种需求是买 3090ti 还是 4070 呀

muxiaofei

69 天前

或者说做一个定制化的企业知识库用的模型进行微调需要什么显卡（ CHATGLM2 和 M3E ）或者笔记本也行。

r6cb

69 天前

@muxiaofei #43 只是知识库就只需要推理就行，显存能放下模型的显卡就够用了。但是微调 CHATGLM2 要多张 A100/A800 级别的 GPU 才干得了

NewHere

69 天前

@Desiree AutoDL 2.XX/h 4090

NewHere

69 天前

@sleepybear1113 统一内存比较吃香，老黄要 80g 的显存得 A100 和 H100 了，mac 可以几万拿下一整套，老黄价格比这贵还只是一张显卡

PeneceaQwQ

69 天前

首先，先建议租一下显卡试一试，说不定吃不满。可以尝试的平台：autodl ，vast.ai

关于矿卡：3090ti 发布的比较晚，而且对矿老板性价比不高，就算挖的话也挖不了多久

关于矿卡的危害：问题就是不稳定。连续高温满载工作。首先显存可能先炸（如果是 3090 到手建议换显存），硅脂因为高温会渗出硅油，除此之外还可能会有各种各样的小问题。可以捡，但是做好心理预期，建议观摩一下靓女维修佬的视频，做好功课再说。捡到个人买家也不是不可能（）

gransh

69 天前

@plasticman64 问题 op 明确了需求是 SDXL+四五个 lora ，你哪里看到有 LLM 了？

gransh

69 天前

这楼我没看完都不知道你们能吵这么多关于 mac 的，SDXL+lora 几个大字看不见疯狂辩论 LLM ，绝绝子

hunk

69 天前

@Desiree 还有其他的很多，一时找不齐了。
https://www.autodl.com/home
https://openbayes.com/gear/

tr1v1z

69 天前 via Android

@BernieDu 可能只有你不在乎时间

muxiaofei

69 天前

@r6cb 感谢大佬的回复，我现在如果是想用 llama3 进行中文微调的话（其实我也只是一个小白），大概需要什么样子的显卡呢？目前有一台 3060 12GB

muxiaofei

69 天前

@1138743695 您好，想了解下，如果租用算力来微调自己的模型，这样是可行的吗？

ljyst

69 天前

ai 说到底还是 cpu 语法套模版。玩的是硬件.没意思

neteroster

69 天前

@muxiaofei

中文微调推荐 Qwen 系列，llama3 预训练估计没多少中文语料。

微调分不同类型，全量，LoRA ，QLoRA 等，最近也有一些新兴技术。例如，llama3 8b 用 LoRA 基本 24G 能满足，但是全量微调这个大小则是天方夜谭。部分任务下 LoRA 等技术和全量微调效果接近甚至更好，但是也有很多任务是不及全量微调的，需要实际测试。

租算力完全可行。

另外，知识库不推荐微调，先试试 RAG 。

locoz

68 天前 via Android

玩图片生成买个二手 3090 玩没啥问题，无论是要长期放着跑还是玩腻了打游戏都可以，不过 3090 会很热、风扇很吵，这个可能要考虑一下。

如果明确只是短期玩玩，使用频率和时长没那么高，那租硬件是最具有性价比的选择，性能又好，实际产生的成本又低，又省事。

吹苹果的看看就得了，拿苹果统一内存跑起来了大模型又怎么样？就那点速度完全不具备可用性。说白了就是个放企业级场景嫌慢、个人场景嫌贵的鸡肋。而且买了高配之后不想玩了干其他事又是纯浪费，想卖二手这过高的配置又不好出手，麻烦得很。

cnevil

68 天前

@WilliamZuo 因为你要是不执著于本地部署的话，你没显卡都能用

HojiOShi

68 天前

现在 5090 都要出了，就算有 3090TI ，别人凭什么把体质好的锻炼少的卡卖给你啊。。。

leconio

68 天前 via iPhone

MacOS 可以跑 llm 呀，有这个示例工程工程 https://github.com/ml-explore/mlx-examples ，有人在 macos 跑起了 32B 的大模型，lora 微调。。。而用 cuda 要 64 显存

leconio

68 天前 via iPhone

但 huggingface 上的大部分模型，开发者只给出 cuda 的例子，除非你特别知道自己在干什么，否则为了生态我还是劝你入英伟达 40 系列显卡

Tuatara

68 天前

@digd 不止 llm ，啥都想试哈哈哈，sd 跑跑图，再做做 tts ，其实也是探索自己的兴趣

Tuatara

68 天前

@hunk 我之前就是租用云 gpu ，这个主要弊端是只能 linux ，很多大神的整合包都是 windows ，另外每次用完都要重新搭建环境，时间长了也挺麻烦的。。

Tuatara

68 天前

@x86 听过这个方案，而且效果据说很强，主要是咱硬件一窍不通不敢这么弄😂 有靠谱渠道倒是完全可以考虑

Tuatara

68 天前

@go522000 那老哥有啥推荐吗，就直接上魔改？

Tuatara

68 天前

@jamfer 感激，我来看看

Tuatara

68 天前

@libook 我估计大概率不会到训练，主要是推理。但加在多个模型可能会有，比如加载多个 lora

Tuatara

68 天前

@WilliamZuo 硬件要求确实也在降低中，外国很多老哥在把模型优化成 12g 显存能跑。不过也都是开源小模型，毕竟有一定局限性

Tuatara

68 天前

@imoru 这个我试过，国内的 autodl ，国外的 runpod ，说实话都还不错。主要问题是只能 linux 没有图形界面，但很多整合包还是要图形界面操作，时间长了觉得租的还是不方便

Tuatara

68 天前

@neteroster 我估计最多也就跑个 70b 了，再大确实也没啥必要，而且也可以租 gpu 来玩

Tuatara

68 天前

@Caitlyn 老哥你的 70tis 跑图通常是多大的图，加 lora 吗

Tuatara

68 天前

@JayZXu 24g 啊，显存跑 70b 不行吗，我其实是想在本地尝试 70b 的。回头我去租个 gpu 试试看

Tuatara

68 天前

@thinkershare 我自己玩主要是推理，训练确实可以租 gpu 。有点之前忘说了，云 gpu 主要是只能 linux 有些大神的整合包用不了，而且每次都要重新搭建环境，时间长了感觉有点蛋疼

Tuatara

68 天前

@clear 哈哈啊哈老哥清醒！

Tuatara

68 天前

@1138743695 我之前也都是租，但我看很多大神出的整合包都是 windows 的，租的 gpu 都是 linux 用不了。加上每次要重新配环境有点蛋疼，这才考虑组机器。前面这两问题老哥怎么解决的？

@Francost 我之前也是用 runpod （现在上面都还有钱笑死），租卡主要是👆这俩问题，老哥有啥好办法吗

@secondwtq 蛮有道理的，能快速生成预览还蛮重要的

@leconio 老哥点解，为啥为了生态要选 40 系？ 30 和 40 的生态不一样吗，我理解都是 cuda

Tuatara

68 天前

大家讨论好多，很感谢哈哈哈

原题忘了说了，我之前也一直是租 GPU 的，主要是 runpod 和 autodl 两个平台上。性价比上绝对是租划算，主要问题是 1 ）想玩一些大神的整合包，但只能 windows/可视化，租的 gpu 都是只有 linux 这种整合包就跑不了；再来租的每次都要重新搭环境，时间长了有点蛋疼，这才考虑组机器。

不过说实话我动手也没有那么多，看了一圈下来大家分歧还是比较大😂 准备再租 gpu 一段时间，真要入的话目前倾向 4070tis 了。

至于 mac ，我工作电脑是个 M2 pro 芯片，跑 llm 倒是挺好。sd 的话还是慢的过分了，我感觉体验不是很能接受。但更新的 M3 + 统一内存没试过，我理解速度上还是不如显卡？因为它只是显存大，计算还是得 cpu

BernieDu

68 天前

@tr1v1z m3max 3 秒一张图和 3090 2 秒一张图差多少？而且楼主是为了研究 ai ，3090 能跑 llam 70b ？跑内存里是吧。这就不是浪费时间了？