fnd 最近的时间轴更新
fnd

fnd

V2EX 第 31162 号会员,加入于 2012-12-23 21:36:15 +08:00
今日活跃度排名 19547
fnd 最近回复了
上面说的都太业余了,说点实际的。

首先,100 个人用≠100 并发,要结合你的业务场景去评估实际需要支持多少并发。比如:每个人是时时刻刻一直用?还是 5%的时间段在用?重合度多少?峰值可能是多少?
其次,现在并发数的成本很高,并不是一定要支持峰值的并发。当前业内通用的做法是只支持特定的并发,然后做一个队列进行并发控制。如果并发满了一定数量内的先队列等待,等待队列也满了就提示并发数超限稍后再试之类的。
然后,4090 就先不说并发了,70b 的模型都不一定能跑起来,可能得上 A100 。

实际并发数的计算得看单卡每秒 tokens ,然后根据业务场景预估单次请求可能的 tokens 大小,计算得到单卡并发。
你们的后端太懒了。就你说的这些情况,需要有一个专门的业务后台来做这些接口的整合,而不是客户端做这些事情。
置身事内
纳瓦尔宝典
156 天前
回复了 DelayNoMay 创建的主题 职场话题 想跳槽, 2024 的就业环境会好一点吗?
不会
@KKLeon 断断续续的,投入度不够。有兴趣一起搞?
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3143 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 11:18 · PVG 19:18 · LAX 04:18 · JFK 07:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.