V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tool2dx
V2EX  ›  硬件

如果把手机芯片功耗拉满到 450W,上台式机的水冷散热,会怎么样?

  •  
  •   tool2dx · 201 天前 · 1579 次点击
    这是一个创建于 201 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前主流芯片骁龙 8 Gen3 的 GPU 跑分,差不多和 1060 持平,浮点计算数据是 5201 GFLOPS in FP32(wiki 数据),而功耗仅仅只有 6~10W 。

    我看 4090 的功耗是 450W ,wiki 上算力是 73,073 GFlops

    把 10W 拉到 450W ,就是 45 倍。理论上 5201 × 45 = 234,045 GFlops ,比 4090 要强太多,能抵上三台 4090 了。

    也许高通以后可以改行卖骁龙显卡?
    19 条回复    2024-05-25 14:31:52 +08:00
    tool2dx
        1
    tool2dx  
    OP
       201 天前
    这点在 CPU 领域不成立,CPU 大部分程序是单线程,没办法通过并向切分任务,来提升总体算力。

    但 GPU 可以,你可以把一个巨幅画面切成 45 块,每一块单独用一台骁龙 8 Gen3 去渲染,最后把画面实时拼起来,就是算力叠加了。
    DTCPSS
        2
    DTCPSS  
       201 天前
    高通前几天刚发了新的 PC 芯片,性能和 M3 有来有回。
    DTCPSS
        3
    DTCPSS  
       201 天前
    玩博德之门 3 可以跑 30 帧。
    wy315700
        4
    wy315700  
       201 天前
    功耗和性能不是成正比的啊
    lxh1983
        5
    lxh1983  
       201 天前
    你是可以做老板的。比如生孩子需要十个月,给十个人一个月就能生出来了
    idealhs
        6
    idealhs  
       201 天前
    谁跟你说吃得越多就能干的越多的,猪八戒吗
    tool2dx
        7
    tool2dx  
    OP
       201 天前
    @DTCPSS

    NV 很鸡贼,4090 有 128 并行处理器(SM Count),每一个并行处理器又有 128 个 Cuda 核。总共是 128*128 = 16384 个 Cuda 个数。

    但是骁龙 8 Gen3 ,GPU 一共才两个 Execution units ,跑起来完全不是 4090 的对手。

    相当于 128 个人,打两个人。
    sentinelK
        8
    sentinelK  
       201 天前
    有一些场景能大概对应一下你的假设。

    1 、AYANEO Pocket S 是一个安卓掌机,用的芯片是骁龙 G3x gen2 ,配合主动散热功率能到 15 瓦。
    2 、高通发布了骁龙 X Elite 核心,TDP 80 瓦。

    btw:功耗与性能之间不是线性增长的,否则能耗比曲线的意义在哪里。
    tool2dx
        9
    tool2dx  
    OP
       201 天前
    @sentinelK 感觉这里有个 BUG ,能耗比曲线一般都是 CPU 和 GPU 一起测的。

    但是我看 NV 的架构,就是尽可能塞进多的 Cuda 核心,加大功率,把他们喂饱,就能卖力干活。

    3090 Ti 是 84 个并行处理器, 4090 是 128 个,他们功耗都是 450W ,是一模一样的,单纯就是人多力量大。
    Jirajine
        10
    Jirajine  
       201 天前
    要不你整 45 台 10W 的设备组集群,是不是就能当 4090 用了?
    tool2dx
        11
    tool2dx  
    OP
       201 天前
    @Jirajine 单纯的分布式计算,应该就是这样设计的吧。

    也许挖矿比 4090 效率高,就是现在骁龙 8 Gen3 价格很贵,还不能集群玩游戏。
    sentinelK
        12
    sentinelK  
       201 天前   ❤️ 1
    @tool2dx
    1 、因为手机芯片是 SOC ,又有 CPU 的串行计算能力,又有显示芯片的并行计算能力。所以合在一起计算并没有问题。
    2 、功率不是你想堆就能堆的。TDP 是芯片设计架构决定的。然而芯片设计架构并不是简单的单元级别的复制粘贴。过去有个贬义词,叫“胶水核”。形容的就是这种行为。

    这也就引出了你说的“喂饱”论。喂饱,一般指的是相同的芯片,是否运行在了保证稳定性的前提下的最大频率上。
    不存在说给一个 TDP 10 瓦的芯片,喂饱 450 瓦的这种概念。
    starrycat
        13
    starrycat  
       201 天前 via Android
    游戏 1 分钟,充电五小时?
    sentinelK
        14
    sentinelK  
       201 天前
    举个例子,你和姚明打篮球,你说你打不赢姚明,是因为你比姚明吃得少。这就很莫名其妙。

    1 、你不可能和姚明吃的一样多,吃的一样多你得进医院。
    2 、即便你硬塞的和姚明一样多,姚明的身高优势依然存在。
    linch97
        15
    linch97  
       201 天前
    楼主可以去 socpk.com 看看手机的能效曲线,再看看 PC 的 CPU 和 GPU 的能效曲线,就知道为什么不可行了
    ooolooo
        16
    ooolooo  
       201 天前
    共享单车跑 80 码?
    YukiHanaNo
        17
    YukiHanaNo  
       201 天前
    为何不拉到 4500w 呢,这样你就拥有了目前全球算力最强的显卡了,股价不得赶超苹果
    Jirajine
        18
    Jirajine  
       201 天前
    @tool2dx 分布式不是说你想随便横向扩容就能随便扩的。
    多个核心/单元/节点之间的同步/协同/共享/通信都需要架构上的考虑。不是说你把 45 张 10W 的芯片堆到一起就能当 450W 的多核心计算单元了。多个节点之间的开销大于核心的算力的时候你越堆性能越差。
    作为一个参考,记得几年前华为鲲鹏的 ARM 服务器几十上百个核心,单核主频也好几 G ,参数看起来非常强劲,然而实际跑起来编译个内核这种并行化非常高的场景,速度还没有 mbp 快。
    Greendays
        19
    Greendays  
       200 天前
    从极客湾他们画的性能曲线来看,10w 以后的提升就已经很低了。20w 以后应该就几乎不会有提升了。
    https://www.socpk.com/cpucurve/
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3173 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 10:42 · PVG 18:42 · LAX 02:42 · JFK 05:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.