V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CNYoki
V2EX  ›  程序员

ollama 本地模型 GPU 跑不满

  •  
  •   CNYoki · 130 天前 · 2478 次点击
    这是一个创建于 130 天前的主题,其中的信息可能已经有所发展或是发生改变。
    在本地部署了 ollama 的 API 做生成任务,现在有 4 块 A800 的 GPU ,ollama 已经开启了并行任务。

    现在的问题是,模型速度提不上去,GPU 也没有跑满,占用在 80%左右,显存也只用了 1/2 。

    是其他什么硬件到了瓶颈吗?影响模型生成速度的内存带宽?如何能提升速度?



    第 1 条附言  ·  130 天前
    多谢诸位。换 vllm 了,72b 的模型用两张卡都没跑起来,四张都用才行(
    12 条回复    2024-07-24 15:03:17 +08:00
    1119745302
        1
    1119745302  
       130 天前
    换个后端?
    CNYoki
        2
    CNYoki  
    OP
       130 天前
    @1119745302 #1 这个跟后端没太大关系吧,直接用的 python 调的 ollama 的库
    KylinYou
        3
    KylinYou  
       130 天前 via Android
    在 llama.cpp 那边提个 issue 呢
    swulling
        4
    swulling  
       130 天前
    为啥 A800 还用 ollama 或 llama.cpp 。直接用 vLLM 。
    neteroster
        5
    neteroster  
       130 天前 via Android
    用 vLlm 。
    CNYoki
        6
    CNYoki  
    OP
       130 天前 via iPhone
    vLLM 现在有 json mode 了吗
    0x3933030
        7
    0x3933030  
       130 天前
    只有卡 0 用起来了,怎么想都是模型实现的问题
    CNYoki
        8
    CNYoki  
    OP
       130 天前
    @0x3933030 #7 再加载另一个模型的话,ollam 会优先放在空闲的卡上。但是单模型不知道为什么就是推理速度起不来
    1119745302
        9
    1119745302  
       130 天前
    @CNYoki llama.cpp 似乎不支持张量并行,就算 4 张卡显存占满了也跑不快. https://www.bilibili.com/video/BV1DH4y1c7gK/ 可以参考一下这个, 换个 vllm 啊啥的后端一般就是随便跑了
    crackidz
        10
    crackidz  
       130 天前
    当然是换个后端... vllm 算是比较流行的企业级后端
    GrayXu
        11
    GrayXu  
       130 天前
    @CNYoki #2 就是后端问题,ollama 是依赖 llama.cpp 的吧,llama.cpp 只能模型并行,不能提升 token 速度。用 vllm 。
    clemente
        12
    clemente  
       130 天前
    开大 batch size
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2702 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 09:02 · PVG 17:02 · LAX 01:02 · JFK 04:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.