登陆注册

4也在用

  • 苹果芯跑大模型不用降计算精度,投机采样杀疯了,GPT-4也在用

    专攻代码的CodeLlama一出,大家伙都盼着谁来后续量化瘦身一下,好在本地也能运行。果然是llama.cpp作者GeorgiGerganov出手了,但他这回不按套路出牌:不量化,就用FP16精度也让34B的CodeLLama跑在苹果电脑上,推理速度超过每秒20个token。原本需要4个高端GPU才能搞定的活现在用只有800GB/s带宽的M2Ultra就够了,代码写起来嗖嗖快。
    站长网2023-09-03 08:52:44
    0000