登陆注册

大模型推理性能提升40倍

  • 英特尔推Extension for Transformers工具包 大模型推理性能提升40倍

    要点:通过该工具包,使用英特尔®至强®处理器可实现大型语言模型(LLM)推理性能加速达40倍,满足各种应用需求。工具包提供轻量级但高效的LLM推理运行时,优化了内核,支持多种量化选择,提供更优的KV缓存访问和内存分配策略,显著提升了性能。工具包攻克了对话历史、输出长度有限以及效率低下等聊天场景应用难题,通过引入流式LLM技术优化内存使用和推理时延。
    站长网2023-11-30 18:10:22
    0000