英特尔推Extension for Transformers工具包 大模型推理性能提升40倍
要点:
通过该工具包,使用英特尔® 至强® 处理器可实现大型语言模型(LLM)推理性能加速达40倍,满足各种应用需求。
工具包提供轻量级但高效的LLM推理运行时,优化了内核,支持多种量化选择,提供更优的KV缓存访问和内存分配策略,显著提升了性能。
工具包攻克了对话历史、输出长度有限以及效率低下等聊天场景应用难题,通过引入流式LLM技术优化内存使用和推理时延。
在当前技术发展的背景下,英特尔公司推出的Extension for Transformers工具包成为一个重要创新,实现了在CPU上对大型语言模型(LLM)推理性能的显著加速。该工具包通过LLM Runtime技术,优化了内核,支持多种量化选择,提供更优的KV缓存访问和内存分配策略,使得首个token和下一个token的推理速度分别提升多达40倍和2.68倍。这一技术的推出,极大地满足了不同场景对于LLM推理性能的需求。
项目地址:https://github.com/intel/intel-extension-for-transformers
在性能测试方面,通过与llama.cpp进行比较,LLM Runtime在输入大小为1024时能够实现3.58到21.5倍的性能提升,而在输入大小为32时,提升为1.76到3.43倍。同时,工具包还通过验证了多个模型的INT4推理准确性,表明在性能提升的同时准确性损失微小。
然而,不仅仅是性能的提升,工具包还在聊天场景中应用方面取得了显著成果。通过引入流式LLM技术,解决了对话历史、输出长度有限和效率低下等应用难题,使得LLM在聊天场景中更加实用。这一技术的特性,包括对话历史的纳入和输出长度的优化,使得工具包在解决聊天场景难题方面具有先进性和前瞻性。
英特尔® Extension for Transformers工具包在大型语言模型推理性能的提升以及聊天场景应用方面的创新成果,标志着对于人工智能领域的进一步推动。通过不断引入先进的技术和解决实际问题的能力,该工具包展现了英特尔在人工智能领域的领先地位,为未来的发展提供了强有力的支持。
OpenAI CEO:AI可以提高员工生产力 但也会制造更多失业
OpenAI的首席执行官SamAltman说,生成型人工智能技术,如ChatGPT,可能会在未来几年提高许多员工的生产力,但也有可能导致一些人失去工作。站长网2023-07-28 17:15:280000随处可见的“杨幂迪丽热巴”带货?AI直播卖货有钱途吗?
近日,众多媒体报道,多家电商AI换脸知名女星在直播间卖货,此事一经报道便引起广泛热议,值得关注的是,一部分网友感叹科技发展迅速,AI换脸的以假乱真,另一部分网友纷纷斥责商家的侵权越界行为,对直播电商的信任基石产生了动摇,还有一部分网友喊话平台和相关部门进行管控与整理,肃清直播电商的氛围。站长网2023-06-05 23:57:200000vivo推出新助理“蓝心小V” 基于AI大模型打造
vivo宣布推出新助理“蓝心小V”,蓝心小V结合了vivo的AI技术,提供了多种功能,包括文案写作、AIP图、图像识别、语音识别和机器翻译等。蓝心小V支持语音、文字和拖拽三种交互方式,同时还有一个小巧的悬浮态,可以在需要时轻松打开或最小化挂起。蓝心小V还能将现有知识进行系统化的归类呈现,甚至可以用思维导图的形式梳理逻辑,为用户提供灵感启发。站长网2023-11-01 11:49:140003罗永浩与京东交个朋友
又是一年618,毫无意外直播再次成为了电商行业的主战场。淘宝直播再次拿出明星直播的大招,邀请肖战,易烊千玺,王俊凯,迪丽热巴等顶流明星进入直播间与粉丝互动。抖音也开启了好物节,拿出大额补贴吸引粉丝下单。而说到618,必然绕不过京东。可是因为京东在直播上一直缺少头部主播,所以在过去几年,京东的直播电商都没有引起太多的关注。不过,今年618似乎请来了强援。站长网2023-05-30 09:15:450000“达人种草,店播割草”怎么玩?这篇文章为你讲清楚路径和要点
达人分销带货从2020年抖音全面进入电商化开始,发展到现在已经有三年了,整个生态已经非常的成熟。今年,在平台全域电商的大背景下,商城流量和商品卡成为新的红利,搜索流量的快速发展推动达人市场也进入了2.0阶段。很多店播商家为了快速扩量,开始做达人分销合作;也有很多商家刚入局抖音,希望通过达人分销快速完成冷启动。而做自播的同学在开启分销业务线时,经常会遇到几个问题:站长网2023-05-09 17:10:160000