HuggingFace diffusers轻量快速推理引擎stable-fast上线
不久前,HuggingFace 的 diffusers 轻量快速推理引擎已经在GitHub上发布。这个引擎通过一系列小幅改进,已经实现了显著提高推理速度的目标,宣称每秒可达到60步,较之前的23步有了显著提升。在自然语言处理任务中,这一引擎表现出色,赢得了众多开发者的青睐。
目前,stable-fast处于测试阶段,可能存在一些问题,但它承诺为深度学习爱好者带来颠覆性的变革。
项目地址:https://github.com/chengzeyi/stable-fast
stable-fast的设计目标是优化HuggingFace Diffusers在NVIDIA GPU上的推理。它利用一组强大的技术来确保高效的性能。其中一个显著特点是CUDNN卷积融合,它能够实现卷积、偏差、加法和激活计算模式的无缝融合。这确保了您的模型运行尽可能高效。
另一个显著特点是实现了低精度和融合的GEMM。通过在计算时使用fp16精度,同时在fp16下读写,stable-fast超越了PyTorch的默认性能。该库还擅长实现NHWC和融合GroupNorm,借助OpenAI的triton,提供了高度优化的融合NHWC GroupNorm GELU操作符,消除了内存格式排列操作的需求,进一步提高了效率。
图源备注:图片由AI生成,图片授权服务商Midjourney
此外,stable-fast引入了完全跟踪模型的概念。它改进了torch.jit.trace接口,以使其更适合跟踪复杂模型。几乎可以跟踪和转换StableDiffusionPipeline的每个部分为TorchScript。它比torch.compile更稳定,CPU开销明显更低,并支持ControlNet和LoRA。
它还引入了融合多头注意力,使其与TorchScript兼容。与其他加速库相比,stable-fast的卓越速度是其独特之处,尤其在针对HuggingFace Diffusers进行优化时。此性能比较显示了其卓越的性能。作为PyTorch的极简主义插件框架,它无缝集成了现有的PyTorch功能和基础设施,同时支持各种加速和微调技术。总之,stable-fast准备为深度学习从业者的推理优化带来革命性的速度和效率。
Meta 抢先苹果传闻中的 AR/VR 头显之前宣布推出 Quest 3
Meta今天宣布了Quest3,这是其即将在今年推出的下一代混合现实头戴式设备。这一消息发布的时间正好在WWDC之前,届时苹果有望发布其备受期待的首款AR/VR头显。图片来自Meta站长网2023-06-03 10:46:240000普华永道内部测试生成式人工智能工具ChatPwC
普华永道(PwC)正在试行一种内部生成式人工智能工具,作为该公司提升其AI能力和服务的一部分。这种工具被命名为ChatPwC,其运作方式类似于OpenAI的ChatGPT或Anthropic的Claude等流行的AI模型。普华永道利用围绕热门税务问题和法规的数据,结合安全、私密地访问OpenAI的技术,来优化其模型。站长网2023-08-17 09:27:060001微软推文本转真人视频工具Deepfakes Creator
站长网2023-11-17 14:37:410000理想汽车11月共交付新车41030辆 同比增长172.9%
刚刚,理想汽车公布2023年11月交付数据。数据显示,2023年11月,理想汽车交付新车41,030辆,同比增长172.9%。截至2023年11月30日,理想汽车全年累计交付325,677辆,提前达成2023年30万辆销量目标。此外,截至2023年11月30日,理想汽车在全国已有398家零售中心,覆盖136个城市;售后维修中心及授权钣喷中心320家,覆盖209个城市。站长网2023-12-01 16:53:010000人工智能如何颠覆 Z 世代的职业道路?
人工智能正在以前所未有的方式改变工作世界。人工智能正在重塑企业的运营和竞争方式,从自动化任务到创建新产品和服务。但这对刚刚进入劳动力市场或刚刚开始职业生涯的最年轻一代(Z世代)有何影响?站长网2023-07-25 16:34:420000