Clip4Cir开源:基于参考图像和文字描述搜索图片
站长网2023-08-26 16:04:500阅
Clip4Cir采用了一种搜索图片的方法,图片看起来像给定的图片,但是在标题中描述了变化。它使用了增加了特殊技巧的 CLIP 模型。该方法在流行的图像搜索数据集 FashionIQ 和 CIRR 上表现更佳。
项目地址:https://github.com/ABaldrati/CLIP4Cir
CLIP 模型是一个多模态视觉模型,它可以理解自然语言描述与图像的复杂对应关系。通过在标题中描述变化,可以更精确地寻找符合用户需求的图像。这一改进将有助于提高图像搜索的准确性和用户体验。
主要内容包括:
项目目标:实现基于参考图像和文字描述的图像检索任务
模型框架:先微调CLIP encoder,再训练Combiner网络进行多模态融合
数据集:使用FashionIQ和CIRR两个流行的数据集
用法:提供了CLIP微调、Combiner训练、评估等多个脚本
效果:验证结果表明,相比复杂的SOTA方法,该方案可以获得更好的性能
特点:代码清晰易于理解,便于研究
总体来说,本项目提供了一个基于CLIP的图像检索任务强大且易于使用的解决方案,值得关注和参考。
0000
评论列表
共(0)条相关推荐
滴滴快送业务上线 提供同城小件即时配送服务
滴滴出行平台于6月13日新增了滴滴快送业务,目前已接入达达快送、闪送、UU跑腿三家公司,提供即时配送服务,包括“经济帮送”和“专人直送”两种方式。滴滴表示,滴滴货运收到了不少用户的反馈,希望滴滴货运能够提供小件快送服务,因此,滴滴货运与达达快送、闪送、UU跑腿合作,提供同城小件的快送服务。站长网2023-06-13 17:58:270000谷歌产品大更新:Bard可生成图像;文生音乐平台等5大免费功能
2月2日,谷歌在官网对生成式AI产品进行了大更新,包括类ChatGPT聊天助手Bard可以通过文本提示生成图像;全新的文生音乐平台MusicFX;新的文生图像平台ImageFX;新的文本扩写平台TextFX;在谷歌地图中增加生成式AI功能,用文本提示快速查找路线、店铺等。站长网2024-02-02 10:52:000000苹果计划2027年前让9款产品全面采用OLED屏幕
据韩媒报道,苹果计划在2027年前,让其产品线中的9款设备全面转为采用OLED屏幕。报道称,苹果将在明年推出两款OLED屏幕的iPadPro,2026年将OLED屏引入iPadmini和iPadAir系列。iPadAir的屏幕尺寸保持在10.9英寸,而iPadmini将从8.3英寸升级至8.7英寸。站长网2023-11-18 13:47:3400002022年针对美国老年人的欺诈骗局造成超过10亿美元的损失 许多涉及使用人工智能技术
划重点:-根据年度美国参议院老年委员会报告,2022年美国老年人据称因欺诈活动损失了超过10亿美元,其中许多骗局都利用了复杂的人工智能生成技术。-许多骗局使用人工智能技术克隆他们认识的人的声音,以及其他人工智能生成的策略,使老年人成为骗局的目标。-受害人通过接到听起来非常像自己亲人声音的电话来被欺骗,这些电话声称他们的亲人处于危险中、受伤或被扣押,要求他们提供金钱帮助。站长网2023-11-21 15:35:210000匿名论文提出奇招,增强大模型长文本能力居然还能这么做
一提到提高大模型长文本能力,就想到长度外推或者上下文窗口扩展?不行,这些都太费硬件资源了。来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中“流式更新”,也就是用先前生成的内容不断作为输入来充当训练数据,以此保证知识被存进模型参数中。站长网2024-02-04 09:04:360000