Clip4Cir开源：基于参考图像和文字描述搜索图片

站长网2023-08-26 16:04:500阅

Clip4Cir采用了一种搜索图片的方法，图片看起来像给定的图片，但是在标题中描述了变化。它使用了增加了特殊技巧的 CLIP 模型。该方法在流行的图像搜索数据集 FashionIQ 和 CIRR 上表现更佳。

项目地址:https://github.com/ABaldrati/CLIP4Cir

CLIP 模型是一个多模态视觉模型，它可以理解自然语言描述与图像的复杂对应关系。通过在标题中描述变化，可以更精确地寻找符合用户需求的图像。这一改进将有助于提高图像搜索的准确性和用户体验。

主要内容包括:

项目目标:实现基于参考图像和文字描述的图像检索任务

模型框架:先微调CLIP encoder，再训练Combiner网络进行多模态融合

数据集:使用FashionIQ和CIRR两个流行的数据集

用法:提供了CLIP微调、Combiner训练、评估等多个脚本

效果:验证结果表明，相比复杂的SOTA方法，该方案可以获得更好的性能

特点:代码清晰易于理解，便于研究

总体来说，本项目提供了一个基于CLIP的图像检索任务强大且易于使用的解决方案，值得关注和参考。

Clip4Cir开源基于参考图像和文字描述搜索图片

0000

评论列表

共(0)条

相关推荐

站长资讯
滴滴快送业务上线提供同城小件即时配送服务
滴滴出行平台于6月13日新增了滴滴快送业务，目前已接入达达快送、闪送、UU跑腿三家公司，提供即时配送服务，包括“经济帮送”和“专人直送”两种方式。滴滴表示，滴滴货运收到了不少用户的反馈，希望滴滴货运能够提供小件快送服务，因此，滴滴货运与达达快送、闪送、UU跑腿合作，提供同城小件的快送服务。
站长网2023-06-13 17:58:27
0000
站长资讯
谷歌产品大更新：Bard可生成图像；文生音乐平台等5大免费功能
2月2日，谷歌在官网对生成式AI产品进行了大更新，包括类ChatGPT聊天助手Bard可以通过文本提示生成图像;全新的文生音乐平台MusicFX;新的文生图像平台ImageFX;新的文本扩写平台TextFX;在谷歌地图中增加生成式AI功能，用文本提示快速查找路线、店铺等。
站长网2024-02-02 10:52:00
0000
站长资讯
苹果计划2027年前让9款产品全面采用OLED屏幕
据韩媒报道，苹果计划在2027年前，让其产品线中的9款设备全面转为采用OLED屏幕。报道称，苹果将在明年推出两款OLED屏幕的iPadPro，2026年将OLED屏引入iPadmini和iPadAir系列。iPadAir的屏幕尺寸保持在10.9英寸，而iPadmini将从8.3英寸升级至8.7英寸。
站长网2023-11-18 13:47:34
0000
站长资讯
2022年针对美国老年人的欺诈骗局造成超过10亿美元的损失许多涉及使用人工智能技术
划重点:-根据年度美国参议院老年委员会报告，2022年美国老年人据称因欺诈活动损失了超过10亿美元，其中许多骗局都利用了复杂的人工智能生成技术。-许多骗局使用人工智能技术克隆他们认识的人的声音，以及其他人工智能生成的策略，使老年人成为骗局的目标。-受害人通过接到听起来非常像自己亲人声音的电话来被欺骗，这些电话声称他们的亲人处于危险中、受伤或被扣押，要求他们提供金钱帮助。
站长网2023-11-21 15:35:21
0000
站长资讯
匿名论文提出奇招，增强大模型长文本能力居然还能这么做
一提到提高大模型长文本能力，就想到长度外推或者上下文窗口扩展?不行，这些都太费硬件资源了。来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同，它用模型的参数来存储大量上下文信息。具体办法就是建一个临时Lora模块，让它仅在长文本生成过程中“流式更新”，也就是用先前生成的内容不断作为输入来充当训练数据，以此保证知识被存进模型参数中。
站长网2024-02-04 09:04:36
0000