登陆注册
9070

Clip4Cir开源:基于参考图像和文字描述搜索图片

站长网2023-08-26 16:04:500

Clip4Cir采用了一种搜索图片的方法,图片看起来像给定的图片,但是在标题中描述了变化。它使用了增加了特殊技巧的 CLIP 模型。该方法在流行的图像搜索数据集 FashionIQ 和 CIRR 上表现更佳。

项目地址:https://github.com/ABaldrati/CLIP4Cir

CLIP 模型是一个多模态视觉模型,它可以理解自然语言描述与图像的复杂对应关系。通过在标题中描述变化,可以更精确地寻找符合用户需求的图像。这一改进将有助于提高图像搜索的准确性和用户体验。

主要内容包括:

项目目标:实现基于参考图像和文字描述的图像检索任务

模型框架:先微调CLIP encoder,再训练Combiner网络进行多模态融合

数据集:使用FashionIQ和CIRR两个流行的数据集

用法:提供了CLIP微调、Combiner训练、评估等多个脚本

效果:验证结果表明,相比复杂的SOTA方法,该方案可以获得更好的性能

特点:代码清晰易于理解,便于研究

总体来说,本项目提供了一个基于CLIP的图像检索任务强大且易于使用的解决方案,值得关注和参考。

0000
评论列表
共(0)条