字节跳动与中科大联手提出多模态文档大模型DocPedia
要点:
字节跳动与中国科学技术大学联合研究的多模态文档大模型DocPedia成功突破分辨率极限,达到2560×2560,相较于现有先进模型有显著提升。
DocPedia不仅能准确识别图像信息,还能结合用户需求调用知识库回答问题,展现了高分辨率多模态文档理解的强大能力。
训练DocPedia的关键在于采用感知-理解联合训练策略,通过频域处理解决分辨率问题,以及在微调阶段进行整体优化,显著提高了性能。
字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限,达到了2560×2560的高分辨率。这一成果是通过研究团队采用了一种新的方法,解决了现有模型在解析高分辨文档图像方面的不足。
在此研究中,提出了DocPedia,一个高分辨率多模态文档大模型,与业内先进模型相比,其分辨率明显提高,达到2560×2560,而其他模型的上限仅为336×336,无法解析高分辨率文档图像。
论文地址:https://arxiv.org/pdf/2311.11810.pdf
DocPedia的性能得到了显著提升,尤其在关键信息抽取和视觉问答方面的能力上。通过论文中的示例展示,DocPedia能够理解高分辨率文档图像和自然场景图像中的指令内容,并准确提取相关的图文信息。这包括了从图像中挖掘车牌号、电脑配置等文本信息,甚至对手写文字的准确判断。
结合图像中的文本信息,DocPedia还可以利用其大模型推理能力,根据上下文分析问题,并回答图像中没有展示的扩展内容。
在DocPedia的训练过程中,研究团队采用了两个阶段的方法:预训练和微调。在预训练阶段,大语言模型的视觉编码器部分被优化,以使其输出与大语言模型对齐。这一阶段主要注重对感知能力的训练,包括文字和自然场景的感知。微调阶段涉及整个模型的端到端优化,并采用感知-理解联合训练策略,进一步提高了DocPedia的性能。
特别值得注意的是,DocPedia从频域的角度出发解决分辨率问题。通过提取高分辨率文档图像的DCT系数矩阵,并在不损失图文信息的前提下进行空间分辨率下采样,通过级联的频域适配器进一步进行分辨率压缩和特征提取。这种方法在将图像输入到视觉编码器之前,大大减少了token数量,提高了效率。
总体而言,DocPedia在多模态文档大模型领域取得了显著的突破,其高分辨率和优化训练策略使其在各项测试基准上均表现出色。该研究为推动多模态文档理解领域的发展提供了有力的支持。
百度百家号将升级为百度AIGC创作经营平台
在今日的,2023万象·百度移动生态大会上,百度宣布百家号将升级为百度AIGC创作经营平台。百度集团资深副总裁、百度移动生态事业群组总经理何俊杰表示,AI变革带来了新的流量,新的交互方式,新的生产力,将重新定义营销,助力业务,打造新的变现能力。百度移动则是要致力于让AI变小,变得更具体,让他真正变得人人可用,这标志着PersonalAI时代的到来。站长网2023-05-25 11:41:010000小米大模型,不搞“ChatGPT”
ChatGPT上线半年后,一场大模型追逐战继续在太平洋两岸上演。由OpenAI、微软和英伟达组成的联盟,正在太平洋东岸玩命狂奔。今年3月以来,中国科技公司紧急跟进,百度、阿里、商汤、科大讯飞相继推出“类ChatGPT”产品,腾讯、华为、京东公开表示正在跟进大模型,都想抓住这个比互联网时代还“大十倍”的机会。“百模大战”当前,作为国内大型科技企业的小米,却显得格外冷静。站长网2023-06-14 09:40:210000韩国巨头Naver将推出HyperCLOVA X大模型和聊天机器人
韩国平台巨头Naver计划在8月底推出超级AI平台HyperCLOVAX和聊天机器人CLOVAX,并将这些新兴技术应用于其主要服务中,以增强搜索、购物和在线支付等领域的用户体验。据悉,大规模语言模型(LLM)HyperCLOVAX具有2040亿参数,超过了GPT-3的1750亿参数,并且比基于GPT-3.5的ChatGPT学习了6500倍的韩语。站长网2023-08-24 16:51:300000LinkedIn首席运营官谈2024年:人工智能将使我们的日常生活更轻松
**划重点:**1.🌐**2024AI改变生活:**LinkedIn首席运营官DanShapero认为,2024年将迎来人工智能技术大幅改善我们日常生活的时代。2.🤖**LinkedIn聚焦AI和求职:**Shapero指出,LinkedIn将加大对人工智能和求职的整合,以帮助用户更有效地利用AI进行求职活动,包括联络公司、自我描述和面试准备等方面。0000AI视野:Copilot将可免费使用GPT-4Turbo;Bing推深度搜索功能;谷歌推桌面版Chrome“帮我写”;百度腾讯等入股无问芯穹
📰🤖📢AI新鲜事微软Copilot将可免费使用GPT-4Turbo微软宣布Copilot将集成OpenAI最新工具,特别是强化版的GPT-4Turbo。GPT-4Turbo具有更大的上下文窗口和更新的知识截止日期,提供更深入的见解。微软表示,整合后将使Copilot用户处理更复杂、更长的任务,并获得更高效的工作体验。【AiBase提要:】站长网2023-12-06 15:30:270001