机器学习工具Magi:自动为漫画生成文本 帮助视障读者更容易地阅读漫画
划重点:
⭐️ 研究团队在牛津大学开发了名为 Magi 的先进工具,可以帮助视障读者更容易地阅读漫画。
⭐️ Magi 的方法包括智能地识别漫画页面上的面板、人物和文字块。
⭐️ 这项研究不仅突破了漫画可访问性的障碍,还展示了人工智能在提高可访问性方面的潜力。
在讲故事方面,日本漫画,即漫画,在全球范围内赢得了巨大的市场,以其复杂的情节和独特的艺术风格吸引着观众的注意。尽管它们具有全球吸引力,但一个重要的潜在读者群体却被忽视了:视障人士。对于他们来说,漫画的视觉中心性创造了一个无法访问的领域,尽管漫画中有丰富的叙事。
当前漫画之所以难以访问,主要挑战在于将视觉丰富的内容转化为视障人士可访问的格式。早期的漫画在很大程度上依赖于交织的视觉元素和文字,使体验固有地具有视觉性。这种视觉依赖意味着视障人士通常无法参与漫画艺术家创造的故事、人物和世界。
目前使漫画可访问的解决方案远非理想,主要是因为它们依赖于手动转录或音频描述,这种方法劳动密集且难以有效扩展。这种差距突出了需要更有效的自动化方法来使所有观众都能够欣赏漫画,无论其视觉能力如何。
牛津大学的研究团队开发了一种先进工具,名为 Magi,这标志着使漫画对视障读者更具可访问性的突破。Magi 是一个打开以往因视觉障碍而锁定的故事的通道,为所有读者提供了新的参与水平。
Magi 的方法包括智能地识别漫画页面上的面板、人物和文字块,以及将对话与其相应的讲话者相关联,保持叙事的完整性。通过严格测试,Magi 展示了在检测和聚类人物以及将文本与正确的讲话者相关联方面的优越能力,超越了现有方法。这种效率展示了该工具的精确性,以及它改变漫画阅读为一种所有视障人士都可以享受的包容性活动的潜力。
这项研究和开发工作突显了辅助技术方面的重大进展。通过利用复杂的算法和机器学习,Magi 为无法看到的人打开了一个以前无法访问的漫画世界。这一创新的影响超越了漫画,它为技术如何弥合娱乐领域的鸿沟树立了一个先例,使其普遍可访问。
开发 Magi 有助于使文化和娱乐内容的获取更加民主化。它突显了向包容性转变的趋势,打破了享受乐趣的障碍,使故事变得普遍可访问。这项研究不仅突显了人工智能在提高可访问性方面的潜力,还号召进一步在这一领域进行创新。随着技术的发展,希望更多的大门会打开,让每个人无论身体上的限制如何,都能探索广阔多样的娱乐和文化景观。Magi 从概念到实施的历程揭示了通往一个更加包容的世界的道路,让故事的乐趣无限延伸。
产品入口:https://top.aibase.com/tool/magi
论文:https://arxiv.org/abs/2401.10224v1
B站2023百大UP主名单公布 1月6日将举行百大 UP 盛典
B站2023百大UP主名单已经公布了。这个名单评选标准为创作的「专业性、影响力、创新性」三个维度,从中选出了2023年度的百大UP主。百大UP主盛典将于1月6日在B站直播,100多位UP主将会参与。用户可以在B站上搜索“百大”预约直播。以下为获奖者具体名单:站长网2024-01-02 14:27:180000AMD 首席执行官:AI 半导体在今后 3~4 年里将年均增长 50%
AMD首席执行官苏姿丰日前接受日本经济新闻采访时表示,用于人工智能(AI)的半导体市场将在今后3~4年里年均增长50%。AMD将推出用于AI处理的高性能半导体,追赶在该领域排在世界首位的英伟达。苏姿丰预测,未来3-4年内,人工智能半导体市场将从目前的数百亿美元增长到1500亿美元。生成式人工智能在医疗、金融和制造业等领域得到广泛应用,需要高性能半导体来瞬间处理庞大的数据。站长网2023-07-24 22:17:31000020倍的压缩比例!微软发布LLMLingua:压缩长提示并加快模型推理速度
划重点:🔍微软团队推出LLMLingua,一种独特的粗细压缩技术,用于压缩长提示并加快模型推理速度。🔍LLMLingua采用动态预算控制、逐标记迭代压缩算法和指令调整方法,确保在大比例压缩下保持提示的语义完整性。🔍实验结果表明,LLMLingua在不同情境中都达到了最先进的性能,并能实现高达20倍的压缩比例。站长网2023-12-14 10:35:380004超逼真!普林斯顿大学推3D场景生成模型Infinigen
普林斯顿大学研究人员AlexanderRaistrick日前发布了一款名为“Infinigen”的开源AI模型,可以帮助人们生成逼真的3D场景。据了解,Infinigen是一款基于开源建模软件Blender的免费开源模型,能够通过随机数学规则生成一系列自然界的“植物、动物”场景,并且可以通过输入提示词来自定义地形,并添加“云、雨、雪、雷暴、天火”等自然现象。生成的场景例站长网2023-06-20 17:10:320001AI视频何时才能跑出一个“Midjourney”?
AI视频一跃成为“明日之星”,大厂和创业公司们打得热火朝天。去年12月,Pika的出现仿佛点燃了AI视频赛道的引线,一个月之内冒出了近十家公司,谷歌、阿里、字节、腾讯竞相下场,不断将战事推向了高潮。“AI视频的MidjourneyV5时刻就要到了”,即将迎来成为生产力的关键时刻。0001