谷歌AI提出MathWriting:整合人工书写和合成数据集等改变手写数学表达式识别
划重点:
⭐ 谷歌 AI 发布 MathWriting 数据集,为在线手写数学表达提供230k 人工编写和400k 合成样本,成为 ME 识别新标杆
⭐ MathWriting 数据集比 CROHME23具有更多样本和标签,包括广泛的数学符号和语法标记
⭐ MathWriting 支持训练模型、评估性能,并提供未来发展方向的参考
近年来,在线文本识别模型取得了显著进展,但数学表达(ME)识别作为更为复杂的任务仍未得到足够关注。
谷歌研究团队推出了 MathWriting,一个专注于在线手写数学表达的数据集,包含230k 人工编写和400k 合成样本,超越了类似 IM2LATEX-100K 的离线 HME 数据集。与其他在线数据集兼容,MathWriting 以 InkML 格式共享,并通过栅格化墨迹有效扩展了离线 HME 数据集。这一举措为 ME 识别引入了新的标准,提供了标准化的真实表达以简化训练和强化评估,同时在 GitHub 上提供代码示例以便于使用。
与 CROHME23相比,MathWriting 样本数量几乎是其近3.9倍,标签数量经过归一化后增加了4.5倍。MathWriting 不仅具有更多人工编写的墨迹,还提供了更广泛的符号范围,包括大部分希腊字母和矩阵等,从而能够代表量子力学、微积分和线性代数等各种科学领域。
MathWriting 数据集包括253k 人工编写表达和6k 孤立符号用于训练、验证和测试,同时还有396k 合成表达。发布在知识共享许可下,以 LATEX 标准化注释作为真实标准,基于 MathWriting 的测试部分,使用字符错误率(CER)指标构建手写数学表达识别基准。各种识别模型,包括 CTC Transformer 和 OCR,展示了数据集的实用性。数据收集涉及人类贡献者通过 Android 应用程序复制渲染表达式,随后经过最少的后处理和标签归一化以提高模型性能。
MathWriting 数据集相比 CROHME23提供了手写数学表达的详细信息,包括广泛的标签和墨迹统计,为了多样性提供了宝贵信息。尽管存在识别挑战,但 MathWriting 是训练和评估手写识别模型的全面资源,为了提供对真实识别场景的见解。
MathWriting 具有广泛的应用,支持跨科学领域的识别训练,并能够生成合成表达式。与 CROHME23等数据集的整合有望提高模型性能和多样性。边界框数据有助于生成合成墨迹,可能为更自然的合成改进 LATEX 的严格结构。此外,还提供了用于 UI 功能的字符分割途径。未来的研究可以专注于优化训练 / 验证 / 测试分割以及开发针对数学表达的语言模型。
论文:https://arxiv.org/abs/2404.10690
京东捐赠3000万元物资驰援京津冀多地防汛救灾
8月2日,京东集团公益基金会宣布捐赠3000万元物资驰援防汛救灾。目前,首批物资已送达救灾一线,与此同时,京东还组织当地快递小哥将部分应急物资直接送达急需救援的老人、儿童和急重病人手中。站长网2023-08-02 16:59:250000专业的食品图像分割技术FoodSAM开源
FoodSAM是一种用于食物图像分割的创新框架,结合了SegmentAnythingModel(SAM)、语义分割器和物体检测器。它能够生成类别无关的二进制掩码,通过与掩码-类别匹配获取食物类别标签,并为背景掩码提供非食物类别。通过合并策略增强语义掩码,实现实例和全景分割,并具备可提示的分割能力。站长网2023-08-17 11:14:440001小米汽车价格上热搜 小米正式发布首款电动车SU7“苏7”
在12月28日下午,小米正式发布了其首款电动车型——SU7,定位为C级高性能生态科技轿车。这一消息引起了业界的广泛关注。小米创始人雷军在发布会上表示,小米SU7作为小米首款汽车,是小米在汽车领域布局的重要一步。他强调,轿车在汽车工业中一直扮演着重要的角色,许多历史上的名车都是轿车。因此,小米坚定地选择了进军轿车市场,希望SU7能够成为这个时代的代表作。站长网2023-12-28 16:05:470000生成式AI公司Galileo推出检索增强生成工具
**划重点:**1.🚀Galileo发布了检索增强生成(RAG)和代理分析解决方案,旨在帮助企业开发可信赖的人工智能(AI)解决方案。2.🔍RAG系统通过在大型语言模型(LLMs)的通用知识基础上添加领域特定上下文,提供领域特定结果。3.🔄Galileo的工具通过将先进的见解和度量嵌入用户现有工作流中,提供对RAG工作流的每个阶段的可见性,实现快速评估、错误检测和迭代。站长网2024-02-07 10:43:490000血赚!分析师:到2027年,Nvidia的AI收入可能达3000亿美元
今年以来,芯片制造商英伟达(Nvidia)可以说过得相当滋润,其股价在人工智能或人工智能炒作的推动下翻了一番,而明天可能还会继续上涨。站长网2023-07-25 22:33:260000