合合信息用AI 抢救古彝文 发布业内首个编码数据库
站长网2023-09-27 09:54:390阅
据第一财经消息,近日,合合信息联合上海大学、华南理工大学,发布了业内首个古彝文基础编码数据库。该数据库通过人工智能技术,对云贵地区流传的古彝文字符进行数字化编码,编制成类似“大字典”的数据库,以帮助相关人士更便捷地查询古彝文的读音和释义。
图源备注:图片由AI生成,图片授权服务商Midjourney
据介绍,古彝文指民间流传使用的原生态彝文,有87046个字符,远多于汉字。其中,《西南彝志》是目前发现的篇幅最长、内容最丰富的古彝文典籍。但由于古彝文异体字繁多,一个字可有几十种不同写法,给古籍数字化带来巨大挑战。
为突破难点,项目组采用智能图像处理、文字识别等人工智能技术,对7万6千余个样本进行训练,建立古彝文统一的数字编码。数据库发布后,相关用户只需输入一串编码,就可查询到字的读音、释义等信息,大大降低了阅读古籍的门槛。
合合信息表示,数据库的发布是基础性工作,有助更多人认识、研究古彝文,也为语言文明的保护提供了新路径。当前,数字化已成为文化传承的重要途径。数据库项目表明,人工智能可以发挥重要作用,助力传统文化走向数字化。
0000
评论列表
共(0)条相关推荐
苹果股价创历史新高,市值接近3万亿美元
苹果股价在本周三收盘时达到创纪录的高位,使得该科技巨头的市值再次接近3万亿美元。根据Refinitiv的统计数据,苹果股价在美股市场上涨了0.6%,收于189.25美元,使得市值达到2.98万亿美元。这是苹果股价连续两个交易日创下历史新高收盘价。尽管苹果的市值还没有超过3万亿美元,但在2022年1月3日的盘中交易中,苹果市值曾短暂超过3万亿美元,然而收盘时略低于这一水平。站长网2023-06-29 15:45:560000“薛之谦盗摄”上热搜背后,要注意“反屏摄”而非“反分享”
2月15日下午,薛之谦在微博发布了一段题为“偷看”的《飞驰人生2》观后感,长文内容是一贯的薛之谦式幽默文风,主要讲述他观看《飞驰人生2》的经历。内容本来没啥可说的,但配图却闯了祸——因为文内几张照片明显是影院现场拍摄的正片内容,评论中出现了不少人提醒薛之谦此举不妥,@百老汇电影中心也转发并表示“文明观影,拒绝屏摄”。站长网2024-02-17 10:43:330002280万大模型中文开发者拿到最后一块拼图
2023年5月,微软CEO纳德拉抛出一个惊人数字,未来全球的开发者数量将会达到10亿。那时候Meta的Llama已经开源4个月,但一些国内的开发者发现,从小以英文语料喂养起来的Llama,对中文世界并不友好。这未来的“10亿”开发者里会有多少中文开发者,这个问题难以预测,但至少已经有755万人了。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-12-01 17:47:590001GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7
【新智元导读】这个开源工具,居然能用GPT-4代替人类去标注数据,效率比人类高了100倍,但成本只有1/7。大模型满天飞的时代,AI行业最缺的是什么?毫无疑问一定是算(xian)力(ka)。老黄作为AI掘金者唯一的「铲子供应商」,早已赚得盆满钵满。除了GPU,还有什么是训练一个高效的大模型必不可少且同样难以获取的资源?站长网2023-09-18 15:53:330001华为天才少年大模型创业,原职级P20,现主攻AI公文写作
第一批华为天才少年的一员,也入局大模型创业了。谁?李博杰。华为2012实验室原成员,职级P20(技术专家A级别),以第一批“天才少年”的身份于2019年加入华为。离职前,他是2012实验室下属计算机网络与协议实验室助理科学家、副首席专家。再往前追溯,加入华为之前,他是中科大少年班的成员。站长网2023-08-09 09:29:280000