印度首家IT公司推出“印度版ChatGPT” 支持40种印度方言
文章概要:
1. Tech Mahindra推出面向印度语言的开源语言模型Project Indus,这可能是该公司迄今最重要的项目。
2. 该模型最初将支持40种印地语言方言,参数规模预计达到70亿。模型有望为印度25%的人口提供服务。
3. 为不同语言和方言收集数据仍然是最大的挑战。Tech Mahindra正在通过语言捐献渠道收集数据集,并与各利益相关方合作。
最近,印度IT公司Tech Mahindra宣布推出了一个面向印度语言的开源基础语言模型“Project Indus”。该项目可能会成为该公司迄今为止最重要的项目。目前,像OpenAI的GPT模型这样的大型语言模型,尽管具有多语言能力,但在理解和生成印度语言内容方面受到英语数据集的限制。
图源备注:图片由AI生成,图片授权服务商Midjourney
Tech Mahindra首席执行官古尔纳尼表示,该模型将是最大的印度语言模型,可能为全球25%的人口提供服务。 Tech Mahindra尚未透露项目成本或预计发布时间,但目标是首先构建一个70亿参数的语言模型。
该模型最初将支持40种不同的印地语言方言,后续将逐步添加更多语言和方言。他们表示,尽管目前一些印度语言模型Bhashini和AI4Bharat等已经存在,但仍需开发一个基础模型。他们的接口可能具有语音和文本信息,但尚未考虑加入类似ChatGPT的聊天界面。
Tech Mahindra的首要目标是首先创建一个用于文本继续的语言模型,然后提供对话功能。一旦模型的性能和方言生成效果明确,他们将在开源中发布。
印地语言模型可以优先考虑文化敏感性,确保生成内容尊重当地习俗和规范。它还可以使AI普及,为该国更广泛的非英语使用者提供服务。
然而,采集不同语言和方言的数据仍然是Tech Mahindra面临的最大挑战。为此,该公司正在寻求不同方言使用者的贡献,以帮助构建数据集。他们已开设了一个门户网站,以获取印度人的语言捐献。
Meta AI团队再失大将:R-CNN作者Ross Girshick离职
要点:R-CNN作者RossGirshick离开Meta的FAIR,加入艾伦人工智能研究所(AI2),成为FAIR近期离职的研究科学家之一。近年来,Meta的计算机视觉团队经历了多位大神的离职,包括ResNeXt一作谢赛宁等,而何恺明和谢赛宁则回归学界,分别加入麻省理工学院和纽约大学。站长网2023-12-04 17:02:160000谷歌Pixel系列史上价格最贵: Pixel8a售价破6000
据最新消息,谷歌的Pixela系列手机将在下一代产品中涨价成为历代a系列机型中最贵的一款。尽管Pixel7a可以看作是Pixel6a的重大升级,但其价格从449美元上涨到499美元仍然合理。0000潮汕女生要去IPO敲钟了
把自己的爱好做成一家上市公司,朱嘉盈快要实现这个梦想了。投资界-天天IPO获悉,近日,日日煮食品集团DayDayCook(简称“日日煮”)向美国证券交易委员会(SEC)递交F1文件,拟在美国纽约证券交易所(NYSE)上市。据悉,日日煮这次计划通过上市融资筹集最少4000万美元。站长网2023-06-24 14:17:050000罗永浩称东方甄选会继续去董化 没有实质股权虚衔毫无意义
12月18日,@罗永浩的辟谣号发布长文对董宇辉事件进行回应。他认为,东方甄选一定会继续推进“去董宇辉化”,因为如果只是依赖董宇辉一个人赚钱,东方甄选在资本市场上只能被视为一家MCN公司。为了讲得通电商公司或品牌产品公司的故事,东方甄选必须完成“去董宇辉化”,而这两种类型的公司估值相差甚远,因此未来一定会有变数。站长网2023-12-19 09:24:110000