世界观察:GitHub Stars 秒破万,Meta 开源能识别 4000 种语言、生成 1000 多种语音大模型!
来源 | AI科技大本营
整理 | 屠敏
出品 | CSDN
(资料图片仅供参考)
和 OpenAI、Google 分道扬镳,Meta 在开源大模型方向上越走越深。
今日,Meta 在 GitHub 上再次开源了一款全新的AI 语言模型——Massively Multilingual Speech ( MMS,大规模多语种语音 ),它与 ChatGPT 有着很大的不同,这款新的语言模型可以识别 4000多种口头语言并生成 1100 多种语音(文本到语音)。
在上线短短的几个小时,该 GitHub 库便收获了 23k Star,Fork 数量高达 5.5k。
GitHub 地址: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
初衷
对于开发这款 MMS 模型,Meta 表示,「为设备配备识别和产生语音的能力可以让更多的人访问信息」。
不过,虽然全球已知的语言种类高达 7000 多种,但是现有的 AI 语音识别模型仅能够涵盖 100 种语言,范围太小了。
同时, 语音识别和文本转语音模型通常需要对数千小时的音频进行训练 ,对于大多数语言而言,这些数据根本就不存在。甚至全球多种语言在时代不断发展中,会有不少在未来几十年有消失的危险。
为了能够保护世界上语言的多样性,也想要为濒临消失的语言做一些贡献,Meta 研究团队研发并开源了 MMS,「我们公开分享我们的模型和代码,以便研究界的其他人可以在我们工作的基础上进行构建」。
当然,想要收集数千种语言的音频数据是开发这款大模型首先需要克服的困难。
在最新的 MMS 开源语音模型中,Meta 使用了一种非常规的方法来收集音频数据,他们使用了圣经等宗教文本。
Meta 对此解释称,“我们使用宗教文本,是因为这些文本已被翻译成多种不同的语言,并且其译文已被广泛研究用于基于文本的语言翻译研究。这些翻译有公开的录音,记录了人们用不同的语言阅读这些文本的情况。”
作为大模型项目的一部分,Meta 创建了 1100 多种语言的数据集,每种语言平均提供 32 小时的数据。
另外,结合圣经和类似文本的未标记录音,Meta 的研究人员将模型的可用语言增加到 4,000 多种。
支持数千种语言的单一语音模型
当然,依靠这些数据,很多人认为这个是偏向宗教的一种 AI 模型。事实上,Meta 表示,并非如此。
Meta 在公告中写道, “虽然录音的内容是宗教的,但我们的分析表明, 这并没有使模型过度偏向于产生更多的宗教语言。 我们认为这是因为我们使用了连接主义时间分类 (CTC) 方法,与用于语音识别的大型语言模型 (LLM) 或序列到序列模型相比,这种方法受到的限制要大得多。”
在训练这个模型时,Meta 结合使用了自家公司的“自监督语音表示学习”模型——wav2vec 2.0,它可以在未标记的数据上进行训练。结合非常规数据源和自我监督的语音模型能够带来不错的效果。
根据官方测试数据表明,与现有的模型相比,Meta 在使用 1B 参数 wav2vec 2.0 模型在 1,100 多种语言上训练了多语言语音识别模型。随着语言数量的增加,性能确实会下降,但幅度很小:从 61 种语言增加到 1,107 种语言,字符错误率仅增加了约 0.4%,但语言覆盖率增加了 18 倍以上。
在与 OpenAI 的 Whisper 模型比较时,其在 Massively Multilingual Speech 数据上训练的模型实现了一半的单词错误率,但 Massively Multilingual Speech 涵盖的语言是其 11 倍。
毋庸置疑,MMS 开源模型的到来,不仅扩大了文本生成语音的语言范围,也极大地提升了准确率。
局限性
不过,Meta 警告说它的新模型并不完美。该公司写道:“例如,语音转文本模型可能会错误转录选定的单词或短语,这存在一定风险。”
“根据输出结果,这可能会导致攻击性或不准确的语言。我们仍然相信,整个 AI 社区的协作对于负责任地开发 AI 技术至关重要。”
对于语音大模型的未来,Meta 称也做了设想,希望可以通过一个模型解决所有语言的多个语音任务。“虽然我们为语音识别、语音合成和语言识别训练了不同的模型,但我们相信在未来,一个模型将能够完成所有这些任务以及更多任务,从而带来更好的整体性能”,Meta 说道。
当然,我们也期望这一天能够早日到来。
上一篇:吉林省校园街舞教练员、校园街舞裁判员培训班结束 天天百事通
下一篇:最后一页

世界观察:GitHub Stars 秒破万,Meta 开源能识别 4000 种语言、生成 1000 多种语音大模型!
和OpenAI、Google分道扬镳,Meta在开源大模型方向上越走越深。
2023-05-24
吉林省校园街舞教练员、校园街舞裁判员培训班结束 天天百事通
吉林省校园街舞教练员、校园街舞裁判员培训班结束
2023-05-24
【中华武数·潮涌科创】普陀这里研发出“超级技术”,打破国外技术垄断,每年将惠及2亿人次
十年磨一剑,又一国外技术垄断被打破。普陀区云岭东路上的上海化工研究院实验室里,李虎林带着试验团队,24
2023-05-24
腾赚财经早报|三大指数均跌超1% 全球股市都在羞辱A股 为何跌跌不休? 时快讯
大盘全天震荡调整,三大指数均跌超1%,沪指创阶段收盘新低。盘面上,医药、医疗股逆势走强,新冠药方向领涨
2023-05-24
天天快资讯:一斤20元, 合肥藕带上市啦!
5月23日,记者探访合肥多家农贸市场和超市了解到它,藕带的生长期短,产量也不是很高,尽管目前价格和肉不
2023-05-24
桂东电力录得6天4板 环球报资讯
桂东电力再度涨停,6个交易日内录得4个涨停,累计涨幅为37 62%,累计换手率为40 70%。截至09:36,该股今日成
2023-05-24
2023年潮州中考成绩手机端查询入口 在哪里查询-环球动态
2023年潮州中考成绩手机端查询可登录潮州教育局。查询中考成绩时不要乱入一些网站,否则查到的可能是虚假的
2023-05-24
老崔和小崔,那时和现在 今日视点
这是老崔珍藏了近40年的照片。1984年,一位记者在老崔的面摊上悄悄拍下了这张照片,从合肥寄到当地,辗转到
2023-05-24
天天要闻:满足日常打印 你需要这款兄弟的一体机
对于很多家庭用户而言,为了能够满足日常的打印需求,购买一款打印机是个不错的选择。今天给大家推荐这款兄
2023-05-24
埃尔坎:尤文一直在逆境中变强;阿莱格里感受到了历史的责任-要闻速递
尤文母公司Exor的CEO约翰-埃尔坎在采访中谈到了他们被扣除10个联赛积分的情况,此外他还透露自己已经与阿莱
2023-05-24X 关闭





X 关闭
- 最新全国疫情中高风险地区名单:全国现有高中风险地区15+64个(统计时间:5月19日6时)
- 北京疫情最新消息|5月18日北京新增50例本土确诊病例和5例无症状感染者
- 上海疫情最新消息|5月18日上海新增本土确诊病例82例和本土无症状感染者637例
- 郑州限号|今天是2022年5月19日,郑州限行尾号是4和9
- 发码总数超68万!郑州市“场所码”覆盖精度再提升
- 郑州发布100号通告:调整封控管控区域
- 【“郑”在抗疫】郑州互联网企业开展爱心购瓜网络公益活动
- 10岁顽童因“想妈妈”爬楼顶,暖心民警化身“心理医生”解心结
- 洛阳馨悦社工:以微薄之力让社区更安全
- 平顶山新华区对4名违反疫情防控有关规定人员依法处理