首页 > 业界 > 关键词  > nvidia最新资讯  > 正文

携手英伟达:Mozilla发布新版Common Voice Dataset

2021-07-31 12:58 · 稿源: cnbeta

Common Voice 是一项旨在通过众包的方式,来教授机器人如何像真人般讲话的项目。Mozilla 基金会在几年前发起的该项目,现已迎来与芯片巨头英伟达的最新合作。其旨在允许志愿者为世界上最大的开放式通用语音数据集贡献一份力,从而推动语音合成与识别技术的发展。

(来自:Mozilla)

随着新版公共语音数据集的发布,可知 Common Voice 语料库已拥有超过 13000 小时的众包语音数据。

与上一版相比,其新增了 4622 小时的内容,并且迎来了对 16 种语言的支持,包括:

巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克语、阿塞拜疆语、以及豪萨语。

目前 Common Voice 已经收集了 76 种语言的公共语音数据库,以及超过 18.2 万份独特的声音,贡献者社区在过去六个月内迎来了 25% 的增长。

(传送门:NVIDIA)

语音时长 13905 小时,较上一版本增加了 4622 小时。排名前五的语言分别为英语(2630 小时)、基尼亚卢旺达语(2260 小时)、德语(1040 小时)、加泰罗尼亚语(920 小时)、以及世界语(840 小时)。

增长百分比最高的是泰语(从 12 小时到 250 小时、增长近 20 倍),卢干达语(从 8 小时到 80 小时、增长 9 倍),世界语(从 100 小时到 840 小时、增长超 7 倍),泰米尔语(从 24 小时到 220 小时、增长超 8 倍)。

感兴趣的朋友,可移步至 Common Voice 官网(传送门),为这个公共语音数据集贡献自己的一份力量。或者前往 GitHub 存储库,获取特定的元数据集和使用说明。

最后,作为 Mozilla 与 NVIDIA 的一个合作项目,相关训练模型也可通过 Nvidia NeMo 免费获得,后者是该公司打造的用于构建语音识别和对话模型的工具包。

举报

  • 相关推荐
  • 继续清库存!英伟达发布免外接供电RTX 3050桌面显卡

    英伟达计划推出GeForceRTX30506GB桌面显卡。这一消息也得到了WccFtech的证实。不出意外的话英伟达将会在明年1月份发布RTX30506GB桌面显卡AMD则可能推出RadeonRX7600XT16GB。

  • 预期英伟达明年将推出新一代 AI 芯片架构 加速 CoWoS 封装需求

    AI芯片的需求正在带动先进封装技术的发展,英伟达等大厂积极布局2.5D先进封装技术。其中CoWoS封装技术是关键,但产能仍然短缺,影响了包括英伟达在内的大厂AI芯片出货进度。随着新一代B100制图芯片架构的推出,英伟达将采用台积电的4纳米制程和结合2颗GPU晶粒和8颗高频宽内存的方式来加速CoWoS先进封装的需求。

  • 英伟达 CEO 黄仁勋或出席鸿海科技日 将发布强化合作消息

    据UDN消息称,英伟达首席执行官黄仁勋将参加鸿海于10月18日举办的科技日活动。鸿海董事长刘扬伟此前已经预告「今年科技日会有特别来宾」。日前英伟达因安全问题取消原定于10月15至16日在以色列特拉维夫举行的「英伟达AI高峰会」。

  • 英伟达法国办事处遭突袭

    法国竞争管理局的调查部门在得到法官授权后本周三对一家有反竞争嫌疑的图形卡行业头部企业进行突击搜查。此类突袭选在清晨进行,要的是一个措手不及。就没想过要有什么商业计划,只知道要干大事,他们三个人都不懂怎么写商业计划书,想写也写不了哇。

  • MetaChatGPT来了:Llama 2加持,接入必应搜索,小扎现场演示

    一年一度的MetaConnect大会上发布了一系列以AI为重点的公告。不仅是最新的MR耳机、与Ray-Ban合作打造的智能眼镜,最重要的是,Meta将在自身的所有通讯类App、MetaQuest3和未来的Ray-BanMeta智能眼镜中内置生成式AI技术驱动的新功能,从多轮对话的AI助手到图像编辑等一应俱全。对于Meta与微软的合作,有网友做了一些有趣的梗图,比如「杀死OpenAI」。

  • 重磅!OpenAI将发布DALL·E 3,多模态ChatGPT来了!

    9月21日凌晨,OpenAI在官网宣布,在今年10月份将通过API向ChatGPTPlus和企业版用户提供全新文本生成图片产品——DALL·E3。ChatGPT在DALL·E3加持下将开启久违的多模态输出模式,用户通过文本就能直接在ChatGPT中生成各种类型图片。从展示可以看出,DALL·E3可以生成写实、二次元、平面、创意、朋克、3D等多种类型的图片。

  • Meta悄然发布Llama 2 Long AI,在某些任务上击败GPT-3.5 Turbo和Claude 2

    MetaPlatforms在9月29日发布了一篇计算机科学论文,介绍了其新发布的Llama2LongAI模型。该模型在某些任务上击败了GPT-3.5Turbo和Claude2,这表明Meta的开源方法在生成人工智能领域取得了重大进展。该模型的开源性也表明,开源方法在这一领域具有竞争力。

  • 报道称欧盟对英伟达在AI芯片展开调查:或涉嫌“反竞争”行为

    欧洲最近开始对英伟达在AI芯片市场的市场支配地位展开调查,引发了业界的广泛关注。法国反垄断机构已经对英伟达的法国办事处进行了搜索,旨在确定该公司是否涉及非法垄断行为。如果调查结果证实了这一行为,英伟达可能会面临巨额罚款,这将对公司的未来产生重大影响。

  • 微软或于下月发布人工智能芯片 可削减英伟达 GPU 成本

    据TheInformation报道,一位知情人士透露,微软计划在下个月举行的年度开发者大会上推出公司首款人工智能芯片。此举是微软多年工作的结晶,可以帮助微软减少对英伟达设计的人工智能芯片的依赖。日前有消息显示,ChatGPT的所有者OpenAI也正在探索制造自己的人工智能芯片。

  • Meta悄然发布Llama 2 Long AI模型

    Meta最近发布了Llama2LongAI模型,该模型在一些任务上超越了GPT-3.5Turbo和Claude2。通过改进训练方法和编码技术,Meta的研究人员提高了这个AI模型的性能,使其能够更好地处理长文本和复杂任务。强调了合作的重要性,指出不是每个企业都拥有高级的数据工程和数据科学技能,因此需要与具有相关技术和深刻了解整个领域的合作伙伴合作来解决这一问题。