MLCommons首次为人工智能研究人员提供了86000小时的公开语音数据集 Android的冬季更新为Gboard和地图及书籍海洋附近分享等等添加了新功能 iPhone现在可以为盲人用户自动识别并标记按钮和UI功能 微软推出其新数据治理服务Azure Purview Ben Ling的物质资本刚刚又从投资者那里募集了1.13亿美元 Pave筹集了数百万美元的资金以提高透明度 Google现在允许任何人使用AR和应用程序对街景做出贡献 VSCO收购了移动应用程序Trash 以扩展为AI驱动的视频编辑 Jio Platforms支持基于SF的AR游戏初创公司Krikey 祝贺淮南朝阳医院肿瘤中心荣获“淮南市 2020 年度抗癌先进集体” 修复补水的好选择——麦吉丽小银管 卡思黛乐正式牵手中国高端酒展览会(春季),进军华南市场! “互联网+”新模式 协盈在线打造投资风向标 阿卡索上榜新京报少儿英语品牌质量指数榜单 实力获认可 新京报“在线少儿英语品牌质量指数TOP15”榜单出炉,阿卡索位列第2! 长城欧拉:每一个FLAG 都终将在心上开出一朵小红花 小米股价在完成39亿美元的股权交易后下跌7.1% Lucideus推出新的移动应用程序SAFE Me 可用于您的在线安全评估 印度对待金融科技竞争对手的方法很简单 苹果的MagSafe Duo无线充电器终于上市了 但印度还没有 Excitel宣布新的宽带计划 查看所有详细信息 狮门影业Play应用程序在印度推出 每月收费99卢比 希捷发布了漫威复仇者联盟限量版游戏驱动器 但并非所有人都能拥有 微软团队获得了具有多个新功能的又一次大规模更新 中国飞船成功登陆月球回收月球岩石 经过8000万美元的融资 拥有2年历史的CRED估值达到8亿美元 Alphabet的DeepMind在基于AI的蛋白质结构预测中实现了历史性的新里程碑 Materialise获4000万美元SQL流数据库投资 尼古拉股价下跌 因为通用汽车取消了投资协议 树莓派基金会释放机箱风扇以防止过热 欧盟立法者推动视听行业实行地理封锁 ServiceNow即将收购加拿大的初创公司Element AI 为企业提供AI服务 Moderna声称疫苗的功效为94% 将向FDA申请紧急使用授权 苹果在意大利被扣1000万欧元 被控在iPhone防水功能方面误导用户 英国缩短了电信公司停止安装华为5G套件的时间表 玛丽·埃克兰创立了一项具有雄心勃勃的长期目标的新基金 Twitter将在2021年初重新启动帐户验证 要求提供有关政策的反馈 美国证券交易委员会发布拟议的规则制定 以给予零工工人公平的补偿 在被BuzzFeed收购之后 HuffPost关闭了其巴西和印度版本 Fortnite增加了每月12美元的订阅捆绑 特斯拉现在的市值达五万亿美元 HMBradley筹集了1825万美元 标志着洛杉矶作为挑战者银行业务的进入者 Proxyclick访客管理系统适应当前局势作为员工签到平台 手机银行应用程序Current筹集了1.31亿美元的C轮融资 会员数量突破200万 面向Z一代青少年的故事式问答应用F3筹集了390万美元 Kea获1000万美元A轮融资 打造可帮助餐厅接听电话的AI 《中国梦之声-我们的歌》跨界开茶饮?梦之声潮流茶饮站解锁跨界创业新方式 上海岙舟:疫情冻结日本线下经济 电商能趁势崛起吗? CELSIUS燃力士固体饮料跨界破圈 异业合作释放品牌活力基因 防疫在线,BE范德安暖心送口罩,异地过年也温暖!
你当前位置:首页 >资讯 >

MLCommons首次为人工智能研究人员提供了86000小时的公开语音数据集

2021-02-05 15:27:16来源:

如果你想制造一个机器学习系统,你需要数据,但是这些数据并不总是容易得到的。MLCommons旨在将不同的公司和组织联合起来,创建用于人工智能培训的大型公共数据库,这样世界各地的研究人员就可以在更高层次上合作,并以此推动这个新兴领域的整体发展。它的第一个尝试是“人的语音数据集”,它的规模是其他同类数据集的好几倍,而且它的目标是更加多样化。

MLCommons是一个与MLPerf相关的新非营利组织,它收集了数十家公司和学术机构的输入,以创建机器学习性能的行业标准基准。这一努力取得了成功,但在这个过程中,团队遇到了每个人都可以使用的开放数据集太少的问题。

如果你想对谷歌模型和亚马逊模型,或者加州伯克利模型进行比较,他们都应该使用相同的测试数据。在计算机视觉中,最广泛使用的数据集之一是ImageNet,它被所有最有影响力的论文和专家使用和引用。但是没有这样的数据集,比如说,语音到文本的准确性。

“基准让人们以一种明智的、可衡量的方式谈论进步。事实证明,如果我们的目标是推动行业向前发展,我们需要可以使用的数据集——但其中很多数据集由于许可原因难以使用,或者不是最先进的技术,”MLCommons联合创始人和执行董事David Kanter说。

大公司当然有自己的大量语音数据集,但这些数据集是专有的,而且可能受到法律的限制,不能被他人使用。虽然有公共数据集,但它们只有几千小时的效用是有限的——要想在今天具有竞争力,我们需要的远不止这些。

“建立大数据集很好,因为我们可以创建基准,但它也为每个人推动了指针向前。”我们无法与公司内部的产品竞争,但我们可以在弥合这一差距方面走很长的路。MLCommons是他们创建并争夺所需数据和连接的组织。

“人民”的语音数据集是由多种来源组装而成的,其中约有6.5万小时的时间来自英语有声读物,文本与音频保持一致。还有大约15000个小时的视频是从网上搜集来的,有不同的音响效果、扬声器和演讲风格(比如对话式的而不是叙述性的)。此外,1500小时的英语音频来自维基百科,然后5000小时由GPT-2生成的合成文本混合在一起(“蛇吃自己的尾巴,”Kanter开玩笑说)。总共有59种语言以某种方式表示,尽管你可以看出大部分是英语。

尽管多样化是我们的目标——你不能从英语数据中构建一个葡萄牙语的虚拟助理——但为当前目的建立一个基线也很重要。1万个小时足够构建一个像样的语音到文本模型吗?或者,拥有20,000个可用资源是否会让开发变得更容易、更快或更有效?如果你既想精通美式英语,又想练就印度和英国口音呢?你需要多少呢?

数据集的普遍共识是“越大越好”,谷歌和苹果等公司的工作时间远不止几千小时。因此,第一次迭代数据集需要86,000个小时。而且,它肯定是许多版本中的第一个,后续的版本将扩展到更多的语言和口音。

MLCommons的另一位联合创始人、谷歌机器学习度量小组现任负责人彼得·马特森(Peter Mattson)解释道:“一旦我们确认我们可以交付价值,我们就会发布,并诚实地面对它的状态。”“我们还需要学习如何量化多样性的概念。行业希望这样;我们需要更多的数据集建设专业知识——支持这样一个组织的每个人都有巨大的投资回报率。”

该组织还希望通过MLCube来促进该领域的共享和创新。MLCube是一种用于来回传递模型的新标准,可以省去一些猜测和繁琐的工作。尽管机器学习是科技领域最活跃的研发领域之一,但将你的人工智能模型交给其他人来测试、运行或修改并不像想象中那么简单。

他们关于MLCube的想法是一个模型的包装器,用于描述和标准化一些事情,比如依赖关系、输入和输出格式、托管等等。人工智能可能从根本上来说很复杂,但它以及用于创建和测试它的工具仍处于起步阶段。

根据CC-BY许可证,这些数据集应该现在或很快就可以从MLCommons的网站上获得,允许用于商业用途;一些在片场训练的参考模型也将发布。