当微软和Google 在AI 聊天机器人上进行竞争时,机器学习和语言模型并不是唯一的应用。Google 计划在今年的Google I/O 活动上展示20 多款人工智能产品,同时还在向实现支持1,000 种不同语言的AI 语言模型的目标迈进。
在昨天发布的更新中,Google 分享了更多有关Universal Speech Model(USM)的信息,这是Google公司实现目标的「关键第一步」。
去年11月,Google 宣布计划创建支持全球使用最广泛的1,000 种语言的语言模型,同时还公开了USM模型,称之为最先进的语音模型,该模型使用2 亿个参数对超过300 种语言的1,200 万小时的语音和280 亿个句子进行了训练。
USM 已经被YouTube 用于生成字幕,同时也支持自动语音识别(ASR)。它可以自动检测和翻译多种语言,包括英语、普通话、阿姆哈拉语、宿雾语、阿萨姆语等等。
Google 表示USM 现已支援超过100 种语言,并将作为更加广泛系统的基础。Meta 也正在开发一种相似的AI 翻译工具,但仍处于早期阶段。
该技术其中一个应用目标可能是AR/VR 眼镜中,就像Google 在去年的Google I/O 活动上展示的概念一样,能够检测并提供实时翻译,让翻译直接显示在眼前。然而,这项技术看起来仍然有点遥远,而Google I/O 中对阿拉伯语言的误解也证明了出错是多么容易!