互联网资讯 · 2023年12月4日

小米AI再次证实声音识别算法在国际排名第一

近日,小米自研声音识别算法取得最新进展,算法模型领先其他机构,性能国际排名第一。小米是在 Google 发布的 AudiOSet 音频标记任务中获得的这一突破。它是音频标记任务影响力最大的数据集,被认为是声音领域的 imageNet,权威性颇高。

Google 将 AudiOSet 数据集分为三个子集,前两个子集用于训练,被合并称为 “AudiOSet-2M”。正是在这个合并后的训练集中,小米的声音识别算法模型首次在业界突破了50 MAP,刷新了音频标记技术指标,成为截至目前性能最好的模型。此外,小米还发布了一个 mini 版模型,适合资源受限的场景。该模型的参数量被压缩到了原模型的约九分之一,远小于其他机构的模型,但性能却优于其他所有机构。

这项技术的突破意味着小米的声音识别算法能力再次精进,小米的众多智能硬件设备应用此项技术后,可以更敏锐地捕捉和识别环境声音,大幅提升硬件的智能化程度,从而为用户创造更加便捷的智能生活体验。

不仅如此,小米声音识别算法下的音频标记技术能力,还为业界的前沿研究提供了巨大的技术价值,有力推动了相关研发进程。

小米AI实力再次得到验证,声音识别算法能力国际排名第一

小米此次精进后的声音识别算法,具有极高的应用价值。它能够广泛应用于小米的智能设备中,大幅提升用户的智能生活体验。具体来说,音频标记算法能够识别广泛的环境声音,比如婴儿的啼哭声、动物叫声、汽车引擎声、爆炸声、烟雾警报、门铃声、水流声等,并让环境中的声音以文字等模态表达,让声音被“看”见。这可以让硬件设备更加智能,为用户带去更高效和更准确的声音识别体验。

以搭载在小米手机中的“小米闻声”功能来说,它可以监测 14 种重要的环境音,包括火警、婴儿啼哭、烧水壶声等,并以手机通知栏进行文字推送。这让听力障碍用户得以“看见”生活中的声音,与普通人一样享受智能生活的便捷。小米手环也可以同步显示和接收这样的声音信息。

智能家居设备上的应用则更加广泛。小米的声音识别算法已经应用于众多的智能家居设备中,比如米家摄像头的宝宝哭声监测功能,它能在监测到宝宝哭声的时候,实时向用户手机推送通知。XiaoMi Sound 音箱也搭载了声音识别功能,它能够识别家用报警器、婴儿啼哭、火警、流水、猫叫、狗叫等六种用户关心的家居环境声音。小米健康 app 的睡眠鼾声监测,则可以帮助跟踪用户睡眠时的鼾声梦话。此外,针对家庭场景,小米还对音箱环境音的监测做了特别适配。比如为了避免一开水龙头就触发通知,打扰用户,研发人员将水流声的识别提醒条件改为一分钟之内多次监测到。

这项算法技术还广泛应用于小米机器人的研发中,大幅提升了机器人的感知能力。小米历时10个月全栈自研的第一代全尺寸人形机器人 CybeROne,可以识别 85 种环境声音,能够通过听觉感知 6 类、45 种人类情绪。而小米第二代仿生四足机器人 CybeRDog 2 则可以识别 38 种环境声音,实现更强大的动态响应能力。

小米强大的 AIoT 平台生态,为这项算法技术的应用提供了广阔的空间,这也是小米技术研发的先天优势,有丰富的场景推动技术迈向应用层面,让科技成果真正惠及普通大众。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册