小米AI再次证实声音识别算法在国际排名第一

近日，小米自研声音识别算法取得最新进展，算法模型领先其他机构，性能国际排名第一。小米是在 Google 发布的 AudiOSet 音频标记任务中获得的这一突破。它是音频标记任务影响力最大的数据集，被认为是声音领域的 imageNet，权威性颇高。

Google 将 AudiOSet 数据集分为三个子集，前两个子集用于训练，被合并称为 “AudiOSet-2M”。正是在这个合并后的训练集中，小米的声音识别算法模型首次在业界突破了50 MAP，刷新了音频标记技术指标，成为截至目前性能最好的模型。此外，小米还发布了一个 mini 版模型，适合资源受限的场景。该模型的参数量被压缩到了原模型的约九分之一，远小于其他机构的模型，但性能却优于其他所有机构。

这项技术的突破意味着小米的声音识别算法能力再次精进，小米的众多智能硬件设备应用此项技术后，可以更敏锐地捕捉和识别环境声音，大幅提升硬件的智能化程度，从而为用户创造更加便捷的智能生活体验。

不仅如此，小米声音识别算法下的音频标记技术能力，还为业界的前沿研究提供了巨大的技术价值，有力推动了相关研发进程。

小米此次精进后的声音识别算法，具有极高的应用价值。它能够广泛应用于小米的智能设备中，大幅提升用户的智能生活体验。具体来说，音频标记算法能够识别广泛的环境声音，比如婴儿的啼哭声、动物叫声、汽车引擎声、爆炸声、烟雾警报、门铃声、水流声等，并让环境中的声音以文字等模态表达，让声音被“看”见。这可以让硬件设备更加智能，为用户带去更高效和更准确的声音识别体验。

以搭载在小米手机中的“小米闻声”功能来说，它可以监测 14 种重要的环境音，包括火警、婴儿啼哭、烧水壶声等，并以手机通知栏进行文字推送。这让听力障碍用户得以“看见”生活中的声音，与普通人一样享受智能生活的便捷。小米手环也可以同步显示和接收这样的声音信息。

智能家居设备上的应用则更加广泛。小米的声音识别算法已经应用于众多的智能家居设备中，比如米家摄像头的宝宝哭声监测功能，它能在监测到宝宝哭声的时候，实时向用户手机推送通知。XiaoMi Sound 音箱也搭载了声音识别功能，它能够识别家用报警器、婴儿啼哭、火警、流水、猫叫、狗叫等六种用户关心的家居环境声音。小米健康 app 的睡眠鼾声监测，则可以帮助跟踪用户睡眠时的鼾声梦话。此外，针对家庭场景，小米还对音箱环境音的监测做了特别适配。比如为了避免一开水龙头就触发通知，打扰用户，研发人员将水流声的识别提醒条件改为一分钟之内多次监测到。

这项算法技术还广泛应用于小米机器人的研发中，大幅提升了机器人的感知能力。小米历时10个月全栈自研的第一代全尺寸人形机器人 CybeROne，可以识别 85 种环境声音，能够通过听觉感知 6 类、45 种人类情绪。而小米第二代仿生四足机器人 CybeRDog 2 则可以识别 38 种环境声音，实现更强大的动态响应能力。

小米强大的 AIoT 平台生态，为这项算法技术的应用提供了广阔的空间，这也是小米技术研发的先天优势，有丰富的场景推动技术迈向应用层面，让科技成果真正惠及普通大众。

chatGPT

近期文章

互联网资讯 · 2023年12月4日

小米AI再次证实声音识别算法在国际排名第一

Need more than content? Move into the product flow.