2020年11月5日,小米成功举办MIDC2020开发者大会。大会以”生活的科技”为主题,通过展示小米在相机、屏幕、充电、AI、IoT、智能制造等多个领域取得的重大突破,充分展示了小米的技术实力。
本次大会,小爱同学5.0版本带来五大升级,从传统的语音助手升级为智能生活助手,给消费者提供更好的智能生活体验。
此次2020MIDC小米开发者大会上,小爱同学三维虚拟形象首次亮相,和崔宝秋的一段顺畅互动成为大会一道亮眼风景。除了极具特色的虚拟形象,小爱同学5.0还升级了五大贴心功能,具体体现在全场景智能协同、对话式主动智能、定制化情感语音、多模态视觉能力和智慧学习好助手方面。
得益于小米前瞻性的生态链布局,庞大的智能硬件产品也为小米的AI技术落地提供了沃土。过去一年,小米在视觉、声学、语音、自然语言处理、知识图谱、机器学习等领域均取得了技术上的突破进展。比如超级夜景、魔法换天、魔法分身、Vlog、通话降噪、阵列增加等全新技术都已经在最新发布的硬件产品中得以应用。
发布会后,小米集团人工智能部总经理、AIoT战略委员会副主席叶航军,小米人工智能部AI实验室主任、NLP首席科学家王斌以及人工智能部副总经理王刚共同接受了记者的采访。
叶航军:短期的目标比较明确,目前两个大的方向,一个就是AI产品和小爱同学要支持好公司在智能生活的战略,就是手机&tiMes;AIoT构建智能生活的战略,短期目标就是要把这个事情做好。
另外一个就是AIoT方向,这六大技术方向现在都有非常明确的业务和落地场景,因为AI大家对它的期望很高,其实它有非常多的技术问题解决得还很不好,这是我们后面要努力把这个事情做好的一个决心。这是短期的目标。
王斌:先讲讲动态语音识别技术,动态语音识别技术是说模型的更新非常快,语音识别还是根据线上各种反馈,根据发展会不断的动态调整。
当然这个技术未来还有非常大的发展空间,比如说我们针对不同的人,其实不同的人大家都知道,语音识别其实跟人有关,有些人他识别得好一些,有些人识别得差一些。
王刚:多轮对话确实是我们去年在小爱同学3.0的时候就重点做的功能,2018年3月份就启动了多轮对话的研发,到今天也接近三年的时间了。
在现有技术框架下,现在的技术框架叫做AUS框架,去表述用户自然语言的处理,我们是逐步去优化的,多轮的时候,从技术框架去解决多轮问题的时候,还是遇到了一些困难。
叶航军:最大的挑战也是人才,如果媒体朋友们关注到我们MIDC上的演讲,我也大概分享了一下小米发展的历程,比较里程碑的一年就是2016年,第一次把人工智能升级为公司的战略,也是第一次成为了独立的团队,之前也有工程师在做AI算法,但是分落在不同的业务团队里面,2016年第一次升级为公司的战略,也有了独立的部门。
王斌:开源的NLP工具蛮多的,我们大致上能看到的开源工具分两类,一个是学术界开源,一个是工业界开源。
和工业界相比有很多特点,我们设计这个系统的时候也参考了别人的一些工作,然后我们针对具体的一些东西提出自己的特点。