|
|
www.design-reuse-china.com |
On-device natural language processing is ready for prime time
Jun. 07, 2018 –
举个简单例子,你可以对任何一个主要的虚拟助理,如Alexa、Google助理、Siri或Cortana说:「设定一个后天早上9点的提醒」,然后虚拟助理都能理解,不必使用特定的说话顺序或神奇咒语。也可以说:「星期三早上9点提醒我」,或「设定在5月16日上午9点提醒」,然后都能得到相同结果。 NLP的重点在于析取意义,而不论语法。
多亏了人工智慧(AI),具体来说是深度学习(DL),NLP才有了最新进展。在Google I/O 2018,藉由Google Duplex的公开,我们稍微窥看到这个科技的发展进度。 Google Duplex是能让Google助理代替使用者拨打电话、安排会面时间的功能,如预约剪头发、向餐厅订位。在现场播放的示范影片中,可以听见Google助理就像真人一样地自然说话。
这里的技术挑战在于要了解话语的细微差异,及因应预期外的状况。用来达成这些成就的深度神经网路使用了需要大量处理及耗能的极复杂计算,并且只能在远端的云端伺服器中使用。
另一方面,许多可携式装置,如照相机与蓝牙喇叭,只能允许某些预先定义的语音指令,如「开启」、「关闭」、「录影/录音」、「播放」及「停止」。与虚拟助理几乎能毫无阻碍对话,和非连线可携式装置的语音指令则极度受限,而造成这两者之间差异的主要原因,就在于处理过程是在边缘装置或云端上进行。边缘处理拥有巨大吸引力,因为并非所有情况都能使用云端,在很多情况下则是没有必要或不受欢迎。
例如,在多数Android智慧型手机中都能发现这类语音指令,只要在相机应用程式开启时说「Cheese」或「Smile」,就能拍照。若必须仰赖使用云端,等待远端处理指令,说不定会错过许多千金难买的宝贵时刻,因此,在这个情况下边缘处理就不可或缺。
不同厂商可以修改基本指令或新增,例如,在乐金(LG)手机上,说「Whisky」或「Kimchi」就能拍照。在这类语音指令中并未涉及到NLP,ASR引擎会辨识任何这些特定词语,并触动快门,因此这个功能只有在使用知道指令时才有用。若习惯说「Kimchi」来拍照,换了手机或许就无法启用功能,也无法换其他说法叫相机拍照,除非使用了具体指令。这样会严重影响使用者经验,并可能导致使用者因为缺乏灵活性与使用方便性而抛弃这个科技。
另一个例子是GoPro最新Hero系列运动相机的酷功能,能让人在摄影同时标注特别时刻,之后能直接找到标注,更容易分享与编辑影片的最棒部分。使用这个功能的语音指令是「GoPro HiLight」,不过,假设正滑着雪板在猛犸山(Mammoth Mountain)的斜坡一路俯冲,看到让人惊艳的景色却不记得要说指令时该怎么办? GoPro团队也想到这点,因此他们增加了一个能触动HiLight标注的选项,只要说「that was sick(太扯了)」就行。尽管这样对相机说话蛮酷的,但依然不是NLP,你还是需要知道指令才能使用功能。这类型的介面强迫使用者要学习系统的规格,而不是由系统适应使用者的说法方式。
根据Duplex背后的Google工程师,他们是透过限制聊天机器人对特定任务的语言脉络才达成这个令人惊奇的成果。在一篇部落格文章中,他们指出研究中的关键洞察在于,Duplex在封闭、受限的领域中能有更好的表现。换句话说,Duplex聊天机器人只能对特定任务发挥作用,并无法进行一般对话。
同样地,一家专门从事边缘AI的公司Sensory创造出一款咖啡师聊天机器人,能使用NLP接受咖啡与茶饮的点单。这里的重大成在于所有处理都是在边缘装置上完成,因此不需要云端连线。
就实际层面而言,要求以小型轻巧电池供电的嵌入式处理器执行和云端服务相同的语言分析并不合理。不过,透过限制语言脉络及减少互动的复杂性,就能让NLP变得够节能,可在边缘装置上运作,边缘聊天机器人能拥有的使用范围要取决于其执行软体与引擎的效率。
从使用者经验的角度来看,重点在于聊天机器人能处理其任务的完整领域。若再回到相机的例子,除了拍照与录影,使用者或许会想要播放影片、看照片、展示投影片、删除影片档等,使用NLP处理全部这些功能就能产生无缝与自然的互动介面,即使它并无法回答天气相关问题或建议餐厅。
尽管完整功能的终端侧NLP依然是未能解决的挑战,但我们仍可以期待在不久的将来看见在使用者经验方面的重大改进。包括边缘装置专用的特定AI结构,以及减少深度神经网路记忆体使用的新科技,这两方面的进步都展现出令人兴奋的成果。很快地,我们肯定能看见不需使用云端的多元NLP能力。