【转】开启行为语言计算的新时代——北京联合大学姚登峰副教授

2018年6月19日

转自:科技成果管理与研究 - 创新成果

◎文/ 王玮

DOI:10.3772/j.issn.1673-6516.2018.06.000

认知心理学认为,人类运用自然语言进行交流获得的效果中,讲话内容仅占7%,强度和语调占38%,而面部表情和肢体动作却占了55%,其中,强度和语调涉及情感的加工计算,面部表情和肢体动作涉及行为语言的加工计算。目前的自然语言处理学科中,对讲话内容的理解关注较多,对以面部表情和肢体动作为代表的行为语言计算却关注甚少。对此,北京联合大学姚登峰副教授从2012 年开始专注于行为语言计算的研究,并取得了丰硕成果。

一、提出行为语言计算理论

姚登峰副教授分析了行为语言计算与传统语言计算的本质差异,认为现有传统语言的计算理论是建立在单信道基础上的,而行为语言计算是基于多信道的。传统语音的输出一般以语音为载体,是随时间推移而变化的一组数值,传统语言的书写系统也是如此,只需要记录语音对应的书面符号,其书面符号和语音都是基于时间轴的数据流,同样都是单一的信道。这种语音或书面字符串构成了传统语言的自然语言处理系统的基石。而行为语言的本质是多信道载体,不仅很难将行为语言编码成线性单信道字符串,即使最终能编码成单信道字符串,势必会在各级加工过程中遗失很多载有语言信息的细节,因为语言学家认为行为语言的手部形状、手部位置、手掌方向、头部动作、眼睛凝视方向、面部表情、肩部动作和躯干姿势等这些信道都包含语言学意义上必不可少的信息。这些信道信息互为依存,相互联系,缺一不可。传统语言计算仅仅关注语音和书面语言,丢失了大量的语言信息,并且传统语言计算与行为语言计算存在本质差异。传统语言计算的根本任务是“消歧”,而行为语言计算是以空间计算为主,核心任务是将单信道表征和多信道表征相互转换。因此空间建模、空间隐喻、空间语义等概念贯穿了行为语言计算的词法、句法、语义和语用等各个阶段。

此外,传统语言的计算理论大多集中于计算单信道的码字平均长度,对多信道关注甚少。传统语言计算主要关注于怎样构建一个具体的码字,使得单一信道在信息传输速率不大于信道容量的前提下实现可靠的通信。而行为语言不同,在为行为语言计算建立最优信道编码系统时,需要求出多个信道其信息容量之和的最优解,从而使得只要信息传输速率小于信道容量,编码系统就可以使信息传输的错误概率任意小,即行为语言信道编码需要实现一维到多维的演变。行为语言的熵值越大,其输入输出的信息量也就越大,对多信道的挑战就越大。目前一些行为语言输入输出设备尚未普及,主要原因就是多信道输入输出的问题没有得到很好地解决,导致一些行为语言输入输出设备的工作效率与传统语言相比非常低。因此我们亟待解决行为语言的输入输出问题,发展多信道编码的理论。将语言计算的研究重点逐步过渡到多信道信息编码之中,带动传统语言与多信道编码理论并轨,形成最优的信道编码系统,从而提高通讯的效率。

二、解决行为语言计算的关键技术问题

手语作为行为语言的典型代表,在理论方面已经有了一定的铺垫,然而长期以来手语识别理解缺乏手语语言学家的参与,手语识别理解并未取得较大的进展。姚登峰副教授开展了手语计算的基础性技术工作,他分析了手语计算的难点,认为以语料库技术研究手语语言学遇到了瓶颈。手语语料因为视频采集繁琐和标注困难,使得手语的生语料和熟语料的相关数据依然匮乏,手语语料库应用统计模型仍然面临严重的数据稀疏问题。

对此,姚登峰副教授开展了手势分词实验,借鉴语音识别引入语言计算理论的经验,提出了基于音系学特征而非视觉特征进行手语理解的思路。改进了手语的音系学模型,结合中国手语的4 个音变现象,较好地解决了前人提出的Stokoe 模型的描述性问题。这种改进的音系学模型能够有效描述序列,还能提供足够多的手语描述细节,并清楚地描述和解释无数个发生在手语中的手势过程,为实现手语理解提供了深度学习数据。这种基于音系学模型的手语理解算法,直接从语言学的音韵特征推断手语语义,相比从视觉特征推断出手语文本是一个很大的飞跃。

三、解决行为计算的认知科学支撑问题

姚登峰副教授从认知计算的角度,分析了大脑感知和手语理解的机理,提出了手语认知架构,如图1 所示。从认知计算角度认为手语认知计算是从手势的物理特征到语义表征的映射转换过程。即从像素、边等底层特征逐层加工映射成音韵特征,再根据音韵特征加工成低级别的语义单元、再逐步抽象出高级别的语义单元的高层特征,最终形成手势语义概念。

他提出行为语言计算的突破还在于脑认知科学的发展,并开展了一系列行为语言脑认知实验。手语是一个很重要的模态,同有声语言一样也是人类对于客观世界感知体验后的产物。姚登峰副教授通过采用具有实证特色的比较法、ERP 等脑电技术为基础的实验法来考察手语模态对句子加工的影响,扩展了原有的解释模型,对句子理解中的监控过程和句法加工作出更为合理和细致的解释。为手语模态的句子加工提供了生理学上的证据,揭示了手语模态对更深层次认知神经系统的作用,理清了通过语言器官的物理特征将意识转化为语言的认知过程。

姚登峰副教授以行为语言机器人为载体,以智能感知和认知计算共性关键技术和应用技术为主攻方向,致力于语言计算提供必要的技术积累以及应用经验。其成果可应用到医院、法院等专业场合,解决手语翻译缺乏的问题,还可以用于智能家居、老年陪护、儿童陪护、给教师缺少的偏远山区做辅教等。

专家简介

姚登峰,北京联合大学特殊教育学院副教授、硕士生导师。2002 年毕业于湖北民族学院计算机科学与技术专业获理学学士学位,2006 年毕业于北京大学软件工程专业获工程硕士学位,2016 年毕业于清华大学中文系语言学及应用语言学专业获文学博士学位。研究兴趣包括语言认知与计算、信息无障碍。所承担的课程先后被评为国家级IBM 精品课程、北京市教学成果奖二等奖、北京市精品教材。先后在信息无障碍领域SCI 期刊和会议发表了论文,在脑与语言认知、语言计算、机器学习等领域发表学术论文50 余篇,其中SCI/EI 检索20 多篇,出版专著2 部。2014 年被纳入北京高校青年英才计划,2017年被推荐为北京市卓越青年科学家。

启声康复

这个人很懒,什么都没留下