李德毅:没有交互认知,自动驾驶或是个陷阱 – 机器人库

Posted by

2016年11月23日,科大讯飞举行了年度发布会。

在会上,中国工程院院士、欧亚科学院院士、中国人工智能学会理事长李德毅作了主题为「交互认知」的演讲。

雷锋网进行了编辑和整理(有删减):

计算机界对计算认知了解的太多,但对交互认知了解的还不够。

今天我想讲一讲交互认知。

为什么要研究交互认知?

我们还是从图灵测试谈起。

图灵测试本质上就是一个交互测试。

自闭症是交互认知障碍的一种典型疾病,自闭症就是在交互上遇到了很多困难。

如果现在我们把人换成一个聊天机器人,把这台机器换成一个自闭症患者。

我想问:测试者还能区分谁是人谁是机器人吗?

这就是图灵测试的瑕疵。

我们看看这样一个对话:你今天吃的是什么?

同样的问题,机器人回答的不一样。

一开始它很有礼貌回答:蛋炒饭。

后来它就开始解释。

如果你还一再的问它:你今天吃的是什么?

它就说:「你丫有病啊!



这体现了聊天人的性格,修养和幽默。

这就叫做不确定性的交互,我们需要的不是一个「问题-回答」系统,需要一个活生生的聊天机器人。

因此我们看到聊天总是在特定的语境和语义下发生的。

在过去的半个世纪的自然语言理解当中,我们对此是不是关注了太多的语法和语构、或是语境和语用、或者是语言交互中的不确定性?

我们要研究交互,交互认知的外在表现:如何听说、如何看、如何感觉。

听说是语言交互,看是图像交互,听是体觉交互。

脑认知的内涵应该是三个:记忆认知、计算认知和交互认知,而不是一个。

我们认为研究交互和记忆是有道理的。

语言可理解为对交互认知的语义标注,图像可理解为对交互认知的情感标注,体觉可称之为肢体语言。

交互认知的度量可用情商和智商表示。

有一个著名的艾伯特定律告诉我们,语义的作用只占7%,语言的作用占38%,面部表情和记忆的作用要占到55%。

能不能把这些情感通过语音表现出来?

为什么不做这样的情感研究?

语音语调是情感的流露,是言外之意。

因此,我们强调做一个好的机器人,首先要有交互能力。

交互认知的不确定性包括:交互触发的瞬间性、交互方式的随意性、交互内容的未知性。

这就要求我们把不确定性人工智能研究好。

不确定性人工智能要在看似瞬间性随意性和未知性中,发现交互认知的基本规律性,又能体现不确定性的魅力。

与听觉,触觉等相比,视觉主导着我们的情感知觉,并影响我们的思维方式。

因此,生物视觉图像交互的情感表达,成为交互认知的核心。

图灵测试有一个漏洞。

如果被测试的一方支支吾吾保持沉默或主动插话介入,就可能颠覆测试者的主导地位,也很难区分到底对方是人还是机器人,再次暴露出图灵测试的瑕疵。

图灵测试原本是测试对方是否具有人的智能。

如果图灵测试的漏洞被多次利用,图灵测试就转化为比拼测试双方谁更睿智的问题,不在乎双方是生物人还是机器人。

因为这个漏洞,我们开始研究交互认知,研究如何突破图灵测试的漏洞。

对话是最直接最便捷的交互,是几乎所有服务机器人的必备,可否把对话机器人作为研究交互认知的突破口?

聊天是浅层次,短时长的对话,也是最通用的对话,聊天也许是在讲废话,但可带来亲和感,在社交生活中不可或缺,不会聊天的对话机器人太乏味。

所以,交互认知可从研发「互联网+对话机器人」开始。

从对话的语境和语用入手;

优先考虑情感交互;

强调纯净感,交互感和构想感;

关注交互认知环境中的选择性注意;

研究不确定性交互认知中的客观性,普遍性和积极意义,寻找不确定性中的基本确定性。

对话是所有服务机器人绕不过去的坎。

对话机器人自身是活生生的认知主体,不是一个刻板的「问题——回答」系统。

充满不确定性和变通,有情感和语言交互能力。

我们需要聊天的机器人。

利用云模型的不确定性研发对话机器人。

对话机器人的形式化约束有:

特定的对话背景;

对话双方是有个性的机器人;

用动画体现情感交互语音交互和文字交互,话题情感性格等不确定性。

随着对话的深入,不确定性会大幅度降低。

所以我们提出不要老是关注语义和语构,我们现在要关注应用和语境。

在这种情况下,我们要研发对话引擎。

基于检索搜索引擎生成可选到答句集;

借用机器翻译技术润色答句,保持个性。

重视语境和语用

有社交的技巧背后是与特定的语用相关。

举个例子,一大早睡觉被吵醒,听到楼下有人大喊:

「打死,打死,往死里打!



「反了,反了,反了你。



怎么去理解这个语义?

到窗户一看,原来是正在指挥倒车。

所以我说要研究语用和语境,重视语境和语用。

不要老是停留在语义和语构里。

说话人的身份、年龄、对话和时间与用语语调、用语习惯,都很重要。

对话一般是两个人的,实际上,还要研究三人对话多人对话和复杂系统涌现中的交互认知。

2006年,我们研究过掌声之间的交互。

人们有过这样不常有的生活经历:音乐厅音乐厅里有一个精彩的节目结束后,观众会爆发出雷鸣般的掌声在很短的时间内,这种嘈杂的掌声会突然转变成有节奏的掌声,似乎有一股神秘的力量驱使观众一致的鼓掌,这是一个典型的复杂系统交互认知导致的自组织同步现象。

一个值得警示的现象:如果连浅层次短,时长的对话机器人的交互认知都做不好,如果机器人不具备最基本的语音交互,图像交互和体感交互能力,中国的服务机器人产业就跳不出同质化,玩具化低端化的怪圈。

高开低走,只能把服务机器人行业推入血腥的红海。

交互认知的本质:协商和学习

协商包括:协商达成共识、协商达成一定程度的共识以及没有共识,但知晓了对方的认知力与下一次交互。

共识是交互认知的结果,是认知主体,任何一方单独进行计算或推理,无法得出的新的认知,是计算认知记忆认知替代不了的。

学习包括:一方可从另一方获得新的认知、学习是相互的。

人类社交活动中的交互认知,以及人和自然自然人机器人之间的交互认知,大大扩展了三个人一群人,乃至整个人类的智能。

案例一:

机器人来到一扇门前问,这门怎么开?

作为物联网的终端门答:我是一个滑动门。

案例二:智能驾驶中的交互认知

李德毅:没有交互认知,自动驾驶或是个陷阱

比如无人车上路,老百姓觉得它是幽灵,不敢乘坐,因为它没有交互。

驾驶员的环境和周边车辆群体的交互认知。

每一个司机都认为是最合理的,在客观上就会造成一个交通拥堵。

这就是交互认知的结果。

再比如,两辆人驾车和多辆带有自动驾驶模式的车混合行驶,由于自动驾驶模式缺少交互认知能力,受到人驾车干扰,预设的自动驾驶门槛立马崩溃,几乎全部转为人工驾驶。

所以我把它叫做:自动驾驶亦或是个陷阱。

怎么办?

我们要让智能车成为可交互的轮式机器人:人轮式机器人是一个认知主体,有一个驾驶脑,同时我们还允许双驾双控。

我们允许驾驶位上,可以有驾驶员或者可空缺。

与程序调试,试验和维护人员、与乘客、与执勤交警有交互,如果这样的车不能做到与人之间的交互,那怎么能成一个产品?

所以要让智能车成为可交互的轮式机器人。

交互认知是非常重要的。

移动互联网的终端已经从PC转变为手机,进而转变为机器人,在机器人联网的时代,人工智能是否应该更多地关注交互认知?

研究人与人、人与机器人、机器人与机器人或者混合的认知主体之间的交互认知。