在热门美剧《生活大爆炸》中,最受欢迎的角色“谢耳朵”患有社交障碍症,特征之一就是分不清“好赖话儿”,常常错把人家的讽刺当恭维,因此闹出了不少笑话。近日,有研究者开发了一种程序,可以分辨出有讽刺意味的语言。未来,或许这种技术可以帮助“谢耳朵”这样的人摆脱“不识反讽”的社交障碍。
研究源于恶作剧
这种程序的开发者是以色列耶路撒冷大学的计算机科学家苏尔(Oren Tsur),近日在美国华盛顿的人工智能进步组织大会上展示了自己的研究成果。
讽刺性的语言其实是一种否定和攻击,但它的语气比直接的攻击要平缓一些,通常从中看不出任何关涉到批评和攻击的词,也正因为如此人们往往会对它们听而不闻,视而不见,而有社交障碍的人识别讽刺性的语言就成了一件非常难的事。苏尔和同事们开发了一种电脑程序,可以从网上社区里识别讽刺性的语言。
虽然这个程序距离理解人类语言所有细微的幽默成分为时尚远,但它可能会帮助公司了解消费者如何看待他们的产品。比如说,一个购物网站允许消费者贴出自己对产品的看法。一则评论说:“这个镜头的大小真合适,我可以把它装在衣兜里。”而另一则评论说:“这个镜头的大小真合适,我需要买个泡菜坛装它。”前一个是夸奖,后一个是讽刺,但如果只从字面上来看,两者表达的意思似乎是类似的。公司会用一种电脑统计系统来统计用户的反馈,但是一般的语言统计系统无法识别讽刺性的语言,苏尔说:“在上面的例子中,一般的统计系统会下结论说,所有顾客对他们的镜头大小都很满意,这显然是不对的。”
有趣的是,苏尔想要开发这种电脑程序的念头正是来自一个玩笑。当苏尔还是学校新人的时候,他曾经接到过一封电子邮件,表示感谢他对以往会议的贡献,邀请他当今年会议的主席。
这封信显然应当发给另一个人,但是苏尔玩心大发,以讽刺性的语言回了一封信。结果对方没有看出讽刺性的语气,以很正式的语气又回了一封邮件,询问他主要的研究领域是什么。苏尔回信说:“我的研究领域就是如何探测电子邮件中的讽刺性语言。”从此,苏尔开始很认真地研究讽刺性的语言。
机器发现讽刺特征
苏尔利用“机器学习”的方式开发了一种电脑程序。在开始的时候,他和同事给电脑输入80句讽刺性的句子,以及作为对比的几百句非讽刺性的句子,这些句子都是他们从“亚马逊”的读者评价中找到的。这些讽刺性的句子包括:“为了这么本书去砍树(造纸)?”“对于失眠症患者很有用”“iPod是被故意设计得两年后失效吗?”“那些缺陷是故意设计出来的”等等。
这个程序分析了讽刺性和非讽刺性的句子,总结出讽刺性句子的几百条特征。其中一个讽刺性语言的特征就是如果句子的开头是“我猜”,而结尾是省略号,它通常是讽刺性的。比如:“我猜你们的这个镜头是用来装饮用水的……”“我猜穿着你们的衣服可以去约会凤姐……”再比如说超出必要地运用大写字母。苏尔在他的学术论文中说:“我们发现了讽刺的强烈特征,但是更多的细致的特征的组合可能是识别讽刺的最好手段。”
他们还发现了一些和讽刺有关的有趣现象,总结了三大定律。定律1:流行定律,最受欢迎的产品往往遭讽刺最多。比如在亚马逊网站上,收到讽刺性评论最多的恰恰是卖得最好的产品,比如小说《达·芬奇密码》。苏尔说:“我们推测在网上运用讽刺性语言的一个强烈的动机是想要‘拯救’或者‘启发’大众,矫正不应得的好评。”定律2,简单性定律。如果产品有缺陷,它的功能越少受到的讽刺越多。定律3,价格定律,价格越高的产品越容易受到讽刺。
帮助社交目标尚远
为了实验这个程序是否有效,他们把200个评论交给3个独立的受试人,结果爱试人的看法和机器的看法有80%是相同的。研究者认为机器分析数以百万计的句子,结果也会差不离。苏尔表示,这个程序不仅可以帮助统计产品的网上评论,而且经过发展之后可以用来帮助有社交能力障碍的人。
加利福尼亚大学心理学博士兰金表示,这个程序的表现还远称不上完美,可能因为讽刺是一种非常复杂的社会产物。兰金评价说,机器的表现只能和社会交往能力很差的人类相当。可能这样的程序可以帮忙统计评论的正负意见,但是“如果你的目标是帮助社交能力不佳的人士,我不能完全肯定他们真能从中获益。”
比如,一个人说:“我太爱爱爱爱爱在周六工作了!”这句话是不是讽刺呢?如果背景是领导强迫员工在周末加班,这句话就是讽刺,但或许有人喜欢在周末工作,平常休息,这种情况这句话就不是讽刺。说这句话的时候,人的眼神和语气会包含很多信息量,但是在网上看不到这些。
兰金说:“我们的大脑可以采集复杂的社交信息,处理很多微妙的事情,电脑距离这步还有很远。”