欢迎来到琦天的地盘

这是描述信息
这是描述信息

新闻中心

我们为您提供更具有优势的企业网络服务平台

26 亿参数量,水平接近人类,开放领域聊天机器人意义何在?

  • 分类:新闻资讯
  • 作者:
  • 来源:
  • 发布时间:2020-02-04 14:15

【概要描述】科技巨头们时不时就声明在AI领域取得了突破性进展,对此我们已经见惯不惊了。当地时间2020年1月28日,cedemo在一篇博客中介绍了一款开放领域聊天机器人Meena,号称“史上最强”,那么这一新突破会让人眼前一亮吗? 

26 亿参数量,水平接近人类,开放领域聊天机器人意义何在?

【概要描述】科技巨头们时不时就声明在AI领域取得了突破性进展,对此我们已经见惯不惊了。当地时间2020年1月28日,cedemo在一篇博客中介绍了一款开放领域聊天机器人Meena,号称“史上最强”,那么这一新突破会让人眼前一亮吗? 

  • 分类:新闻资讯
  • 作者:
  • 来源:
  • 发布时间:2020-02-04 14:15
详情
  科技巨头们时不时就声明在AI领域取得了突破性进展,对此我们已经见惯不惊了。
  当地时间2020年1月28日,cedemo在一篇博客中介绍了一款开放领域聊天机器人Meena,号称“史上最强”,那么这一新突破会让人眼前一亮吗?
  开放领域聊天机器人开发难度大
  实际上,设计智能聊天机器人是为了应对信息爆炸时代存在的信息过载问题。最初,人们把聊天机器人当作搜索引擎的终极形态进行设计和开发。不同于现有的搜索引擎,聊天机器人可针对用户的问题自然又通顺地给出精准的答案,节约了很多时间,从而带来更好的用户体验。
  根据使用场景划分,聊天机器人(chatbot)主要有开放域型(Open-Domain)和任务导向型(Task-Oriented)两种。
  其中,任务导向型主要有问答系统、对话系统聊天机器人,分别指基于用户的问题给出一个回答(常用于智能搜索、智能家居中的家电控制等场景)和与用户进行多轮对话的聊天机器人(如客服机器人,销售机器人等)。
  而开放领域聊天机器人(也称闲聊式机器人)顾名思义针对开放域的对话场景,主题、内容不限,比如微软小冰。cedemo在上述博客中表示:
  开放领域聊天机器人的研究不仅具有学术价值,还可激发很多有趣的应用,如更深层次的人机交互、提升外语训练效果,以及制作交互式电影和游戏角色。
  值得一提的是,开放领域聊天机器人更符合人们心中对「人工智能」的定位,开发难度自然也很大——当前开放领域聊天机器人面临的一个严峻问题在于它们表达的内容往往没有意义,无法与用户的问题连贯起来,而且由于缺乏基本的常识和认知,不能给出针对性的回复。
  而cedemo开发的Meena正是一款开放领域聊天机器人,那么相比现有的聊天机器人,究竟有何突破?
  26亿参数的端到端神经对话模型
  cedemo在博客中介绍称,Meena是个26亿参数的端到端训练的神经会话模型,是GPT-2模型最大版本(15亿参数)的1.7倍。据称,cedemo利用400亿字的数据集,通过2048个张量处理单元训练了30天,得到了最佳版本。实验表明,比起聊天机器人SOTA,Meena能更好地完成对话,内容也更具体、清楚。
  据悉,Meena由1个Evolved Transformer编码器和13个Evolved Transformer解码器组成:编码器用于处理对话语境,有助于Meena理解对方的话;而解码器则会利用信息生成回复。而在这一过程中,cedemo表示:
  研究人员发现,超参数调整后,实现高质量对话的关键在于性能更强的解码器。
  雷锋网了解到,cedemo从公共领域社交媒体对话上过滤得到了341GB的文本,并以树状脉络形式组织文本进行「多轮对话」训练。研究者将每轮对话作为训练样本,同时每轮之前的7轮对话为语境信息,共同构成一组数据。据悉,选择7轮对话作为语境,既能保证训练过程获得足够长的语境信息,同时模型也能不超过内存限制。毕竟文本越长,占用的内存也越多。
  新提出的人类评价指标SSA
  根据博客,上述这些表现是由cedemo根据新提出的人类评价指标「Sensibleness and Specificity Average(SSA)」得出的,而此次提出新的指标是因为,目前聊天机器人的人类评价指标颇为复杂,而且也很难形成一致的评价指标。cedemo表示,SSA能捕获基本的、但对人类对话来说很重要的属性。
  为计算这一指标,研究者测试了Meena、Mitsuku、Cleverbot、DialoGPT及小冰等常见的聊天机器人。在测试中,对于每一款聊天机器人,研究者都在100个对话中收集了1600到2400轮,各聊天机器人的回复都由人类评价者评分(主要依据对话的流畅性和回答的准确性),其各自性能表现如下图。
  不难看出,Meena相比于现有的SOTA聊天机器人,有着更高的SSA分数,甚至接近于人类的表现。
  困惑度与SSA强相关
  毫无疑问,人类评价或多或少存在一些问题,因此很多研究者都希望找到一个能够自动计算的评价指标,而且这个指标要能和人类评价准确对应。
  雷锋网(公众号:雷锋网)了解到,困惑度(perplexity,指一种任何神经会话模型都能轻易获得的计算指标)是seq2seq模型(雷锋网注:一种循环神经网络的变种,包括编码器和解码器两部分,是自然语言处理中的一种重要模型,可用于机器翻译、对话系统、自动文摘)中的一个常见指标,用于评价语言模型的不确定性。
  而值得一提的是,cedemo证明了困惑度与SSA高度相关。
  实际上,训练Meena正是为了最大程度地减少困惑度,以及预测下一个标记(雷锋网注:指对话中的下一个单词)的不确定性——据博客称,这是因为Meena的核心为Evolved Transformer seq2seq架构,即一种通过进化神经架构搜索发现的Transformer体系结构,能够改善困惑度。
  在博客中cedemo表示,研究者依据层数、注意力数量、训练步数、编码器、训练方式等因素,共测试了8种不同的模型,发现困惑度越低,SSA分数越高,同时两者的相关系数很高(R^2=0.93)。
  同时cedemo表示:
  研究者将继续通过改进算法、架构、数据和计算量等,降低这一神经会话模型的困惑度。
  Meena意义大吗?
  根据博客中展示的数据,我们相信Meena的确性能出众,不过Meena究竟什么时候能推出、真正推出后表现如何,可能都要打问号。博客中提到,目前研究团队正在就这一研究的风险及益处做进一步的评估,并可能在未来几个月内推出Meena,旨在推动该领域的发展。
  对此,VentureBeat记者Ronald Ashri在其报道中表示:
  首先我们要意识到,即便Google开源所有代码,也很少有人能培训类似Meena的模型。Meena应该还在实验室里,操作起来也非常复杂,还不能将其整合到一个工具中,而且Google也不可能很快就将其作为一项服务向用户提供。因此,恐怕短期内Meena难以推出。
  另外,在实用性方面,诚然Meena作为一款开放领域聊天机器人,能够实现多轮对话。不过Meena并不能协助用户完成某项任务、学习某项新技能,或为身处困境的用户给予情感或心理支持,和用户的聊天没有明确的目的。而耗费时间进行无意义的交谈,在我们所处的时代大背景下似乎并非理想产品。
  与此同时,记者Ronald Ashri也对Meena提出了进一步质疑。正如上文所述,cedemo从公共领域社交媒体对话上过滤得到了341GB的文本,以此进行进一步的训练。那么,数百万的公共领域社交媒体对话会是这一所谓的「史上最强聊天机器人」的正确数据集吗?Meena是否会讲出不恰当的话,可能也是一个我们要关注的点。
  近年来,随着越来越多的AI聊天解决方案进入生活,我们需要关注最有价值的东西——定义类似人类的对话,并探究这类对话在聊天机器人领域中的角色。
底部logo

本司将致力于不断的改进产品生产工艺和品质,并且不断的发展新的产品去保持市场的竞争能力。正朝着现代企业的方向与时间一同前进。以“真诚、务实、优质、高效”为企业宗旨,竭诚为各界人士服务。

 

地       址:xxxxxxxxxxxxx

客服热线: xxx-xxxxxxx

客服邮箱: demo@demo.com