最新消息:

雷锋网 AI 科技评论按

问答 admin 浏览 评论

  微软研究人员所采用的方式利用了一种特殊的策略,即操纵从几个相关使命中获得的消息来改良方针机械阅读理解(MRC)使命。在多阶段、多使命、微调方式中,研究人员起首在多使命设置下从相关使命中进修 MRC 相关布景消息,然后对方针使命的模子进行微调。言语建模在这两个阶段都作为辅助使命利用,以协助削减会话问答模子的过度拟合。尝试证了然该方式的无效性,其在 CoQA 挑战中的强大机能也证了然这一点。

  标签:coqa 微软 模子 f1 雷锋网 机械 会话 数据集 研究人员 机能 划一程度 挑战赛 文本 记载 测试数据 多使命 squad mrc 斯坦福大学 人类

  雷锋网 AI 科技评论按,来自微软亚洲研究院(MSRA)天然言语处置(NLP)小组和微软 Redmond 言语对话研究小组的一组研究人员目前在斯坦福大学组织的对话问答(COQA)挑战中处于领先位置。在这一挑战中,权衡机械的方式是其理解文本段落和回覆会话中呈现的一系列彼此联系关系的问题的能力大小。微软目前是唯逐个个在其模子机能上达到人类划一程度的团队。

  为了更好地测试现有模子的泛化能力,CoQA 从收集了七个分歧范畴的数据:儿童故事、文学、初高中英语测验、旧事、维基百科、Reddit 和科学。前五个用于锻炼、开辟和测试集,后两个仅用于测试集。CoQA 利用 F1 怀抱来评估机能。F1 怀抱权衡的是预测内容和实在谜底谜底之间的平均堆叠词。域内 F1 按照锻炼集地点域的测试数据进行评分;域外 F1 按照分歧域的测试数据进行评分。总的 F1 怀抱值是整个测试集的最终得分。

  CoQA 是一个大型的会话问答数据集,由来自分歧范畴的一组文章上的会话问题构成。MSRA NLP 团队利用斯坦福问答数据集(SQuAD)在单轮问答上达到了人类划一程度,这是一个新的里程碑。与 SQuAD 比拟,CoQA 中的问题更具对话性,为了确保谜底看起来天然,它能够是自在格局的文本。

  雷锋网 AI 科技评论按,来自微软亚洲研究院(MSRA)天然言语处置(NLP)小组和微软 Redmo

  CoQA 中的问题很是简短,能够仿照人类的对话。此外,第一个问题之后的每个问题都是基于前面的问题的,这使得机械更难解析简短的问题。例如,假设你问一个系统,「谁是微软的创始人?」,当你继续问第二个问题「他什么时候出生的?」时,你需要理解你仍然在谈论和之前不异的话题。

  按照 CoQA 排行榜,微软研究人员于 2019 年 3 月 29 日提交的系统得分达到 89.9/88.0/89.4,别离作为其范畴内、范畴外和全体 F1 分数。而在面临统一组会话问题和谜底,人的表示得分为 89.4/87.4/88.8。

  这一成绩标记着搜刮引擎(如 Bing)和智能助手(如 Cortana)在与人互动和以更天然的体例供给消息方面取得了严重进展,就像人们彼此交换一样。然而,一般的机械阅读理解和问答仍然是天然言语处置中未处理的问题。为了进一步扩大机械理解和生成天然言语的能力鸿沟,团队将继续努力于生成更强大的预锻炼模子。

    发表我的评论
    取消评论

    表情

    您的回复是我们的动力!

    • 昵称 (必填)

    网友最新评论