一场全球顶级机器阅读理解考试的最新成绩出炉。这项由斯坦福大学发起的挑战赛最新的榜单显示,
科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一名,这也是中国本土研究机构首次荣登该赛事的榜首。
机器考阅读理解精确匹配率超过77%
阅读理解是人类考试中必不可少的项目之一,对于机器,又该怎样去作答和评判呢?
昨日记者从科大讯飞了解到,该挑战赛是通过众包的方式构建了一个大规模的机器阅读理解数据集。这个数据集有多大?大到包含了10万个问题。
10万个问题怎么得来的?它的原文来自500多篇维基百科文章。每次挑出几百字左右的短文给人工标注者阅读,然后让标注人员提出最多5个基于文章内容的问题并提供正确答案。
接下来就是机器阅读上场的时刻了。参赛者提交的系统模型在阅读完数据集中的一篇短文之后,回答若干个基于文章内容的问题,然后与人工标注的答案进行比对,得出精确匹配(Exact Match)和模糊匹配(F1-score)的结果。
根据挑战赛最新的成绩榜单,科大讯飞与哈工大的联合实验室提交的系统模型取得了精确匹配77.845%和模糊匹配85.297%的成绩,位列世界第一。紧随其后,位居亚军的则是
微软亚洲研究院,精确匹配为77.688%,模糊匹配为84.666%。