0 有用
6 下载

中山大学 KRVQA 数据集

文件列表(压缩包大小 10.89M)

免费

概述

介绍

近期,中山大学为VQA模型评估提出了一个基于常识的无偏视觉问答数据集(Knowledge-Routed Visual Question Reasoning,KRVQA)。考虑到理想的VQA模型应该正确地感知图像上下文,理解问题并整合其学习的知识,KRVQA数据集旨在切断当前深度模型所利用的快捷学习,并推动基于知识的视觉问题推理的边界研究。

具体而言,基于视觉基因组场景图和带有受控程序的外部知识库生成问题--答案对,可以将知识与其他偏差中分离出来。从图像场景图或知识库中选择一个或两个三元组进行多步推理,并平衡答案分布,避免答案歧义。与现有的VQA数据集相反,知识推理的两个主要约束为:

  • 一个问题必须与知识库中的多个三元组相关,但只有一个三元组与图像对象有关。这强制VQA模型正确地感知图像,而不是仅仅基于给定的问题猜测知识。

  • 所有问题都基于不同的知识库三元组,但是训练集和测试集的候选答案集合相同。

    数据集

    “question_answer_reason.json”是生成的问题答案对样本。它包含一个问题答案对样本列表。每个样本都有以下字段:

  • “question”:问题原始文本。

  • “answer”:答案原始文本。

  • "level”:此问题的推断步骤。

  • “ KB”:0或1,指示是否使用外部知识库生成此问题。

  • “ qtype”:本文中描述的问题类型。

  • “reason”:一个列表,其中包含Visual Genome中使用的场景图三元组或FVQA中的知识三元组(“ all_fact_triples_release.json”)。

  • “ image_id”:视觉基因组的图像ID。

  • “ question_id”:此问题的ID问题。

“ splits.json”包含我们的训练/验证/测试分组的问题ID。包括:

  • “train”:训练“ question_id”列表
  • “val”:验证“ question_id”列表
  • “test”:测试“ question_id”列表

图像的特征和场景图注释可以从Visual Genome官方网站下载。

基础知识由FVQA [1]提供,可以从dropbox下载。我们使用“ new_dataset_release / all_fact_triples_release.json”作为完整的外部知识库。

来源http://www.sysu-hcp.net/resources/

理工酷提示:

如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈

评论(0)

0/250