中国信通院启动 AI大模型幻觉评测,总体涉及五种测试维度

2025-03-25 0 126

3 月 19 日消息,1AI从中国信通院官方微信公众号获悉,为摸清大模型的幻觉现状,推动大模型应用走深走实,中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作,发起大模型幻觉测试。大模型幻觉(AI Hallucination)是指模型在生成内容或回答问题时,产生了看似合理,实则与用户输入不一致(忠实性幻觉)或者不符合事实(事实性幻觉)的内容。随着大模型在医疗、金融等关键领域广泛应用,大模型幻觉带来的潜在应用风险日益加剧,正得到业界的广泛关注。本轮幻觉测试工作将以大语言模型为测试对象,涵盖了事实性幻觉和忠实性幻觉两种幻觉类型,具体测评体系如下:测试数据包含 7000 余条中文测试样本,测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型,以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。中国信通院邀请各相关企业参与模型测评,共同推动大模型安全应用。相关内容:AI大模型助力金融普惠,有效打击网络诈骗工信部:发布国内首个个人信息保护 AI 大模型“智御”助手巴黎奥运会将启用阿里通义千问AI大模型技术 用于比赛解说中国信通院:正式启动多模态智能体技术规范编制工作声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在。
点赞 (0)
常见问题
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。
查看详情
  • 如果出现购买后没有跳转下载链接,请更换浏览器登陆本站会员中心在购买记录里面查找链接。如果链接失效出现无法下载的情况,请联系客户修复并补发资源。
查看详情

相关文章

发表评论
暂无评论