首页 AI技术区正文

我要投稿

中国信通院启动 AI大模型幻觉评测，总体涉及五种测试维度

B3资源网 AI技术区

2025-03-25 0 140

3 月 19 日消息，1AI从中国信通院官方微信公众号获悉，为摸清大模型的幻觉现状，推动大模型应用走深走实，中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作，发起大模型幻觉测试。大模型幻觉（AI Hallucination）是指模型在生成内容或回答问题时，产生了看似合理，实则与用户输入不一致（忠实性幻觉）或者不符合事实（事实性幻觉）的内容。随着大模型在医疗、金融等关键领域广泛应用，大模型幻觉带来的潜在应用风险日益加剧，正得到业界的广泛关注。本轮幻觉测试工作将以大语言模型为测试对象，涵盖了事实性幻觉和忠实性幻觉两种幻觉类型，具体测评体系如下：测试数据包含 7000 余条中文测试样本，测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型，以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。中国信通院邀请各相关企业参与模型测评，共同推动大模型安全应用。相关内容：AI大模型助力金融普惠，有效打击网络诈骗工信部：发布国内首个个人信息保护 AI 大模型“智御”助手巴黎奥运会将启用阿里通义千问AI大模型技术用于比赛解说中国信通院：正式启动多模态智能体技术规范编制工作声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

收藏 (0) 打赏

感谢您的支持，我会继续努力的!

打开微信扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在。

点赞 (0)

上一篇：腾讯混元全新推理模型 T1 官宣：3 月 21 日发布

下一篇：腾讯元宝近一个月日活激增超 20 倍，此前已接入 DeepSeek

常见问题

免费下载或者VIP会员专享资源能否直接商用？

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。

查看详情

购买后没有跳转下载链接或链接失效怎么办？

如果出现购买后没有跳转下载链接，请更换浏览器登陆本站会员中心在购买记录里面查找链接。如果链接失效出现无法下载的情况，请联系客户修复并补发资源。

查看详情

相关文章

微软 Copilot 第 6 次界面更新：迁移聊天历史至左栏，新增探索按钮

微软 Copilot 第 6 次界面更新：迁移聊天历史至左栏，新增探索按钮

AI技术区

B3资源网

2个月前 1,017

腾讯自研深度思考模型“混元 T1”正式版上线元宝

腾讯自研深度思考模型“混元 T1”正式版上线元宝

AI技术区

B3资源网

2个月前 440

为避免内耗：谷歌 AI 助手 Pixie 项目遭拆分，部分能力并入 Gemini

为避免内耗：谷歌 AI 助手 Pixie 项目遭拆分，部分能力并入 Gemini

AI技术区

B3资源网

2个月前 686

你的“AI 同事”上线：微软 Copilot 新增研究员和分析师两大智能体

你的“AI 同事”上线：微软 Copilot 新增研究员和分析师两大智能体

AI技术区

B3资源网

2个月前 383

发表评论

暂无评论

网盘资源代下服务说明

由于各大网盘对非会员的下载速度限制造成用户体验感极差，本站特推出城通网盘、百度网盘资源高速代下载服务。

查看代下说明

热门文章

热门标签

服务端补丁

热门评论

如遇问题，请联系客服在线客服技术支持
联系客服请注明来意官方客服验证
返回顶部