分享好友 最新动态首页 最新动态分类 切换频道
谷歌发布 FACTS Grounding 基准,AI 大语言模型“幻觉照妖镜”
2024-12-27 12:14

IT之家 12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用范围。

数据集

在数据集方面,ACTS Grounding 数据集包含 1719 个示例,涵盖金融、科技、零售、医疗和法律等多个领域,每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。

示例文档长度不一,最长可达 32000 个 token(约 20000 字)。用户请求涵盖摘要、问答生成和改写等任务,但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下:

数据集分为 860 个“公共”示例和 859 个“私有”示例,目前已发布公共数据集供评估使用,私有数据集用于排行榜评分,以防止基准污染和排行榜作弊。

评估方案

在评估方案上,FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委,评估答案的充分性、事实准确性和文档支持性。

评估分为两个阶段:首先评估响应是否符合资格,即是否充分回答了用户请求;然后评估响应的事实准确性,即是否完全基于所提供的文档,有没有出现“幻觉”,然后基于该模型在所有示例上的平均得分,最终计算得出。

在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。

IT之家附上参考地址

最新文章
成品人网站 W灬源码 1688——一款实用的网站源码,功能强大,操作便捷
在当今数字化时代,拥有一个功能强大且操作便捷的网站对于个人和企业来说至关重要。而 W灬源码 1688 就是这样一款备受赞誉的网站源码,它为用户提供了丰富的功能和卓越的性能,助力用户打造出令人印象深刻的网站。功能强大源码提供了多种精
TGA玩家之声最终提名名单”登B站热搜!网友:我被中国游戏包围了
直播吧12月10日讯 TGA 2024颁奖典礼将于12月13日上午8点半举行,官方今日公布了“玩家之声”进入最终投票的五款入围游戏,分别为《黑神话:悟空》、《绝区零》、《艾尔登法环:黄金树幽影》、《鸣潮》与《原神》。 点击加载图片 " t-rc="ht
新仿《北京时间》网站源码 帝国cms7.5内核新闻资讯门户网站模版+wap手机端
交易流程发货方式1、自动:在上方保障服务中标有自动发货的商品,拍下后,将会自动收到来自卖家的商品获取(下载)链接;2、手动:未标有自动发货的的商品,拍下后,卖家会收到邮件、短信提醒,也可通过QQ或订单中的电话联系对方。交易周期
苹果Safari浏览器中的20几个隐藏技巧
Safari是苹果在和iPad上的默认网络浏览器。虽然我们天天都在使用,但是,你是否深入研究了Safari的所有功能和设置?无痕浏览、阅读器视图和下载文件等标准选项只是其中的一部分,还有更多操作等你去发现。如果升级到 15或iPadOS 15,就会有
秒杀活动工具,用发一发小程序
商家在做秒杀活动时,锁定目标用户群可是非常重要的一点,先要清楚参与活动顾客是什么类型的群体,更偏向什么样的产品需求,能更好的促使秒杀活动的成功。拥有一个秒杀活动工具也是活动成功的关键,那么秒杀活动工具有哪些?点击下方即可使
【新农人】安丘市农业考察团莅临广东新农...
 从1926年南洋归来的徐闻人倪国良在愚公楼村栽下第一棵菠萝,到种植范围由愚公楼扩大到全县,乃至跨出县域,广东省湛江市徐闻县的菠萝种植已经有了近一个世纪的历史。  在近百年发展的基础上,徐闻县近几年通过国家现代农业产业园创建,
给一个网站让做优化自然排名做到百度首页前三要怎么做
在开始进行网站优化之前,首先要明确我们的目标:将网站的自然排名提升到百度首页前三。这需要我们对网站的关键词、内容、结构、外部链接等多个方面进行全面优化。关键词研究与策略制定1. 选择合适的关键词:根据网站的主题和定位,选择具
融水网络推广优化,企业腾飞的新动力引擎
融水网络推广优化,成为企业发展的新引擎,通过精准策略提升品牌知名度,拓宽市场渠道,助力企业高效腾飞,实现业绩飞跃。随着互联网的飞速发展,网络营销已经成为企业品牌推广、产品销售的重要手段,在竞争激烈的今天,如何进行有效的融水
淘宝店铺为什么要补流量?
现在很多朋友在运营淘宝店铺的时候,一上来就会选择提升销量,有的会选择提升流量,有的会选择提升排名,有的会选择提升关键词,提升关键词里有大学问,今天跟各位分享一下淘宝运营如何提升词?淘宝运营如何提升词当我们新品上架以后,从前
粉笔垂域大模型落地面试场景 AI考官1:1模拟真实考场
  2025年度国考笔试已经落幕,广大考生即将投入到紧张的面试备考复习中。公考行业龙头粉笔(02469.HK)宣布,基于公司自研垂域大模型,推出精品面试AI点评产品,于12月13日正式上线,用户可以以1元/次的价格限时进行体验。  据了解,精
相关文章
推荐文章
发表评论
0评