分享好友 最新动态首页 最新动态分类 切换频道
【AI人工智能培训】Kimi.ai与ChatGPT:长文本理解与科研辅助的比较研究
2024-12-26 15:09

纯学术分享,侵删

Kimi.ai能很好地解决ChatGPT无法应对的长文本理解和知识整合任务。

最近Kimi在内测2M上下文的新模型(之前是200k,新版本翻了10倍,理论上可以干更多的事情了。有兴趣的话可以去占个坑加一个waitlist

探索Kimi.ai:你的私人AI助手能做什么?https://kimi.moonshot.cn

一直以来,我都习惯于用各种各样的外部工具辅助自己的科研全过程。从论文阅读、文献查找、公式理解,再到论文润色,AI工具都能在不同程度地帮上我。另一方面来说,作为一个在NLP音乐多模态方向努力工作的博士生,我应该是全世界最先将ChatGPT部署到自己生产实践中的那一批人。我尝试过利用Instruct-GPT做数据集清洗,用langchain做agent……整体上来说,尝试和改造各种各样的大模型就是我科研生活的一个组成部分。在这个过程中,我不仅见证了AI技术的飞速发展,也体会到了不同模型在处理复杂任务时的细微差别。在尝试过程中,我不可避免地接触到了各类国产大模型,其中又以Kimi给我耳目一新的感觉。在过去的一个月里,我交叉利用Kimi和我自己的ChatGPT-4订阅,感受着两者在科研辅助上的差别,得出一个结论:尽管在一些方面仍然不如ChatGPT-4,但是Kimi在自己的长处——长文本理解——确实做得很有特色。

Kimi驱动了一个很有趣的第三方网站:https://papers.cool/。

Cool Papers - Immersive Paper Discoverypapers.cool/

这个网站由苏剑林建造,用于给科研人刷论文用。我就拿它和GPT-4的知名GPTs:Academic Assistant Pro,进行对比。在处理长文本时,Kimi展现出了其独特的优势。尤其是在面对篇幅庞大的论文时,Kimi能够更准确地理解和提取关键信息,而ChatGPT-4则在长文本的处理上稍显力不从心。我们选用一篇较长的论文,也是最近比较受关注的paper:NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models,进行对比。

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Modelsarxiv.org/abs/2403.03100

Kimi:

ChatGPT

我对比了几个不同的结果,发现ChatGPT在论文很长的时候,回答的结果会比Kimi差很多。这让我想起那个著名的大海捞针实验。这个实验的结果表明,随着大模型面对的上下文变长,越往后面走,大模型的整体性能越差。加上ChatGPT本身在中文上的结果弱于英文结果,这使得Kimi在长论文阅读上的表现确实更好。

第一个案例讨论了单篇长论文,第二个案例则是多个文档的综合理解。我选择五篇论文,其中有两篇工作是自己参与的研究,要求Kimi和ChatGPT-4进行综述。在处理多篇论文的综述任务时,Kimi和ChatGPT-4的表现差异更加明显。Kimi能够更好地整合多篇论文的信息,提供一个连贯、有逻辑的综述,而ChatGPT-4在这方面的表现则不尽如人意。这可能与Kimi在长文本理解方面的优化有关,使其在处理复杂信息时更为得心应手。我使用的prompt如下

Kimi

ChatGPT看上去是无法应对这个任务的,我多次调整prompt也无法正常工作。

显然,ChatGPT是正确获取到了论文信息,不然它也不可能知道这些链接后面的论文内容。然而ChatGPT仍然做出了不让人满意的总结。

在进行多篇论文的推理任务时,Kimi的表现同样令人印象深刻。它能够准确地回答关于论文内容的复杂问题,显示出其在理解深度和逻辑推理方面的强大能力。相比之下,ChatGPT-4在这一任务上的表现则稍显不足,需要通过多轮对话才能达到相似的理解水平。我们继续针对这五篇论文发问,看Kimi能否进行一些复杂的推理工作

答案完全正确。

答案完全正确,没有出现幻觉。

正确,Mustango是其中唯一需要大规模训练的模型。我们尝试性地对ChatGPT发问

答案部分正确,但是需要多轮诱导,且回答并不完整,因此我认为Kimi在处理和理解多文档这一点上的表现更为突出。

Kimi和ChatGPT都具备联网能力,但它们在信息检索策略上有所不同。Kimi倾向于积极搜索外部来源,而ChatGPT则在没有明确指示的情况下,更倾向于依赖自身的知识库。这种差异在实际应用中意味着Kimi可能更适合于需要大量外部信息支持的任务,而ChatGPT则更适合于依赖内部逻辑和已有知识的场景。我们向Kimi和ChatGPT分别询问一个比较新的概念:参数高效微调(PEFT)。这是一个新兴概念,主要思想是通过仅训练一小部分的参数就做到对大模型的微调。

Kimi回答正确。可以看见在回答之前,Kimi先搜索了一些中文来源,作为外部知识。我认为这是Kimi的特色之一:因为能支持长上下文,所以可以将很多资料提前包含下来进行生成。

ChatGPT-4出现幻觉,事实上根本没有这个所谓的“Pipeline Execution for Fine tuning”技术。我们追问ChatGPT

重新提示之后回答正确。不过目前版本的Kimi有一个缺点,那就是对于知乎、CSDN、中文自媒体的比重更大,而对wiki、官方文档的索引比重较小。有时这会给用户一些“看二手资料”的感觉。作为例子,我们搜索一个和文档相关的问题。我们询问Kimi如何写LoraConfig,这是在huggingface的PEFT库里明确给出的结果。然而Kimi仍然选择了看博客

我们将同样的问题给ChatGPT-4.

ChatGPT在我们提醒使用搜索之后,直奔GitHub拿到了官方文档。相对于博客内容来说,显然官方文档才是更为可靠的那一个。

对于大模型这类语言模型来说,生成能力无疑是至关重要的。强大的生成能力使得模型能够创造出连贯、有逻辑的文本,这对于科研工作中的文献综述、论文撰写等多个环节都有着重要的意义。但是,长上下文处理能力也同样关键。它不仅意味着模型具有更丰富的记忆,能够在不需要额外的检索机制(如RAG)的情况下完成复杂的推理任务,而且还预示着模型在理解和整合大量信息方面的潜力。在我个人的经验中,Kimi.ai在长文本理解方面的表现确实给我的科研工作带来了便利。它在处理长篇论文、跨领域知识整合以及实时更新信息方面的能力,让我能够更高效地获取和利用知识资源。这种能力在当前的科研环境中尤为重要,因为科研工作正变得越来越跨学科,信息量也越来越庞大。尽管Kimi.ai在某些方面的表现可能还无法与ChatGPT-4相提并论,但在长文本处理这一有前景的领域,Kimi.ai已经展现出了其独特的价值。如果说,ChatGPT-4就像是金庸小说里的降龙十八掌,四平八稳,十分可靠,力大砖飞,那Kimi就像是小李飞刀,在长文本理解方面为我留下深刻印象,把它用对地方,依然可以做到出奇制胜。我相信,随着技术的不断进步,Kimi.ai将会在其他方面也取得显著的提升,最终成为一个在多个维度都能与ChatGPT-4相媲美的科研辅助工具。同时,我也期待未来能够出现更多像Kimi.ai这样专注于特定领域优化的AI模型,它们将共同推动科研工作的创新和发展。

最新文章
白酒电商营销策划方案
电商已经成为了消费者购物的主要方式之一。白酒作为中国文化的重要组成部分,在电商平台上也有着巨大的市场需求。因此,白酒品牌需要制定一套有效的电商营销策划方案,以提升品牌知名度、销售量和用户满意度。白酒品牌需要重视电商平台的品
百度地图关怀版 v1.1.5 官网最新版下载 老年人导航地图app
2021年,工信部启动“互联网应用适老化及无障碍改造专项行动”。很多大大小小的APP,都进行了适老化改造,也就是俗称的老年版。如今,备受期待的改造基本已经完成,而这结果,貌似依旧不太理想。部分开发者特别鸡贼,改来改去,就只是加了
荣科科技涨1.25%,目前股价靠近压力位22.00,谨防压力位处回调,若突破压力位则可能会开启一波上涨行情
12月16日,涨1.25%,成交额9.30亿元,换手率6.53%,总市值139.46亿元。根据AI大模型测算荣科科技后市走势。短期趋势看,该股当前无连续增减仓现象,主力趋势不明显。主力没有控盘。中期趋势方面,上方有一定套牢筹码积压。近期该股有吸筹现
谈谈如何让一个SEO新手“快速成长”
现在SEO技术应用越来越广泛了,不用说,学习seo技术的人也越来越多。对于一个新手要学习要掌握的东西很多,那么如何才能更快的学好呢?其实没有更快学好这样的秘诀,我只能教你如何摆好心态,认真学习,这样你肯定比其他人要学的好学的快。
温州螺丝计算机视觉方案设计实时反馈全+境+到+达
  温州螺丝计算机视觉方案设计实时反馈全+境+到+达——苏州希佑科技有限公司!  提供:  计算机视觉|人工智能检测|人工智能视觉检测|CCD 视觉检测|视觉应用|视觉深度学习|AI人工智能检测|AI人工智能图像处理|AI图像处理|视觉检测|不
谷歌优化实操技巧
在海外市场竞争日趋激烈的今天,特别在的影响下,不少外贸企业的老客户也受到了影响。因此通过线上外贸开发海外客户成了企业的重点。而外贸是诸多推广渠道中效果较好且投入较低的一种方式,那么在网站优化时有哪些技巧呢?下面云程网络为大
绘画与影像的美学共生
  作者:陆颖(浙江师范大学艺术学院讲师)   在电影发展历程中,作为传统视觉艺术形式的绘画与之产生了彼此纠缠的关系,二者如同两条蜿蜒前行的轴线,时而交错、时而并进,在形式创新与内容互动等方面,逐渐消弭了门类艺术的边界,催
苹果手机里的APK格式文件肿么转换成APP
手机下载的文件怎么弄成app  手机下载的文件怎么弄成app,经常玩手机的人对于各项的应用都是需要熟练掌握的,手机上的文件非常多,我们可以随意的进行操作,下面为大家分享手机下载的文件怎么弄成app。  手机下载的文件怎么弄成app1 
谁最“牛”?四款牛津电子词典终极评测
现在的词典机太多了,消费者一般难以选择,但里面如果有牛津或剑桥的词典,会好卖很多。一位售货员告诉记者。情况也确实如此,在小编走访中关村各大卖场商铺时,发现权威辞典成为最有杀伤力的武器。 小编认为,这种情况的出现,与电子词典
阿里巴巴1688开店成本多少?怎么做起来的?
不管在哪个平台上开店,都要事先准备好,尤其是资金方面,毕竟店铺开起来之后,需要用资金的地方还很多,那1688批发网开店要交多少钱?下面来我们就来给大家讲解一下这方面的内容。一、1688批发网开店要交多少钱?阿里诚信通年费为6688元一年
相关文章
推荐文章
发表评论
0评