文心一言算是国内大模型的佼佼者,而扣子则在智能体方面有着不错的表现。在一些常见的场景上,这两个模型都有什么样的表现?这篇文章,我们看看作者的分析。
一、文心一言
1.1 分析目的
了解文心一言当前产品现状与最新功能解读。
1.2 产品基本信息
1. 研发公司:百度
2. 官网:https://yiyan.baidu.com/
3. 产品定位:治愈系智能产品,以声音和科技为媒介,为人们提供温暖治愈和关怀(对话机器人)
4. 面向用户:广泛消费者与企业用户,如 IT 互联网从业者、教育工作者与学生、中小企业等
5. 使用情况:用户量 4.3 亿(截止 24.11.12,百度世界 2024 大会宣布)
1.3 核心业务
1.3.1 基础能力
理解能力:理解上下文,为用户提供快捷的知识获取方式
生成能力:生成高质量的文本内容、图片、代码等,例如新闻报道、小说创作等
逻辑能力:复杂的逻辑难题、数学计算均可帮助用户解决
记忆能力:多轮对话后,仍然记得很早之前文本中的重点等
1.3.2 主要业务场景
生活助手:如美食推荐、运动规划等
情感陪伴:如心理咨询、闲聊陪伴、人际交往等
职场提效:如文案撰写、辅助编程等
休闲娱乐:如歌单推荐、头像生成等
学习成长:如技能学习、论文提效、学习规划等
1.4 产品体验
1.4.1 产品功能
1)对话
更贴合国人的交流习惯:智能伙伴,既能写文案、想点子,又能聊天、答疑解惑,支持多模态形式,工作生活提效。
来源:文心一言
2)智能体
可根据需要创建自己的智能体,也可在智能体广场直接使用某一垂类场景他人已发布的智能体,快速上手。
3)百宝箱
参考指令(Prompt):提供各场景、各职业的专业指令参考,辅助快速生成内容。
4)社区(仅 App)
用户交流社区,可对自有内容或他人内容进行分享学习,增加用户粘性。
1.4.2 使用体验
1)错误辨识(与 Kimi、通义千问对比)
结论:回答正确、没有乱说,相比 Kimi、通义千问,文心一言在家庭关系状态类的问题上表现更好一些。
●询问一些经典问题
(1)猫为什么会飞?
结论:均回答正确,且给出了其他可能出现的场景例子。
来源 - 文心一言:24/11 月测试
来源 -Kimi:24/11 月测试
来源 - 通义千问:24/11 月测试
(2)1+1 在什么情况下等于 3?
结论:均回答正确,且都给出了一些可能等于 3 的场景例子。
(3)爷爷奶奶能不能结婚?
结论:文心一言结合法律法规的基础上,补充了常规观念。
2)智力
结论:计算能力有所提升、并更细化了思考步骤;不过偶尔出现题目太绕,导致很难明白问题本质原因的情况。
●询问计算、脑筋急转弯问题
(1)5 年前,妈妈年龄是儿子的 7 倍,儿子今年 9 岁,妈妈今年多少岁?(与文心一言 23 年表现对比)
结论:相比去年文心一言计算准确性提升了。
来源 - 文心一言:23/4 月 CSDN 文章
(2)有两个人决定进行自行车比赛,看谁的自行车跑的快,比赛在一个平坦宽敞的体育场里进行,但当比赛开始时,他们两个却谁也不愿意领先,反而都在慢悠悠的骑,已知他们两人都不会互相谦让,也没有外来因素干扰,总之,一切都很正常,这究竟是为什么呢 ?(正确答案:因为两人互换了自行车)
结论:较长的脑筋急转弯,文心一言并没有给出准确答案,只推测出现象的可能原因。
3)表达
结论:表达比较清晰,会突出核心重点;不过在部分问答时,没有分点式说明,不如 ChatGPT 更有阅读意愿。
●润色文章
结论:按照提示词要求润色文章,语句通畅,表达比较不错。
(1)Prompt
我有一段文字,内容如下:
GPT 是 LLM 的一种特定实现,通过海量数据训练的深度学习模型,能够识别人的语言、执行语言类任务,并拥有大量参数。它使用 Transformer 架构,并通过大规模的预训练,学习语言的模式和结构;ChatGPT 则是基于这些内容而实现出来供我们使用的产品。
要求:我希望你对其进行润色,让这段文字更清晰,使用亲和的风格、严肃的语气、传达核心知识。
完成润色后,希望你能解释一下你是如何改动的。
限制:500 字以内。
2)结果截图
●用户情感
结论:文心一言和 ChatGPT 在语言风格和处理逻辑上有较大的差异,ChatGPT 的回答兼具程序化和人文关怀,而文言一心虽然更加贴近自然地沟通交流,但不像 ChatGPT 保持分点式回答,阅读意愿上在对比中文心一言这一块的表现稍弱。
来源 -ChatGPT:24/11 月测试
4)速度
结论:使用过程中,文心一言 AI 回答的速度基本分布在 2~5 秒之间,相比 Kimi、通义千问模型稍快一些。
5)专业能力
结论:提供多场景、各行各业的专业指令关键词供用户使用,可帮助用户更高效的完成各种任务;专业领域问题有待辨识。
●一言百宝箱
结论:多样化的场景提示词供用户使用。
●专业领域问题
结论:专业领域问题答案有待辨识。
(1)患者,女,29 岁,因有机磷中毒入院治疗,在治疗过程中出现阿托品中毒,应立即给予什么治疗?(教科书类内容查询答案为:输液及毛果芸香碱)
6)亮点功能
AI 绘画是文心一言的亮点功能,其他大模型如 Kimi、通义千问没有的能力,并且画质相比 2023 年也提升了很多。
来源:23/4 月 CSDN 文章
来源:24/11 月测试
1.5 技术架构
文心一言底层基于 Transformer 结构,依托飞桨、文心大模型开发的。这种架构使其具备卓越的自然语言处理能力,能够理解和生成文本,完成各种任务。
1.6 总结
● 优势
在模型能力上,相比较 Kimi、通义千问,文心一言拥有多模态能力,如文本生成、图像生成等。
在内容风格上,相比 ChatGPT 更有人情味,文心一言的内容语气更亲和、温和。
在 AI 绘画上,画图功能有了很大提升,画质更清晰,之前出现的图片胡乱生成的情况变少了。
● 劣势
文字的处理及创作上,丰富的感情和思想内涵还是目前 AI 做不到的。
部分用户情感类问题回复不如 ChatGPT 有条理性。
在处理专业领域的问题时,准确性有待辨别。
二、扣子(coze 国内版)
2.1 分析目的
了解扣子产品现状与功能体验。
2.2 产品基础信息
1. 研发公司:字节跳动
2. 官网:https://www.coze.cn/home
3. 产品定位:新一代 AI 应用开发平台。
4. 用户体量:月访问用户数 200 万左右(来源:截至 24/6 月 Similarweb 数据)
5. 面向用户:
2.3 为什么要做扣子?
1. 行业内对 Agent 的广泛关注
很多业界的人把大模型的出现比作当年移动互联网的出现,移动互联网的应用呈现是 App,很多业界人士统一认知,AI 应用的呈现形式是 Agent;字节的另一款产品 " 豆包 ",主要的呈现形式就是一个综合性的 AI 智能体平台,可见 Agent 在其产品里的认知很深刻。
2. 人工智能领域需要一个快速构建 AI 应用的平台
移动互联网时代有快速构建 App 的标准技术,发布 App 的应用商店,那 AI 时代的应用开发平台是什么?应用发布平台又是什么呢?这个时代需要有一个更低的门槛,帮助用户快速构建 AI 应用。
3. 豆包的发展加速了扣子的研发
豆包早期平台内的智能体是由官方为了丰富 AI 引用场景,发布了 20 多个官方智能体,包括写作助手、图片生成等,但后续将创建智能体交给了第三方和用户,推测豆包官方感受到了创建智能体的有限性,要促进 AI 智能体的生态,需要一个更专业的 AI 智能体开发平台。
2.4 核心能力
1. 快速开发 AI 应用、智能体
无编程基础也可使用,快速搭建智能体。
2. 灵活的模型选择与编排
1)Prompt(可自动优化已编辑的提示词)
提示词编写,是用户创建智能体最基本的技能,很多智能体,通过精心的编排和设计提示词基本都能达到比较好的效果,扣子提供了提示词优化的功能,不过没有提示词模板,对于没有提示词基础的用户,可能不是很友好。
来源:扣子 - 创建智能体
2)插件(700 多个)
插件是构建 AI 应用必不可少的能力,大家都知道大模型只是提供了文本生成等能力,但不具备搜索引擎、网页内容查询等能力,构建 AI 应用的过程中,不仅需要大模型的基础能力,还需要把大模型武装起来,这时候就需要插件来支持,插件本质是各种 API 服务,扣子通过调用这些 API 来实现各种功能。
扣子可根据左侧的提示词,自动生成一些插件,提高用户操作效率。
第三方大模型:插件中还包含第三方模型服务,如通义千问等,用户可根据需要自行选择模型。
3)知识库(可自建 / 上传)
帮助模型学习更多知识,解决一些专业问题,在解决一些垂直行业的问题,提供知识库是非常有必要的,也是提高模型生成内容的准确性,扣子可自建 / 上传本地文件、网页、笔记、数据表、图片等。
4)记忆能力
由于部分模型存在一些上下文限制,模型的记忆能力有限,若需让产品有长期记忆的能力,扣子提供了变量、数据库、文件等长期记忆功能。
5)工作流(编排服务,提供模版)
对于需要通过一系列流程、规划才能实现的 AI 应用,工作流功能提供了比较好的编排服务,对于有编程基础的人员是比较好的体验,不过对于不会编程的人员,使用起来还是有门槛的,好在扣子提供了工作流模板,在一定程度上降低了部分功能门槛。
来源:扣子 - 创建应用
3. 应用发布
1)与集成多渠道发布豆包、扣子商城、应用分发平台、社交媒体账号平台、开
发者社区。
2)与外部系统集成。
4. 商店
用户可以将自己创建的智能体发布到商店,也可在商店直接使用他人已发布的智能体,提高效率。
来源:扣子 - 商店
2.5 用户痛点与需求
1.AI 应用自研的门槛高,投入成本大
2. 单一的 AI 应用功能扩展性差,资源集成工作量大
3. 应用场景复杂多变(用户需求多样,且个性化,难以找到解决个性化需求的 AI 应用)
2.6 商业模式
主要向开发者收费,较典型的 SaaS 增值付费模式,分为基础版与专业版。
1. 基础版
1)基础应用开发能力:限制团队可使用人数、知识库使用空间、API 调用量等。
2)模型使用权限:可使用的模型有限,更多模型需开通专业版。
3)AI 应用使用量:发布到扣子商店后,限制 AI 应用的使用量。
2. 专业版
1)基础应用开发能力扩充:不限制 API 调用次数等,限制调用频率等。
2)可使用模型种类增多:可使用火山方舟上更丰富的模型与版本。
3)AI 应用使用量、调用量不做限制:按照专业版计费方式收费。
2.7 挑战与难题
1. 对于没有编排基础的用户
1)产品的使用难度还是比较高
2)使用关键配置功能门槛较高
3)模型效果难以达到预期
2. 对于有编排基础的用户
1)智能体的商业变现模式还不清晰
2)开发者缺乏专业、丰富的知识库资源
三、总结
字节的扣子应用降低了 AI 开发门槛,集成丰富的插件与强大的功能,支持快速构建、部署 AI Bot,并一键发布至多平台,操作简单、功能丰富;但目前只能部署到有限的应用中,无法将机器人嵌入到更多的应用中,降低了系统的灵活性和适用性。
本文由 @不知名产品露 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自 Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务