AI产品调研

   日期:2024-12-27     作者:19hhx       评论:0    移动:http://3jjewl.riyuangf.com/mobile/news/7823.html
核心提示:文心一言算是国内大模型的佼佼者,而扣子则在智能体方面有着不错的表现。在一些常见的场景上,这两个模型都有什么样的表现?这篇

文心一言算是国内大模型的佼佼者,而扣子则在智能体方面有着不错的表现。在一些常见的场景上,这两个模型都有什么样的表现?这篇文章,我们看看作者的分析。

nclick=''>

一、文心一言

1.1 分析目的

了解文心一言当前产品现状与最新功能解读。

1.2 产品基本信息

1. 研发公司:百度

2. 官网:https://yiyan.baidu.com/

3. 产品定位:治愈系智能产品,以声音和科技为媒介,为人们提供温暖治愈和关怀(对话机器人)

4. 面向用户:广泛消费者与企业用户,如 IT 互联网从业者、教育工作者与学生、中小企业等

5. 使用情况:用户量 4.3 亿(截止 24.11.12,百度世界 2024 大会宣布)

1.3 核心业务

1.3.1 基础能力

理解能力:理解上下文,为用户提供快捷的知识获取方式

生成能力:生成高质量的文本内容、图片、代码等,例如新闻报道、小说创作等

逻辑能力:复杂的逻辑难题、数学计算均可帮助用户解决

记忆能力:多轮对话后,仍然记得很早之前文本中的重点等

1.3.2 主要业务场景

生活助手:如美食推荐、运动规划等

情感陪伴:如心理咨询、闲聊陪伴、人际交往等

职场提效:如文案撰写、辅助编程等

休闲娱乐:如歌单推荐、头像生成等

学习成长:如技能学习、论文提效、学习规划等

1.4 产品体验

1.4.1 产品功能

1)对话

更贴合国人的交流习惯:智能伙伴,既能写文案、想点子,又能聊天、答疑解惑,支持多模态形式,工作生活提效。

nclick=''>

来源:文心一言

2)智能体

可根据需要创建自己的智能体,也可在智能体广场直接使用某一垂类场景他人已发布的智能体,快速上手。

nclick=''>

3)百宝箱

参考指令(Prompt):提供各场景、各职业的专业指令参考,辅助快速生成内容。

nclick=''>

4)社区(仅 App)

用户交流社区,可对自有内容或他人内容进行分享学习,增加用户粘性。

nclick=''>

1.4.2 使用体验

1)错误辨识(与 Kimi、通义千问对比)

结论:回答正确、没有乱说,相比 Kimi、通义千问,文心一言在家庭关系状态类的问题上表现更好一些。

●询问一些经典问题

(1)猫为什么会飞?

结论:均回答正确,且给出了其他可能出现的场景例子。

nclick=''>

来源 - 文心一言:24/11 月测试

nclick=''>

来源 -Kimi:24/11 月测试

nclick=''>

来源 - 通义千问:24/11 月测试

(2)1+1 在什么情况下等于 3?

结论:均回答正确,且都给出了一些可能等于 3 的场景例子。

nclick=''>
nclick=''>
nclick=''>

(3)爷爷奶奶能不能结婚?

结论:文心一言结合法律法规的基础上,补充了常规观念。

nclick=''>
nclick=''>
nclick=''>

2)智力

结论:计算能力有所提升、并更细化了思考步骤;不过偶尔出现题目太绕,导致很难明白问题本质原因的情况。

●询问计算、脑筋急转弯问题

(1)5 年前,妈妈年龄是儿子的 7 倍,儿子今年 9 岁,妈妈今年多少岁?(与文心一言 23 年表现对比)

结论:相比去年文心一言计算准确性提升了。

nclick=''>

来源 - 文心一言:23/4 月 CSDN 文章

nclick=''>

(2)有两个人决定进行自行车比赛,看谁的自行车跑的快,比赛在一个平坦宽敞的体育场里进行,但当比赛开始时,他们两个却谁也不愿意领先,反而都在慢悠悠的骑,已知他们两人都不会互相谦让,也没有外来因素干扰,总之,一切都很正常,这究竟是为什么呢 ?(正确答案:因为两人互换了自行车)

结论:较长的脑筋急转弯,文心一言并没有给出准确答案,只推测出现象的可能原因。

nclick=''>

3)表达

结论:表达比较清晰,会突出核心重点;不过在部分问答时,没有分点式说明,不如 ChatGPT 更有阅读意愿。

●润色文章

结论:按照提示词要求润色文章,语句通畅,表达比较不错。

(1)Prompt

我有一段文字,内容如下:

GPT 是 LLM 的一种特定实现,通过海量数据训练的深度学习模型,能够识别人的语言、执行语言类任务,并拥有大量参数。它使用 Transformer 架构,并通过大规模的预训练,学习语言的模式和结构;ChatGPT 则是基于这些内容而实现出来供我们使用的产品。

要求:我希望你对其进行润色,让这段文字更清晰,使用亲和的风格、严肃的语气、传达核心知识。

完成润色后,希望你能解释一下你是如何改动的。

限制:500 字以内。

2)结果截图

nclick=''>

●用户情感

结论:文心一言和 ChatGPT 在语言风格和处理逻辑上有较大的差异,ChatGPT 的回答兼具程序化和人文关怀,而文言一心虽然更加贴近自然地沟通交流,但不像 ChatGPT 保持分点式回答,阅读意愿上在对比中文心一言这一块的表现稍弱。

nclick=''>
nclick=''>

来源 -ChatGPT:24/11 月测试

4)速度

结论:使用过程中,文心一言 AI 回答的速度基本分布在 2~5 秒之间,相比 Kimi、通义千问模型稍快一些。

5)专业能力

结论:提供多场景、各行各业的专业指令关键词供用户使用,可帮助用户更高效的完成各种任务;专业领域问题有待辨识。

●一言百宝箱

结论:多样化的场景提示词供用户使用。

nclick=''>
nclick=''>

●专业领域问题

结论:专业领域问题答案有待辨识。

(1)患者,女,29 岁,因有机磷中毒入院治疗,在治疗过程中出现阿托品中毒,应立即给予什么治疗?(教科书类内容查询答案为:输液及毛果芸香碱)

nclick=''>

6)亮点功能

AI 绘画是文心一言的亮点功能,其他大模型如 Kimi、通义千问没有的能力,并且画质相比 2023 年也提升了很多。

nclick=''>

来源:23/4 月 CSDN 文章

nclick=''>

来源:24/11 月测试

1.5 技术架构

文心一言底层基于 Transformer 结构,依托飞桨、文心大模型开发的。这种架构使其具备卓越的自然语言处理能力,能够理解和生成文本,完成各种任务。

1.6 总结

● 优势

在模型能力上,相比较 Kimi、通义千问,文心一言拥有多模态能力,如文本生成、图像生成等。

在内容风格上,相比 ChatGPT 更有人情味,文心一言的内容语气更亲和、温和。

在 AI 绘画上,画图功能有了很大提升,画质更清晰,之前出现的图片胡乱生成的情况变少了。

● 劣势

文字的处理及创作上,丰富的感情和思想内涵还是目前 AI 做不到的。

部分用户情感类问题回复不如 ChatGPT 有条理性。

在处理专业领域的问题时,准确性有待辨别。

二、扣子(coze 国内版)

2.1 分析目的

了解扣子产品现状与功能体验。

2.2 产品基础信息

1. 研发公司:字节跳动

2. 官网:https://www.coze.cn/home

3. 产品定位:新一代 AI 应用开发平台。

4. 用户体量:月访问用户数 200 万左右(来源:截至 24/6 月 Similarweb 数据)

5. 面向用户:

nclick=''>

2.3 为什么要做扣子?

1. 行业内对 Agent 的广泛关注

很多业界的人把大模型的出现比作当年移动互联网的出现,移动互联网的应用呈现是 App,很多业界人士统一认知,AI 应用的呈现形式是 Agent;字节的另一款产品 " 豆包 ",主要的呈现形式就是一个综合性的 AI 智能体平台,可见 Agent 在其产品里的认知很深刻。

2. 人工智能领域需要一个快速构建 AI 应用的平台

移动互联网时代有快速构建 App 的标准技术,发布 App 的应用商店,那 AI 时代的应用开发平台是什么?应用发布平台又是什么呢?这个时代需要有一个更低的门槛,帮助用户快速构建 AI 应用。

3. 豆包的发展加速了扣子的研发

豆包早期平台内的智能体是由官方为了丰富 AI 引用场景,发布了 20 多个官方智能体,包括写作助手、图片生成等,但后续将创建智能体交给了第三方和用户,推测豆包官方感受到了创建智能体的有限性,要促进 AI 智能体的生态,需要一个更专业的 AI 智能体开发平台。

2.4 核心能力

1. 快速开发 AI 应用、智能体

无编程基础也可使用,快速搭建智能体。

2. 灵活的模型选择与编排

1)Prompt(可自动优化已编辑的提示词)

提示词编写,是用户创建智能体最基本的技能,很多智能体,通过精心的编排和设计提示词基本都能达到比较好的效果,扣子提供了提示词优化的功能,不过没有提示词模板,对于没有提示词基础的用户,可能不是很友好。

nclick=''>

来源:扣子 - 创建智能体

2)插件(700 多个)

插件是构建 AI 应用必不可少的能力,大家都知道大模型只是提供了文本生成等能力,但不具备搜索引擎、网页内容查询等能力,构建 AI 应用的过程中,不仅需要大模型的基础能力,还需要把大模型武装起来,这时候就需要插件来支持,插件本质是各种 API 服务,扣子通过调用这些 API 来实现各种功能。

扣子可根据左侧的提示词,自动生成一些插件,提高用户操作效率。

第三方大模型:插件中还包含第三方模型服务,如通义千问等,用户可根据需要自行选择模型。

nclick=''>

3)知识库(可自建 / 上传)

帮助模型学习更多知识,解决一些专业问题,在解决一些垂直行业的问题,提供知识库是非常有必要的,也是提高模型生成内容的准确性,扣子可自建 / 上传本地文件、网页、笔记、数据表、图片等。

nclick=''>

4)记忆能力

由于部分模型存在一些上下文限制,模型的记忆能力有限,若需让产品有长期记忆的能力,扣子提供了变量、数据库、文件等长期记忆功能。

nclick=''>

5)工作流(编排服务,提供模版)

对于需要通过一系列流程、规划才能实现的 AI 应用,工作流功能提供了比较好的编排服务,对于有编程基础的人员是比较好的体验,不过对于不会编程的人员,使用起来还是有门槛的,好在扣子提供了工作流模板,在一定程度上降低了部分功能门槛。

nclick=''>

来源:扣子 - 创建应用

3. 应用发布

1)与集成多渠道发布豆包、扣子商城、应用分发平台、社交媒体账号平台、开

发者社区。

2)与外部系统集成。

4. 商店

用户可以将自己创建的智能体发布到商店,也可在商店直接使用他人已发布的智能体,提高效率。

nclick=''>

来源:扣子 - 商店

2.5 用户痛点与需求

1.AI 应用自研的门槛高,投入成本大

2. 单一的 AI 应用功能扩展性差,资源集成工作量大

3. 应用场景复杂多变(用户需求多样,且个性化,难以找到解决个性化需求的 AI 应用)

2.6 商业模式

主要向开发者收费,较典型的 SaaS 增值付费模式,分为基础版与专业版。

1. 基础版

1)基础应用开发能力:限制团队可使用人数、知识库使用空间、API 调用量等。

2)模型使用权限:可使用的模型有限,更多模型需开通专业版。

3)AI 应用使用量:发布到扣子商店后,限制 AI 应用的使用量。

2. 专业版

1)基础应用开发能力扩充:不限制 API 调用次数等,限制调用频率等。

2)可使用模型种类增多:可使用火山方舟上更丰富的模型与版本。

3)AI 应用使用量、调用量不做限制:按照专业版计费方式收费。

2.7 挑战与难题

1. 对于没有编排基础的用户

1)产品的使用难度还是比较高

2)使用关键配置功能门槛较高

3)模型效果难以达到预期

2. 对于有编排基础的用户

1)智能体的商业变现模式还不清晰

2)开发者缺乏专业、丰富的知识库资源

三、总结

字节的扣子应用降低了 AI 开发门槛,集成丰富的插件与强大的功能,支持快速构建、部署 AI Bot,并一键发布至多平台,操作简单、功能丰富;但目前只能部署到有限的应用中,无法将机器人嵌入到更多的应用中,降低了系统的灵活性和适用性。

本文由 @不知名产品露 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号