分享好友 最新动态首页 最新动态分类 切换频道
AIGC内容分享(三十七):AIGC技术在淘淘秀场景的探索与实践
2024-12-27 05:16

目录

引言

技术调研

▐  图像生成方案对比

▐  仿真形象生成方案对比

▐  换背景方案 (测试中)

▐  模型流程串联

淘淘秀AIGC的使用

问题与处理

展望


AIGC相关领域爆发式增长,在图像式AI领域出现Midjourney、SD等专业的工具,也推出了妙鸭相机、美图秀秀等生成虚拟形象的APP。

当前淘宝具有的用户群和商家,可以考虑设计一款结合用户和商家AI工具,以AI生成用户商品代言为主题,帮助商家提高商品展示的吸引力,同时通过个性化和创新的虚拟形象增强用户体验。

在这个背景下,产品同学设计了一款让用户具有代入感的生成产品,淘淘秀(也叫AI买家秀),让用户上传通过照片建立像我但比我好看的商品代言,也会结合一些互动玩法,引发用户创作兴趣提升业务的指标。

关键词:图像类AI创新应用、用户轻松创作、内容分享、结合商家品牌。

整个产品会更复杂一些,这里我们主要探讨AIGC相关的一些技术能力,在买家秀的产品设计下,在AIGC的相关能力依赖上,有如下的诉求

  1. 生成优质素材模板,用户要代言的商品素材,以便达到更好的效果;生成

  2. 结合素材模板和用户图片,生成用户相关图片;用户形象生成

  3. 在用户图片的基础上,考虑进行背景风格替换,提升丰富性( 策划中,还未上线,也写一下 );背景生成替换

相关的产品链路,这个是比较早期的,在调研之图中的一些方案有做一些调整,但是大致流程接近

  1. 生成素材  -> 配置模板 -> 生成用户代言图 -> 进行贴图  

  2. 同时在考虑一些视频类的生成。

  图像生成方案对比

要求是(真人 + 场景 + 商品类目)的情况下,生成一些比较好的素材图片案例,给到用户使用, 中间使用了几个模型。

现在从事后总结的角度,我觉得对这些模型做一些对比,考虑几个维度

  1. 准确性(易用性):   模型生成的图像与提示词描述的一致性

  2. 可扩展性;API接入与自动化:模型是否支持API接入,支持API的话,跑任务解放运营。影响到速度与效率。

  3. 成功率  大约多少张图片,可以有一张可以用的照片, 成功率到一个可以接受的范围。

使用提示词如下

An ultra-realistic photograph captured with the aesthetics of an iPhone camera, portraying a modern Chinese woman in a distinctive location in Shanghai. The woman is sitting on a wooden bench, the backdrop is softly blurred showcasing the city's unique architecture. The park is filled with lush greenery and vibrant flowers, exuding tranquility. Soft sunlight bathes the woman's visage and hair, creating a subtle and natural glow. The image, shot in high resolution with a 750:1200 aspect ratio, exudes the character's authentic charm and elegance.

不同模型的效果

模型:Midjourney

特性:易用性高;无可扩展性;成功率高达50%

优点:生成质量高,真人效果好,可以生成复杂的图像。

缺点:访问限制;没有API,不能直接和系统打通。;速率限制,单个用户一分钟一般只能生成一次。

效果图

BadCase

基本不太有,就是风格问题、角度问题等。

模型:通义万相

特性:易用性高;可扩展性高;成功率中等为10~50%

优点:内部产品;支持API接入;使用起来方便

缺点:真人场景下效果略微差一点,但是不是不能接受;算下来更贵一点,单张照片官网标记价格 0.16元一张。

效果图

BadCase

有时候脸会变形

模型:Stable Diffusion

特性:易用性低;可扩展性高;成功率低约为1%

优点:开源;允许定制模型和自己部署;经过调整后效果也可以达到非常好的地步。

缺点:使用难度大;提示词难调,好的效果需要花较多的时间;只能生成某一种类型的,一旦结合类目或者场景就会有比较大的问题。

效果图

其实效果也不太行。

BadCase

出现失败的概率还是比较高的。

模型:DALL·E

特性:DALLE3真人效果当前不太行,暂时忽略。DALLE2还原度有点差。

优点:支持API接入;能生成高分辨率的图像;提示词的还原度比较高

缺点:访问限制;在真人的效果上还是差点意思。

效果图

BadCase:在我们的场景下,在真实人物上上感觉都是bad case。

模型:堆友

特性:风格、尺寸、生成速度,和上面没有太明显的优势。

优点:内部产品;效果还可以,有一定的还原度

缺点:没有联系对应团队,官网上没有API;在结合具体类目的时候,也会变形;风格有限;尺寸有限

效果图

整体结论

  1. Midjourney在生成效果上表现最为出色,但其过程需要持续的人工参与,意味着较高的时间成本。

  2. 在万相和Stable Diffusion效果对比,万相效果更好,如果要做规模化考虑使用下万相

  3. SD在通用场景下效果比较差,但是SD模型提供了全面的定制能力。

基于各自的特色,概括如下

  仿真形象生成方案对比

如何让生成的图片要包含对应的人物特征,让用户的代入感更强。我们的算法同学调研不同的方案,数字分身以及换脸。大概效果如下

考虑到资源问题、以及背后的素材质量问题,走换脸的链路,用的也是主流的Roop模型。

  换背景方案 (测试中)

当前可用的就只有SD的Inpaiting方案,把人物扣出来,使用SemanticGuidedHumanMatting,然后进行背景的补充。因为背后的风格是生成的,提示词未必能涵盖到所有的场景,对输入的图片也要有一定的限制。结果上存在一定的不可控性

目前效果上还在探索,看以什么样的形态更合适。

一些限制

  1. 人不能占空间太小; 背景发挥的空间不要太大。

  2. 人手里不要拿东西,人物不要有一些物品依赖,比如沙发,坐着之类的,也会生成比较奇怪的内容。

  模型流程串联

可以看一下万相在一些场景上从生成到最终的效果

希望场景:行李箱 - 男-  机场

调整提示词:An Instagram-style portrait that serves as a luggage advertisement featuring a 20-year-old Chinese boy. He's sitting inside an airport with a suitcase next to him, holding a cup of coffee. The background is the airport, creating a high-end atmosphere. You can see the boy's complete face and facial features. He's posing dynamically and relaxed, creating a sophisticated composition, shot using a film camera, 8k

用通义万相随机生成四张照片。(提示词好的话,生成的成功率感觉还可以,效果大家可以评估下到底如何)

  1. 在淘宝客户端搜索【淘淘秀】

  2. 点击【淘淘秀】进入到对应的小程序。

  3. 开始我的代言,上传自己的照片

  4. 生成用户的代言照片

  5. 可以选择自己喜欢的代言照片发布到广场,也可以选择私密。

搜索【淘淘秀】

进入【淘淘秀】开始代言,传照片生成代言选择代言

在应用AIGC时遇到的一些问题与处理

问题1:模型在特定场景下生成效果不佳

方案引入外部的Midjourney,人工生产与导入。一些内部模型可以生成的,选择内部模型批量生成组合多个模型使用。

问题2:线上生成效果不稳定,资源消耗大。

方案:  离线生成,人工筛选。预先生成内容以减少资源消耗,并提高内容质量的一致性。

问题3:每部署一个模型,都要写一套TPP

方案:  利用vipserver进行模型匹配和调用,写一套模型调用的网关,结合限流和队列技术,平衡系统负载,提高部署效率。最开始以为只有TPP才能访问到模型部署的机器,后面发现知道IP之后,应用也可以直接调用模型的服务,就省去TPP这一层了。

问题4:  生成的内容后如何使用。

方案:  开发一些内容的配套工具,内容的导出,内容的检索(图片检索),内容标注,以满足不同场景需求。

在第一阶段,大约一个月的时间主要关注于开发和上线,未来还有一些可尝试的计划和想法

  1. 优化模型使用体验:后台体验和用户体验,当前只是确保具备对应的功能,但如何让管理人员介入进来更好的指导模型生产素材,还有很多体验优化可以做。 另外再用户侧的模型生成上,保证效果更好和更稳定。

  2. 自动化素材生成:看能否设定内容目标后,能利用模型自动化地生成内容,提升内容的规模和丰富性。

  3. 产品形态探索:从图片到视频,从图片到故事,或者配上音乐等等,有些形态看看是否要尝试,探索更有趣、更吸引人的产品形态。

跳出产品之外,一些预感即将会发生的,随着模型的性能以及效果变好之后,以后对专业的内容创作者依赖越来少,内容的生产效率越来越高。互联网上将会有越来越多的AI内容,针对每个人的个性化素材,解放人们的想象力...

当然内容过度也会有一定的影响,但最后肯定还是往好的方向发展。

最新文章
邀世界见证强农兴农新武器,北京数字农业与灌溉展全球首发新技术新产
  2025年3月31日-4月2日,润景智灌阀·第11届北京国际数字农业与灌溉技术博览会暨世界灌溉科技大会,将于北京·国家会议中心举行。展会面积达3万平方米,届时来自国内外800余家知名展商齐聚大会。同期举办第三届北京国际水利科技博览会。
百度广告位搜索词_百度广告搜索关键词大全
赢在广告少!必应取代百度成国内桌面搜索引擎第一可能的原因应该是微软必应在搜索结果展示页面上,会尽量减少广告的数量和干扰,只展示与用户搜索意图最相关的信息。此外,必应还会对搜索结果进行严格的质量和可信度审核,过滤掉那些虚假、
管理信息系统复习总结(保姆级)
1.管理信息系统的新变化: 信息技术创新新的业务模式电子商务扩张管理变革公司和组织变革 2.信息系统如何改变企业: ①新兴移动数字平台 ②利用信息系统来改善客户体验,相应客户需求,降低库存 ③在线报纸的读者人数在不
高清美女写真生成利器:探索搜狐简单AI的魅力与使用攻略
在当今这个数字化的时代,生成超逼真的美女写真不再是只有专业摄影师能够做到的事情。想象一下,急需一张高质量的美女写真,却又不想花费时间去寻找模特与拍摄场地,那么你可能会好奇,有没有什么简单又高效的工具可以助手你。其实,答案就
高清Windows免费版网站存在吗?如何安全获取并使用?
随着科技的不断发展,许多用户对于Windows操作系统的需求也日益增长。但有些人可能希望在网站上寻找高清的Windows免费版,以节省购买成本。那么,这样的网站真的存在吗?如何安全获取并使用呢?接下来将为你一一解答。目前网络上确实存在一
观察 | 内购流水2.5亿,这家北京厂商真的一发就爆
编译 | 手游那点事 | 欧苟12月3日,海彼的休闲新作《冒险者日记》正式在国内上线。该游戏将休闲玩法及RPG要素结合起来,以文字冒险的形式进行呈现,在游戏中,玩家将扮演一只水豚,与其他动物伙伴一起踏上冒险的旅途。截至目前,游戏稳居国
直通车关键词推广添加关键词_直通车关键词推广怎么设置关键词
ˋ^ˊ 拼多多直通车应该怎么开在所有的电商平台里就属拼多多的直通车最简单了。简单到什么程度呢?这样说吧,我刚把关键词自定义玩会,他就给我整下线了,留下我一个人在风中凌乱。好歹自定义还有点技术含量,你把这个砍掉了,未来只留一
网友亲身经历!恒泰福彩App是做任务诈骗软件!被骗提现不了怎么办
恒泰福彩App是做任务诈骗软件!被骗提现不了怎么办技术出嘿《溦:9836356》(一)希望阅读此文的读者能够及时采取措施以减少损失;请及时与团队联系提供解决方案(文章下面图片有咨询方式)若想追回损失资产,务必仔细阅读以下内容。【JFHHERYE
骶骨骨折司法鉴定等级是几级,能享受什么待遇
  一、申请仲裁时效  劳动争议申请仲裁的时效期间为一年。仲裁时效期间从当事人知道或者应当知道其权利被侵害之日起计算。  二、申请仲裁提交的材料  (一)申请人是劳动者的,请提交下列材料:  (1)《劳动仲裁申请书》(详细陈述申
详细分析搜狗SEO优化步骤,助力网站提升搜索引擎排名
随着互联网的快速发展,搜索引擎(SEO)已成为企业网站提升在线曝光度、吸引潜在客户的重要手段。在我国,搜狗作为领先的搜索引擎之一,其SEO优化策略备受关注。本文将深入解析搜狗SEO优化策略,为网站优化提供有益参考。一、布局1. 关键词
相关文章
推荐文章
发表评论
0评