分享好友 最新动态首页 最新动态分类 切换频道
豆包生成汉字,不是神秘的技术,而是好产品
2024-12-27 10:56

作者 | Yoky
邮箱 | yokyliu@pingwest.com

豆包生成汉字,不是神秘的技术,而是好产品

为了一张带中文的AI海报,设计圈最近有点躁动。

在此之前,设计师们或许并不把AI生图当回事。毕竟Midjourney和Stable Diffusion虽然能画出精美绝伦的画面,但一碰到中文就歪歪扭扭、惨不忍睹。

12月初,豆包和即梦在移动端悄然上线了一项新功能:能够生成带有工整中文字体的图片。一时间,朋友圈被各种AI制作的四格漫画、产品海报、电影海报刷屏。

从前动辄几百元一张的设计费,如今可能真的要被免费的豆包取代了?

硅星人经过多轮测试发现,虽然偶尔还会出现中文乱码的情况,但在生成的四张图中,至少有三张都能达到使用标准。这个成功率,已经远超此前任何一款AI设计工具。

那么问题来了:为什么此前AI难以实现可控的汉字生成?技术难点究竟在哪?豆包是如何攻克这些挑战的?它背后的技术逻辑是什么?

1

打通LLM和DIT

对于这个技术的实现过程,豆包团队比较低调,他们表示:这次更新并不是什么重大的技术突破,更多是在现有技术框架上的细节优化。

在为数不多的公开资料中,豆包大模型团队相关负责人简要介绍了他们的技术方案:豆包文生图模型通过打通LLM和DIT架构,具备更好的原生中文数据学习能力,并在此基础上强化了汉字生成能力,大幅提升了生成效果。

在深入研究相关论文并咨询多位算法工程师后,我们发现在当前AI技术发展的背景下,文字生成确实已经有了相当成熟的技术基础。

早在豆包之前,斯坦福大学开发的ControlNet框架就实现了英文字海报的生成能力。今年2月,阿里通义团队更是在魔搭平台上线了功能更为强大的AnyText模型,不仅支持中文、日文、韩文等多语言文字的生成,还能精确修改已有图片中的文字内容。

从技术原理来看,这个突破并不令人意外。文字本质上也是一种特殊的图形符号。如果DIT能够准确生成一只花瓶的图像,那么生成“花瓶”这两个字在技术原理上并无本质区别。

关键在于如何让系统理解和处理用户的输入需求。

这就是大语言模型(LLM)发挥作用的地方。当用户输入提示词(Prompt)时,LLM需要准确解析内容,判断哪些部分应该以图像形式呈现,哪些部分需要直接生成文字。这个过程涉及复杂的语义理解和意图识别。

也就是说,LLM负责深层语义理解和文本表达,确保准确理解用户意图;DIT则处理双模态输入和特征交互,将语义信息转化为视觉呈现。两个模型之间通过特征融合实现无缝对接,完成从语义到视觉的精准映射。

当然,汉字相比于英文字符,其本身的复杂性更高。难度具体体现在这几个方面:大多数生成模型使用英文数据集做理解训练,缺乏中文语料;英文只有26个字母,而中文字符有数万个,且结构、笔画、字体复杂;其次是中文排版有独特的规则和美学要求,横竖排又需要灵活变化,来保证整体的视觉效果。

即便排除了国外模型“水土不服”的因素,国内的AI模型在处理中文生成时也常常面临精确度不足的问题。生成出的汉字可能笔画残缺、结构变形,或者在排版上显得生硬呆板,缺乏自然美感。这也解释了为什么真正实现高质量的中文生成,需要在技术细节上作出大量优化和改进。

精准的保证可控和一致性,才是技术上的一个难题。从目前的技术发展来看,已经形成了几种不同的解决方案。

豆包团队选择了优化现有框架的路径。比如豆包在ECCV中发布了新的ControlNet++框架,主要解决了传统ControlNet在条件控制一致性方面的不足。

他们提出了一个高效的奖励策略:通过对输入图像添加噪声来扰动一致性,并采用单步去噪图像进行奖励微调。这种方案巧妙地避免了多步采样带来的时间和内存开销,在技术指标上取得了显著提升:准确性提高11.1%,结构相似性提升13.4%,误差值降低7.6%。

而阿里通义团队则采取了一种更为传统但同样有效的方案。他们没有依赖大语言模型,而是基于OCR技术构建了名为AnyWord-3M的庞大数据集,包含超过300万张图片、900万行文字、2000万个字符。通过严格的数据筛选和精细的后处理,同样实现了高质量的文字生成和修改功能。

总的来说,精确生成汉字并非只有单一解决方案,技术上正在推进接近100%精准度。

1

重点在于“可商用”

此前在技术层面实现的中文文字生成能力,都并未在市场上引起太大波澜。

当我们将豆包生成的海报与此前的作品进行对比,最显著的差异并非技术水平,而在于是否可商用。这种差异背后,是结合了字节对市场需求和商业环境判断后的结果。

在中国的商业环境中,字体版权保护已经形成了一个相对成熟的生态体系。主流商业字体库普遍采用付费授权模式,这使得AI字体生成技术在商业化过程中必须格外谨慎。从训练数据的来源合规性,到生成结果的版权审核,再到可能的侵权风险评估,每一个环节都需要严格把控。

一位资深算法工程师对我们分析道:“技术实现其实并不是最大的挑战。真正的难点在于如何确保整个生成过程符合版权法规,如何避免潜在的侵权风险。这需要我们在技术实现的基础上,建立一整套完善的版权管理机制。需要平衡技术创新与版权保护、商业利益与法律合规、市场推广与风险控制等方面。”

虽然市面上确实存在一些免费字体库,但与庞大的商业字体体系相比,这些免费资源只是一小部分。更关键的是,在追求精致视觉效果的商业设计领域,免费字体往往难以满足专业需求。

如果仅仅依靠免费字体资源进行训练,很难达到市场对视觉美感的严苛要求;而如果要获取优质的商业字体资源,则必须面对复杂的版权问题和高昂的授权成本。这也是为什么即便技术本身并不复杂,但真实的落地情况却没有遍地开花。

一位数据源供应商分析到:“看AnyText的生成结果,就能感受到数据集中大部分都是免费字体库,OCR识别的图集可能也是公用数据,而豆包的生成结果有很多商业字体甚至是设计师自创的字体,这种数据源的差异,直接决定了最终产品的美感和商业价值。”

然而,更深层的区别在于产品定位。AnyText作为一款模型插件,与豆包这样深度整合在移动端的产品相比,在使用场景和用户体验上存在天然差异。当我们追问为何国内鲜见类似产品时,一位算法工程师的反问令人深思:“国内有哪家是在认真做文生图产品么?”

确实,纵观国内AI领域,专注于文生图的独立产品寥寥无几。大多数企业将图像生成视为服务于视频生成的过渡功能,或是更大生态中的一个组件。可图被整合进可灵,即梦也在向视频生成方向倾斜。

或许技术创新只是起点。一个功能的实现往往需要过硬的技术实力、清晰的产品定位、成熟的商业模式,能否找准市场需求、打磨产品体验,往往成了比技术更关键的一块拼图。

最新文章
Typecho 如何安装主题和插件
Typecho的主题和插件都安装在Typecho的目录下,这个不是主机根目录的,是Typecho本身文件夹根目录下的。里面有两个文件夹,存放插件,存放主题,每一个单独的插件或者主题都是一个文件夹,里面应该要有。可以下主题和插件的站点非常多,我
用AI生成PPT、用AI优化PPT
百度李厂长在百度世界大会上说百度文库的智能生成PPT功能能力远超国内外产品。我在前几天写过相关文章,当时我在文中引用的是百度AI对话的PPT生成插件,我对这个插件生成的PPT的评价不高,但是在体验了百度文库的智能PPT功能后,有种“识别
如何顺利下载漫蛙漫画官方入口2并享受最佳漫画体验:详细指南
随着互联网和移动设备的普及,越来越多的用户选择通过手机或平板来阅读漫画。在众多漫画平台中,漫蛙漫画凭借其丰富的资源和用户友好的界面,成为了漫画爱好者的重要选择。而对于许多新用户来说,找到漫蛙漫画的官方入口并顺利下载安装,是
长江远古时期并不是向东流,而是南流通过澜沧江,流入印度洋
在这长达50万年的时光长河中,长江如一位千古飘泊的旅人,自唐古拉山脉各拉丹东峰发源,蜿蜒流经八省二市一区,终至上海入海口。这江河曾有过一段不同寻常的历史,一段与云南绥江县、横断山区、丽江石鼓镇密切相关的过往。云南,是长江南流
【AceWiFi万能钥匙下载】HTC AceWiFi万能钥匙5.1.02免费下载
下载WiFi万能钥匙,认准官方正版!免费安全WiFi热点,无忧一键连接。日常任务随时做,轻松赚现金外快~【积分赚钱】完成简单日常任务,轻轻松松赚现金【安全免费】随时随地免费连接,畅享安全免费WiFi,节省流量快人一步!【权威认证】通过
讯飞星火V4.0整体超越GPT-4 Turbo,8个国际权威测试集测评第一
6月27日,科大讯飞在北京发布讯飞星火大模型V4.0及相关落地应用。讯飞星火V4.0七大核心能力全面提升,整体超越GPT-4 Turbo,在8个国际主流测试集中排名第一,国内大模型全面领先。讯飞星火APP/Desk全新升级,发布“个人空间”,打造更懂你
Painter2024最新版怎么设置画笔平滑度
Painter2024最新版是一款小巧、实用、操作简单,便携的绘画工具应用。又名Infinite Painter、无限绘画。它集绘画,素描和说明为一身的同时,还运用了最先进的平板电脑绘画引擎以及高级笔刷感应,让该应用在手机绘画领域上获得质的飞跃,在
谷歌地图2024高清卫星地图手机版
对于经常需要出行、旅游的用户来说,一款好用的出行软件必不可少,但是关于市面上关于地图导航的软件很多,小编也是极力推荐大家使用谷歌地图2024高清卫星地图手机版,英文名称也叫Google 地图。作为非常好用的手机智能导航软件,其功能可
三星GT-N8000 官方五件套 原厂线刷包 解锁救砖 版本:MID-N8000XXUDNH2
三星 一、解BL锁(三星部分新型号需要解锁BL才能刷机,如G9250/G9200/N7100/A7000/A5000等,刷机包内对需要解锁的型号都附带解锁APK与详细的解BL教程,按教程操作即可,如不开机刷国行五件套即可)二、驱动安装按电脑系统选择安装三、开始刷
易直播足迹app官方版下载
易直播足迹app官方版下载一款非常受欢迎的手机直播平台。易直播足迹app官方版提供了一种便捷的方式,让用户轻松地分享自己的生活或内容,并实时与观众进行互动。易直播足迹app官方版通常提供了丰富的功能和工具,使用户可以直播各种内容,
相关文章
推荐文章
发表评论
0评