点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
一水 发自 凹非寺转载自:量子位(QbitAI)
一夜之间,名为“red_panda” (小熊猫)的神秘文生图模型狠狠火了!!
登顶文生图竞技场,直接将Flux、Midjourney等一众顶尖模型踩在脚下——
其ELO得分比Flux 1.1 Pro高出100多,胜率高达79%,每7秒就能生成一张图像。生成效果be like:
啥概念呢?按网友的话说,这家伙搁这跳级呢!
这与从Flux 1 schnell到Flux 1.1 Pro的跳跃相同
除了强得可怕,red_panda由于无人认领,更是引发大家伙好奇心,各种猜测都有:
鉴于生成质量过好,很可能是传说中的Midjourney V7或中杯Stable Diffusion 3.5;
可能是OpenAI的DALL-E 4,因为Anthropic前员工在图片后缀里发现了OpenAI;
也可能是Mistral AI的新模型,理由是在未公布的测试版中发现了相似名称“Pandragon”;
或者来自Recraft文生图模型,因为它们曾使用小熊猫战士作为默认矢量提示;
……
值得一提的是,有一些人猜测它可能出自中国厂商之手。
不过你还真别说,一看这既red又panda的名称logo,中国味儿实在过于浓了。
众说纷纭里,一位工程师小哥更是莫名被cue,网友:
@felix_red_panda,是你吗?
笑死,谁让你头像名称都很像~
red_panda真的有这么强吗?量子位这就实测一下。
需要提醒的是,由于red_panda现身不久,因此目前只能在竞技场进行体验。
规则也很简单,随机两个匿名模型pk,用户只需选出最喜欢、觉得更符合提示词的图片就行。
下面我们直接展示捉到的red_panda,与其他模型的同题对比,直观看看效果。
第1关:SD 3 Medium(√) VS red_panda
A 3D render of an ancient artfact,intricately detailed and realistically textured,as if just unearthed.(一个古代文物的3D渲染图,细节错综复杂,纹理逼真,仿佛刚刚出土。)
第2关:red_panda VS SD 3.5 Large(√)
An elaborate Gothic cathedral with flying buttresses, stained glass windows, and a bell tower.(一幅精致的哥特式大教堂的图像,拥有飞扶壁、彩色玻璃窗和钟楼。)
第3关:red_panda VS Flux.1 [dev](√)
An image of a financial advisor discussing investment strategies with a young couple in a modern office, emphasizing financial planning and long-term wealth management.(一张图片,展示了一位金融顾问在现代办公室里与一对年轻夫妇讨论投资策略,强调财务规划和长期财富管理。)
第4关:red_panda(√) VS neptune_next
Antarctic cruise ship poster.(南极游轮海报)
第5关:red_panda(√) VS Flux.1 [schnell]
A vintage, art nouveau-inspired perfume bottle with an elegant, curved design and an ornate, floral label reading “Essence of Elegance”, created as a 3D product render.(一个复古风格的、受新艺术运动启发的香水瓶,拥有优雅的曲线设计和装饰华丽的花卉标签,上面写着“优雅精华”,作为一个3D产品渲染图被创造出来。)
试玩结束,单从5局结果来看,神秘模型red_panda倒是没有想象中的压倒性胜利。
不过也可能是个人审美原因:
感兴趣的朋友也可以去试试,看谁运气好能随机匹配上red_panda。(扩大样本招数有doge)
好的,现在问题同样来了:red_panda哪来的??
大部分人第一反应都是中国,理由也很直白:一是看起来就很china,二是国内目前在视频生成方面大有赶超之势,顺手做一个文生图模型也很正常。
几乎没有什么比这个名字更中国的了……
点名快手、字节、Minimax等,当你看到他们如何统治AI视频时,就知道它更有可能是一家在生成人工智能方面已经拥有丰富经验的公司的中国模型代号。
除了国内大厂,另一呼声来自Midjourney V7。
Midjourney于8月1日发布了v 6.1版本,且官方一直透露正在测试V7,所以很多人猜测Midjourney有偷偷提前测试的可能。(匿名竞技场测试,很熟悉的配方了)
还有人猜测是中杯Stable Diffusion 3.5,这是Stability AI上周发布的模型型号之一,拥有25亿参数,采用改进的MMDiT-X架构和训练方法,能够生成分辨率在0.25~2百万像素之间的图像。
难道是换个马甲来竞技场试试水?
除此之外,相对靠谱的猜测来自Anthropic前员工,“Dalle 4 = Red Panda”。
他提供的证据如下,一张由DALL-E生成的图片命名中带有相关字符串。
不过也有网友出来反驳了,也许panda只是出于索引原因随机插入的?
更有人表示,OpenAI没必要再搞DALL-E,GPT-4o已经够用了,而且命名风格也和OpenAI不符~
除了OpenAI,法国开源模型公司Mistral AI也榜上有名,不过这个比较牵强,只是因为名称相似。
本月早些时候,有消息称该公司正在测试新模型“Pandragon”,可能具有图像生成和网络搜索功能。
所以,没准是这个还未现身的测试模型~
不过当时也透露,Pandragon的图像生成功能可能会由黑森林实验室的Flux提供支持。
由此也引出“red_panda”很可能来自Flux的传闻:
好家伙,如果属实,这算是自己打败自己吗?(doge)
BTW,截至发稿前,虽然red_panda仍占据榜首,但它和后位选手的差距貌似正逐渐缩小。
且让我等继续观望,顺便等个认领。
竞技场地址:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
参考链接:[1]https://x.com/deedydas/status/1850680875832496577[2]https://x.com/ArtificialAnlys/status/1850587843837771900[3]https://www.testingcatalog.com/mistral-ai-prepares-to-release-new-pandragon-model-with-advanced-features/
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
CVPR 2024 论文和代码下载
Mamba、多模态和扩散模型交流群成立