AI | 开源AI绘画·王者现身
前几天AI绘画界发生了一件大事,FLUX开源了。这几天有一张AI的图刷屏了,就是下面这幅。
前几天AI绘画界发生了一件大事,FLUX开源了。这几天有一张AI的图刷屏了,就是下面这幅。

所有的AI设计工具,模型和插件,都已经整理好了,👇获取~
这张“照片”就是FLUX生成的,用到了一个专门的Realism LoRA,然后一时间网友们纷纷效仿,坊间立刻充斥了各种“讲PPT的人”,比如这个。

(图片来源于网络)
真假难辨吧,虽然其实不少细节仔细辨认的话还是能找到AI生成的痕迹的,不过,咋一看确实很唬人。
FLUX是啥?开源的AI绘画模型最有名的自然是Stable Diffusion,出品它的公司叫Stablity AI,这家公司曾经的首席科学家辞职后自己又搞了一个AI绘画的模型,就叫FLUX。现在FLUX也开源了。
Stable Diffusion 3 Medium开源后,骂声一片,虽然语义理解很强大,但在艺术性…唉,不提也罢,甚至基本的人体结构也问题多多,然后就像奥运比赛中国队的跳水一样,没溅起啥水花就销声匿迹了。反观这次FLUX的开源发布,短短的时间内便掀起一浪又一浪的高潮,而且人家对标的根本不是SD,而是一向被作为画质标杆的MJ。
有人就对比了FLUX和MJ,摘抄一些大家评价一下。




(以上四组图片来源于网络,有剪裁)
如何?我特意事先没有说左边和右边的图是哪个AI模型生成的。这四组对比图,左边都是由FLUX生成的,右边是MJ。
不知道大家的看法如何。我个人感觉,还是MJ的艺术性更多一丢丢,不过都属于主管感受,其实已经分不太出谁好谁坏,如果一定要分,只能是萝卜白菜各有所爱了。
目前能引起大家热议的图基本都是FLUX pro生成的。FLUX pro现在还只能以API的形式在线申请使用。不过FLUX还有其它两个版本可以把模型下载下来部署到本地,这就是FLUX dev版和FLUX schnell版。那么这些可以独立在本地运行的AI绘画表现又如何呢?
下面这些都是FLUX dev生成的图。





(以上六幅图片来源于网络)
怎么样,还不错吧。其实最关键的是,上面这六幅图是在Draw Things APP里生成的,为什么非要提一下这个Draw Things呢。要知道FLUX dev虽然可以运行在本地电脑,但对硬件的要求是很高的,没有个大显存的英伟达显卡的话,嘿嘿,可能根本就跑不起来。但是,Draw Things的作者却能够不仅把FLUX dev集成进来,而且把运行时的峰值内存控制在6.5G左右,这就使得一台8G内存的苹果设备就可以运行FLUX,这实在是我们这些没有4090卡的AI绘画爱好者的福音啊o(▽)o
当然,用相对低配置的设备来跑FLUX dev的代价就是生成时间比较慢。

上面这幅图是我用自己的设备生成的,提示词是抄别人的,就是上面那幅踩着滑板的图的提示词。
硬件:iPad pro 第六代,M2芯片,16G运行内存
软件:Draw Things APP,FLUX.1 dev版
图片尺寸:768 x 1152
提示词:(ultra-realistic, photograghic, natural look) pretty Chinese woman standing on a skateboard
Step:20
Shift:2.83 (这个参数需用公式根据图片尺寸算出)
CFG: 2.0
采样器:Euler A Trailing
(上面黑体字的参数是关键参数)
用时将近11分钟,呃… 确实有点慢…
不是还有一个FLUX schnell版也可以下载到本地运行吗,是的,具体技术细节我也不太懂,不过这个版本的一大好处是只需2~4步就可以生成一幅图,而且画质可接受。步数少,生成用时就大大缩短。
下面这幅图就是FLUX schnell版生成,需要特别注意的参数配置是:
Step:4
Shift:1.0
CFG:1.0
生成这幅图的用时是2分钟,时间缩短了不少,画质还可以,关键是也很符合提词描述。
作为对比,来看看SD3 Medium的表现。

SD3 Medium用时也是2分钟左右,不过画质很一般,而且吧,都说SD3 Medium画人体结构不灵,这滑板结构看来也是画不好啊(_😉,好在对提词的语义理解还是一直很稳定的,这一点没得说,在FLUX没出来之前,开源的AI绘画模型语义理解的王者肯定非SD3 Medium莫属,可惜FLUX开源后,基本上就让位给FLUX了,再加上FLUX的高画质… 真是替Stability AI公司捏把汗啊(−_−#)
下面找了几个主题把FLUX开源的两个模型跟我之前常用的模型做个简单的比较。参与比较的模型是xxmixgirl_realistic、Kwai Kolors。
xxmixgirl_realistic不用多说了,之前用的最多的模型,号称“最美亚洲人脸”。Kwai Kolors,快手出品的“可图”绘画大模型,最大的优势是可以支持中文提示词,可以中文直出,而且近期试用过一段时间后感觉画质也很出众,人脸也比较美(_😉,在我看来算是基于SDXL模型优化出来的最强模型。
对比的原则是使用相同的提示词出图,各自生成4到20张图不等,从中选出2至4幅进行对比,所有图都是考验照片写实能力,并且不进行任何修脸等后期操作。xxmixgirl和Kolors应用4-step LoRA以缩短生图时间,基本上可以从2分半钟缩短到半分钟一幅图。而FLUX schnell生成一张图4步的话用时2分钟左右。FLUX dev版最慢,一张图11分钟。
开始。
1)酒吧里带枪的女子
提示词:
(Ultra-realistic, photographic, natural look), A Chinese girl sitting beside a table in a dim bar, she is wearing a tank top, there is a Glock pistol on the table, some money and bullets as well, she is looking at you expressionlessly
xxmixgirl
讲真,用xxmixgirl生成了好多图,基本都没出现手枪,我都震惊了,只有一张出现了手里拿着手枪,手还是畸形…(_😉
Kolors

生成的图里,很多手枪都是变形的,要么是太大,要么是枪把太短,手部畸形的情况也比较多,不过整体氛围还挺像那么回事的。
FLUX schnell

目前我看到的对FLUX schnell最多的诟病就是人物皮肤的塑料感,从上面四幅图也可见一斑,不过对提词的语义理解确实很厉害,除了上面这4幅,其它生成的每一张图里都严格出现了提示词做描述的内容。
FLUX dev

FLUX dev的语义理解跟schnell版应该是一样的,没得说,很厉害,画质方面比schell版更真实,反正我是更喜欢dev版的图,只是出图时间是真的慢(_😉
2)骑摩托瞄准的女子
提示词:
Ultra-realistic, photographic, natural look),a Chinese girl riding a motorcycle in woods, she is wearing leather jacket and pants and aiming at a target with a pistol in her right hand.
xxmixgirl

很难得到满意的效果,生成了二三十幅图里大多只是表达出骑摩托,好不容易生成个拿枪的,结果摩托又丢了…
Kolors

可图的图其实还蛮好看的(^_-),而且多数都能按要求出现至少是拿着枪的画面,只不过很多时候拿枪的手会出现畸形的情况。
FLUX schnell

FLUX schnell基本都能严格按提示词要求生成画面,而且手部也基本上没有大毛病,也算是不小的突破了。
FLUX dev

没话说,看图就够了,FLUX dev在我的设备上11分钟出一张图也值得等待。
3)劳拉快跑
提示词:
(Ultra-realistic, photographic, natural look), Tomb raider Lara Croft riding a motorcycle and chased by a Tyrannosaurus rex in rain forest. In the near distance there is a ruin of ancient temple.
xxmixgirl

还别说,这个主题xxmixgirl生成图构图还不错,很有压迫感。
Kolors

Kolors这次对提词的理解突然上了个台阶啊o(▽)o,各个要素都表现出来了。
FLUX schnell

没毛病,人脸小所以不能细看,这种情况需要放大修脸才行。
FLUX dev

看图就好,我没话说。
对比先到这里,关于文字直出我也测试了一下。看下面这几张图。




这四张图是FLUX dev生成的,无论是墙上的字还是衣服胸前的字都可以比较稳定的输出,极少出现不成功的情况。而且,上面两副拿枪的女子,我提词是指定了“中等长度的直发以及绿色背心碎花裙子”,都完美地表现出来了。
其它的测试比如说画面空间感的测试我没有测,网上看到别人做过,比如三个瓶子,左边装红色液体,中间装蓝色液体什么之类的……,都没有问题。
结论应该比较明显了。刚刚开源不久的FLUX不愧是目前开源AI绘画模型的王者。
唯一的问题就是,太慢了(_😉
话说现在有个挺火的电视剧叫《唐朝诡事录》,我用FLUX dev生成图片时,一张图11分钟,等待的时候也没闲着,旁边就播放着《唐诡》看。好家伙,不知不觉几天下来,40集的《唐诡》已经看完了o(▽)o 哈哈哈哈哈哈
这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。
有需要的朋友,可以点击下方免费领取!
AIGC所有方向的学习路线思维导图
这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了:
AIGC工具库
AIGC工具库是一个利用人工智能技术来生成应用程序的代码和内容的工具集合,通过使用AIGC工具库,能更加快速,准确的辅助我们学习AIGC
有需要的朋友,可以点击下方卡片免费领取!
精品AIGC学习书籍手册
书籍阅读永不过时,阅读AIGC经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验,结合自身案例融会贯通。

AI绘画视频合集
我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,科学有趣才能更方便的学习下去。

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)