LOADING

Black Forest Labs,发布 FLUX.1 Kontext 全新图像生成模型。

Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs 刚刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。

Black Forest Labs,发布 FLUX.1 Kontext 全新图像生成模型。

Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs(黑暗森林实验室,简称 BFL)刚刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。此模型不仅能够生成和编辑照片,还允许用户添加文本及其他图像以实现内容修改。

该公司在 X 上发文称:“今天我们正式发布 FLUX.1 Kontext——一款生成流匹配模型,可用于图像生成和编辑。与传统的文生图模型不同,Kontext 能够同时将文本和图像作为输入,从而实现真正基于上下文的生成和编辑能力。”

Black Forest Labs,发布 FLUX.1 Kontext 全新图像生成模型。

BFL 公司联合创始人兼 CEO Robin Rombach 表示:“FLUX.1 Kontext 通过将图像生成和编辑统一在一个流匹配架构中,代表了对传统编辑方法的根本性转变。通过简单的流匹配训练,我们实现了跨多轮编辑的顶尖字符一致性,同时在 1MP 分辨率下保持了 3~5 秒的交互式推理速度。这实现了真正的迭代式创意工作流程,而这在以前由于视觉漂移和延迟限制而无法实现。”

该公司还公布了全新的 BFL Playground,供用户在正式引入企业级应用流程之前对 BFL 模型进行测试。

BFL 为该模型发布了两个版本:FLUX.1 Kontext [pro] 和 FLUX.1 Kontext  [max]。第三个版本 FLUX.1 Kontext [dev] 也即将开放内测。Pro 版和 Max 版目前已经在 KreaAI、Freepik、Lightricks、OpenArt 以及 LeonardoAI 等平台上线。这些模型将帮助企业创意团队及其他开发者获得更精准、更快速的图像编辑能力。

FLUX.1 Kontext 能够执行基于上下文的生成,也就是说该模型可以根据收到的参考图像或场景输出新内容,不必让一切从零开始。

该公司在 X 上发帖表示,Kontext 的四大“特殊之处”包括:

  • 角色一致性与跨场景元素保留能力;
  • 可“针对特定部分且不影响其他部分”进行局部编辑;
  • 使用获得的样式作为参考,生成相同风格的场景;
  • 极低的输出延迟。

开发者可以在访问完整的 BFL API 之前,先在 BFL Playground 上测试用例并试用该模型。

BFL 公司什么来头? 

这家德国初创公司于去年 8 月正式亮相,联合创始人兼 CEO Robin Rombach 在人工智能领域拥有多年经验,他是参与构建 Stable Diffusion 的几位关键工程师之一,这家创业公司现已迅速成为欧洲最受关注的公司之一。

BFL 目前已获得 General Catalyst 和 Andreessen Horowitz 等硅谷知名风投公司的投资,其专利 AI 模型也位居下载排行榜榜首。

Rombach 在攻读计算机科学博士学位之前曾在海德堡大学学习物理学,他被认为是文本转图像模型的早期设计者之一。

他与一小群专注于生成式深度学习模型(尤其是文本转图像系统)的研究人员合作。该团队的成员包括帕特里克·埃瑟 (Patrick Esser),他后来成为黑森林实验室 (Black Forest Labs) 的联合创始人。

“我们在一个很小的实验室里一起工作,”Rombach 在去年年底的创业会议 Slush 上对观众说,并将他们的设置描述为“资源超级受限”,只有几个小型 GPU 来训练人工智能。

这并没有阻止他们的雄心:“我们希望与谷歌和英伟达等大型机构制造的最先进的模型竞争,”他在会议上说。

雄心勃勃的愿望和有限的资源促使 Rombach 和 Esser 开发出“潜在生成模型”,这种模型可以压缩图像中难以察觉的细节,这意味着它们可以以更高的效率工作。

Black Forest Labs,发布 FLUX.1 Kontext 全新图像生成模型。

Rombach 在 2023 年的 Big Techday 会议上展示了潜在空间模型。图片:Big Techday/ Youtube。

2021 年,Rombach 和他的研究团队搬到了慕尼黑路德维希·马克西米利安大学。一年后,他担任了伦敦初创公司 Stability AI 的领导职务,该公司将 Rombach 团队开发的技术商业化,并将其作为文本转图像模型 Stable Diffusion 发布。

然而,尽管 Stability 的技术备受瞩目,但该公司很快就陷入了困境。外媒 Sifted 看到的一份泄露的融资方案引发了人们对 Stability 夸大其 AI 能力的质疑,并被指控未能按时支付员工工资和税款,但创始人 Emad Mostaque 否认了这些指控。

2024 年 3 月,在经历了特别动荡的 12 个月之后,Stability 更换了首席技术官,失去了一名产品副总裁、一名工程副总裁、一名研发副总裁和一名研究主管,Rombach 也在那时离开了这家陷入困境的公司

随后去年 8 月,黑暗森林实验室(Black Forest Labs)正式成立。

Rombach 成功说服了十几位 Stability AI 的前同事加入这家公司。公司十位联合创始人中有五位来自 Stability AI:Andreas Blattmann、Jonas Julius Müller、Sumith Kulal、Tim Dockhorn 和 Axel Sauer。他还招募了 Northzone 前投资者 Sarah Nöckel 担任幕僚长,以及一大批技术人才。

根据领英数据,Black Forest Labs 目前拥有 30 名员工,其中 12 名来自 Stability AI。该公司目前正在德国和美国招聘 6 个技术职位,包括一名图像 / 视频研究员和一名图像 / 视频数据工程师,所有职位均完全远程办公

成功参与 Black Forest 3100 万美元种子轮融资的风险投资家们对 Rombach 赞不绝口。

General Catalyst 的 Viet Le 表示:“如果你询问图像生成领域的任何人,无论是美国的 Midjourney 还是其他任何人,每个人都会认出来自德国南部的 Robin Rombach。”

两款新模型发布:Pro 和 Max 

此次,Robin Rombach 带领的团队又带来了两款新模型:FLUX.1 Kontext [pro] 和 FLUX.1 Kontext [max]。

这两款模型都能做什么?

企业可以使用 Pro 版进行快速迭代编辑。用户期间可输入文本及参考图像,并进行局部编辑。该公司表示,Kontext [pro] 的运行速度“较以往最先进的模型快了一个数量级”,而且是首批允许多轮编辑的模型之一。

另一个模型,FLUX.1 Kontext [max] 则是速度同样较快且性能最强的版本。该公司表示,它能更严格地遵循提示词、输出内容更易于阅读,而且在不影响速度的前提下在编辑过程中保持一致性。

当然,不少其他图像生成模型也可以根据上传的文件生成照片。MidJourney 的 AI 图像编辑器就能使用参考图片,再对其中的特定区域进行编辑。Adobe 的 Firefly 同样如此,目前不少使用 Adobe 热门图像和视频平台的用户都能随时访问。

至于作为 Kontext 模型家族的第三个版本,FLUX.1 Kontext [dev] 则是一款拥有 12B 参数的开放权重模型。

BFL 还专门强调,FLUX.1 Kontext 是一款流模型,因此能够更灵活地完成上述任务。

所谓流模型(flow model)会从连续的数据流中学习,并在噪声数据和有用信息之间定义出一条路径。也就是说,其基本思路就与 Stability AI、MidJourney 乃至 OpenAI Sora 等众多图像与视频生成模型所依赖的 Diffussion 模型(能够对数据进行「去噪」)完全不同

BFL 在一篇博文中指出,Kontext 模型代表着流模型的又一次进步。

该公司解释称,“FLUX.1 Kontext 模型超越了文生图的范畴。与之前仅支持利用纯文本生成图像的流模型不同,FLUX.1 Kontext 模型还能理解获得的图像并据此创作。使用 FLUX.1 Kontext,您可以通过简单的文本指令修改输入图像,从而实现灵活且即时的图像编辑能力——无需进行微调或者面临复杂的编辑流程。”

在文生图基准测试中,BFL 宣称 FLUX.1 Kontext 模型在美观度、提示词遵循性、真实感和内容排版方面足以与其他顶尖模型相媲美。

Black Forest Labs,发布 FLUX.1 Kontext 全新图像生成模型。

外界评价如何? 

BFL 于去年 10 月发布了文生图模型 Flux 1.1 Pro。其中还包含一个 API,可供第三方开发者将其集成到自己的应用当中。

在 BFL Playground 的支持下,已经有部分用户开始试用 Kontext 模型并给出了相当不俗的评价。

在 X 平台,好用户表示:“有一说一,使用 @bfl ml FLUX.1 Kontext 在 10 秒不到的时间里就能根据旧图生成头像或者编辑特定内容,这着实令人惊叹。这些是我在 @replicate 上使用的职业头像——虽然还不完美,但已经几可乱真(左侧为实拍图)。”

Black Forest Labs,发布 FLUX.1 Kontext 全新图像生成模型。

还有手快的用户,已经开始尝试了,并被新模型的表现惊艳到。

Black Forest Labs,发布 FLUX.1 Kontext 全新图像生成模型。

有网友试用了图像编辑功能,效果也让人很满意。

还有网友表示,“Kontext 在图像编辑方面非常出色。它可以实现像素级的完美图像编辑,这是其他图像模型无法做到的。”

提示词是:“把一条小绿龙放在他的肩膀上。”

Black Forest Labs,发布 FLUX.1 Kontext 全新图像生成模型。

当然,FLUX.1 Kontext 还须面对与其他现有先进图像模型的竞争,特别是那些已经诞生数年且仍在不断改进的“老前辈”。至于最终谁更胜一筹,我们将拭目以待!

© 版权声明

相关文章