Midjourney V6昨天下午突然发布了!Midjourney V6昨天下午突然发布了!
虽然事先宣布过会在这两天内推出,但没人料到Midjourney的发布速度竟然如此之快,还赶在圣诞节前让大家来个意外惊喜。
在/settings的下拉菜单中选择V6,或者在Prompt后输入 --v 6,就可以用上V6 Beta版模型了!
中文版使用:
激动的网友们蜂拥而入,出炉了一大波测评。比起V5,V6真的是疯狂加细节,画面质量史诗级增强。
根据MJ官方介绍,V6的主要变化在于图像质量更优、语义理解更强、可嵌入英文单词、并且支持更多的token。
比如下面这两张超人和蝙蝠侠的“剧照”,如果不是背景里提示着“V6 is here”,几乎已经分辨不出来到底是真实拍摄还是由AI生成的了。
除了图像模型的大提升之外,V6最大的变化,就在于提示词系统几乎重做了。
用户很可能需要重新学习如何编写提示词,尽量避免过去那种“语焉不详的描述”,比如像“award winning”这样的形容词。
在以前,模型无法完全理解提示词的要求,因此过于详细的描述也没什么用。但是升级之后,图片会尽可能地符合提示词中的每个词,所以用户也要珍惜提示词的空间,尽可能详细地描述自己想要的内容。
总而言之,就是“只要你能说得清楚,V6就能给你表达明白。”
网友使用Midjourney V6来想象“如果史蒂夫·乔布斯今天还活着,他会是什么样子”,结果令人震惊。这位网友表示:“如果我说这是由生成式AI创造的图像,没人会相信我。”
它的质量已经达到了电影级别。这一领域的创意,比如电影、照片、海报和杂志,很可能会由AI主导。
另一位网友表示,MJ V6太逼真了,你可以直接用它想象你最爱的演员在电影中的样子,比如Jared Leto在Netflix《最后的沙皇》中的扮相。
神奇的图像接连问世,史诗级的图像质量提升。
这次的里程碑级升级,究竟在哪些地方体现出来呢?
一位网友运用相同的Prompt测试了V6和V5.2,结果显示V6在多个细节上都有所提升。(上面是V6,下面是V5.2)比如,雨坑中日落的倒影,V6的光影效果明显比V5.2更为自然,而V5.2的处理痕迹则更加明显。
reflection of a sunset in a rain puddle
仔细观看可以发现,同样的女性面部主体,V6在皮肤细节、毛发细节、光影效果上,都远优于V5.2的效果。
1940年代复古科幻电影中身穿高领银色操作衣的女操作员,V6生图明显要比V5.2更加真实。
V5.2的图片主体人物显得过于呆板,不像真人。
1940s retro sci-fi film, medium side-angle shot of a young female control panel operator wearing a form-fitting silver jumpsuit with a high collar. She is surrounded by 3 art deco robots. warm glowing buttons and switches, soft illumination
下面这两幅食物的图片都很诱人,但是V6的色彩和光影还是要更胜一筹。
a pot of stew with a wooden spoon, top-down perspective
在生成「二次元」风格的口袋妖怪时,V6生成的效果神似动漫,而V5.2会画得更像个摆拍的手办。
frozen squirtle on the top of a snowy mountain 35mm film still of a detective
V6的超强语义理解能力让它能够轻松应对任何Prompt
以前,虽然Midjourney的视觉效果和美学表现已经足够震撼,但为何总是稍逊于DALL-E 3和Adobe Firefly呢?答案显而易见,就是对于Prompt的高要求吓退了许多不太擅长描述的用户。
此外,V5.2糟糕的语义理解也经常导致生成的图片“虽然美丽但不实用”。
如今的V6进一步加强了对语气的理解,终于迎头赶上了竞品。相较于V5.2,V6显著增强了语义理解的能力,对Prompt的把握也更为精准。
举个例子,写有“open late”霓虹灯标志的酒吧,V6可以原汁原味地生成,而V5.2则根本无法理解这些字样。
此外,从光影效果来看,V6也更加丰富、真实,就像给图像打开了光追功能一样。
a corner bar with a neon sign that says "open late"
这张1960年代的街头风格照片,需要画出一位年轻女子穿着绿色丝绸连衣裙、戴着珍珠项链坐在帆船上。
显然,V6对于「珍珠项链」的理解要比V5.2好很多,而且除了人物主体之外,V6的周边细节也更合理精细。
1960s street style photo of a young woman sitting on a sailboat wearing a green silk dress and a pearl necklace. The sun is setting over the ocean, shot on Agfa Vista 200
「1980年代的悬疑电影,仰拍,身穿黑西装的法国管家在维多利亚式豪宅的走廊中手握蜡烛。」
从光影和构图来看,V6更符合要求,主体人物很好地融合进了背景里。而V5.2基本都没有做到。
1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery
下面这幅要求画出抽象、超现实的景观,有融化的时钟、扭曲的形状和浮岛,空中有一只眼镜形状的巨大月亮。
其中,V6在空中画出了「A large, eye-shaped moon dominates the sky」,而V5.2就没有把这部分体现出来。
An abstract, surreal landscape with melting clocks, distorted shapes, and floating islands. The color palette is vibrant with a mix of blues, reds, and greens. A large, eye-shaped moon dominates the sky
这张1970年代的柯达Ektachrome电影剧照,需要画出身穿深V绿色丝绸连体裤的25岁红发女子。但V5.2并没有把我们要求的深V领口画出来。
1970s medium-closeup Ektachrome film still of a 25-year-old woman with curly red hair and freckles standing in front of vintage car in downtown Los Angeles. She's wearing a green silk jumpsuit with a plunging neckline. Golden hour
「五颜六色的珊瑚礁,各种各样的海洋生物,包括各种鱼、海龟和顽皮的海豚」。
这次,V5.2直接把海豚无视掉了,并自作主张地画了一个潜水员……
A colorful coral reef teeming with marine life. There are various species of fish, a sea turtle, and a playful dolphin. Sunlight filters through the water, creating a dappled effect on the sea floor.「1980年代的间谍电影,年轻的黑发女人站在埃及装饰风格的豪宅中,有着黑色大理石柱子。」显然,V6对于黑色大理石柱等背景的还原,要比V5.2准确得多。1980s spy movie, Medium closeup shot from low-angle, 35mm film still of a young brunette Egyptian woman standing in an Egyptian Art Deco Mansion with large columns made of black marble, wearing a black sequin dress, inside, daytime, natural lighting「电影剧照,一名侦探在犯罪现场采访一名女性证人,侦探在做笔录,目击者焦急地看着,指着一条线索。」可以看到,V6的人物动作更加符合常理,而V5.2的图片中人物动作像是在发呆,没有按照提示词的描述进行做笔录的行为。interviewing a female witness at a crime scene. The detective is taking notes, while the witness looks on anxiously, pointing towards a clue
正如开头所说,“只要你能说得清楚,V6就能给你画明白。”如果你是个充满想象力的大师,擅长用逻辑清晰、细节丰富的语言描述你的创意,那么V6一定不会让你失望——语言可以控制光影、材质、色彩和构图。总而言之,语言的魔力已经发挥到了极致:能够创造出神级Prompt的人,必然会收获神级图像。相比之下,搭载ChatGPT的DALL-E 3对用户的语言表达要求就没有这么苛刻,更加自由发挥。难怪人们常说,Midjourney的上限足够高,而DALL-E 3的下限则足够低。
在文字生成方面,V6相较于前代也有了巨大的提升。
无论是“EMPTY”、“TOMORROW”还是“Coca Cola”,这些字眼在图像中想加就加。虽然在准确度上略逊于DALL·E 3,但在视觉美感方面的表现,Midjourney依旧遥遥领先。但需要注意的是,下面这些图像每一张都进行了3-10次尝试,才得到了比较理想的结果。
A man standing alone in a dark empty area, staring at a neon sign that says "EMPTY"A realistic standup pouch product photo mockup decorated with bananas, raisins and apples with the words "ORGANIC SNACKS" featured prominently
An anime style movie poster with the stylized words "TOMORROW", with a girl looking upwards at the night sky, and cherry blossoms floating in the wind. --s 200
A Coca Cola ad, featuring a beverage can design with traditional Hawaiian patterns
A clean, minimalistic logo featuring an ice cream cone, with palm trees as the backdrop and the words "ICE CREAM OASIS" --style raw
A clean and minimalistic professionally designed vector of a biker speeding on a highway, with the words "FREEDOM ON WHEELS" --s 250
A minimalistic product shot of a bottle of perfume on a clean backdrop with the words "Floral Symphony", surrounded by fragrant white flowers
A modern cinematic movie poster with the words "FALLEN" showing a fallen angel in a dark forest --style raw --s 200
A modern burger advertisement, with the words "THE BIG ONE", featuring a delicious huge beef burger, with tomatoes and lettuce in the backgroundA pixar style illustration of a happy hedgehog, standing beside a wooden signboard saying "SUNFLOWERS", in a meadow surrounded by blooming sunflowers
嗖搜嗖:AI创新工坊,GoGPT,可直达体验,快来感受吧。