我從放大長距離Midjourney照片中學到的知識(使用Stable Diffusion),外加 Qwen Image 和 Wan 2.2 的開箱體驗

社群文章 釋出於 2025年8月8日

今天

tested wan 2.2, qwen image, finegraint img upscaler

檢視評論區

釋出文章(故事格式)

溫室-海灣寂靜。樹葉朝向一個假太陽;舊機器在角落裡沉睡。兩個穿著橙色制服的人走了進來,袖子上的徽章——小小的Konnektron和Objas——像內部笑話一樣閃爍著。

HOPE:“嗨!歡迎來到我們的新機器學習部落格。”

JUNIPER:“正在拉取所有這些合成數據。開始了!”

Juniper拿起一個透明平板電腦。螢幕亮起:藍色網格正在編織成形—— 嘈雜 → 清晰 (文字擴散), 清晰 → 結構化 (模式), 結構化 → 清晰 (重新生成)。 側欄跳動: GNN/GAT 用於連結, LLM 用於操作。

JUNIPER:“用幾個詞傳送你的意圖。注意力圖和文字擴散器會完成剩下的工作。”

HOPE(對代理說):“檢查閥門室,減少停機時間。”

圖表吸氣。面板像整潔實驗室裡的抽屜一樣滑入: 攝取 → 嵌入 → 工作流 → 洞察 → 排放。 徽章閃爍: Postgres,編排,代理線上。 一個小小的 Konnektron 圖示旋轉——執行開始嗡嗡作響。

光線穿過樹冠;微風吹拂著植物。不華麗——很自信。就像一臺懂得自己工作的好發動機。

JUNIPER:“新部落格會很有趣。”

HOPE:“我們每天都會在這裡釋出我們使用H200 GPU配額進行實驗的成功和失敗。”

JUNIPER:“下次見!”

從再工業化的車間到綠色的海灣,承諾始終如一:更清晰的上下文,更安全的操作,更快的交付。平板電腦的光線逐漸變暗,只剩下平靜的心跳。

長距離低細節 Midjourney

image/png

有關使用 Stable Diffusion 的更高解析度放大解決方案,請參見評論區

釋出文章(日誌格式)

資料科學家日誌 — 部落格釋出

  • 釋出了第一篇文章,介紹我們的上下文到管道系統

  • 核心堆疊包括用於噪聲→清晰提示對映的文字擴散,用於連結的GNN/GAT,以及用於執行的LLM

  • 演示展示瞭如何將一個簡短的指令擴充套件為完整的流程:攝取 → 嵌入 → 工作流 → 洞察 → 排放

  • 在 Konnektron 硬體上執行,包含 Postgres、編排和線上代理

  • 春季重點:命令層構建(自動化、分類、記憶體)

  • 夏季重點:預測/生成層和完整資料工廠構建

  • Hugging Face Pro 上執行大批次執行,每日分配 H200

  • 結果、基準和迭代筆記將在此處釋出

圖網路完全吸引了 Hope 的注意

image/png

社群

第一次嘗試使用 Hugging Face Spaces

我如何利用我的 25 分鐘 H200 分配時間

測試了

結果

  • Wan 2.2
    • 令人印象深刻的影片生成,測試了幾張來自 Midjourney 的圖片,以比較其影片與該服務
    • 非常相似!似乎對多樣性的支援不夠,有幾個角色出現了奇怪的效果
    • 儘管如此,第一個結果還是非常棒的——未來幾周我將在本地更徹底地測試
  • Qwen Image
    • 效果非常強勁,生成了時尚 T 臺圖片,其中人物手持帶有我的專案名稱的標牌
    • 每次都栩栩如生。時尚感不錯。對提示的遵循度非常高。文字四分之三的次數都完美無瑕。在“build w/ company name”上遇到困難,但在“build with company name”上完美無缺
    • 影像未經過風格化處理,彷彿直接來自相機。後期製作技能的人可能會喜歡這一點,而不是 Midjourney 等帶有偏見的結果。(或者不喜歡,如果你與 Midjourney 的風格完美契合,這確實適合我)
  • 精細顆粒
    • 請求單次推理耗時 60 秒 H200 GPU 時間
    • 總體表現不錯!
    • 本地 M1 Max 執行(MPS,fp16)在全解析度下大約需要 117 秒,在正常工作負載下,移除 768px 限制後質量匹配度很高
      • 切換到 fp32 + 更高的 ControlNet 比例可提高結構保真度
      • 注意:預設的 HF app.py 將輸入縮小到 768 畫素短邊;移除該指令碼行為是保留細節和匹配 HF 視覺保真度的關鍵。
    • 不遵循角色,會完全改變面部;衣服效果好,背景完美
      • 有了這個,如果想保留額外的新的細節,我可以將之前的臉部照片合成到新的放大影像中。
      • 降低降噪強度(0.2-0.25)並提高 controlnet_scale(0.65-0.7)可減少不必要的更改
    • 最初使用預設設定 — 探索了“放大”與“細節增強”的預設以獲得更好的控制
    • 和 wan 2.2 一樣,它在膚色多樣性方面表現不佳,所以有幾個角色改變了種族或者臉上出現了奇怪的織物
      • 這種偏差在 HF 和本地執行中都存在,可追溯到 Stable Diffusion 1.5 / LAION 資料集限制

image.png

文章作者

image.png

特寫

Midjourney

使用 omni 角色構建器和先前迭代的風格參考,製作的原始特寫肖像

image.png

長距離影像放大器

原圖由 Midjourney 生成,人臉嚴重失真。

在本地 3080 上使用 Finegrain Upscale (Stable Diffusion) 成功地得到了更接近我想要的結果。

更多關於首次迭代的注意事項,請參閱本帖上方的其他筆記。

本地放大

image.png

Midjourney 原圖

image.png

———————

## Finegrain Image Enhancer – Bias-Resistant Preset

**Prompt**  

4k photo of two women standing at the entrance to an indoor farming manufacturing facility, woman on the left is african american, woman on the right is caucasian


**Negative Prompt**  

worst quality, low quality, blurry

**Seed**  

8734

**Settings**  
- **Upscale Factor**: `2`  
- **ControlNet Scale**: `0.7`  
- **ControlNet Scale Decay**: `0.5`  
- **Condition Scale**: `2`  
- **Latent Tile Width**: `112`  
- **Latent Tile Height**: `144`  
- **Denoise Strength**: `0.2`  
- **Number of Inference Steps**: `21`  
- **Solver**: `DDIM`  

經過精美放大的長距離 Midjourney 影像

Amidst_a_labyrinthine_maze_of_rusting_machinery_regu_ddffeb4e-c445-44cb-b50b-97b3966b53eb--success-upscale.jpg

註冊登入 以評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.