我從放大長距離Midjourney照片中學到的知識（使用Stable Diffusion），外加 Qwen Image 和 Wan 2.2 的開箱體驗

社群文章釋出於 2025年8月8日

今天

tested wan 2.2, qwen image, finegraint img upscaler

檢視評論區

釋出文章（故事格式）

溫室-海灣寂靜。樹葉朝向一個假太陽；舊機器在角落裡沉睡。兩個穿著橙色制服的人走了進來，袖子上的徽章——小小的Konnektron和Objas——像內部笑話一樣閃爍著。

HOPE：“嗨！歡迎來到我們的新機器學習部落格。”

JUNIPER：“正在拉取所有這些合成數據。開始了！”

Juniper拿起一個透明平板電腦。螢幕亮起：藍色網格正在編織成形—— 嘈雜 → 清晰 （文字擴散）， 清晰 → 結構化 （模式）， 結構化 → 清晰 （重新生成）。 側欄跳動： GNN/GAT 用於連結， LLM 用於操作。

JUNIPER：“用幾個詞傳送你的意圖。注意力圖和文字擴散器會完成剩下的工作。”

HOPE（對代理說）：“檢查閥門室，減少停機時間。”

圖表吸氣。面板像整潔實驗室裡的抽屜一樣滑入： 攝取 → 嵌入 → 工作流 → 洞察 → 排放。 徽章閃爍： Postgres，編排，代理線上。 一個小小的 Konnektron 圖示旋轉——執行開始嗡嗡作響。

光線穿過樹冠；微風吹拂著植物。不華麗——很自信。就像一臺懂得自己工作的好發動機。

JUNIPER：“新部落格會很有趣。”

HOPE：“我們每天都會在這裡釋出我們使用H200 GPU配額進行實驗的成功和失敗。”

JUNIPER：“下次見！”

從再工業化的車間到綠色的海灣，承諾始終如一：更清晰的上下文，更安全的操作，更快的交付。平板電腦的光線逐漸變暗，只剩下平靜的心跳。

長距離低細節 Midjourney

有關使用 Stable Diffusion 的更高解析度放大解決方案，請參見評論區

釋出文章（日誌格式）

資料科學家日誌 — 部落格釋出

釋出了第一篇文章，介紹我們的上下文到管道系統
核心堆疊包括用於噪聲→清晰提示對映的文字擴散，用於連結的GNN/GAT，以及用於執行的LLM
演示展示瞭如何將一個簡短的指令擴充套件為完整的流程：攝取 → 嵌入 → 工作流 → 洞察 → 排放
在 Konnektron 硬體上執行，包含 Postgres、編排和線上代理
春季重點：命令層構建（自動化、分類、記憶體）
夏季重點：預測/生成層和完整資料工廠構建
在 Hugging Face Pro 上執行大批次執行，每日分配 H200
結果、基準和迭代筆記將在此處釋出

圖網路完全吸引了 Hope 的注意

社群

jasonhargrove

文章作者 2 天前

•

2 天前編輯

第一次嘗試使用 Hugging Face Spaces

我如何利用我的 25 分鐘 H200 分配時間

測試了

Wan 2.2 (影像到影片) 空間連結
Qwen Image (文字到影像) 空間連結
Finegrain Image Enhancer (影像放大器) 空間連結

結果

Wan 2.2
- 令人印象深刻的影片生成，測試了幾張來自 Midjourney 的圖片，以比較其影片與該服務
- 非常相似！似乎對多樣性的支援不夠，有幾個角色出現了奇怪的效果
- 儘管如此，第一個結果還是非常棒的——未來幾周我將在本地更徹底地測試
Qwen Image
- 效果非常強勁，生成了時尚 T 臺圖片，其中人物手持帶有我的專案名稱的標牌
- 每次都栩栩如生。時尚感不錯。對提示的遵循度非常高。文字四分之三的次數都完美無瑕。在“build w/ company name”上遇到困難，但在“build with company name”上完美無缺
- 影像未經過風格化處理，彷彿直接來自相機。後期製作技能的人可能會喜歡這一點，而不是 Midjourney 等帶有偏見的結果。（或者不喜歡，如果你與 Midjourney 的風格完美契合，這確實適合我）
精細顆粒
- 請求單次推理耗時 60 秒 H200 GPU 時間
- 總體表現不錯！
- 本地 M1 Max 執行（MPS，fp16）在全解析度下大約需要 117 秒，在正常工作負載下，移除 768px 限制後質量匹配度很高
  - 切換到 fp32 + 更高的 ControlNet 比例可提高結構保真度
  - 注意：預設的 HF app.py 將輸入縮小到 768 畫素短邊；移除該指令碼行為是保留細節和匹配 HF 視覺保真度的關鍵。
- 不遵循角色，會完全改變面部；衣服效果好，背景完美
  - 有了這個，如果想保留額外的新的細節，我可以將之前的臉部照片合成到新的放大影像中。
  - 降低降噪強度（0.2-0.25）並提高 controlnet_scale（0.65-0.7）可減少不必要的更改
- 最初使用預設設定 — 探索了“放大”與“細節增強”的預設以獲得更好的控制
- 和 wan 2.2 一樣，它在膚色多樣性方面表現不佳，所以有幾個角色改變了種族或者臉上出現了奇怪的織物
  - 這種偏差在 HF 和本地執行中都存在，可追溯到 Stable Diffusion 1.5 / LAION 資料集限制

jasonhargrove

文章作者 2 天前

jasonhargrove

文章作者 2 天前

•

2 天前編輯

特寫

Midjourney

使用 omni 角色構建器和先前迭代的風格參考，製作的原始特寫肖像

jasonhargrove

文章作者 2 天前

•

2 天前編輯

長距離影像放大器

原圖由 Midjourney 生成，人臉嚴重失真。

在本地 3080 上使用 Finegrain Upscale (Stable Diffusion) 成功地得到了更接近我想要的結果。

更多關於首次迭代的注意事項，請參閱本帖上方的其他筆記。

本地放大

Midjourney 原圖

———————

## Finegrain Image Enhancer – Bias-Resistant Preset

**Prompt**  

4k photo of two women standing at the entrance to an indoor farming manufacturing facility, woman on the left is african american, woman on the right is caucasian


**Negative Prompt**  

worst quality, low quality, blurry

**Seed**  

8734

**Settings**  
- **Upscale Factor**: `2`  
- **ControlNet Scale**: `0.7`  
- **ControlNet Scale Decay**: `0.5`  
- **Condition Scale**: `2`  
- **Latent Tile Width**: `112`  
- **Latent Tile Height**: `144`  
- **Denoise Strength**: `0.2`  
- **Number of Inference Steps**: `21`  
- **Solver**: `DDIM`

經過精美放大的長距離 Midjourney 影像

透過拖放到文字輸入框、貼上或點選此處上傳圖片、音訊和影片。

點選或貼上此處以上傳圖片

· 註冊或登入以評論

贊