ConsisID

ConsisID 是一個身份保持文字到影片生成模型，透過頻率分解在生成的影片中保持人臉一致性。ConsisID 的主要特點是：

頻率分解：從頻域角度分析 DiT 架構的特徵，並基於這些特徵設計合理的控制資訊注入方法。
一致性訓練策略：粗到細的訓練策略、動態掩碼損失和動態交叉人臉損失進一步增強了模型的泛化能力和身份保持效能。
無需微調的推理：以前的方法在推理前需要對輸入 ID 進行逐例微調，導致顯著的時間和計算成本。相比之下，ConsisID 是免調優的。

本指南將引導您瞭解 ConsisID 的使用案例。

載入模型檢查點

模型權重可以儲存在 Hub 或本地的單獨子資料夾中，在這種情況下，您應該使用 from_pretrained() 方法。

# !pip install consisid_eva_clip insightface facexlib
import torch
from diffusers import ConsisIDPipeline
from diffusers.pipelines.consisid.consisid_utils import prepare_face_models, process_face_embeddings_infer
from huggingface_hub import snapshot_download

# Download ckpts
snapshot_download(repo_id="BestWishYsh/ConsisID-preview", local_dir="BestWishYsh/ConsisID-preview")

# Load face helper model to preprocess input face image
face_helper_1, face_helper_2, face_clip_model, face_main_model, eva_transform_mean, eva_transform_std = prepare_face_models("BestWishYsh/ConsisID-preview", device="cuda", dtype=torch.bfloat16)

# Load consisid base model
pipe = ConsisIDPipeline.from_pretrained("BestWishYsh/ConsisID-preview", torch_dtype=torch.bfloat16)
pipe.to("cuda")

身份保持文字到影片生成

對於身份保持文字到影片生成，請傳入文字提示和一張包含清晰人臉的影像（例如，最好是半身或全身照）。預設情況下，ConsisID 生成 720x480 的影片以獲得最佳效果。

from diffusers.utils import export_to_video

prompt = "The video captures a boy walking along a city street, filmed in black and white on a classic 35mm camera. His expression is thoughtful, his brow slightly furrowed as if he's lost in contemplation. The film grain adds a textured, timeless quality to the image, evoking a sense of nostalgia. Around him, the cityscape is filled with vintage buildings, cobblestone sidewalks, and softly blurred figures passing by, their outlines faint and indistinct. Streetlights cast a gentle glow, while shadows play across the boy's path, adding depth to the scene. The lighting highlights the boy's subtle smile, hinting at a fleeting moment of curiosity. The overall cinematic atmosphere, complete with classic film still aesthetics and dramatic contrasts, gives the scene an evocative and introspective feel."
image = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/consisid/consisid_input.png?download=true"

id_cond, id_vit_hidden, image, face_kps = process_face_embeddings_infer(face_helper_1, face_clip_model, face_helper_2, eva_transform_mean, eva_transform_std, face_main_model, "cuda", torch.bfloat16, image, is_align_face=True)

video = pipe(image=image, prompt=prompt, num_inference_steps=50, guidance_scale=6.0, use_dynamic_cfg=False, id_vit_hidden=id_vit_hidden, id_cond=id_cond, kps_cond=face_kps, generator=torch.Generator("cuda").manual_seed(42))
export_to_video(video.frames[0], "output.mp4", fps=8)

人臉影像	影片	描述
		這段影片以精美的手繪動畫風格呈現，一位自信的女性騎著馬穿梭在鬱鬱蔥蔥的森林空地上。她神情專注而又平靜，熟練地調整著寬邊帽。她身著一件飄逸的波西米亞風格連衣裙，隨著馬的節奏優雅擺動，布料在動畫中流暢地飄逸。斑駁的陽光透過樹林，在森林地面投下柔和、如畫般的光影。她的姿態從容，展現出對馬匹的掌控和優雅。動畫柔和流暢的風格為場景增添了一絲夢幻般的質感，女性的平靜神態和寧靜的環境喚起了一種自由和諧的感覺。
		這段影片以引人入勝的動畫風格呈現，一位女性站在白雪皚皚的森林中央，眼神專注地向前伸出手。她身著一件深藍色斗篷，呼吸在寒冷的空氣中清晰可見，周圍被柔和、空靈的筆觸描繪。她嘴角掛著淡淡的微笑，召喚出一縷冰魔法，專注地看著周圍的樹木和地面開始閃爍並凍結，覆蓋著精緻的冰晶。動畫流暢的動作將魔法栩栩如生地展現出來，霜凍以複雜、閃爍的圖案向外蔓延。環境以柔和、水彩般的色調描繪，增強了魔法般的夢幻氛圍。整體氣氛寧靜而強大，寂靜的冬日空氣放大了冰凍場景的精緻之美。
		動畫以異想天開的方式描繪了一位氣球銷售員在微風中佇立的形象，以柔和、朦朧的筆觸捕捉，喚起一種寧靜的春日感覺。他的臉龐被溫柔的微笑襯托，眼睛因陽光而略微眯起，幾縷髮絲在風中飄動。他身著一件淺色、柔和色調的襯衫，周圍的氣球隨風搖曳，為場景增添了一絲俏皮感。背景柔和地模糊，隱約可見繁華的市場或公園，增強了此刻輕鬆而又溫柔的心情。
		這段影片捕捉了一個男孩在城市街道上行走的畫面，以經典的35毫米相機黑白拍攝。他的表情若有所思，眉毛微蹙，彷彿陷入沉思。膠片顆粒為畫面增添了紋理和永恆的質感，喚起一種懷舊之情。在他周圍，城市景觀充滿了老式建築、鵝卵石人行道，以及模糊的路人，他們的輪廓模糊不清。路燈投下柔和的光芒，影子在男孩的路徑上舞動，為場景增添了深度。燈光突出了男孩微妙的微笑，暗示著一瞬間的好奇。整體的電影氛圍，輔以經典的電影靜幀美學和戲劇性的對比，賦予場景一種富有感染力和內省的感受。
		影片中，一個嬰兒穿著一件鮮豔的超級英雄斗篷，自信地站立著，雙臂舉起，擺出強有力的姿勢。嬰兒臉上帶著堅定的神情，眼睛睜大，嘴唇緊抿，彷彿已準備好迎接挑戰。場景顯得俏皮可愛，周圍散落著五顏六色的玩具，腳下鋪著柔軟的地毯，陽光透過附近的窗戶灑落進來，照亮了飄揚的斗篷，更增添了英雄氣概。整體氛圍輕鬆愉快，嬰兒的表情捕捉了天真與可愛的勇敢嘗試，彷彿真的準備好拯救世界。

資源

透過以下資源瞭解更多關於 ConsisID 的資訊。

一段影片演示了 ConsisID 的主要功能。
研究論文《透過頻率分解實現身份保持文字到影片生成》提供了更多細節。

< > 在 GitHub 上更新

Diffusers

ConsisID

載入模型檢查點

身份保持文字到影片生成

資源