Hub 文件
在 Hugging Face 使用 BERTopic
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
在 Hugging Face 使用 BERTopic
BERTopic 是一個主題建模框架,它利用 🤗 transformers 和 c-TF-IDF 建立密集叢集,從而實現易於解釋的主題,同時在主題描述中保留重要詞語。
BERTopic 支援各種主題建模技術:
引導式 | 監督式 | 半監督式 |
手動式 | 多主題分佈 | 分層式 |
基於類別 | 動態 | 線上/增量 |
多模態 | 多方面 | 文字生成/LLM |
零樣本 (新!) | 合併模型 (新!) | 種子詞 (新!) |
在 Hub 上探索 BERTopic
您可以透過在模型頁面左側進行篩選來找到 BERTopic 模型。
託管在 Hub 上的 BERTopic 模型都有一個模型卡,其中包含有關模型的有用資訊。藉助 BERTopic Hugging Face Hub 整合,您可以通過幾行程式碼載入 BERTopic 模型。您還可以使用推理端點部署這些模型。
安裝
要開始使用,您可以遵循BERTopic 安裝指南。您也可以使用以下 pip 一行命令進行安裝:
pip install bertopic
使用現有模型
所有 BERTopic 模型都可以輕鬆地從 Hub 載入
from bertopic import BERTopic
topic_model = BERTopic.load("MaartenGr/BERTopic_Wikipedia")
載入後,您可以使用 BERTopic 的功能預測新例項的主題。
topic, prob = topic_model.transform("This is an incredible movie!")
topic_model.topic_labels_[topic]
這給我們提供了以下主題:
64_rating_rated_cinematography_film
共享模型
當您建立了 BERTopic 模型後,可以透過 Hugging Face Hub 輕鬆地與他人共享。為此,我們可以使用 `push_to_hf_hub` 函式,該函式允許我們直接將模型推送到 Hugging Face Hub。
from bertopic import BERTopic
# Train model
topic_model = BERTopic().fit(my_docs)
# Push to HuggingFace Hub
topic_model.push_to_hf_hub(
repo_id="MaartenGr/BERTopic_ArXiv",
save_ctfidf=True
)
請注意,儲存的模型不包括降維和聚類演算法。這些演算法被移除,因為它們僅在訓練模型和查詢相關主題時才需要。推理透過主題和文件嵌入之間直接的餘弦相似度完成。這不僅可以加快模型速度,還可以讓我們擁有一個可以使用的微型 BERTopic 模型。