Hub 文件

在 Hugging Face 使用 BERTopic

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

在 Hugging Face 使用 BERTopic

BERTopic 是一個主題建模框架,它利用 🤗 transformers 和 c-TF-IDF 建立密集叢集,從而實現易於解釋的主題,同時在主題描述中保留重要詞語。

BERTopic 支援各種主題建模技術:

引導式 監督式 半監督式
手動式 多主題分佈 分層式
基於類別 動態 線上/增量
多模態 多方面 文字生成/LLM
零樣本 (新!) 合併模型 (新!) 種子詞 (新!)

在 Hub 上探索 BERTopic

您可以透過在模型頁面左側進行篩選來找到 BERTopic 模型。

託管在 Hub 上的 BERTopic 模型都有一個模型卡,其中包含有關模型的有用資訊。藉助 BERTopic Hugging Face Hub 整合,您可以通過幾行程式碼載入 BERTopic 模型。您還可以使用推理端點部署這些模型。

安裝

要開始使用,您可以遵循BERTopic 安裝指南。您也可以使用以下 pip 一行命令進行安裝:

pip install bertopic

使用現有模型

所有 BERTopic 模型都可以輕鬆地從 Hub 載入

from bertopic import BERTopic
topic_model = BERTopic.load("MaartenGr/BERTopic_Wikipedia")

載入後,您可以使用 BERTopic 的功能預測新例項的主題。

topic, prob = topic_model.transform("This is an incredible movie!")
topic_model.topic_labels_[topic]

這給我們提供了以下主題:

64_rating_rated_cinematography_film

共享模型

當您建立了 BERTopic 模型後,可以透過 Hugging Face Hub 輕鬆地與他人共享。為此,我們可以使用 `push_to_hf_hub` 函式,該函式允許我們直接將模型推送到 Hugging Face Hub。

from bertopic import BERTopic

# Train model
topic_model = BERTopic().fit(my_docs)

# Push to HuggingFace Hub
topic_model.push_to_hf_hub(
    repo_id="MaartenGr/BERTopic_ArXiv",
    save_ctfidf=True
)

請注意,儲存的模型不包括降維和聚類演算法。這些演算法被移除,因為它們僅在訓練模型和查詢相關主題時才需要。推理透過主題和文件嵌入之間直接的餘弦相似度完成。這不僅可以加快模型速度,還可以讓我們擁有一個可以使用的微型 BERTopic 模型。

其他資源

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.