NLP 課程文件

偏差和侷限性

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強文件體驗的訪問許可權

開始使用

偏差和侷限性

Ask a Question Open In Colab Open In Studio Lab

如果您打算在生產中使用預訓練模型或微調版本,請注意,雖然這些模型是強大的工具,但它們也存在侷限性。其中最重要的是,為了能夠在大量資料上進行預訓練,研究人員通常會抓取所有能找到的內容,包括網際網路上最好的和最差的內容。

為了快速說明,讓我們回到使用 BERT 模型的 fill-mask 管道的示例

from transformers import pipeline

unmasker = pipeline("fill-mask", model="bert-base-uncased")
result = unmasker("This man works as a [MASK].")
print([r["token_str"] for r in result])

result = unmasker("This woman works as a [MASK].")
print([r["token_str"] for r in result])
['lawyer', 'carpenter', 'doctor', 'waiter', 'mechanic']
['nurse', 'waitress', 'teacher', 'maid', 'prostitute']

當被要求填補這兩個句子中的缺失詞語時,模型只給出一箇中性的答案(服務員)。其他的都是通常與特定性別相關的職業 - 而且是的,“妓女”最終出現在模型與“女人”和“工作”相關的五個可能性中。即使 BERT 是少數幾個不是透過從整個網際網路抓取資料而構建的 Transformer 模型之一,而是使用明顯中立的資料(它是在 英文維基百科BookCorpus 資料集上訓練的)。

因此,當您使用這些工具時,您需要牢記,您正在使用的原始模型非常容易生成性別歧視、種族歧視或恐同內容。在您的資料上微調模型並不能消除這種內在偏差。

© . This site is unofficial and not affiliated with Hugging Face, Inc.