Banque des Territoires (CDC Group) x Polyconseil x Hugging Face:透過主權資料解決方案加強一項法國重大環境計劃

釋出於 2024 年 7 月 9 日
在 GitHub 上更新

目錄

執行摘要

Banque des Territoires(法國信託局集團的一部分)、Polyconseil 和 Hugging Face 於今年一月啟動的合作,展示了將生成式 AI 的潛力與資料主權的緊迫需求相結合的可能性。

隨著專案第一階段的剛剛完成,所開發的工具最終旨在支援法國學校環境改造的國家戰略。具體而言,該解決方案旨在最佳化 Banque des Territoires 的 EduRénov 計劃的支援框架,該計劃專門用於 10,000 個公共學校設施(託兒所、小學/中學/高中和大學)的生態改造。

本文分享了以下方面成功協同開發的一些關鍵見解:

  • Banque des Territoires 貸款部門的資料科學團隊,以及 EduRénov 計劃總監;
  • Polyconseil 的多學科團隊,包括開發人員、DevOps 和產品經理;
  • Hugging Face 在機器學習和 AI 解決方案部署方面的專家。

RAG 助力實現環境目標

由 Banque des Territoires (BdT) 發起的 EduRénov 是法國生態和能源轉型戰略中的一項旗艦計劃。它旨在簡化、支援和資助公共學校建築的能源改造。其雄心體現在富有挑戰性的目標上:在 5 年內協助 10,000 個從託兒所到大學的改造專案——佔全國基礎設施總量的 20%——實現 40% 的能源節約。Banque des Territoires 調動了前所未有的資源來實現這一目標:20 億歐元用於資助工程的貸款和 5000 萬歐元用於前期工程。僅一年時間,該計劃就簽署了近 2,000 個專案,但目標是進一步擴大。正如專案總監 Nicolas Turcat 強調的那樣:

EduRénov 已經找到了它的專案和巡航速度;現在我們將加強與地方當局的關係質量,同時尋求許多新專案。我們與 Polyconseil 和 Hugging Face 有一個共同的信念:生態轉型的挑戰將透過擴大我們的行動來贏得勝利。

EduRénov 計劃的成功涉及 Banque des Territoires、領導該計劃的 Caisse des Dépôts Group (CDC) 專家與擁有相關建築的社群之間的大量交流——特別是電子郵件。這些互動至關重要,但特別耗時且重複。然而,這些電子郵件的回覆依賴於所有 BdT 專家共享的大量文件。因此,採用檢索增強生成(RAG)解決方案來促進這些交流是特別合適的。

自 ChatGPT 推出以來,生成式 AI 越來越受到關注,許多公司都對利用商業 API 透過 LLM 利用其資料的 RAG 系統感興趣。由於資料敏感性和戰略主權問題,公共部門表現出更為謹慎的熱情。

在此背景下,LLM 和開源技術生態系統具有顯著優勢,尤其是在其通用效能趕上目前領先的專有解決方案的情況下。因此,CDC 圍繞 EduRénov 計劃啟動了一項試點資料轉換專案,該專案因其運營關鍵性和潛在影響而被選中,並提出了一個堅定不移的條件:確保所使用的計算服務和模型的自主權。

工業化同時確保效能和主權

在專案啟動之前,CDC 團隊嘗試了不同的模型和框架,特別是使用了 Hugging Face 提供的開源解決方案(Text Generation Inference、Transformers、Sentence Transformers、Tokenizers 等)。這些測試驗證了 RAG 方法的潛力。因此,CDC 希望開發一個安全的應用程式,以提高 BdT 對社群支援的響應能力。

鑑於法國信託局(CDC)在法國公共生態系統中的地位,以及需要確保所處理資料的解決方案的主權和安全,CDC 選擇了由 Polyconseil 和 Hugging Face 組成的法國聯盟。除了各自的技術專長,這種合作的互補性被認為特別適合專案的挑戰。

  • Polyconseil 是一家技術公司,透過敏捷方法在技術密集型專案的每個階段提供數字創新專業知識。從大型企業到初創公司,Polyconseil 與各行各業的客戶合作,包括 ArianeGroup、Canal+、法國文化部、SNCF 和 FDJ。Polyconseil 獲得法國服務保障認證,在本地和雲部署方面擁有成熟的專業知識(AWS 高階服務合作伙伴和 Amazon EKS 交付認證、GCP 雲架構師、Kubernetes CKA 認證顧問等)。因此,該公司擁有部署大型數字專案所需的所有資源,團隊由資料科學家、資料工程師、全棧/DevOps 開發人員、UI/UX 設計師、產品經理等組成。其生成式 AI 和 LLM 專業知識基於一個專門的實踐:Alivia,透過 Alivia App,以及定製的支援和實施服務。

  • Hugging Face 成立於 2016 年,多年來已成為全球範圍內使用最廣泛的 AI 協作平臺。最初專注於 Transformers 並出版了同名的著名開源庫,Hugging Face 現在以其平臺“Hub”享譽全球,該平臺彙集了機器學習社群。Hugging Face 提供廣泛採用的庫、超過 750,000 個模型和超過 175,000 個即用型資料集。Hugging Face 在短短幾年內已成為人工智慧領域不可或缺的全球參與者。以實現機器學習民主化為使命,Hugging Face 現在擁有超過 200,000 名日常活躍使用者和 15,000 家構建、訓練和部署模型和資料集的公司。

模組化解決方案以應對動態行業

設想的解決方案包括一個供 BdT 員工使用的應用程式,該應用程式允許他們提交潛在客戶傳送的電子郵件,並根據 EduRénov 文件自動生成合適且有來源的專案回覆。然後,代理可以在將回復發送給其對話者之前對其進行編輯。最後一步允許使用諸如人類反饋強化學習 (RLHF) 等方法,使回覆與代理的期望保持一致。

下圖對此進行了說明:

RLHF

圖表說明

  1. 客戶透過現有渠道傳送電子郵件請求。
  2. 該請求被傳輸到新的使用者介面。
  3. 呼叫協調器,它根據電子郵件為檢索器構建查詢。
  4. 檢索器模組從向量資料庫中查詢由其嵌入索引的相關上下文元素。
  5. 協調器構建一個包含檢索到的上下文的提示,並仔細追溯文件來源,然後呼叫讀取器模組。
  6. 讀取器模組使用 LLM 生成回覆建議,該建議透過使用者介面返回給代理。
  7. 代理在介面中評估回覆的質量,然後進行更正和驗證。此步驟允許收集人類智慧反饋。
  8. 回覆被傳輸到訊息系統進行傳送。
  9. 回覆被髮送給客戶,其中提到某些來源的引用。
  10. 客戶可以查閱所用文件資源的公共儲存庫。

為實現整個過程,區分出四個主要子系統:

  • 綠色:用於攝取文件庫併為微調和 RLHF 構建高質量資料集的使用者介面。
  • 黑色:訊息系統及其介面。
  • 紫色:檢索增強生成系統本身。
  • 紅色:整個管道以及微調和 RLHF 資料庫。

關鍵成功因素

生成式 AI 領域的最新技術發展迅猛;因此,在專案期間修改模型而不顯著影響已開發的解決方案至關重要。Polyconseil 設計了一個模組化架構,其中簡單的配置更改即可調整 LLM、嵌入模型和檢索方法。這使得資料科學家可以輕鬆測試不同的配置以最佳化解決方案的效能。最後,這意味著目前最佳的開放且主權的 LLM 解決方案可以相對簡單地投入生產。

我們選擇了一個 模組化單體,採用 六邊形架構 來最佳化設計工作量。然而,由於 LLM 的高效評估需要在 GPU 上執行,我們將 LLM 呼叫外包到單體之外。我們使用了 Hugging Face 的 文字生成推理 (TGI),它提供了一個高效能、可配置的 Docker 化服務,用於託管 Hub 上任何可用的 LLM。

為確保資料獨立性和主權,該解決方案主要依賴部署在法國雲提供商 NumSpot 上的開源模型。選擇該提供商是由於其 SecNumCloud 資質,並由 Outscale 的 IaaS 提供支援,Outscale 由達索系統公司創立,旨在應對其自身的安全挑戰。

在開源解決方案方面,許多法國工具脫穎而出。其中,獨角獸公司 Mistral AI 是其中之一,其 Mistral-7B-Instruct-v0.3 模型目前正在系統閱讀器中使用。然而,其他更低調但更具針對性的專案也展現出解決我們挑戰的巨大潛力,例如我們正在評估的 CroissantLLM。該模型是 CentraleSupélec 的 MICS 實驗室Illuin Technology 合作的成果。它們旨在提供一個針對法國資料量身定製的、符合道德、負責任且效能卓越的模型。

在組織方面,我們組建了一個單一的敏捷團隊,採用靈活的 ScrumBan 方法論運作,並輔以每週對 AI 突破進行監控和培訓的例行活動。後者由 Hugging Face 專家透過其 專家支援計劃 領導。這種結構促進了向 BdT 資料團隊的技能和職責的順利轉移,同時確保在專案背景變化中進行定期和彈性的交付。因此,我們交付了解決方案的早期原始 MVP 以及定性和定量評估筆記本。為此,我們利用了專門評估生成式 AI 系統的開源庫,例如 RAGAS。這成為我們迭代新功能和系統性能改進的基礎。

來自 Banque des Territoires 貸款部門 OLS 集團創新與戰略總監 Hakim Lahlou 的最終寄語

我們很高興能與這些在法國乃至國際上享有盛譽的專家們,在 Banque des Territoires 共同開發一項尖端、完全自主的資料解決方案。基於這個試點專案,這種方法開闢了一條新路徑:這很可能就是未來公共政策在各地區部署的方式,以及國家生態和能源轉型所需的融資。目前,這種方法是唯一能夠實現大規模、高效和精確部署的方法。

您是否參與了一個涉及主權挑戰的專案?您想開發一個利用 LLM 能力的解決方案嗎?或者您只是對我們的服務或專案有疑問?請直接聯絡我們:alivia@polyconseil.fr

如果您對貴公司的 Hugging Face 專家支援計劃感興趣,請點選此處聯絡我們——我們的銷售團隊將與您聯絡,討論您的需求!


Banque des Territoires (Groupe CDC) x Polyconseil x Hugging Face:透過主權資料解決方案改善一項法國重大環境計劃

摘要

Banque des Territoires(法國信託局)與 Polyconseil 和 Hugging Face 去年一月啟動的合作表明,生成式 AI 的潛力可以與主權問題相結合。

隨著專案第一階段的完成,所開發的工具最終將支援國家學校環境改造戰略。具體來說,該解決方案旨在最佳化 Banque des Territoires (BdT) EduRénov 計劃的支援流程,該計劃致力於 10,000 所學校、學院、高中、託兒所或大學的生態改造。

本文分享了以下方面成功協同開發的一些關鍵經驗:

  • Banque des Territoires 貸款部門的資料科學團隊以及 EduRénov 計劃總監;
  • Polyconseil 的多學科團隊,包括開發人員、DevOps 和產品經理;
  • Hugging Face 在機器學習和 AI 解決方案部署方面的專家。

RAG 助力實現環境目標

由 Banque des Territoires (BdT) 設立的 EduRénov 是法國生態和能源轉型戰略中的一項旗艦計劃。它旨在簡化、支援和資助公共學校建築的能源改造。其雄心體現在富有挑戰性的目標上:在 5 年內協助 10,000 個從託兒所到大學的改造專案——佔全國基礎設施總量的 20%——實現 40% 的能源節約。為實現這一目標,Banque des Territoires 調動了前所未有的資源:20 億歐元貸款用於資助工程,5000 萬歐元用於前期工程。僅一年時間,該計劃就簽署了近 2,000 個專案,但目標是進一步擴大;正如專案總監 Nicolas Turcat 強調的那樣:

EduRénov 已經找到了它的專案和巡航速度;現在我們將加強與地方當局的關係質量,同時尋求許多新專案。我們與 Polyconseil 和 Hugging Face 有一個共同的信念:生態轉型的挑戰將透過擴大我們的行動來贏得勝利。

EduRénov 計劃的成功涉及 Banque des Territoires、領導該計劃的 Caisse des Dépôts Group (CDC) 專家與擁有相關建築的社群之間的大量交流——特別是電子郵件。這些互動至關重要,但特別耗時且重複。然而,這些電子郵件的回覆依賴於所有 BdT 專家共享的大量文件。因此,採用檢索增強生成(RAG)解決方案來促進這些交流是特別合適的。

自 ChatGPT 推出和生成式 AI 興起以來,許多公司都對利用商業 API 透過 LLM 利用其文件庫的 RAG 系統產生了興趣。考慮到資料的敏感性和戰略主權問題,公共部門表現出更為謹慎的熱情。

在此背景下,LLM 和開源技術生態系統具有顯著優勢,尤其是在其通用效能趕上目前領先的專有解決方案的情況下。因此,CDC 決定圍繞 EduRénov 計劃啟動一項試點資料轉換專案,該專案因其運營關鍵性和潛在影響而被選中,並提出了一個基本條件:確保所使用的雲和模型的自主權。

工業化同時確保效能和主權

在專案之初,CDC 團隊嘗試了不同的模型和框架,特別是利用 Hugging Face 提供的開源解決方案(Text Generation Inference、Transformers、Sentence Transformers、Tokenizers 等)。這些測試驗證了所設想的 RAG 方法的潛力。因此,CDC 希望開發一個安全應用程式,以提高 Banque des Territoires 支援社群的響應能力。

考慮到法國信託局(Caisse des Dépôts)在法國公共生態系統中的地位,以及為了確保解決方案的主權和所處理資料的安全,它選擇了由 Polyconseil 和 Hugging Face 組成的法國集團。除了各自的技術專長,這種合作的互補性被認為特別適合專案的挑戰。

  • Polyconseil 是一家數字創新專家公司,在技術密集型專案的每個階段都採用敏捷方式。從大型企業到初創公司,Polyconseil 為 ArianeGroup、Canal+、文化部、SNCF 和 FDJ 等各行各業的客戶提供服務。Polyconseil 已獲得法國服務認證,在本地和雲部署方面擁有成熟的專業知識(AWS 高階服務合作伙伴和 Amazon EKS 交付認證、GCP 雲架構師認證、Kubernetes CKA 認證顧問等)。因此,該公司擁有部署大型數字專案所需的所有資源,團隊由資料科學家、資料工程師、全棧/DevOps 開發人員、UI/UX 設計師、產品經理等組成。其生成式 AI 和 LLM 專業知識基於一個專門的實踐:Alivia,透過 Alivia App 和量身定製的支援和實施服務。

  • Hugging Face 成立於 2016 年,多年來已成為全球範圍內使用最廣泛的人工智慧協作平臺。Hugging Face 最初專注於 Transformers 並出版了著名的同名開源庫,現在以其平臺“Hub”享譽全球,該平臺彙集了機器學習社群。Hugging Face 提供了廣泛採用的庫、超過 750,000 個模型和超過 175,000 個即用型資料集,在短短幾年內已成為人工智慧領域不可或缺的全球參與者。Hugging Face 的使命是使機器學習民主化,目前擁有超過 200,000 名日常活躍使用者和 15,000 家構建、訓練和部署模型和資料集的公司。

模組化解決方案以應對動態行業

設想的解決方案是一個提供給 Banque des Territoires 員工的應用程式,允許他們提交潛在客戶傳送的電子郵件,並根據業務文件自動生成合適且有來源的回覆草稿。然後,代理可以在將回復發送給其對話者之前對其進行編輯。最後一步允許透過“人類反饋強化學習”(RLHF)等不同技術來考慮系統代理的期望對齊階段。

它由下圖所示:

RLHF

圖表說明

  1. 客戶透過現有渠道傳送電子郵件請求。
  2. 此請求被傳輸到新的使用者介面。
  3. 檢索器模組從向量資料庫中檢索相關上下文元素,這些元素已透過嵌入進行索引。
  4. 檢索器模組從向量資料庫中查詢由其嵌入索引的相關上下文元素。
  5. 協調器構建一個包含檢索到的上下文的提示,並仔細追溯文件來源,然後呼叫閱讀器模組。
  6. 閱讀器模組利用 LLM 生成回覆建議,並透過使用者介面返回給代理。
  7. 代理在介面中評估回覆的質量,然後進行修改和驗證。此步驟允許收集人工智慧反饋。
  8. 轉移到訊息系統進行傳送。
  9. 答覆傳送給客戶,並提及某些來源的參考文獻。
  10. 客戶可以參考所用文件資源的公共儲存庫。

為實現此整體過程,區分出 4 個主要子系統:

  • 綠色:使用者介面,用於文件庫的攝入以及微調和 RLHF 的定性資料集的構建。
  • 黑色:訊息系統及其介面。
  • 紫色:檢索增強生成系統本身。
  • 紅色:整個管道以及微調和 RLHF 資料庫。

關鍵成功因素

生成式 AI 領域的最新技術發展速度非常快;因此,在專案進行過程中,能夠在不顯著影響已開發解決方案的情況下更改模型至關重要。Polyconseil 設計了一個模組化架構,其中 LLM、嵌入模型和檢索方法可以透過簡單的配置進行修改。這還允許資料科學家輕鬆地迭代不同的配置以最佳化解決方案的效能。最後,這意味著可以相對簡單地在生產環境中部署迄今為止最佳的開放且具有主權特性的 LLM 解決方案。

為了最佳化設計工作量,我們選擇了 模組化單體,並採用 六邊形架構。但由於 LLM 的高效評估需要在 GPU 上執行,我們將 LLM 呼叫轉移到單體之外。為此,我們使用了 Hugging Face 的 文字生成推理 (TGI),它提供了一個高效能且可配置的 Docker 化服務,用於託管 Hub 上任何可用的 LLM。

為了確保資料獨立性和主權,該解決方案主要依賴部署在法國雲提供商 NumSpot 上的開源模型。選擇該提供商是由於其 SecNumCloud 資質,並由 Outscale 的 IaaS 提供支援,Outscale 由達索系統公司創立,旨在應對其自身的安全挑戰。

在開源解決方案方面,許多法國工具脫穎而出。特別是獨角獸公司 Mistral AI,其 Mistral-7B-Instruct-v0.3 模型目前正在系統閱讀器中使用。然而,其他更低調但更具針對性的專案也展現出解決我們挑戰的巨大潛力,例如我們正在評估的 CroissantLLM。該模型是 CentraleSupélec 的 MICS 實驗室Illuin Technology 合作的成果。它旨在提供一個針對法國資料量身定製的、符合道德、負責任且效能卓越的模型。

在組織層面,我們組建了一個單一的敏捷團隊,遵循靈活的 ScrumBan 方法論,並輔以每週一次的 AI 進展監測和培訓。後者由 Hugging Face 專家透過其專家支援計劃進行。這種結構促進了向 BdT 資料團隊的技能和職責的順利轉移,同時確保在專案背景變化中進行定期和彈性的交付。因此,我們提前交付了解決方案的初步 MVP 以及定性和定量評估筆記本。為此,我們利用了專門評估生成式 AI 系統的開源庫,例如 RAGAS。這項工作現在構成了我們迭代新功能和改進系統性能的基礎。

Banque des Territoires 貸款部門 OLS 集團創新與戰略總監 Hakim Lahlou 的結語

我們很高興能與這些在法國乃至國際上享有盛譽的專家們,在 Banque des Territoires 共同開發一項非常創新且完全自主的資料解決方案。基於這個試點專案,這種方法開闢了一條新路徑:這很可能就是未來公共政策在各地區部署的方式,以及國家生態和能源轉型所需的融資。目前,這種方法是唯一能夠實現大規模、高效和精確部署的方法。

您是否參與了一個涉及主權挑戰的專案?您想開發一個利用 LLM 能力的解決方案嗎?或者您只是對我們的服務或專案有疑問?請直接聯絡我們:alivia@polyconseil.fr

如果您對貴公司的 Hugging Face 專家支援計劃感興趣,請點選此處聯絡我們——我們的銷售團隊將與您聯絡,討論您的需求!

社群

註冊登入 評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.