XetHub 加入 Hugging Face!
我們非常高興地正式宣佈 Hugging Face 收購了 XetHub 🔥
XetHub 是一家位於西雅圖的公司,由 Yucheng Low、Ajit Banerjee、Rajat Arya 創立,他們之前在 Apple 工作,負責構建和擴充套件 Apple 的內部 ML 基礎設施。XetHub 的使命是為 AI 開發實現軟體工程最佳實踐。XetHub 開發了技術,使 Git 能夠擴充套件到 TB 級別的倉庫,並使團隊能夠探索、理解和協作處理大型不斷發展的資料集和模型。他們很快就加入了一個由 12 名才華橫溢的團隊成員組成的團隊。您應該在他們的新組織頁面上關注他們:hf.co/xet-team
我們在 HF 的共同目標
XetHub 團隊將透過切換到我們自己的、更好版本的 LFS 作為 Hub 倉庫的儲存後端,幫助我們釋放 HF 資料集和模型未來五年的增長潛力。
—— Julien Chaumond,HF 首席技術官
早在 2020 年,當我們構建 HF Hub 的第一個版本時,我們決定將其建立在 Git LFS 之上,因為它相對知名,並且是啟動 Hub 使用的一個合理選擇。
然而,我們當時就知道,我們會在某個時候切換到我們自己的、更最佳化的儲存和版本控制後端。Git LFS——儘管它代表大檔案儲存——但它從來就不是為我們處理的 AI 中那種大型檔案而設計的,這些檔案不僅大,而且是非常非常大 😃
未來用例示例 🔥 – 這將在 Hub 上實現什麼
假設您有一個 10GB 的 Parquet 檔案。您添加了一行。今天您需要重新上傳 10GB。有了 XetHub 的分塊檔案和重複資料刪除功能,您只需重新上傳包含新行的幾個塊。
另一個 GGUF 模型檔案的例子:假設 @bartowski 想要更新 Llama 3.1 405B 倉庫中 GGUF 頭部的一個元資料值。未來 bartowski 只需重新上傳幾千位元組的一個塊,從而大大提高效率 🔥
隨著該領域在未來幾個月內轉向萬億引數模型(感謝 Maxime Labonne 的新 BigLlama-3.1-1T 🤯),我們希望這項新技術將為社群和企業公司解鎖新的規模。
最後,大型資料集和大型模型帶來了協作方面的挑戰。團隊如何在大資料、模型和程式碼上協同工作?使用者如何理解他們的資料和模型是如何演變的?我們將努力尋找更好的解決方案來回答這些問題。
Hub 倉庫當前的有趣資料 🤯🤯
- 倉庫數量:130 萬模型、45 萬資料集、68 萬空間
- 總累計大小:LFS 中儲存了 12PB (2.8 億檔案) / Git (非 LFS) 中儲存了 7.3 TB
- Hub 的每日請求數量:10 億
- 每日 Cloudfront 頻寬:6PB 🤯
來自 @ylow 的個人感言
我已經在 AI/ML 領域工作了 15 年,見證了深度學習如何逐漸佔據視覺、語音、文字,並越來越多地滲透到每個資料領域。
我嚴重低估了資料的力量。幾年前看似不可能的任務(如影像生成)結果透過數量級更多的資料以及能夠吸收這些資料的模型變得可能。回想起來,這是一個在 ML 歷史上多次重複的教訓。
自從我攻讀博士學位以來,我一直在資料領域工作。先是在一家初創公司 (GraphLab/Dato/Turi),在那裡我讓結構化資料和 ML 演算法在單臺機器上進行擴充套件。然後在被 Apple 收購後,致力於將 AI 資料管理擴充套件到 100PB 以上,支援每年交付數百個功能的數十個內部團隊。2021 年,我與我的聯合創始人一起,在 Madrona 和其他天使投資者的支援下,創立了 XetHub,旨在將我們在大規模協作方面的經驗帶給世界。
XetHub 的目標是讓 ML 團隊能夠像軟體團隊一樣運作,透過將 Git 檔案儲存擴充套件到 TB 級別,無縫實現實驗和可重現性,並提供視覺化功能來理解資料集和模型的演變。
我,以及整個 XetHub 團隊,非常高興能夠加入 Hugging Face,並繼續致力於透過將 XetHub 技術整合到 Hub 中,讓 AI 協作和開發變得更容易——並將這些功能釋出給世界上最大的 ML 社群!
最後,我們的基礎設施團隊正在招聘 👯
如果您喜歡這些主題,並希望為開源 AI 運動構建和擴充套件協作平臺,請與我們聯絡!