LeMaterial:一項加速材料發現與研究的開源倡議

今天,我們很高興地宣佈**LeMaterial**的推出,這是一個由*Entalpic*和*Hugging Face*共同領導的開源協作專案。LeMaterial 旨在簡化和加速材料研究,使其更容易訓練機器學習模型、發現新型材料和探索化學空間。⚛️🤗
作為第一步,我們釋出了一個名為LeMat-Bulk
的資料集,它統一、清理並標準化了最著名的材料資料集,包括Materials Project、Alexandria和OQMD——從而形成了一個單一的、統一的資料格式,包含**670 萬個條目**和**7 種材料屬性**。
LeMaterial 站在巨人的肩膀上,我們正在基於那些對這項倡議的發展至關重要的卓越專案進行構建:Optimade、Materials Project、Alexandria和OQMD,未來還將有更多。在使用 LeMaterial 時,請務必相應地註明它們的貢獻。
為什麼選擇 LeMaterial?
材料科學領域,處於量子化學和機器學習的交叉點,充滿了機遇——從更亮的 LED,到電化學電池,更高效的光伏電池和可回收塑膠,應用無窮無盡。透過在大規模結構化資料集上利用機器學習(ML),研究人員可以以空前的規模對新材料進行高通量篩選和測試,顯著加速具有所需效能的新化合物的發現週期。在這個正規化中,**資料成為驅動機器學習模型的必要燃料**,可以指導實驗,降低成本,並比以往更快地實現突破。
該領域受益於非常完整的資料集,如 Materials Project、Alexandria 和 OQMD,所有這些資料集都是開源的,並採用 CC-BY-4.0 許可。**然而,這些資料集在格式、引數和範圍上各不相同,帶來了以下挑戰:**
- 資料集整合問題(例如,不一致的格式或欄位定義、不相容的計算)
- 資料集組成中的偏差(例如,Materials Project 側重於氧化物和電池材料)
- 有限的範圍(例如,NOMADs 側重於量子化學計算而非材料特性)
- 不同資料庫中相似材料之間缺乏明確的連線或識別符號
這種碎片化的格局使得 AI4Science 和材料資訊學領域的研究人員難以有效利用現有資料。無論是涉及訓練基礎 ML 模型、構建準確的相圖、識別新型材料還是有效探索化學空間,都沒有簡單的解決方案。儘管像 Optimade 這樣的努力標準化了結構資料,但它們並未解決材料特性差異或資料集範圍偏差的問題。
**LeMaterial** 透過統一和標準化來自三大資料庫(Materials Project、Alexandria 和 OQMD)的資料,將其整合成一個具有一致和系統屬性的高質量資源,從而解決了這些挑戰。下面的元素組成樹狀圖突出了這種整合的價值,展示了我們如何擴大現有資料集的範圍,例如 Materials Project,它專注於特定材料型別,如電池材料(Li、O、P)或氧化物。
材料專案和LeMat-BulkUnique樹狀圖
實現一個乾淨、統一且標準化的資料集
LeMat-Bulk
不僅僅是一個擁有開放許可(CC-BY-4.0)的大規模合併資料集。憑藉其 670 萬條具有一致屬性的條目,它代表了建立材料科學領域經過整理和標準化的開放生態系統的基礎步驟,旨在簡化研究工作流程並提高資料質量。以下是其更近距離的檢視。如需互動式瀏覽我們的材料,請檢視使用 MP Dash 元件構建的材料探索器空間。
釋出 | 描述與價值 | 日期 |
---|---|---|
v.1.0 |
|
2024 年 12 月 10 日 |
v.1.1 |
|
2025 年第一季度 |
未來版本 | 2025 年第二季度 |
**我們提供不同的資料集和子集,**使研究人員能夠根據其需求(一致性計算、材料去重或全面探索)定製工作流程。
- **相容性:**這些子集僅提供可以混合的相容計算。目前有 3 種泛函(PBE、PBESol 和 SCAN)可用。
- **不相容:**此子集提供不包含在相容性子集中的所有材料。
- **LeMat-BulkUnique**:此資料集透過我們的結構指紋演算法提供去重材料。它有 3 個子集,分別用於 PBE、PBESol 和 SCAN 泛函。更多資料集詳細資訊可在🤗Hugging Face上找到。
整合一個經過良好基準測試的材料指紋
除了構建這個標準化資料集,LeMaterial 的一個關鍵貢獻是提出透過**雜湊函式**來定義材料指紋,該雜湊函式為每種材料分配一個唯一識別符號。
當前識別材料相對於資料庫是否新穎的方法主要依賴於相似性度量,這需要組合式努力來篩選現有資料庫以尋找新穎性。為了提供更快的資料集新穎性檢測,Entalpic 引入了一種雜湊方法來計算材料的指紋。
上面是指紋識別的分解。我們使用鍵合算法(例如 EconNN)在晶體結構上提取圖,然後在此圖上計算 Weisfeiler-Lehman 演算法以獲得雜湊。此雜湊與成分和空間群資訊相結合,以建立材料指紋。
我們的指紋識別方法具有以下優點::
- 快速識別材料是新穎的還是已分類的。
- 確保資料集沒有重複和不一致之處。
- 允許連線不同資料集中的材料。
- 支援更高效的熱力學性質計算,例如高於包絡線的能量。
下面是我們雜湊函式與 Pymatgen 的 StructureMatcher 的比較,以查詢資料集中所有重複項。該實驗在兩個結構差異很大的資料集上執行。
使用我們的方法時,**幾乎所有任務時間都用於計算材料雜湊值**;後續的比較步驟在時間上可以忽略不計。使用StructureMatcher
時,絕大多數任務時間都花在**比較結構對**上;構建這些結構在時間上可以忽略不計。
資料集 | 結構數量 | 雜湊函式的任務時間(12個CPU平行計算) | StructureMatcher 的任務時間(64 個 CPU 並行) |
---|---|---|---|
碳-24 | 10,153 | 100 秒 | 17 小時 |
MPTS-52 | 40,476 | 330 秒 | 4.9 小時 |
此外,我們計劃釋出**一套精心策劃的基準測試**,以評估我們雜湊函式的有效性。例如,我們調查了:
- 如果不同材料根據現有資料庫中的材料識別標籤產生不同的雜湊值
- 是否對材料新增微小噪聲或應用對稱操作會導致相同的雜湊值
- 不同或相同資料庫中具有相同雜湊值的材料是否確實是同一種材料——透過手動和 DFT 檢查
- 我們的雜湊與 Pymatgen 的 StructureMatcher 在現有資料庫上的速度和準確性對比
** 🤗 社群呼籲:**我們的目標並非將此指紋識別方法定位為去重材料資料庫和發現新材料的唯一解決方案,而是旨在圍繞此問題促進討論。當前此雜湊技術的一個限制是它不涵蓋無序結構;我們希望推動社群達成共識,同時在此期間提出一種相對簡單有效的指紋識別方法。
LeMaterial 的實際應用:應用與影響
從長遠來看,LeMaterial 旨在成為一個社群驅動的倡議,彙集大型且經過整理的資料集、機器學習模型、便捷的工具包等。它被設計為實用且靈活,能夠實現廣泛的應用,例如:
- **探索擴充套件相圖**(我們的相圖探索器連結,透過 Materials Project 的各種開源工具構建),透過更廣泛的資料集構建,以更詳細地分析化學空間。結合更大的資料集意味著我們可以在給定的組成空間中提供更精細的材料穩定性解析度。
Ti、Bb、Sn 的實驗相圖,引自這篇研究論文
Sn、Ti、Nb 的 LeMat-Bulk 相圖,利用 Pymatgen、Crystal Toolkit(Materials Project 工具)構建
**比較不同資料庫和泛函的材料屬性:**透過為研究人員提供跨 DFT 泛函的資料,並透過我們的材料指紋演算法連結材料,我們能夠建立和連線透過不同引數計算的材料屬性。這為研究人員提供了對泛函在不同成分空間中如何表現和差異的見解。
**確定材料是否新穎**。我們的雜湊函式允許研究人員快速評估材料是否獨一無二或重複,從而簡化發現過程並避免冗餘計算。
示例 1:我們的指紋方法將以下 Alexandria 條目(
agm002153972
,agm002153975
)識別為*可能*是同一種材料——具有相同的雜湊值。當我們對能量較高的條目進行弛豫時,該材料弛豫到了能量較低的構型。能量較低的結構
能量較高的結構
示例 2:將我們的雜湊值應用於另一個常用於訓練生成模型的AIRSS資料集,我們發現了以下具有相同雜湊值的材料。
共享相同指紋的材料的晶胞
對於未經訓練的眼睛來說,這些材料在視覺上看起來非常不同。然而,當我們複製晶格時,我們很快就會發現它們非常相似。
共享相同指紋的材料的超晶胞
**訓練預測性機器學習模型。**我們還可以在
LeMat-Bulk
上訓練像 EquiformerV2 這樣的機器學習原子間勢。這些模型將受益於其規模和資料質量以及消除成分空間偏差的優勢,並且評估這個新資料集的優勢將會很有趣。關於如何將 LeMaterial 與Fairchem結合的示例可以在Colab中找到。我們目前正在使用這個資料集訓練一個 EquiformerV2 模型——敬請期待💫
總結
作為一個社群,我們通常非常重視這些大規模開源資料庫的**質量**。然而,缺乏標準化使得利用多個數據整合為一項巨大的挑戰。**LeMaterial** 提供了一個解決方案,它統一、標準化現有主要資料來源,並進行額外的清理和驗證工作。這個新的開放科學專案旨在加速研究,提高機器學習模型的質量,並使材料發現更高效、更易於獲取。
**我們才剛剛開始**——我們知道仍有不足和改進之處——因此非常樂意聽取您的反饋!如果您有興趣為這項開源倡議貢獻力量,請隨時聯絡我們。我們很樂意與社群一起,繼續擴充套件 LeMaterial,加入新的資料集、工具和應用程式!⚛️🤗
我們衷心感謝Zachary Ulissi和Luis Barroso-Luque(Meta),以及Matt McDermott(Newfound Materials, Inc.)對本次倡議提出的寶貴反饋。
引用
下載 LeMaterial 的內容即表示您同意接受 知識共享署名 4.0 許可,這意味著在正確署名 LeMaterial 的情況下,內容可以被複制、分發、傳輸和改編,而無需獲得 LeMaterial 的特別許可。
如果您在研究中使用 LeMaterial 作為資源,請引用我們資料卡中的引用部分(論文即將釋出)。
CC-BY-4.0(Materials Project、Alexandria、OQMD 使用的許可證)要求適當致謝。因此,如果您使用的材料資料在 immutable_id 中包含(“mp-”),請引用Materials Project。如果您使用的材料資料在 immutable_id 中包含(“agm-”),請引用Alexandria, PBE或Alexandria PBESol, SCAN。如果您使用的材料資料在 immutable_id 中包含(“oqmd-”),請引用OQMD。最後,如果您出於視覺化目的使用相圖,或在材料瀏覽器中使用晶體檢視器,請致謝Crystal Toolkit。
瞭解更多關於 LeMaterial 並參與其中