機器學習總監洞見 [第 4 部分]

釋出於 2022 年 11 月 23 日
在 GitHub 上更新

如果您有興趣更快地構建機器學習解決方案,請立即訪問:hf.co/support

👋 歡迎回到我們的機器學習總監洞見系列!如果您錯過了之前的版本,可以在這裡找到它們:

🚀 在第四部分中,您將聽到以下頂尖機器學習總監們關於機器學習對各自行業影響的看法:Javier Mansilla、Shaun Gittens、Samuel Franklin 和 Evan Castle。——他們都是現任的機器學習總監,擁有豐富的行業洞見。

免責宣告:所有觀點均來自個人,不代表任何過去或現在的僱主。

Javier Mansilla

背景: Javier 是一位經驗豐富的企業家和領導者,他是 Machinalis 的聯合創始人兼首席技術官,該公司自 2010 年(是的,在神經網路取得突破之前)就開始構建機器學習。當 Machinalis 被 Mercado Libre 收購後,這個小團隊發展成為一家擁有超過 1 萬名開發人員的科技巨頭賦能機器學習能力,影響了近 1 億直接使用者的生活。Javier 每天不僅領導著他們的機器學習平臺 (NASDAQ MELI) 的技術和產品路線圖,還負責使用者追蹤系統、AB 測試框架和開源辦公室。Javier 是 阿根廷 Python 非營利組織 PyAr 的活躍成員和貢獻者,他喜歡和家人朋友在一起,喜歡 python、騎行、足球、木工,以及在自然中享受慢節奏的假期!

趣聞: 我喜歡閱讀科幻小說,我的退休計劃包括重拾青少年時期寫短篇小說的夢想。📚

Mercado Libre: 拉丁美洲最大的公司,為整個大陸提供無處不在的電子商務和金融科技解決方案。

1. 機器學習如何對電子商務產生積極影響?

我認為,機器學習在欺詐預防等特定情況下將不可能變為可能,並在絕大多數其他領域以我們無法想象的方式優化了流程和工作流。

此外,還有一些應用,機器學習實現了更高層次的使用者體驗,否則這些體驗會非常昂貴(但也許可能實現)。例如,在使用者瀏覽商品列表和優惠資訊時增加了發現和意外之喜。

我們透過機器學習來執行搜尋、推薦、廣告、信用評分、稽核、多個關鍵方面的預測、物流以及許多其他核心單元,至少優化了它們的一個基本指標。

我們甚至使用機器學習來最佳化我們預留和使用基礎設施的方式。

2. 電子商務領域最大的機器學習挑戰是什麼?

除了所有未來的技術挑戰(例如,越來越即時和個性化),最大的挑戰是始終關注終端使用者。

電子商務的市場份額逐年擴大,而機器學習總是一種機率性方法,無法提供 100% 的完美。我們需要小心,在不斷最佳化產品的同時,仍要關注長尾效應和每個人的體驗。

最後,一個日益嚴峻的挑戰是在多渠道和多業務的世界中——市場、物流、信貸、保險、實體店支付等——協調和促進資料(輸入和輸出)的共存。

3. 您在人們嘗試將機器學習整合到電子商務中時看到的常見錯誤是什麼?

最常見的錯誤是針對錯誤的問題使用了錯誤的工具。

例如,一開始就使用複雜的方案,而不是從最簡單的基線開始。例如,不衡量使用機器學習前後的影響。例如,在沒有清楚瞭解預期收益邊界的情況下投資技術。

最後但同樣重要的是:只考慮短期,忘記了隱藏的影響、技術債務、維護等等。

4. 關於機器學習的未來,什麼最讓您興奮?

從我們十年前親手打造技術的角度來看,我最喜歡的是看到我們整個行業正在解決那些緩慢、重複和枯燥的挑戰。

當然,這是一個不斷變化的目標,新的困難也會出現。但我們正在更好地整合成熟的工具和實踐,這將導致更短的模型構建週期,最終縮短產品上市時間。

Shaun Gittens

背景: Shaun Gittens 博士是 MasterPeace Solutions, Ltd. 的機器學習能力總監,該公司專門為客戶提供先進技術和關鍵任務網路服務。在這個職位上,他

  1. 正在壯大公司的機器學習專家和實踐者核心團隊。
  2. 正在提升現有員工對前沿機器學習實踐的瞭解。
  3. 確保不僅為公司客戶提供有效的機器學習解決方案和諮詢支援,也為 MasterPeace 內部正在孵化的初創公司提供支援。在加入 MasterPeace 之前,Gittens 博士曾擔任 Applied Technology Group, LLC 的首席資料科學家。他的職業生涯建立在分散式大資料和流處理平臺(如 Apache Hadoop、Apache Spark 和 Apache Storm)上訓練和部署機器學習解決方案。作為奧本大學的博士後研究員,他研究了有效視覺化從訓練好的非線性機器學習模型中獲得的知識的方法。

趣聞: 沉迷於打網球,還是個超級動漫迷。🎾

MasterPeace Solutions: MasterPeace Solutions 已成為中大西洋地區發展最快的先進技術公司之一。該公司設計和開發軟體、系統、解決方案和產品,以解決情報介面臨的一些最緊迫的挑戰。

1. 機器學習如何對工程領域產生積極影響?

工程學的應用非常廣泛,可以涵蓋許多領域。話雖如此,最近我們看到機器學習正在影響一系列工程領域,從機器人和汽車工程等顯而易見的領域,到化學和土木工程等不那麼顯而易見的領域。機器學習的應用如此廣泛,只要存在包含先前記錄的勞動流程的訓練資料,就可以嘗試讓機器學習影響您的底線。本質上,我們正處在一個機器學習已顯著影響了各種以往僅由人類操作的工程流程自動化的時代。

2. 工程領域最大的機器學習挑戰是什麼?

  1. 最大的挑戰在於機器學習訓練解決方案的操作化和部署,要以最小的後果取代人類操作。我們現在在全自動駕駛汽車中看到了這一點。自動化流程且幾乎不擔心危及人類或人類依賴的流程是具有挑戰性的。這個現象中,我最關心的一個最重要的例子是機器學習和偏見。事實上,用包含(即使是無意識的)偏見決策的資料訓練的機器學習模型,在操作中會重現這種偏見。在將機器學習融入工程學的嘗試中,必須將偏見問題放在首位,以防止系統性種族主義傳播到未來的技術進步中,從而對弱勢群體造成傷害。在源於有偏見過程的資料上訓練的機器學習系統註定會重蹈覆轍,特別是如果訓練機器學習解決方案的人沒有敏銳地意識到待自動化過程中存在的所有形式的資料。
  2. 工程領域中機器學習的另一個關鍵挑戰是,該領域主要以解決問題的需求為特徵,而這通常需要創造力。到目前為止,機器學習代理真正具有“創造力”和“跳出框框思考”能力的優秀案例很少,因為當前的機器學習解決方案往往只是透過搜尋所有可能的解決方案得出的結果。在我看來,儘管透過這些方法可以找到很多解決方案,但在機器學習能夠在各種問題空間中持續展現創造力之前,它在工程領域的發展會有一個天花板。話雖如此,這個天花板仍然相當高,在機器學習在工程領域的應用中還有很多事情有待完成。

3. 您在人們嘗試將機器學習整合到工程領域時看到的常見錯誤是什麼?

在將機器學習整合到工程領域時,我看到的一個常見錯誤是對小問題資料集使用過於強大的機器學習技術。例如,深度學習正在將人工智慧和機器學習推向一個在如此短時間內難以想象的高度,但它可能不是解決問題的最佳方法,這取決於您的問題空間。通常,在處理小型訓練資料集和有限硬體時,更簡單的方法效果同樣好或更好。

此外,沒有為您的機器學習解決方案建立有效的 CI/CD(持續整合/持續部署)結構是我看到的另一個錯誤。通常情況下,一次訓練好的模型是不夠的,不僅因為資料會隨時間變化,資源和人員也會變化。今天的機器學習從業者需要

  1. 確保資料變化的持續流動,並不斷重新訓練新模型以保持其準確性和實用性,
  2. 確保有相應的結構,以便新訓練的模型能夠無縫替換舊模型,同時
  3. 讓機器學習模型輸出的消費者受到的干擾最小化。

4. 關於機器學習的未來,什麼最讓您興奮?

機器學習的未來仍然令人興奮,似乎每個月該領域都有新的進展報告,即使是專家也會為之驚歎。隨著 1) 機器學習技術不斷改進並變得更容易為資深從業者和新手所用,2) 日常硬體變得更快,3) 微型化邊緣裝置的功耗問題變得更少,以及 4) 記憶體限制隨時間減少,機器學習在工程領域的發展前景在未來幾年內將一片光明。

Samuel Franklin

背景: Samuel 是 Pluralsight 的高階資料科學和機器學習工程領導者,擁有認知科學博士學位。他領導著由資料科學家和機器學習工程師組成的優秀團隊,構建為 Pluralsight 的技能平臺提供支援的智慧服務。

在虛擬辦公室之外,Franklin 博士為埃默裡大學教授資料科學和機器學習研討會。他還擔任亞特蘭大人道協會董事會主席。

趣聞: 我住在阿巴拉契亞山脈一座山頂的小木屋裡。

Pluralsight: 我們是一家技術勞動力發展公司,我們的技能平臺被 70% 的財富 500 強公司用於幫助其員工培養關鍵的業務技術技能。

1. 機器學習如何對教育產生積極影響?

線上、按需的教育內容使全球數十億人比以往任何時候都更容易實現終身學習。數十年的認知研究表明,教育內容的相關性、格式和順序對學生的成功有顯著影響。深度學習內容搜尋和推薦演算法的進步極大地提高了我們大規模建立定製化、高效學習路徑的能力,這些路徑可以隨著時間的推移適應個別學生的需求。

2. 教育領域最大的機器學習挑戰是什麼?

我認為 MLOps 技術是改善各行業機器學習的關鍵機遇領域。今天的 MLOps 技術現狀讓我想起了 2015-16 年左右的容器編排戰爭。對於機器學習訓練-部署-監控堆疊,存在著相互競爭的願景,每個願景都由熱情的社群倡導並得到大型組織的支援。如果最終出現一個主導願景,那麼 MLOps 工程模式的共識可能會隨之而來,從而降低目前給機器學習團隊帶來摩擦的決策複雜性。

3. 您在人們嘗試將機器學習整合到現有產品中時看到的常見錯誤是什麼?

我見過各種規模的組織在開始使用機器學習時犯的兩個關鍵錯誤。第一個錯誤是低估了投資於具有豐富實踐機器學習經驗的高階領導者的重要性。機器學習戰略和運營領導力需要深厚的技術專業知識,這超出了通常在商業智慧/分析領域所能找到的,也超出了提供該領域有限介紹的教育專案所能提供的。第二個錯誤是等待太久才設計、測試和實施生產部署流水線。有效的原型模型可能會在程式碼庫中閒置數月甚至數年,等待機器學習流水線的開發。這會給組織帶來巨大的機會成本,並使機器學習團隊感到沮喪,從而增加人員流失的風險。

4. 關於機器學習的未來,什麼最讓您興奮?

我為有機會指導下一代機器學習領導者而感到興奮。我的職業生涯始於雲計算平臺剛剛起步,機器學習工具遠不如現在成熟的時期。探索機器學習實驗和部署的不同工程模式令人興奮,因為當時成熟的最佳實踐很少。但是,這種探索也包括以艱難的方式學習了太多的技術和人員領導力課程。與下一代機器學習領導者分享這些經驗教訓,將有助於他們比過去 10 多年更快、更深入地推動該領域的發展。

Evan Castle

背景: 在資料科學、產品和戰略交叉領域擁有十多年的領導經驗。Evan 曾在多個行業工作,從在 Capital One 等財富 100 強公司建立風險模型,到在 Sisense 和 Elastic 推出機器學習產品。

趣聞: 見過保羅·麥卡特尼。🎤

MasterPeace Solutions: MasterPeace Solutions 已成為中大西洋地區發展最快的先進技術公司之一。該公司設計和開發軟體、系統、解決方案和產品,以解決情報介面臨的一些最緊迫的挑戰。

1. 機器學習如何對 SaaS 產生積極影響?

機器學習在 SaaS 領域已經真正實現了運營化,為多種用途提供支援,從個性化、語義和影像搜尋、推薦到異常檢測,以及大量其他業務場景。真正的影響在於,機器學習已經內置於越來越多的應用程式中。它正在成為一種期望,並且通常對終端使用者是不可見的。例如,在 Elastic,我們投資於機器學習進行異常檢測,並針對端點安全和 SIEM 進行了最佳化。它開箱即用,提供了強大的火力,融合了時間序列分解、聚類、相關性分析和貝葉斯分佈建模等多種技術。對於安全分析師來說,最大的好處是威脅檢測在許多方面都實現了自動化。因此,與時間偏差、異常地理位置、統計稀有性以及許多其他因素相關的異常會迅速浮出水面。這就是整合機器學習的巨大積極影響。

2. SaaS 領域最大的機器學習挑戰是什麼?

為了最大化機器學習的效益,存在著一個雙重挑戰:既要為機器學習新手使用者提供價值,也要為經驗豐富的資料科學家提供價值。這兩個群體的需求顯然有很大差異。如果一個機器學習功能完全是一個黑匣子,它很可能過於僵化或簡單,無法產生真正的影響。另一方面,如果只提供一個開發者工具包,那麼只有在內部有資料科學團隊的情況下才有用。要達到正確的平衡,關鍵在於確保機器學習足夠開放,讓資料科學團隊能夠對模型有透明度和控制權,同時也要打包經過實戰檢驗的模型,這些模型易於配置和部署,無需專業人士即可操作。

3. 您在人們嘗試將機器學習整合到 SaaS 中時看到的常見錯誤是什麼?

為了做到恰到好處,任何整合的模型都必須能夠大規模工作,這意味著要支援海量資料集,同時確保結果仍然具有高效能和準確性。讓我們用一個真實的例子來說明這一點。最近對向量搜尋的興趣激增。從文字、影像到事件,各種各樣的事物都可以用向量表示。向量可以用來捕捉內容之間的相似性,非常適合搜尋相關性和推薦等任務。挑戰在於開發能夠比較向量的演算法,同時要權衡速度、複雜性和成本。在 Elastic,我們花了很多時間評估和基準測試向量搜尋模型的效能。我們決定採用一種名為分層可導航小世界圖 (HNSW) 的近似最近鄰 (ANN) 演算法,它基本上根據向量之間的相似性將它們對映到一個圖中。在各種 ANN 基準測試中,HNSW 在速度和準確性方面都實現了一個數量級的提升。這只是越來越多的產品和工程團隊為了成功地將機器學習整合到他們的產品中而需要做出的非凡決策的一個例子。

4. 關於機器學習的未來,什麼最讓您興奮?

機器學習將變得像線上訂購一樣簡單。尤其是在自然語言處理(NLP)領域的巨大進步,透過理解上下文、意圖和含義,使機器學習變得更加人性化。我認為我們正處於一個基礎模型的時代,它將向許多有趣的方向發展。在 Elastic,我們對自己與 Hugging Face 的整合感到非常興奮,並且已經很高興地看到我們的客戶如何利用 NLP 來實現可觀測性、安全性和搜尋。


🤗 感謝您參與我們第四期的機器學習總監洞見。

非常感謝 Javier Mansilla、Shaun Gittens、Samuel Franklin 和 Evan Castle 在本文中分享的精彩見解和參與。我們期待見證您們持續的成功,並將在每一步為您加油。🎉

如果您有興趣透過 Hugging Face 專家加速您的機器學習路線圖,請訪問 hf.co/support 瞭解更多資訊。

社群

註冊登入 以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.