機器學習洞見總監 [第一部分]

釋出於 2022 年 4 月 27 日
在 GitHub 上更新

在機器學習領域,很少有職位能像機器學習總監那樣,同時涵蓋技術技能、問題解決能力和商業頭腦。

機器學習和/或資料科學總監通常需要設計機器學習系統,具備深厚的數學知識,熟悉機器學習框架,對資料架構有豐富的理解,擁有將機器學習應用於現實世界的經驗,具備紮實的溝通技巧,並且通常需要時刻關注行業發展。這真是一個很高的要求!

因此,我們邀請了這群獨特的機器學習總監,推出一系列文章,重點介紹他們對當前機器學習洞見和行業趨勢的看法,涵蓋從醫療保健到金融、電子商務、SaaS、研究、媒體等多個領域。例如,一位總監會指出,利用機器學習可以將卡車空駛(目前約佔 20% 的時間)降低到 19%,這將減少相當於約 10 萬美國人的碳排放量。注意:這是由一位前火箭科學家粗略估算的,不過我們姑且信之。

在這第一部分中,您將聽到一位研究員(他正在使用探地雷達探測埋藏的地雷)、一位前火箭科學家、一位精通宗喀語的業餘玩家(Kuzu = 你好!)、一位曾以貨車為家的科學家、一位仍然親力親為的高效能資料科學團隊教練,以及一位重視人際關係、家庭、狗和披薩的資料從業者——所有這些人目前都是機器學習總監,在該領域擁有豐富的洞見。

🚀 讓我們來認識一些頂尖的機器學習總監,聽聽他們對機器學習在其各自行業中影響的看法。

Archi Mitra

背景: 在機器學習為商業帶來的前景中尋求平衡。以人為本,流程次之。策略優於空想。人工智慧倫理高於人工智慧利潤。來自紐約的棕色人種。

趣聞: 我會說 宗喀語 (Dzongkha)(可以谷歌一下!),並且是 Youth for Seva 的支持者。

Buzzfeed: 一家專注於數字媒體的美國網際網路媒體、新聞和娛樂公司。

1. 機器學習 (ML) 如何為媒體行業帶來積極影響?

為客戶提供隱私優先的個性化服務: 每個使用者都是獨一無二的,雖然他們的長期興趣穩定,但短期興趣是隨機的。他們希望與媒體的關係能反映這一點。硬體加速和深度學習在推薦系統方面的進步,使得我們能夠開始解讀這種細微差別,並在正確的接觸點、正確的時間為使用者提供正確的內容。

為創作者提供輔助工具: 創作者是媒體中有限的資產,透過機器學習驅動的“人在環路”輔助工具來保護他們的創作頻寬,已經產生了巨大的影響。像自動建議合適的標題、圖片、影片和/或與他們正在創作的內容相匹配的產品這樣簡單的事情,就能開啟一個人機協作的飛輪。

加強測試: 在資本密集型的媒體企業中,需要縮短從收集使用者資訊(瞭解哪些內容能引起使用者共鳴)到立即採取行動之間的時間。藉助各種貝葉斯技術和強化學習的進步,我們不僅大幅縮短了時間,還降低了相關成本。

2. 媒體行業面臨的最大機器學習挑戰是什麼?

隱私、編輯聲音和公平報道: 在當今民主世界中,媒體比以往任何時候都更是關鍵支柱。機器學習需要尊重這一點,並在一些限制條件下執行,而這些限制在其他任何領域或行業中都不被認為是基本要求。在編輯策劃的內容和節目與機器學習驅動的推薦之間找到平衡仍然是一個挑戰。BuzzFeed 面臨的另一個獨特挑戰是,我們相信網際網路應該是免費的,這意味著我們不像其他人那樣跟蹤使用者。

3. 在嘗試將機器學習整合到媒體行業時,您看到的常見錯誤是什麼?

忽視媒體的“創作者”:媒體之所以普遍存在,是因為它擁有對人們有深遠影響的聲音。編輯、內容創作者、作家和製作人是這種聲音的喉舌,而成功的關鍵在於構建能夠賦能他們、擴大其影響力並與他們和諧共處的機器學習系統。

4. 機器學習的未來最讓您興奮的是什麼?

理想情況下,是小資料驅動的通用多模態多工即時機器學習系統,能夠在藥物發現、高精度手術、氣候控制系統和沉浸式元宇宙體驗方面實現階躍式改進。現實一點的話,是更易於使用、低門檻的元學習技術,用於高精度的文字和影像生成。

Li Tan (譚立)

背景: Li 是一位人工智慧/機器學習資深人士,擁有超過 15 年的經驗,曾在強生 (Johnson & Johnson)、微軟 (Microsoft) 和亞馬遜 (Amazon) 等行業領導者中領導備受矚目的資料科學團隊。

趣聞: Li 保持著好奇心,總是在學習,並享受親手程式設計的樂趣。

強生 (Johnson & Johnson): 一家開發醫療裝置、藥品和消費品的跨國公司。

1. 機器學習 (ML) 如何為製藥行業帶來積極影響?

過去幾年,人工智慧/機器學習在製藥領域的應用呈爆炸式增長,並帶來了許多長期的積極影響。製藥和醫療保健領域有許多可以利用人工智慧/機器學習的用例。

應用範圍從研究、真實世界證據到智慧製造和質量保證。使用的技術也非常廣泛:NLP/NLU、CV、AIIoT、強化學習等,甚至包括像 AlphaFold 這樣的技術。

2. 製藥行業面臨的最大機器學習挑戰是什麼?

製藥和醫療保健領域最大的機器學習挑戰是如何確保人工智慧應用的公平性和多樣性。例如,如何確保訓練集對所有種族群體都有良好的代表性。由於醫療保健和製藥行業的特殊性,這個問題可能比其他一些領域的應用產生更大的影響。

3. 在嘗試將機器學習整合到製藥行業時,您看到的常見錯誤是什麼?

我不認為這一定是個錯誤,但我看到很多人在醫療保健領域的人工智慧應用上持有極端觀點:要麼過於保守,要麼過於激進。

有些人因為高監管要求而牴觸。我們必須用嚴格的 GxP 驗證來認證我們的許多人工智慧應用。這可能需要大量的工作,但我們相信這些努力是值得的。在光譜的另一端,有許多人認為人工智慧/深度學習模型可以在許多應用中超越人類,並完全自主執行。

作為從業者,我們知道目前這兩種觀點都不正確。

機器學習模型可以非常有價值,但仍然會犯錯。所以我建議採取一種更漸進的方法。關鍵是建立一個既能利用人工智慧的力量,又設有“守門員”的框架。FDA 已經採取行動來規範人工智慧/機器學習在作為醫療裝置的軟體中的使用,我相信這是我們行業向前邁出的積極一步。

4. 機器學習的未來最讓您興奮的是什麼?

人工智慧/機器學習與其他硬科學和技術的交叉點。我很期待看到未來的發展。

Alina Zare

背景: Alina Zare 是佛羅里達大學電氣與計算機工程系的教授,也是機器學習與感測實驗室的主任,從事機器學習和人工智慧領域的教學和研究。Zare 博士的研究主要集中在開發新的機器學習演算法,以自動理解和處理資料和影像。

她的研究工作包括植物根系表型分析自動化、亞畫素高光譜影像分析、目標檢測、使用合成孔徑聲納進行水下場景理解、雷射雷達資料分析、探地雷達分析,以及埋藏地雷和爆炸物危險檢測。

趣聞: Alina 是一名賽艇運動員。她在高中時加入了賽艇隊,在大學和研究生期間一直堅持賽艇,在密蘇里大學擔任助理教授時曾是該校賽艇隊的總教練,加入佛羅里達大學任教後,她作為一名大師級賽艇手繼續參與這項運動。

機器學習與感測實驗室: 佛羅里達大學的一個實驗室,致力於開發用於自主分析和理解感測器資料的機器學習方法。

1. 機器學習 (ML) 如何為科學領域帶來積極影響?

機器學習以多種方式帶來了積極影響,從幫助自動化繁瑣和/或緩慢的任務,到提供審視和研究各種問題的新方法。以我在植物科學領域的機器學習工作為例,我們開發了機器學習方法來自動化影像中的植物根系分割和特徵化。這項任務以前是植物科學家在研究根系影像時的瓶頸。透過機器學習自動化這一步驟,我們可以以更高的通量進行這些分析,並開始利用這些資料大規模地研究植物生物學研究問題。

2. 科學研究領域面臨的最大機器學習挑戰是什麼?

挑戰有很多。一個例子是,在將機器學習用於科學研究時,我們必須仔細考慮資料收集和整理的流程。在某些情況下,我們用於非機器學習分析的流程可能不適用或無效。資料的質量以及它對應用中預期情況的代表性,會對基於機器學習的系統的效能、可靠性和可信度產生巨大影響。

3. 在嘗試將機器學習整合到科學領域時,您看到的常見錯誤是什麼?

與上面的問題相關,一個常見的錯誤是,將結果或效能誤解為僅僅是機器學習系統的函式,而沒有同時考慮資料收集、整理、校準和歸一化的流程。

4. 機器學習的未來最讓您興奮的是什麼?

有很多非常令人興奮的方向。我目前的大部分研究都集中在擁有大量先驗知識和經驗推導模型的領域。例如,我正在進行一項將機器學習用於森林生態學研究的工作。林業社群擁有豐富的先驗知識體系,而當前純資料驅動的機器學習系統並未加以利用。我認為,將先驗知識與機器學習方法無縫融合的混合方法將是一個有趣且令人興奮的前進方向。一個例子可能是瞭解兩個物種在某個區域共存的可能性。或者在給定的環境條件下,我們可以預期什麼樣的物種分佈。這些可以潛在地與資料驅動的方法結合使用,以在變化的條件下進行預測。

Nathan Cahill

背景: Nathan 是一位充滿熱情的機器學習領導者,擁有 7 年的研發經驗和 3 年透過將機器學習模型投入生產來創造商業價值的經驗。他專注於發現並戰略性地優先處理業務的最大痛點:在增長曲線的早期階段釋放資料的力量。

趣聞: 在進入運輸和物流行業之前,我曾在諾斯羅普·格魯曼公司 (Northrop Grumman) 設計火箭。#火箭科學

Xpress Technologies: 一種數字貨運匹配技術,旨在連線託運人、經紀人和承運人,為運輸行業帶來效率和自動化。

1. 機器學習 (ML) 如何為物流/運輸行業帶來積極影響?

運輸行業非常分散。行業內的頂尖公司市場份額都不到 1%。因此,存在一些可以透過數字化解決方案解決的低效率問題。

例如,當你在路上看到一輛半掛車時,目前有 20% 的可能性這輛卡車是空載行駛的。是的,牽引拖車行駛里程的 20% 是從上一次卸貨點到下一次裝貨點。很可能還有另一輛卡車在反方向空駛(或“空載返程”)。

透過機器學習和最佳化,這個空載百分比可以顯著降低,僅僅將這個數字從 20% 降到 19%,就能減少相當於 10 萬美國人的碳排放量。

注意:10 萬美國人的碳排放量是我自己粗略估算的。

2. 物流行業面臨的最大機器學習挑戰是什麼?

物流行業的一大挑戰在於其高度分散的特性:沒有共享的資料池,這使得技術解決方案無法“看到”全域性。例如,大部分經紀貨運的成本是逐單協商的,因此波動性很大。這使得定價成為一個非常難以解決的問題。如果行業變得更加透明並更自由地共享資料,那麼將會有更多的可能性。

3. 在嘗試將機器學習整合到物流行業時,您看到的常見錯誤是什麼?

我認為我看到的最常見的錯誤是人們在真空中進行機器學習和資料科學。

物流領域的大多數機器學習應用如果被使用,將會顯著改變問題的動態,因此與業務部門迭代開發模型,並確保實際效能與訓練中的預期相符非常重要。

定價就是一個例子,如果你對某條線路的定價稍低,你的價格可能會太有競爭力,導致該線路的貨運量激增。這反過來又可能導致成本上升,因為經紀人要努力為這些貨物尋找運力,從而加劇了問題。

4. 機器學習的未來最讓您興奮的是什麼?

我認為最讓我興奮的是機器學習有機會讓人們在工作中表現得更好。

隨著機器學習在商業中變得無處不在,它將能夠幫助加快決策速度並自動化重複性工作。這將加速創新步伐,並創造巨大的經濟價值。我迫不及待地想看看在未來 10 年裡,我們在資料科學和機器學習的幫助下能解決什麼問題!

Nicolas Bertagnolli

背景: Nic 是一名科學家和工程師,致力於透過機器學習改善人類溝通。在過去十年中,他將機器學習/自然語言處理應用於解決醫療領域的資料問題,從揭示癌症基因組中的新模式到利用數十億份臨床筆記來降低成本和改善結果。

在 BEN,Nic 創新智慧技術,以擴充套件人類的能力來觸達人們。請在此處檢視他的簡歷研究Medium 文章

趣聞: 在加入 BEN 之前,Nic 曾住在一輛貨車裡,在美國西部旅行了三年。

BEN: 一家娛樂人工智慧公司,將品牌植入網紅、流媒體、電視和電影內容中,以廣告無法實現的方式將品牌與受眾聯絡起來。

1. 機器學習 (ML) 如何為市場營銷行業帶來積極影響?

影響巨大!它正在徹底改變整個行業格局。市場營銷是一個充滿傳統的領域,很多決策基於直覺。在過去的 20 年裡,市場營銷決策越來越依賴統計資料,但許多品牌仍然依賴其營銷部門的直覺。機器學習正在徹底改變這一點。透過分析哪些廣告表現良好,我們可以就如何以及向誰進行市場營銷做出非常明智的決策。

在 BEN,機器學習確實幫助我們在處理網紅營銷時消除了許多猜測。資料幫助我們穿透偏見和主觀性的迷霧,從而做出明智的決策。

這還只是顯而易見的好處!機器學習還使得品牌能夠做出更安全的營銷決策。例如,向 21 歲以下的人推銷酒精是違法的。利用機器學習,我們可以識別出受眾主要是 21 歲以上的網紅。這不僅幫助了酒類品牌,也幫助了那些擔心自己品牌形象與酒精相關的品牌。

2. 市場營銷行業面臨的最大機器學習挑戰是什麼?

就像機器學習中的大多數事情一樣,問題通常並不在於模型本身。有了像 Hugging Facetorch hub 等工具,有許多優秀且靈活的模型可供使用。

真正的挑戰在於資料的收集、清理和管理。如果我們想談論工作中那些困難的機器學習部分,其中一些歸結為人們的觀點和喜好中存在大量噪音。理解像病毒式傳播這樣的事情真的非常非常困難。

理解是什麼讓一個創作者/網紅長期成功也非常困難。在一些非常嘈雜且難以獲取的資料中,埋藏著許多奇怪的偏好資訊。這些問題歸根結底需要資料、機器學習和業務團隊之間有非常紮實的溝通,並構建能夠增強和與人類協作的模型,而不是完全自動化他們的角色。

3. 在嘗試將機器學習整合到市場營銷行業時,您看到的常見錯誤是什麼?

我認為這不僅僅是市場營銷行業的特有問題,但將機器學習和資料科學置於良好基礎設施之上是我經常看到的一個大問題。組織聽到機器學習後,想分一杯羹,於是他們僱傭了一些資料科學家,結果發現他們沒有任何基礎設施來支援他們那些新奇花哨的模型。機器學習的價值很大一部分在於模型周圍的基礎設施,如果你有訓練好的模型但沒有基礎設施,你就完蛋了。

BEN 的一個非常好的地方是,我們大力投資了我們的資料基礎設施,做到了“先有馬再有車”。現在,資料科學家可以構建能快速為我們的終端使用者服務的模型,而無需自己去搞定整個流程的每一步。在僱傭大量機器學習人員之前,先投資資料工程。

4. 機器學習的未來最讓您興奮的是什麼?

有太多令人興奮的事情在發生。我認為這個領域的發展速度和民主化或許是最讓我興奮的。我記得差不多 10 年前,我寫了第一個用於語言翻譯的 seq2seq 模型。它有幾百行程式碼,訓練時間很長,而且相當有挑戰性。現在,你基本上可以用不到 100 行的 Python 程式碼構建一個可以將任何語言翻譯成任何其他語言的系統。這太瘋狂了!這個趨勢很可能會繼續下去,隨著機器學習基礎設施越來越好,沒有深厚領域專業知識的人部署和為他人提供模型將變得越來越容易。

就像網際網路初期一樣,軟體開發人員很少,你需要一個熟練的團隊來建立一個網站。然後像 Django、Rails 等框架出現,使網站建設變得容易,但提供服務仍然很困難。我們現在有點像處於模型構建容易但可靠地提供服務、可靠地監控它們等仍然具有挑戰性的階段。我認為在未來幾年,這裡的入門門檻會大幅降低,基本上任何高中生都可以將一個深度 transformer 部署到某個雲基礎設施上,並開始為大眾提供有用的結果。這非常令人興奮,因為它意味著我們將開始看到越來越多切實的創新,就像線上服務的爆炸式增長一樣。太多酷炫的事情了!

Eric Golinko

背景: 經驗豐富的資料從業者和團隊建設者。我在不同規模的公司和多個行業工作過。我是一名問題解決者,受過數學和計算機科學的訓練。但最重要的是,我珍視人際關係、家庭、狗、旅行和披薩。

趣聞: Eric 超愛玉米片!

E Source: 為公用事業公司、主要能源使用者以及零售能源市場中的其他關鍵參與者提供獨立的市場情報、諮詢和預測性資料科學服務。

1. 機器學習 (ML) 如何為能源/公用事業行業帶來積極影響?

獲取商業洞察。前提是要有高質量的資料。公用事業公司在其資料組合中擁有許多資料關係,從客戶到裝置,更具體地說,這指的是月度賬單金額和節能專案參與情況。這類資料可以儲存在關係型資料庫中,而裝置或資產資料我們可以理解為構成我們電網的機器部件。橋接這些型別的資料並非易事。

此外,第三方資料,如空間/地理資訊系統 (GIS) 和天氣資料也極其重要。透過機器學習的視角,我們能夠發現和探索具有實際影響的特徵和結果。

2. 公用事業行業面臨的最大機器學習挑戰是什麼?

需要進行一次“去神秘化”的過程。要明確機器學習能做什麼,以及在哪些方面需要監控或可能存在不足。公用事業行業有其既定的運營方式,機器學習可能被視為一種顛覆者。因此,各部門可能對採用任何新技術或新正規化持緩慢態度。然而,如果從業者能夠證明結果,那麼結果就會產生牽引力,並激發更大的採納意願。其他挑戰包括本地資料以及對雲和基礎設施的訪問。這是一個漸進的過程,需要耐心和學習曲線。

3. 在嘗試將機器學習整合到公用事業行業時,您看到的常見錯誤是什麼?

並非公用事業行業獨有,但行動過快、忽視良好的資料質量和簡單的質量檢查是一個常見問題。除此之外,機器學習在許多團隊中以直接或間接的方式實踐著。一個挑戰是在團隊之間整合最佳開發實踐。這也意味著模型跟蹤以及能夠持久化實驗和持續發現。

4. 機器學習的未來最讓您興奮的是什麼?

我從事這個行業已經超過十年了,但不知何故,我仍然感覺自己像個新手。我很幸運能成為一些團隊的一員,在這些團隊裡,能被稱為普通成員都是一種幸運。我的感覺是,未來十年及以後將更加註重資料工程,以看到更多由機器學習覆蓋的用例。


🤗 感謝您收看第一期《機器學習總監洞見》。敬請期待更多來自 SaaS、金融和電子商務領域機器學習總監的洞見。

非常感謝 Eric Golinko、Nicolas Bertagnolli、Nathan Cahill、Alina Zare、Li Tan (譚立) 和 Archi Mitra 在本文中提供的精彩見解和參與。我們期待見證你們每一位的持續成功,並將在每一步都為你們加油。🎉

最後,如果您或您的團隊有興趣透過 Hugging Face 專家加速您的機器學習路線圖,請訪問 hf.co/support 瞭解更多資訊。

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.