機器學習總監洞見 [第 2 部分:SaaS 版]
如果您或您的團隊有興趣更快地構建機器學習解決方案,請立即訪問 hf.co/support!
👋 歡迎來到我們的“機器學習總監洞見”[系列] 的第 2 部分。請在此處檢視 第 1 部分。
機器學習總監在人工智慧領域佔據著獨特的地位,他們的視角跨越了各種角色和職責。他們在機器學習框架、工程、架構、實際應用和問題解決方面的豐富知識,為我們提供了對機器學習現狀的深刻見解。例如,一位總監會指出,使用新的 Transformer 語音技術如何使他們團隊的錯誤率降低了 30%,以及簡單的思維如何幫助節省 *大量* 的計算能力。
有沒有想過 Salesforce 或 ZoomInfo 的總監們目前對機器學習的狀況有何看法?他們最大的挑戰是什麼?他們最興奮的是什麼?那麼,您即將揭曉答案!
在第二期 SaaS 專題中,您將聽到一位醫療保健深度學習教科書作者的分享,他還創辦了一個非營利組織來指導機器學習人才;一位國際象棋狂熱的網路安全專家;一位因芭比娃娃在鉛召回事件後需要監控品牌聲譽而受到啟發並創業的企業家;以及一位經驗豐富的專利和學術論文作者,他喜歡看著自己的四個孩子犯下與他的機器學習模型相同的錯誤。
🚀 讓我們來認識一些 SaaS 領域的頂尖機器學習總監,聽聽他們對機器學習的看法
Omar Rahman
背景: Omar 領導一個機器學習和資料工程師團隊,利用機器學習進行防禦性安全工作,作為網路安全團隊的一部分。此前,Omar 曾在 Adobe 和 SAP 領導資料科學和機器學習工程團隊,專注於為營銷雲和採購應用帶來智慧功能。Omar 擁有亞利桑那州立大學的電氣工程碩士學位。
趣聞: Omar 喜歡下國際象棋,並在業餘時間志願指導和輔導人工智慧領域的研究生。
Salesforce: 全球排名第一的客戶關係管理軟體。
1. 機器學習如何對 SaaS 產生積極影響?
機器學習在許多方面都使 SaaS 產品受益。
a. 提高應用程式內的自動化程度: 例如,一個服務工單路由器使用 NLP(自然語言處理)來理解服務請求的上下文,並將其路由到組織內的相應團隊。
b. 降低程式碼複雜性: 基於規則的系統隨著新規則的增加往往會變得難以管理,從而增加了維護成本。例如,一個基於機器學習的語言翻譯系統,與以前基於規則的系統相比,程式碼行數少得多,但準確性和魯棒性更高。
c. 更好的預測帶來成本節約。 能夠更準確地進行預測有助於減少供應鏈中的缺貨,同時透過減少儲存成本來節省開支。
2. SaaS 領域最大的機器學習挑戰是什麼?
a. 將機器學習應用產品化需要的不僅僅是擁有一個模型。能夠利用模型提供結果、檢測和適應資料統計特性的變化等,都會在部署和維護機器學習系統時產生巨大的開銷。
b. 在大多數大型組織中,資料通常是孤立的且維護不善,導致在資料整合、預處理、資料清洗等活動上花費大量時間,從而需要大量的時間和精力來建立基於機器學習的應用程式。
3. 在將機器學習整合到 SaaS 中時,您看到人們常犯的錯誤是什麼?
不夠關注業務背景和要解決的問題,而是試圖使用最新、最強大的演算法和新開源的庫。透過簡單的傳統機器學習技術,其實可以實現很多目標。
4. 關於機器學習的未來,什麼最讓您興奮?
通用人工智慧能力,如果構建和管理得當,有能力以超出人們想象的多種方式改變人類。我希望我們能在醫療保健和交通領域看到巨大的進步。我們已經看到人工智慧在放射學中的好處,顯著節省了人力,從而使人類能夠專注於更復雜的任務。自動駕駛汽車和卡車已經在改變交通運輸行業。
肖可 (Danica)
背景: 肖可 (Danica) 是 Amplitude 的高階總監兼資料科學與機器學習負責人。她的團隊專注於開發和部署基於多源使用者資料的自服務機器學習模型和產品,以解決有關數字產品分析和最佳化的關鍵業務挑戰。此外,她是一位充滿熱情的機器學習研究員,已在頂級計算機科學會議上發表了超過 95 篇論文。她也是一位技術領導者,在機器學習路線圖建立、團隊建設和人才指導方面擁有豐富的經驗。
在加入 Amplitude 之前,肖可 (Danica) 是 IQVIA 分析卓越中心的全球機器學習負責人。在此之前,她是 IBM 研究院的研究員和 MIT-IBM Watson AI 實驗室的研究負責人。她獲得了西雅圖華盛頓大學的機器學習博士學位。最近,她還合著了一本關於醫療保健深度學習的教科書,並創辦了一個非營利組織來指導機器學習人才。
趣聞: 肖可是一位愛貓人士,是兩隻貓的媽媽:一隻新加坡貓女孩和一隻英國短毛貓男孩。
Amplitude: 一個基於雲的產品分析平臺,幫助客戶構建更好的產品。
1. 機器學習如何對 SaaS 產生積極影響?
機器學習在將海量嘈雜的機器生成或使用者生成資料轉化為各種業務問題的答案方面,扮演著改變遊戲規則的角色,這些問題包括個性化、預測、推薦等。它透過 SaaS 影響了廣泛的行業垂直領域。
2. SaaS 領域最大的機器學習挑戰是什麼?
缺乏涵蓋更廣泛行業用例的機器學習模型訓練資料。儘管 SaaS 是面向所有行業垂直領域的通用解決方案,但仍需解決如何處理因業務或領域漂移問題而產生的垂直領域特定需求,這些問題會影響機器學習模型的質量。
3. 在將機器學習整合到 SaaS 產品中時,您看到人們常犯的錯誤是什麼?
沒有給使用者足夠的靈活性,讓他們能夠融入對業務成功至關重要的業務知識或其他人為因素。例如,對於一個自服務的產品推薦系統,如果使用者可以控制推薦產品的多樣性,那將會非常好。
4. 關於機器學習的未來,什麼最讓您興奮?
機器學習已經取得了巨大的成功。它也在快速發展,以解決當前的侷限性(例如,資料不足、領域漂移、領域知識的融入)。
更多的機器學習技術將被應用於解決業務或客戶需求。例如,可解釋的機器學習讓使用者能夠理解和信任機器學習模型的輸出;反事實預測讓使用者能夠評估如果他們做出不同的業務決策,可能會出現的替代結果。
Raphael Cohen
背景: Raphael 擁有理解健康記錄和遺傳學領域的博士學位,撰寫了 20 篇學術論文,並擁有 8 項專利。Raphael 也是資料科學和研究領域的領導者,在自然語言處理、語音、醫療保健、銷售、客戶旅程和 IT 方面擁有背景。
趣聞: Raphael 有 4 個孩子,他喜歡看到他們學習並犯下與他的一些機器學習模型相同的錯誤。
ZoomInfo: 智慧銷售和營銷技術,由全球最全面的商業資料庫支援。
1. 機器學習如何對 SaaS 產生積極影響
機器學習促進了對話資料的轉錄,幫助人們解鎖新的洞見和理解。人們現在可以輕鬆檢視他們談論過的事情、總結的目標、要點、誰說得最多、誰問了最好的問題、下一步是什麼等等。這對於許多互動,如電子郵件和視訊會議(現在比以往任何時候都更常見)來說,非常有用。
透過 Chorus.ai,我們在對話進行時即時轉錄。我們使用一種名為 Wave2Vec 的演算法來實現這一點。 🤗 Hugging Face 最近釋出了他們自己的 Wave2Vec 版本,專為訓練而建立,我們從中獲得了很大的價值。新一代的 Transformer 語音技術非常強大,它使我們的錯誤率降低了 30%。
一旦我們轉錄了對話,我們就可以深入研究內容——這就是自然語言處理發揮作用的地方,我們嚴重依賴 Hugging Face Transformers 來幫助我們描繪錄音和電子郵件中大約 20 個類別的主題;例如,我們是在談論定價、簽訂合同、下一步行動,所有這些主題都是透過電子郵件傳送或討論的,現在可以輕鬆提取這些資訊,而無需回頭翻閱所有對話。
這有助於人們在工作中表現得更好。
2. SaaS 領域最大的機器學習挑戰是什麼?
最大的挑戰是理解何時利用機器學習。
哪些問題我們可以用機器學習解決,哪些不應該用?很多時候,我們用機器學習模型取得了突破,但一個計算上更輕量的啟發式模型更適合解決我們面臨的問題。
這就是一個強大的人工智慧策略發揮作用的地方。——瞭解你希望最終產品如何工作以及達到何種效率。
我們還面臨一個問題,即如何以較低的環境/計算足跡將你構建的機器學習模型投入生產?每個人都在為此苦惱;如何以高效的方式在生產中維護模型,而不過度消耗資源。
一個很好的例子是當我們轉向 Wav2Vec 框架時,這需要我們將對話音訊分解成 15 秒的片段,然後輸入到這個巨大的模型中。在此過程中,我們發現我們向模型輸入了大量純粹是靜音的片段。這種情況很常見,比如有人沒出現或者一個人在等另一個人加入會議。
僅僅透過新增另一個非常輕量的模型來告訴我們何時不將靜音片段傳送到這個龐大複雜的機器學習模型中,我們就能節省大量的計算能力/能源。這是一個工程師可以思考其他更簡單的方法來加速和節省模型生產成本的例子。有更多的工程師可以變得更精明,更好地最佳化模型,而不過度消耗資源。
3. 在將機器學習整合到 SaaS 中時,您看到人們常犯的錯誤是什麼?
我的解決方案是最聰明的嗎?有沒有更好的方法來分解這個問題並更高效地解決它?
當我們開始識別說話者時,我們直接採用了機器學習方法,但這並不如視訊會議提供商的資料準確。
從那以後我們學到,最好的方法是先從會議提供商那裡獲取誰在說話的元資料,然後在此基礎上疊加一個智慧的嵌入模型。我們在這段學習曲線上浪費了寶貴的時間。如果我們停下來思考,認識到有其他資料來源可以投資,這些資料來源可以幫助我們更高效地加速,我們就不應該使用這個龐大的機器學習解決方案。
跳出思維定勢,不要僅僅拿別人構建的東西,然後想“我有個主意可以改進它”。我們可以在哪裡透過更好地理解問題而變得更聰明?
4. 關於機器學習的未來,什麼最讓您興奮?
我認為我們正處在另一場革命之中。對我們來說,看到我們的 Wave2Vec 模型使錯誤率下降了 30%,這真是太棒了。我們多年來每次只能取得 1% 的下降,然後在 3 個月內,我們看到了如此巨大的進步,而且我們知道這僅僅是個開始。在學術界,更大更智慧的事情正在發生。這些預訓練模型讓我們能夠做到以前無法想象的事情。這非常令人興奮!
我們還看到許多來自自然語言處理領域的技術正在進入其他領域,如語音和視覺,併為它們提供動力。
另一件讓我非常興奮的事情是生成模型!我們最近與一家名為 Bria.ai 的公司合作,他們使用這些神奇的 GAN 來建立影像。你可以拿一張庫存照片,透過說“摘掉眼鏡”、“戴上眼鏡”或“新增頭髮”來把它變成一張不同的照片,而且效果非常完美。我們的想法是,我們可以用它來生成資料。我們可以拍攝會議中人們不笑的照片,然後讓他們笑起來,以便為微笑檢測構建一個數據集。這將是變革性的。你可以把 1 張圖片變成 100 張圖片。這也將適用於語音生成,這在服務行業可能是一個強大的應用。
有什麼最後的想法嗎?
–將模型投入生產具有挑戰性。相信資料科學團隊需要嵌入工程師。工程師應該成為人工智慧團隊的一部分。這將是未來一個重要的結構性轉變。
Martin Ostrovsky
背景: Martin 對人工智慧、機器學習和自然語言處理充滿熱情,負責指導 Repustate 所有產品的戰略和成功,領導負責開發和改進這些產品的跨職能團隊。他為 Repustate 的全球文字分析 API、情感分析、深度搜索和命名實體識別解決方案設定戰略、路線圖和功能定義。他擁有約克大學的計算機科學學士學位,並在舒立克商學院獲得了工商管理碩士學位。
趣聞: 我使用的第一個機器學習應用是為芭比娃娃玩具。我在舒立克商學院的教授提到,由於玩具因含鉛量過高而被召回,芭比需要監控其品牌聲譽。僱人手動審查每一條社交帖子和線上文章對我來說似乎效率低下且效果不佳。所以我提議建立一個機器學習演算法,來監控人們在所有社交媒體和線上渠道上對他們的看法。這個演算法執行得天衣無縫。這就是我決定將我的公司命名為 Repustate 的原因——即你的“聲譽”(repu)的“狀態”(state)。 🤖
Repustate: 一家為企業公司提供文字分析服務的領先提供商。
1. 最喜歡的機器學習商業應用是什麼?
我最喜歡的機器學習應用是網路安全。
對於任何公司(政府或非政府)而言,網路安全在資料方面仍然是最關鍵的部分。機器學習有助於識別網路威脅,打擊網路犯罪,包括網路欺凌,並允許更快地響應安全漏洞。機器學習演算法根據使用者資料快速分析最可能的漏洞以及潛在的惡意軟體和間諜軟體應用程式。它們可以發現端點入口模式的扭曲,並將其識別為潛在的資料洩露。
2. 您最大的機器學習挑戰是什麼?
最大的機器學習挑戰是阿拉伯語的音訊到文字轉錄。有相當多的系統可以解碼阿拉伯語,但它們缺乏準確性。阿拉伯語是 26 個國家的官方語言,有 2.47 億母語使用者和 2900 萬非母語使用者。它是一門複雜的語言,詞彙豐富,方言眾多。
如果你想從阿拉伯語文字中獲得準確的洞見,情感挖掘工具需要直接讀取阿拉伯語資料,因為否則細微差別會在翻譯中丟失。將文字翻譯成英語或任何其他語言都可能完全改變阿拉伯語單詞的含義,甚至包括詞根。這就是為什麼演算法需要在阿拉伯語資料集上進行訓練,並使用專門的阿拉伯語詞性標註器。由於這些挑戰,迄今為止,大多數公司都未能提供準確的阿拉伯語音訊到文字的翻譯。
3. 在嘗試整合機器學習時,您看到人們常犯的錯誤是什麼?
公司在嘗試整合機器學習時最常犯的錯誤是訓練資料集中的資料不足。大多數機器學習模型無法區分好資料和不足的資料。因此,在大多數情況下,訓練資料集被認為是相關的,並被用作確定結果的先例。這個挑戰不僅限於中小型企業;大型企業也面臨同樣的問題。
無論機器學習過程如何,公司都需要透過在機器學習的早期階段引入人為因素,來確保訓練資料集對於其期望的結果是可靠和詳盡的。
然而,透過對準確、全面和持續的訓練資料進行徹底審查,公司可以為成功的機器學習專案奠定所需的基礎。
4. 您認為未來 5-10 年,機器學習將在哪些領域產生最大影響?
在未來 5-10 年,機器學習將在改變醫療保健行業方面產生最大影響。
網路化醫院和互聯醫療
透過預測性護理,指揮中心將能夠分析臨床和位置資料,即時監控整個醫療網路中的供需情況。藉助機器學習,醫療專業人員將能夠更快、更有效地發現高風險患者,從而消除系統中的瓶頸。你可以更快地檢查傳染病的傳播,採取更好的措施來管理流行病,更準確地識別高風險患者,尤其是遺傳性疾病患者等。
更好的員工和患者體驗
預測性醫療網路有望減少等待時間,改善員工工作流程,並承擔日益增長的行政負擔。透過從每位患者、每次診斷和每次手術中學習,機器學習有望創造出能適應醫院員工和患者的體驗。這可以改善健康結果,減少臨床醫生短缺和職業倦怠,同時使系統在財務上可持續。
🤗 感謝您參與本期機器學習總監洞見。敬請期待更多來自金融、醫療保健和電子商務領域機器學習總監的見解。
非常感謝 Omar Rahman、肖可 (Danica)、Raphael Cohen 和 Martin Ostrovsky 在本文中提供的精彩見解和參與。我們期待見證你們每位的持續成功,並將在你們前進的每一步中為你們加油。 🎉
如果您或您的團隊有興趣與 Hugging Face 專家一起加速您的機器學習路線圖,請訪問 hf.co/support 瞭解更多資訊。