您現(xiàn)在的位置是:首頁 >人工智能 > 2022-07-21 16:48:42 來源:
開源平臺支持隱私保護機器學習研究
密歇根大學的研究人員已開源發(fā)布了迄今為止最大的基準數(shù)據(jù)集,用于機器學習技術的設計并考慮到數(shù)據(jù)隱私。這種稱為聯(lián)合學習的方法在最終用戶設備(如智能手機和筆記本電腦)上訓練學習模型,而不需要將私人數(shù)據(jù)傳輸?shù)街醒敕掌鳌?/p>
“通過在生成數(shù)據(jù)的地方進行現(xiàn)場訓練,我們可以在更大的真實世界數(shù)據(jù)上進行訓練,”UM 計算機科學與工程博士生 Fan Lai 解釋說,他在國際機器學習會議上展示了 FedScale 訓練環(huán)境本星期。
“這也使我們能夠減輕與將原始數(shù)據(jù)從最終用戶設備收集到云中相關的隱私風險以及高昂的通信和存儲成本,”賴說。
聯(lián)邦學習仍然是一項新技術,它依賴于一種充當集中協(xié)調器的算法。它將模型交付給設備,在相關用戶數(shù)據(jù)上對其進行本地訓練,然后將每個經(jīng)過部分訓練的模型帶回并使用它們生成最終的全局模型。
對于許多應用程序,此工作流程提供了額外的數(shù)據(jù)隱私和安全保護。消息應用程序、醫(yī)療保健數(shù)據(jù)、個人文檔和其他敏感但有用的培訓材料可以改進模型,而不必擔心數(shù)據(jù)中心漏洞。
除了保護隱私外,聯(lián)邦學習還可以通過減少甚至消除大數(shù)據(jù)傳輸來使模型訓練更加資源高效,但在廣泛使用之前它面臨著一些挑戰(zhàn)??缍鄠€設備進行培訓意味著無法保證可用的計算資源,并且用戶連接速度和設備規(guī)格等不確定性會導致數(shù)據(jù)選項池質量參差不齊。
“聯(lián)邦學習作為一個研究領域正在迅速發(fā)展,”密歇根大學計算機科學與工程副教授 Mosharaf Chowdhury 說。“但大部分工作都使用了少數(shù)數(shù)據(jù)集,這些數(shù)據(jù)集非常小,并不代表聯(lián)邦學習的許多方面。”
這就是 FedScale 的用武之地。該平臺可以在幾個 GPU 和 CPU 上模擬數(shù)百萬用戶設備的行為,使機器學習模型的開發(fā)人員能夠探索他們的聯(lián)合學習程序將如何執(zhí)行,而無需大規(guī)模部署。它服務于各種流行的學習任務,包括圖像分類、對象檢測、語言建模、語音識別和機器翻譯。
“任何在最終用戶數(shù)據(jù)上使用機器學習的東西都可以聯(lián)合起來,”Chowdhury 說。“應用程序應該能夠學習和改進它們提供服務的方式,而無需實際記錄用戶所做的一切。”
作者指定了幾個必須考慮的條件才能真實地模擬聯(lián)邦學習體驗:數(shù)據(jù)的異質性、設備的異質性、異質的連接性和可用性條件,所有這些都能夠在各種機器學習任務上以多尺度運行。Chowdhury 表示,F(xiàn)edScale 的數(shù)據(jù)集是迄今為止發(fā)布的最大的數(shù)據(jù)集,專門針對聯(lián)邦學習中的這些挑戰(zhàn)。
“在過去的幾年里,我們收集了幾十個數(shù)據(jù)集。原始數(shù)據(jù)大多是公開的,但很難使用,因為它們有各種來源和格式,”賴說。“我們也在不斷努力支持大規(guī)模的設備上部署。”
FedScale 團隊還推出了排行榜,以推廣在 UM 系統(tǒng)上訓練的最成功的聯(lián)邦學習解決方案。