日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁 >人工智能 > 2022-07-01 16:46:29 來源:

        將可解釋性構(gòu)建到機(jī)器學(xué)習(xí)模型的組件中

        導(dǎo)讀 幫助用戶理解和信任機(jī)器學(xué)習(xí)模型的解釋方法通常描述了模型中使用的某些特征對其預(yù)測的貢獻(xiàn)程度。例如,如果模型預(yù)測患者患心臟病的風(fēng)險,醫(yī)

        幫助用戶理解和信任機(jī)器學(xué)習(xí)模型的解釋方法通常描述了模型中使用的某些特征對其預(yù)測的貢獻(xiàn)程度。例如,如果模型預(yù)測患者患心臟病的風(fēng)險,醫(yī)生可能想知道患者的心率數(shù)據(jù)對該預(yù)測的影響程度。

        但是,如果這些功能太復(fù)雜或令人費解,以至于用戶無法理解它們,那么解釋方法是否有用?

        麻省理工學(xué)院的研究人員正在努力提高特征的可解釋性,以便決策者更愿意使用機(jī)器學(xué)習(xí)模型的輸出。利用多年的實地工作,他們開發(fā)了一種分類法來幫助開發(fā)人員制作更容易讓目標(biāo)受眾理解的功能。

        “我們發(fā)現(xiàn),在現(xiàn)實世界中,即使我們使用最先進(jìn)的方法來解釋機(jī)器學(xué)習(xí)模型,仍然存在很多源于特征的混淆,而不是模型本身,”說Alexandra Zytek,電氣工程和計算機(jī)科學(xué)博士。學(xué)生和介紹分類法的論文的主要作者。

        為了建立分類,研究人員定義了特性,使五種類型的用戶可以解釋特征,從人工智能專家到受機(jī)器學(xué)習(xí)模型預(yù)測影響的人。他們還提供了關(guān)于模型創(chuàng)建者如何將特征轉(zhuǎn)換為外行更容易理解的格式的說明。

        他們希望他們的工作能夠激發(fā)模型構(gòu)建者從開發(fā)過程的一開始就考慮使用可解釋的特征,而不是試圖向后工作并在事后專注于可解釋性。

        麻省理工學(xué)院的合著者包括博士后劉冬雨;IRD 研究主任 Laure Berti-Équille 客座教授;和資深作者 Kalyan Veeramachaneni,信息和決策系統(tǒng)實驗室 (LIDS) 的首席研究科學(xué)家和數(shù)據(jù)到 AI 小組的負(fù)責(zé)人。Corelight 的首席數(shù)據(jù)科學(xué)家 Ignacio Arnaldo 也加入了他們的行列。該研究發(fā)表在 6 月版的計算機(jī)協(xié)會知識發(fā)現(xiàn)和數(shù)據(jù)挖掘特別興趣小組的同行評審探索通訊上。

        真實世界的課程

        特征是輸入機(jī)器學(xué)習(xí)模型的變量;它們通常是從數(shù)據(jù)集中的列中提取的。Veeramachaneni 解釋說,數(shù)據(jù)科學(xué)家通常為模型選擇和手工制作特征,他們主要關(guān)注確保開發(fā)特征以提高模型準(zhǔn)確性,而不是決策者是否能夠理解它們。

        幾年來,他和他的團(tuán)隊一直在與決策者合作,以確定機(jī)器學(xué)習(xí)的可用性挑戰(zhàn)。這些領(lǐng)域?qū)<?,其中大多?shù)缺乏機(jī)器學(xué)習(xí)知識,通常不信任模型,因為他們不了解影響預(yù)測的特征。

        在一個項目中,他們與醫(yī)院 ICU 的臨床醫(yī)生合作,他們使用機(jī)器學(xué)習(xí)來預(yù)測患者在心臟手術(shù)后面臨并發(fā)癥的風(fēng)險。一些特征以聚合值的形式呈現(xiàn),例如患者心率隨時間的趨勢。雖然以這種方式編碼的特征是“模型就緒”(模型可以處理數(shù)據(jù)),但臨床醫(yī)生并不了解它們是如何計算的。劉說,他們寧愿看到這些聚合特征與原始值之間的關(guān)系,這樣他們就可以識別患者心率的異常。

        相比之下,一組學(xué)習(xí)科學(xué)家更喜歡聚合的特征。與其擁有“學(xué)生在論壇上發(fā)表的帖子數(shù)量”之類的功能,他們更愿意將相關(guān)的功能組合在一起,并用他們理解的術(shù)語進(jìn)行標(biāo)記,例如“參與”。

        “對于可解釋性,一種尺寸并不適合所有人。當(dāng)你從一個區(qū)域到另一個區(qū)域時,會有不同的需求??山忉屝员旧碛泻芏鄬哟?,”Veeramacheneni 說。

        一種尺寸并不適合所有人的想法是研究人員分類的關(guān)鍵。他們定義了可以使不同決策者或多或少地解釋特征的屬性,并概述了哪些屬性可能對特定用戶最重要。

        例如,機(jī)器學(xué)習(xí)開發(fā)人員可能專注于具有與模型兼容和預(yù)測的功能,這意味著他們有望提高模型的性能。

        另一方面,沒有機(jī)器學(xué)習(xí)經(jīng)驗的決策者可能會更好地使用人性化的功能,這意味著它們以對用戶來說自然且易于理解的方式進(jìn)行描述,這意味著它們指的是真實世界的指標(biāo)用戶可以推理。

        “分類法說,如果你正在制作可解釋的特征,它們可以解釋到什么級別?你可能不需要所有級別,這取決于與你合作的領(lǐng)域?qū)<业念愋停?rdquo;Zytek 說。

        將可解釋性放在首位

        研究人員還概述了開發(fā)人員可以采用的特征工程技術(shù),以使特征對特定受眾更具可解釋性。

        特征工程是數(shù)據(jù)科學(xué)家使用聚合數(shù)據(jù)或標(biāo)準(zhǔn)化值等技術(shù)將數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)模型可以處理的格式的過程。大多數(shù)模型也無法處理分類數(shù)據(jù),除非它們被轉(zhuǎn)換為數(shù)字代碼。對于外行來說,這些轉(zhuǎn)變通常幾乎是不可能的。

        Zytek 說,創(chuàng)建可解釋的特征可能涉及撤消一些編碼。例如,一種常見的特征工程技術(shù)組織數(shù)據(jù)跨度,因此它們都包含相同的年數(shù)。為了使這些特征更易于解釋,可以使用人類術(shù)語對年齡范圍進(jìn)行分組,例如嬰兒、幼兒、兒童和青少年?;蛘?,與其使用平均脈搏率這樣的轉(zhuǎn)換特征,可解釋的特征可能只是實際的脈搏率數(shù)據(jù),劉補(bǔ)充道。

        “在很多領(lǐng)域,可解釋特征和模型準(zhǔn)確性之間的權(quán)衡實際上非常小。例如,當(dāng)我們與兒童福利篩查人員合作時,我們只使用符合我們對可解釋性定義的特征重新訓(xùn)練模型,結(jié)果性能下降幾乎可以忽略不計,”Zytek 說。

        在這項工作的基礎(chǔ)上,研究人員正在開發(fā)一個系統(tǒng),使模型開發(fā)人員能夠以更有效的方式處理復(fù)雜的特征轉(zhuǎn)換,從而為機(jī)器學(xué)習(xí)模型創(chuàng)建以人為本的解釋。這個新系統(tǒng)還將旨在解釋模型就緒數(shù)據(jù)集的算法轉(zhuǎn)換為決策者可以理解的格式。