您現(xiàn)在的位置是:首頁(yè) >互聯(lián)網(wǎng) > 2021-01-08 13:57:05 來(lái)源:
企業(yè)是否使用優(yōu)質(zhì)數(shù)據(jù)新研究評(píng)估數(shù)據(jù)質(zhì)量工具中的變量
數(shù)據(jù)是至關(guān)重要的資源。它的見(jiàn)解不僅會(huì)推動(dòng)針對(duì)Google,F(xiàn)acebook和亞馬遜等大數(shù)據(jù)巨頭的運(yùn)營(yíng)和戰(zhàn)略決策,而且還會(huì)推動(dòng)一系列行業(yè)的發(fā)展,從噴氣發(fā)動(dòng)機(jī)制造商 到職業(yè)籃球大聯(lián)盟, 再到 使用數(shù)據(jù)來(lái)提高作物產(chǎn)量的農(nóng)業(yè)學(xué)家。
通常將原始數(shù)據(jù)作為資源與原油作為經(jīng)濟(jì)變化的驅(qū)動(dòng)力進(jìn)行比較。與原油一樣,數(shù)據(jù)在其自然狀態(tài)下也無(wú)法使用。僅在將基礎(chǔ)產(chǎn)品精煉成可用形式后才能獲得該值。與石油一樣,輸出的質(zhì)量也會(huì)變化。
但是與基于石油的產(chǎn)品不同,數(shù)據(jù)沒(méi)有明確的標(biāo)簽系統(tǒng),這意味著企業(yè)通常對(duì)使用100辛烷航空燃料或高硫越野柴油的數(shù)據(jù)視而不見(jiàn)。
統(tǒng)計(jì)數(shù)據(jù)顯示,全球首席執(zhí)行官中有 84%擔(dān)心數(shù)據(jù)標(biāo)準(zhǔn),有缺陷的數(shù)據(jù)每年給企業(yè)造成1500萬(wàn)美元的損失。這導(dǎo)致用于監(jiān)視數(shù)據(jù)質(zhì)量的軟件工具的激增;其中一些本身的質(zhì)量令人懷疑。在剛剛發(fā)布的“數(shù)據(jù)質(zhì)量測(cè)量和監(jiān)視工具調(diào)查”中記錄了確定“如何在最新的數(shù)據(jù)質(zhì)量工具中實(shí)現(xiàn)數(shù)據(jù)質(zhì)量測(cè)量和監(jiān)視”的信息。
約翰內(nèi)斯·開(kāi)普勒大學(xué)高級(jí)研究員,該研究的合著者Lisa Ehrlinger(如圖)說(shuō):“這項(xiàng)研究的主要?jiǎng)訖C(jī)實(shí)際上是一種非常實(shí)用的動(dòng)機(jī)。” “我們?cè)赱我們的]大數(shù)據(jù)項(xiàng)目中花費(fèi)了大部分時(shí)間來(lái)進(jìn)行數(shù)據(jù)質(zhì)量測(cè)量和改進(jìn)任務(wù)。因此,我們[詢問(wèn)]市場(chǎng)上有哪些工具可以自動(dòng)化這些數(shù)據(jù)質(zhì)量任務(wù)。”
Ehrlinger采訪過(guò)戴夫Vellante表示和保羅·吉林,theCUBE,SiliconANGLE Media的移動(dòng)即時(shí)串流工作室共同主辦的MIT CDOIQ研討會(huì)在馬薩諸塞州劍橋期間。他們討論了研究方法和研究結(jié)果(請(qǐng)?jiān)诖颂幉榭赐暾牟稍L記錄)。
本周,CUBE在其“科技女性”專題節(jié)目中聚焦了Lisa Ehrlinger 。
自動(dòng)化數(shù)據(jù)質(zhì)量測(cè)量
從大學(xué)時(shí)代起,埃林格就一直在 奧地利林茨的約翰內(nèi)斯開(kāi)普勒大學(xué)就讀,并擁有該大學(xué)的計(jì)算機(jī)科學(xué)學(xué)士學(xué)位和碩士學(xué)位。目前,她正在約翰內(nèi)斯·開(kāi)普勒(Johannes Kepler)面向應(yīng)用的知識(shí)處理研究所的WolframWöß教授的指導(dǎo)下,從事自動(dòng)連續(xù)數(shù)據(jù)質(zhì)量測(cè)量的博士學(xué)位論文 。
在學(xué)習(xí)期間,Ehrlinger通過(guò)為各種雇主從事信息技術(shù)項(xiàng)目而擴(kuò)展了她的經(jīng)驗(yàn)。其中包括甲骨文,軟件情報(bào)公司Dynatrace LLC,奧地利林茨市的羅馬教區(qū),以及最近的哈根堡軟件能力中心。
在過(guò)去的四年中,Ehrlinger發(fā)表了她的碩士論文“集成信息系統(tǒng)的模式級(jí)數(shù)據(jù)質(zhì)量評(píng)估”,與他人合著了10篇研究論文,并共同編輯 了第十屆國(guó)際進(jìn)步大會(huì)的會(huì)議記錄。在數(shù)據(jù)庫(kù),知識(shí)和數(shù)據(jù)應(yīng)用程序中。
Ehrlinger是麻省理工學(xué)院CDOIQ專題討論會(huì)的演講嘉賓,她的博士論文題為“使用工具自動(dòng)進(jìn)行數(shù)據(jù)質(zhì)量測(cè)量”。
并非所有的數(shù)據(jù)質(zhì)量工具都是平等的
Ehrlinger和她的團(tuán)隊(duì)確定了市場(chǎng)上的667種數(shù)據(jù)質(zhì)量工具,然后根據(jù)其域獨(dú)立性,非特異性和免費(fèi)或試用的可用性,將該數(shù)字縮小到13個(gè),以進(jìn)行詳細(xì)的測(cè)試和分析。僅有一半以上(50.8%)的工具被排除在外,因?yàn)樗鼈兪翘囟ㄓ陬I(lǐng)域的。意味著它們專用于特定的數(shù)據(jù)類型或?qū)S泄ぞ摺?/p>
“我們真的只是想找到通常適用于不同種類的數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)等的工具,” Ehrlinger說(shuō)。
排除了另外40%,因?yàn)樗鼈儗S糜谔囟ǖ墓芾砣蝿?wù),例如數(shù)據(jù)可視化,集成或清理。
所選擇的工具必須提供研究團(tuán)隊(duì)確定為最重要的三個(gè)功能區(qū)域:數(shù)據(jù)概要分析,質(zhì)量指標(biāo)和質(zhì)量監(jiān)視:“數(shù)據(jù)概要分析可以對(duì)數(shù)據(jù)質(zhì)量有一個(gè)初步的了解……在維度,指標(biāo)和指標(biāo)方面進(jìn)行數(shù)據(jù)質(zhì)量管理規(guī)則……[以及隨時(shí)間推移的數(shù)據(jù)質(zhì)量監(jiān)控,” Ehrlinger解釋說(shuō)。
Ehrlinger表示,盡管Gartner數(shù)據(jù)質(zhì)量工具魔力象限是該領(lǐng)域最著名的研究,但它并未關(guān)注特定的測(cè)量功能。她的研究團(tuán)隊(duì)花了整整一年的時(shí)間親身實(shí)踐這些工具,并獲得了使用它們的第一手經(jīng)驗(yàn)。
Ehrlinger團(tuán)隊(duì)與Gartner研究之間的另一個(gè)區(qū)別是所評(píng)估工具的范圍。Ehrlinger選擇的最后13種工具包括9種商業(yè)和封閉源代碼工具,其中4種(Informatica數(shù)據(jù)質(zhì)量,Oracle企業(yè)數(shù)據(jù)質(zhì)量,SAS數(shù)據(jù)質(zhì)量和Talend Open Studio for Data Quality)在Gartner的魔力象限中被列為領(lǐng)導(dǎo)者。
研究中評(píng)估的其他五種工具是免費(fèi)和開(kāi)源的,而Gartner僅提及了其中一種(Talend)。其他四個(gè)是OpenRefine,Aggregate Profiler,Moby DQ和Apache Griffin,“它們確實(shí)具有很好的監(jiān)視功能,但缺少這些綜合工具中的其他功能,” Ehrlinger說(shuō)。
個(gè)人風(fēng)格與眾不同
除了功能之外,客戶服務(wù)也被考慮在總體評(píng)估中。“重點(diǎn)是功能,但我們當(dāng)然必須聯(lián)系客戶支持,”埃林格說(shuō)。
對(duì)于商業(yè)工具來(lái)說(shuō)尤其如此。Ehrlinger說(shuō):“我們必須要求他們向我們提供一些試用許可證,在那里,我們感受到了來(lái)自這些公司的不同反饋。”
她還詢問(wèn)參加者有關(guān)其客戶體驗(yàn)的數(shù)據(jù)質(zhì)量事件:“獲得有關(guān)單個(gè)工具的反饋并驗(yàn)證我們的結(jié)果很有趣,而且匹配得很好,”她說(shuō)。
客戶服務(wù)方面的贏家是Informatica Data Quality和Experian Pandora。“在支持,試用許可證和特定功能方面,我們認(rèn)為與[Informatica]的互動(dòng)非常緊密,” Ehrlinger說(shuō)。
其他公司,例如IBM,得分不高。她補(bǔ)充說(shuō):“他們專注于大廠商。”
使埃林格和她的團(tuán)隊(duì)感到驚訝的一個(gè)結(jié)果是,許多工具缺乏自動(dòng)化。她說(shuō):“我們認(rèn)為自動(dòng)化的潛力肯定更大。”
工具需要改進(jìn)的另一個(gè)領(lǐng)域是詳細(xì)信息。“我們觀察到一些工具說(shuō)……'我們應(yīng)用機(jī)器學(xué)習(xí)',然后查看它們的文檔,找不到關(guān)于哪種算法,哪些參數(shù),哪些閾值的信息,” Ehrlinger說(shuō)。“如果您想評(píng)估數(shù)據(jù)質(zhì)量,您確實(shí)需要知道什么算法以及如何對(duì)其進(jìn)行調(diào)整。”
這一點(diǎn)特別重要,因?yàn)檫@些工具的用戶通常具有很高的技術(shù)專長(zhǎng)。她補(bǔ)充說(shuō):“他(或她)確實(shí)需要調(diào)整這些算法以獲得可靠的結(jié)果,并知道發(fā)生了什么以及為什么,選擇了哪些記錄,”。
對(duì)質(zhì)量數(shù)據(jù)的追求仍在繼續(xù)
Ehrlinger和她的研究團(tuán)隊(duì)已經(jīng)開(kāi)始了他們的下一個(gè)研究,名為“用于數(shù)據(jù)質(zhì)量評(píng)估的知識(shí)圖”。根據(jù)Ehrlinger的說(shuō)法,該項(xiàng)目與當(dāng)前的企業(yè)級(jí)自動(dòng)化趨勢(shì)緊密相關(guān),可以“同時(shí)解決兩個(gè)問(wèn)題”。
她說(shuō):“首先是想出公司中數(shù)據(jù)格局的語(yǔ)義表示。” “但不僅是數(shù)據(jù)元數(shù)據(jù)本身在收集元數(shù)據(jù)方面,而且還可以使用數(shù)據(jù)概要文件自動(dòng)改進(jìn)或注釋該數(shù)據(jù)模式。”