您現(xiàn)在的位置是:首頁 >互聯(lián)網(wǎng) > 2021-01-08 13:57:05 來源:
真正的大數(shù)據(jù)問題以及為什么只有機(jī)器學(xué)習(xí)才能解決它
為什么這么多公司仍在努力建立從數(shù)據(jù)到見解的平穩(wěn)運(yùn)行的管道?他們投資于大肆宣傳的機(jī)器學(xué)習(xí)算法,以分析數(shù)據(jù)并做出業(yè)務(wù)預(yù)測。
但是,然后,他們不可避免地意識到算法不是魔術(shù):如果將垃圾數(shù)據(jù)提供給他們,他們的見識就不會(huì)那么出色。因此,他們聘用了數(shù)據(jù)科學(xué)家,他們花費(fèi)90%的時(shí)間在數(shù)據(jù)清潔自助洗衣店里清洗和折疊,而只剩下10%的時(shí)間去做被雇用的工作。
這個(gè)過程的另一個(gè)缺點(diǎn)是,公司只會(huì)為在線端算法的機(jī)器學(xué)習(xí)而感到興奮。Tamr Inc.聯(lián)合創(chuàng)始人兼首席執(zhí)行官安迪·帕爾默(Andy Palmer)表示,他們應(yīng)該在清理的早期階段就自由地應(yīng)用機(jī)器學(xué)習(xí),而不是依靠人們來處理龐大的數(shù)據(jù)集 ,這有助于組織使用機(jī)器學(xué)習(xí)來統(tǒng)一他們的機(jī)器。數(shù)據(jù)孤島。
許多公司已經(jīng)在用于大數(shù)據(jù)收集的系統(tǒng)上花費(fèi)了大量金錢。他們對數(shù)據(jù)量超過質(zhì)量的重視顯而易見。帕爾默說:“在這些大公司之一工作的任何人都可以告訴你,他們從大多數(shù)內(nèi)部系統(tǒng)中獲得的數(shù)據(jù)都是簡單明了的。”
Tamr的聯(lián)合創(chuàng)始人兼首席技術(shù)官Palmer和Michael Stonebraker(如圖)與 SiliconANGLE Media移動(dòng)直播工作室CUBE的聯(lián)合主持人Dave Vellante 和Paul Gillin進(jìn)行了交談,該會(huì)議涵蓋了最近在馬薩諸塞州劍橋舉行的MIT CDOIQ研討會(huì)。他們討論了大數(shù)據(jù)清洗中的機(jī)器學(xué)習(xí),以及為什么Tamr毫不奇怪地相信初創(chuàng)企業(yè)提供的技術(shù)要比傳統(tǒng)公司更好,更具擴(kuò)展性的大數(shù)據(jù)解決方案(請參閱此處 和 此處的全文訪談 )。
本周,CUBE在其每周啟動(dòng)功能中聚焦Tamr Inc.。
大數(shù)據(jù)?大呼啦
多年來,帕爾默和斯通布雷克一直在努力消除大數(shù)據(jù)的炒作泡沫。一直追溯到2007年,他們預(yù)測Apache Hadoop大數(shù)據(jù)框架不會(huì)提供如此多的預(yù)期結(jié)果。
帕爾默說:“邁克實(shí)際上非常激進(jìn)地說這將是一場災(zāi)難。”
并不是說大數(shù)據(jù)集是壞的。顯然,它們對于訓(xùn)練分析模型和人工智能是必不可少的。有一種觀點(diǎn)認(rèn)為,只要數(shù)據(jù)量很大,其余的分析或AI片段就會(huì)落在原地,這讓很多公司都幻滅了。
企業(yè)現(xiàn)在意識到數(shù)據(jù)質(zhì)量不可忽略。他們還知道,數(shù)據(jù)科學(xué)家不必花費(fèi)80%至90%或更多的時(shí)間來清理和整理數(shù)據(jù)。必須有一種更好,更快的方法來準(zhǔn)備好數(shù)據(jù)以供分析和AI使用。
答案是開始將機(jī)器學(xué)習(xí)視為完成這些笨拙,繁瑣的任務(wù)的高度實(shí)用的工具。因此,許多供應(yīng)商都使用機(jī)器學(xué)習(xí)使預(yù)測,推薦引擎等軟件營銷更具吸引力。Tarr將其用于最沒有魅力的東西:在任何人使用任何東西進(jìn)行分析,預(yù)測,營銷或出售之前,都要清理和整理大數(shù)據(jù)。它。
機(jī)器學(xué)習(xí)提示規(guī)模
市場并不完全缺乏針對數(shù)據(jù)交換問題的建議解決方案。大量的科技公司正在將它們帶出 或更新其原始產(chǎn)品。Stonebraker指出,這些系統(tǒng)中通常使用的主要技術(shù)存在關(guān)鍵缺陷。這些傳統(tǒng)技術(shù)包括提取,轉(zhuǎn)換,加載系統(tǒng)和主數(shù)據(jù)管理系統(tǒng)。
Stonebraker說:“一個(gè)骯臟的小秘密是技術(shù)無法擴(kuò)展。”
ETL的前提 是,真正聰明的人會(huì) 為用戶想要的所有數(shù)據(jù)源提供一個(gè)全局?jǐn)?shù)據(jù)模型。然后, 人員與每個(gè)業(yè)務(wù)部門 進(jìn)行面談,以查看他們擁有的數(shù)據(jù), 如何在全局?jǐn)?shù)據(jù)模型中獲取數(shù)據(jù),將其加載到數(shù)據(jù)倉庫中,等等。 過程 是人類密集的往往不是規(guī)模,按照斯通布雷克。他補(bǔ)充說,他們通常在數(shù)據(jù)倉庫中集成10或20個(gè)源。
這足夠嗎?讓我們看一個(gè)現(xiàn)實(shí)世界的公司。Tamr客戶 Toyota Motor Europe在不同國家(有時(shí)是州)設(shè)有分銷商。如果有人 在西班牙買了一輛豐田汽車,然后搬到法國, 那法國公司對車主一無所知。
總計(jì),TME 擁有250個(gè)獨(dú)立的客戶數(shù)據(jù)庫 ,以50種語言記錄了4000萬條記錄。該公司正在 將它們集成 到單個(gè)客戶數(shù)據(jù)庫中,以解決此客戶服務(wù)問題。機(jī)器學(xué)習(xí)提供了一種可行的方法。 “我從未見過能夠 處理這種規(guī)模的ETL系統(tǒng),” Stonebraker說。
Stonebraker解釋說,MDM無法擴(kuò)展的原因基本上是因?yàn)樗谝?guī)則。另一個(gè)Tamr客戶,通用電氣公司(General Electric Co.),希望進(jìn)行支出分析。從前一年開始,它有2000萬筆支出交易。它試圖將所有這些分類為基于規(guī)則的層次結(jié)構(gòu)。
他說:“因此,通用電氣制定了500條規(guī)則,這幾乎是 任何一個(gè)人都能武裝起來的規(guī)則。” “牛逼帽子分為20萬次交易的200萬美元。 您現(xiàn)在有18了。 另外500條規(guī)則不會(huì)給您200萬條規(guī)則。
他指出,這就是 收益遞減的規(guī)律。斯通布雷克說: “你將不得不編寫大量 沒人能理解的規(guī)則。” “如果您不使用機(jī)器學(xué)習(xí),那絕對是敬酒。”
文化商
Stonebraker承認(rèn),機(jī)器學(xué)習(xí)不是萬靈藥。要成為真正的數(shù)據(jù)驅(qū)動(dòng)者,就需要進(jìn)行技術(shù)和文化調(diào)整。實(shí)際上,根據(jù)NewVantage Partners LLC的研究,接受調(diào)查的高管中有77%的人表示,企業(yè)對其組織難以采用大數(shù)據(jù)/人工智能計(jì)劃。盡管有大量新軟件涌入市場,但仍比去年有所增加。
這些高管列舉了許多阻礙采用的障礙,其中有95%是文化或組織上的,而不是技術(shù)上的。“組織……需要制定計(jì)劃才能投入生產(chǎn)。Gartner公司分析師Nick Heudecker表示: “大多數(shù)人都不將大數(shù)據(jù)作為技術(shù)零售療法來對待和計(jì)劃。”
盡管如此,技術(shù)仍然在一定程度上影響著文化,反之亦然。以上案例說明了數(shù)據(jù)科學(xué)家如何花90%的時(shí)間進(jìn)行篩選和排序-而不是幫助實(shí)際的混合動(dòng)力設(shè)備得到維修或開發(fā)燃?xì)廨啓C(jī)。根據(jù)Stonebraker的說法,如果大數(shù)據(jù)對現(xiàn)實(shí)世界的企業(yè)來說可行,那么機(jī)器學(xué)習(xí)是前進(jìn)的方向。
他說:“您必須用機(jī)器學(xué)習(xí)代替人類…… 人們意識到,大規(guī)模地使用 傳統(tǒng)的數(shù)據(jù)集成 技術(shù)是行不通的。”
年輕的公司正在解決這個(gè)問題,并將機(jī)器學(xué)習(xí)融入其產(chǎn)品的核心。Stonebraker說:“傳統(tǒng)的供應(yīng)商總體上比時(shí)代落后了10年,如果您想獲得最前沿的產(chǎn)品,就必須去創(chuàng)業(yè)公司。”
這些“最前沿”的東西是否為數(shù)據(jù)貨幣化提供了簡便的途徑?它會(huì)彌補(bǔ)因數(shù)據(jù)沼澤而在沮喪中所花費(fèi)的時(shí)間嗎?帕爾默指出,我們正在進(jìn)入一個(gè)階段,可以更快地使數(shù)據(jù)“消耗”。
“這一階段會(huì)最終達(dá)到20年前30年來企業(yè)數(shù)據(jù)倉庫設(shè)定的高期望嗎?” 他說:“我不知道。但是我們肯定會(huì)越來越接近。”