您現(xiàn)在的位置是:首頁 >財(cái)經(jīng) > 2020-11-20 16:31:27 來源:
存儲工具適應(yīng)其數(shù)據(jù)集用戶想要搜索的內(nèi)容
大數(shù)據(jù)已經(jīng)變得非常非常大:到2025年,全球所有數(shù)據(jù)總計(jì)將達(dá)到175萬億千兆字節(jié)。為了獲得視覺效果,如果將這么多的數(shù)據(jù)存儲在DVD上,它將堆積得足夠高,可以繞地球旋轉(zhuǎn)222次。
計(jì)算中的最大挑戰(zhàn)之一是在處理這種猛烈的信息的同時仍然能夠有效地存儲和處理信息。麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的一個小組認(rèn)為,答案在于所謂的“實(shí)例優(yōu)化系統(tǒng)”。
傳統(tǒng)的存儲和數(shù)據(jù)庫系統(tǒng)被設(shè)計(jì)為可用于各種應(yīng)用程序,因?yàn)闃?gòu)建它們需要花費(fèi)多長時間(數(shù)月甚至是數(shù)年)。結(jié)果,對于任何給定的工作負(fù)載,此類系統(tǒng)提供的性能都很好,但通常不是最好的。更糟糕的是,有時它們需要管理員手動調(diào)整系統(tǒng)以提供合理的性能。
相反,實(shí)例優(yōu)化系統(tǒng)的目標(biāo)是構(gòu)建針對其存儲的數(shù)據(jù)和所服務(wù)的工作負(fù)載進(jìn)行優(yōu)化和部分重新組織的系統(tǒng)。
麻省理工學(xué)院的蒂姆·克拉斯卡(Tim Kraska)教授說:“這就像從頭開始為每個應(yīng)用程序構(gòu)建數(shù)據(jù)庫系統(tǒng),這在傳統(tǒng)系統(tǒng)設(shè)計(jì)上在經(jīng)濟(jì)上是不可行的。”
作為實(shí)現(xiàn)這一愿景的第一步,Kraska及其同事開發(fā)了Tsunami和Bao。Tsunami使用機(jī)器學(xué)習(xí)功能根據(jù)用戶進(jìn)行查詢的類型自動重新組織數(shù)據(jù)集的存儲布局。測試表明,它運(yùn)行查詢的速度比最新系統(tǒng)快10倍。而且,它的數(shù)據(jù)集可以通過一系列“學(xué)習(xí)的索引”進(jìn)行組織,這些索引比傳統(tǒng)系統(tǒng)中使用的索引小100倍。
克拉斯卡(Kraska)多年來一直在探討學(xué)習(xí)索引的主題,可追溯到2017年他與Google同事的有影響力的工作。
并未參與海嘯項(xiàng)目的哈佛大學(xué)教授Stratos Idreos表示,學(xué)習(xí)型索引的獨(dú)特優(yōu)勢在于其尺寸小,除了節(jié)省空間外,還可以顯著提高性能。
Idreos說:“我認(rèn)為這一工作線是一種范式轉(zhuǎn)變,它將長期影響系統(tǒng)設(shè)計(jì)。” “我希望基于模型的方法將成為新一輪自適應(yīng)系統(tǒng)核心的核心組成部分之一。”
同時,Bao致力于通過機(jī)器學(xué)習(xí)提高查詢優(yōu)化的效率。查詢優(yōu)化器將高級聲明性查詢重寫為查詢計(jì)劃,該計(jì)劃實(shí)際上可以在數(shù)據(jù)上執(zhí)行以計(jì)算查詢結(jié)果。但是,通常存在不止一個查詢計(jì)劃來回答任何查詢。選擇錯誤的查詢可能會導(dǎo)致查詢花幾天時間才能計(jì)算出答案,而不是幾秒鐘。
傳統(tǒng)的查詢優(yōu)化器需要花費(fèi)數(shù)年的時間來構(gòu)建,很難維護(hù),而且最重要的是,不要從錯誤中吸取教訓(xùn)。Bao是第一個基于學(xué)習(xí)的查詢優(yōu)化方法,已完全集成到流行的數(shù)據(jù)庫管理系統(tǒng)PostgreSQL中。首席作者Ryan Marcus是Kraska小組的博士后,他說Bao生成的查詢計(jì)劃比PostgreSQL優(yōu)化器創(chuàng)建的查詢計(jì)劃快50%,這意味著它可以幫助顯著降低云服務(wù)的成本,例如Amazon的Redshift,基于PostgreSQL的。