您現(xiàn)在的位置是:首頁 >互聯(lián)網(wǎng) > 2021-01-05 11:28:01 來源:
Databricks簡化了BI和ML的數(shù)據(jù)管理
大數(shù)據(jù)公司Databricks Inc.希望幫助客戶簡化商業(yè)智能和機器學(xué)習(xí)操作的數(shù)據(jù)管理,以消除孤島。
為此,該公司今天宣布了一個新的“ Databricks Ingest”平臺,該平臺使客戶可以將數(shù)據(jù)加載到單個存儲庫中,該存儲庫可用于BI和ML工作負載。
Databricks還宣布了一個新的數(shù)據(jù)集成網(wǎng)絡(luò),該網(wǎng)絡(luò)由數(shù)據(jù)集成合作伙伴組成,包括Fivetran Inc.,QlikTech International AB,Infoworks.io Inc.,StreamSets Inc.和Syncsort Inc.,它們將提供與Databricks Ingest的內(nèi)置集成以自動執(zhí)行數(shù)據(jù)加載任務(wù)。
以前,公司被迫將其數(shù)據(jù)分為傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的大數(shù)據(jù),然后分別在BI和ML工作負載中使用它們。這種方法行之有效,但同時也會導(dǎo)致數(shù)據(jù)孤立,處理緩慢,并且往往以結(jié)果不完整而告終,Databricks說。結(jié)果,公司沒有使數(shù)據(jù)的價值最大化,而這正是Databricks Ingest旨在解決的問題。
“這是向'Lakehouse范式'轉(zhuǎn)變的眾多推動因素之一,該計劃希望將數(shù)據(jù)倉庫的可靠性與數(shù)據(jù)湖的規(guī)模相結(jié)合,以支持各種用例,” Ali Ghodsi-Databricks的創(chuàng)始人兼首席執(zhí)行官。
Ghodsi提到了Databricks的新概念“ Delta Lake” ,這是去年4月啟動的一個開源項目,旨在提高企業(yè)數(shù)據(jù)湖的效率。
Ghodsi說:“為了使這種體系結(jié)構(gòu)正常工作,需要輕松提取每種類型的數(shù)據(jù)。” “ Databricks Ingest是實現(xiàn)這一目標(biāo)的重要一步。”
借助Databricks Ingest,客戶將能夠從一系列常用來源加載數(shù)據(jù),包括Salesforce,SAP和Google Analytics等應(yīng)用程序,Oracle,Cassandra和MySQL等數(shù)據(jù)庫以及Amazon S3和Azure Data等文件存儲服務(wù)湖泊存儲。
合作伙伴網(wǎng)絡(luò)很重要,因為這意味著公司可以確保將其數(shù)據(jù)連續(xù)加載到Delta Lake中,而無需設(shè)置和維護時間表的任何工作觸發(fā)器。設(shè)置完成后,所有新數(shù)據(jù)都會在創(chuàng)建后立即自動拉入Delta Lake。
Constellation Research Inc.分析師Holger Mueller說:“企業(yè)需要更快地獲取更多數(shù)據(jù),他們需要能夠?qū)⑵鋫鬟f到ML運行的地方。” “在此方面,Databricks的合作伙伴網(wǎng)絡(luò)可能是一個很好的差異化因素。數(shù)據(jù)和ML的成功結(jié)合是企業(yè)加速發(fā)展的關(guān)鍵推動力,每個公司都必須實現(xiàn)這一目標(biāo),才能生存和發(fā)展。”