您現(xiàn)在的位置是:首頁 >互聯(lián)網(wǎng) > 2021-01-14 13:51:01 來源:
Dremio擴大了范圍并提高了基于ApacheArrow的分析引擎的速度
Dremio Corp. 將在今天宣布的主要版本中為其自助數(shù)據(jù)分析平臺添加數(shù)據(jù)目錄。
該公司還整合了用于多租戶部署的新控件,增強了端到端數(shù)據(jù)加密,提供了在軟件容器中運行的選項,并采用了Gandiva,這是Apache Arrow分布式查詢引擎的開源性能增強庫,該公司在同名產(chǎn)品基于。
Apache Arrow使用列式內(nèi)存分析將查詢速度提高到傳統(tǒng)分析引擎的100倍。該技術類似于Google LLC用于為搜索查詢提供亞秒級響應時間的技術,但是Dremio已針對分析操作進行了優(yōu)化。
Dremio 3.0中的數(shù)據(jù)目錄并不是公司要與許多現(xiàn)有的企業(yè)數(shù)據(jù)目錄競爭,而是專注于捕獲和組織要在Dremio中使用的數(shù)據(jù)。數(shù)據(jù)目錄用于創(chuàng)建組織內(nèi)數(shù)據(jù)資產(chǎn)的清單和描述。Dremio以共享Wiki頁面的形式添加了一個眾包元素,該頁面附帶可用于元標記和描述的每個數(shù)據(jù)集。
在此版本中,通過增加端到端傳輸層安全性(安全套接字層的后繼協(xié)議),安全性得到了提高。盡管Dremio在較早的版本中具有加密功能,但它們并未涵蓋完整的數(shù)據(jù)訪問范圍。該平臺現(xiàn)在還支持Amazon Web Services Inc. EC2實例配置文件,以安全訪問AWS S3存儲。與Apache Ranger的本機集成在此發(fā)行版中也是新的。
該公司表示,新的多租戶功能使數(shù)據(jù)工程團隊能夠管理和優(yōu)化跨各種工作負載和用戶的群集資源。用SQL編寫的工作負載管理策略可以應用于諸如資源分配,查詢許可和超時之類的任務。
“大多數(shù)數(shù)據(jù)分析平臺對所有用戶都一視同仁,這意味著您必須為不同的用戶提供不同的集群,”首席市場官Kelly Stirman說。他說,Dremio增加了一些功能,這些功能提供“對用戶或資源獲得優(yōu)先權的細粒度控制”。例如,管理員可以指定實習生絕不應在工作時間之外優(yōu)先訪問集群。
此版本中的另一個新功能是通過Docker映像和模板與Kubernetes編排框架兼容。Kubernetes可用于部署和管理大型軟件容器集合,這些軟件容器是微型虛擬機,其中包含運行應用程序所需的所有服務。Dremio添加了與開放源代碼Helm Kubernetes軟件包管理器兼容的圖表,以進行配置和縮放。斯特曼說:“頭盔是這些天好孩子做的事情。”
由Dremio開發(fā)人員構(gòu)建的Gandiva將LLVM運行時編譯器與執(zhí)行內(nèi)核結(jié)合在一起,可以高效地評估Arrow上的任意SQL表達式。據(jù)稱,它對某些類型的查詢的速度提高了100倍。Stirman說:“總的來說,查詢越復雜,它就越適合Gandiva。”但每個查詢都會得到改善。
免費社區(qū)版和付費企業(yè)版均可立即使用Dremio 3.0 。