您現(xiàn)在的位置是:首頁(yè) >互聯(lián)網(wǎng) > 2020-12-30 14:00:50 來源:
Alluxio擴(kuò)展虛擬文件系統(tǒng)以支持?jǐn)?shù)十億個(gè)文件
用于數(shù)據(jù)科學(xué)和分析工作負(fù)載的虛擬分布式文件系統(tǒng)的制造商Alluxio Inc.周三發(fā)布了一個(gè)新版本,該版本擴(kuò)展了其元數(shù)據(jù)服務(wù),并實(shí)現(xiàn)了跨混合云和多云的統(tǒng)一管理。
用戶現(xiàn)在可以使用數(shù)十億個(gè)文件來管理名稱空間,而無需使用第三方工具,而新的管理控制臺(tái)可以更輕松地將分析集群連接到云中和本地的多個(gè)數(shù)據(jù)源。
該公司表示,Alluxio專門針對(duì)數(shù)據(jù)科學(xué)和分析用戶,并已躋身前十大互聯(lián)網(wǎng)公司中的七家。它的技術(shù)對(duì)數(shù)據(jù)進(jìn)行抽象和虛擬化,以傳送到流行的開源分析引擎,例如Apache Spark,Presto,F(xiàn)link和Hive。它使用全局名稱空間,緩存和內(nèi)存中元數(shù)據(jù)來跟蹤數(shù)據(jù)源的位置和數(shù)據(jù)更改,從而避免了復(fù)制的需要。
加州大學(xué)伯克利分校的一名研究生與人共同創(chuàng)建了該技術(shù),他說,使用Alluxio可以使數(shù)據(jù)建模人員的生產(chǎn)力提高四倍。他說:“訓(xùn)練模型的成本從一百萬美元到二十萬美元不等,所需時(shí)間從一年到三個(gè)月不等。”
擴(kuò)展的元數(shù)據(jù)服務(wù)使該產(chǎn)品遠(yuǎn)離其Hadoop根源,并改善了對(duì)云原生和基于容器的部署的支持。“我們從Hadoop世界開始,因此要求用戶具有這種依賴性,” Li說。“現(xiàn)在它已被完全刪除。”
管理中心提供了一種基于向?qū)У姆椒?,可跨多個(gè)位置連接數(shù)據(jù)源以及配置和監(jiān)視Alluxio群集。這樣就可以合并來自Hadoop HDFS,Amazon Web Services Inc.的S3和Google LLC的Cloud Storage等來源的數(shù)據(jù)。
為了減少采用的障礙,控制臺(tái)還簡(jiǎn)化了配置和啟動(dòng)集群的過程,并改善了監(jiān)視以降低運(yùn)營(yíng)成本。李說,Alluxio以前帶有一個(gè)開源控制臺(tái),該控制臺(tái)只有基本的監(jiān)視功能,沒有配置選項(xiàng)。
對(duì)Terraform(一種用于將基礎(chǔ)結(jié)構(gòu)作為代碼進(jìn)行管理的開源工具集)的新支持現(xiàn)在使通過單個(gè)命令以編程方式啟動(dòng)預(yù)先配置的群集變得更加容易。此版本還與Vault集成,以跨云和數(shù)據(jù)中心提供安全,集中的敏感信息管理。其他增強(qiáng)功能包括更簡(jiǎn)單的集群管理和對(duì)Java 11的支持。