您現(xiàn)在的位置是:首頁(yè) >市場(chǎng) > 2021-04-08 10:29:37 來(lái)源:
Cloudera機(jī)器學(xué)習(xí)版本采用云原生路徑
在之前它的預(yù)期收盤(pán)的最后一份季度報(bào)告的高跟鞋合并與Hortonworks,Cloudera的已宣布獲得一個(gè)新的云天然對(duì)應(yīng)其預(yù)覽接入的能力Cloudera的數(shù)據(jù)科學(xué)工作臺(tái)(DSW)即進(jìn)入全速在Kubernetes。值得注意的是,它帶有不同的品牌 -Cloudera機(jī)器學(xué)習(xí)(Cloudera ML)。
建筑和品牌反映了市場(chǎng)的兩個(gè)轉(zhuǎn)變。首先是遷移到云端。雖然我們估計(jì)只有大約25-30%%的Cloudera安裝基礎(chǔ)在云中運(yùn)行工作負(fù)載,但云采用的速度是明確無(wú)誤的。Ovum預(yù)測(cè),明年將有一半的新大數(shù)據(jù)工作負(fù)載在云上運(yùn)行。這決定了支持云中可能的自動(dòng)縮放類(lèi)型。
第二個(gè)趨勢(shì)是AI,或者更具體地說(shuō)是機(jī)器學(xué)習(xí)。當(dāng)Cloudera最初發(fā)布DSW時(shí),活動(dòng)的主要內(nèi)容是建立更多關(guān)于構(gòu)建靜態(tài)的傳統(tǒng)數(shù)據(jù)科學(xué)模型 - 它們被部署,然后對(duì)模型所做的任何更改都由人完成。
今天,要說(shuō)人們對(duì)AI(主要是機(jī)器學(xué)習(xí)形式)感興趣將是輕描淡寫(xiě)。采用人工智能的舉措反映了模型,框架和計(jì)算比以往更容易獲得的事實(shí) - 這要?dú)w功于專(zhuān)用云服務(wù)和GPU資源的可用性,通過(guò)云計(jì)算不會(huì)迫使企業(yè)在未來(lái)三年內(nèi)實(shí)現(xiàn)人工智能計(jì)算的資本預(yù)算。
此外,考慮到Databricks(適用于Spark工作負(fù)載),Amazon SageMaker,Azure機(jī)器學(xué)習(xí)和Google Cloud AutoML等專(zhuān)用服務(wù)的可用性,Hadoop還可以替代運(yùn)行機(jī)器學(xué)習(xí)工作負(fù)載。
您當(dāng)然可以將DSW用于AI問(wèn)題,但挑戰(zhàn)在于經(jīng)濟(jì)地管理計(jì)算。因此,Cloudera為DSW產(chǎn)品增加了一個(gè):Cloudera ML。它通過(guò)基于Kubernetes的新架構(gòu)來(lái)響應(yīng)這些趨勢(shì),該架構(gòu)繞過(guò)了內(nèi)部部署Hadoop集群的YARN資源調(diào)度。需要說(shuō)明的是,這并不能取代在Hadoop和YARN上運(yùn)行的現(xiàn)有DSW,但它提供了另一個(gè)在Kubernetes環(huán)境中運(yùn)行的版本。
這不是Cloudera第一次支持?jǐn)?shù)據(jù)科學(xué)或ML工作負(fù)載的容器;通過(guò)使用容器,Cloudera可以打包物理部署所需的相互依賴(lài)性。但鑒于最初的DSW針對(duì)運(yùn)行Hadoop集群的Cloudera Enterprise客戶(hù),它在YARN下運(yùn)行Spark工作負(fù)載以適應(yīng)同一部署。
云是一個(gè)不同的故事。首先,數(shù)據(jù)湖通常位于云對(duì)象存儲(chǔ)中,而不是HDFS。其次,Cloudera CDH(使用YARN)不支持開(kāi)箱即用的自動(dòng)縮放 - 增加和減少計(jì)算容量的能力 - 因?yàn)樗辉O(shè)計(jì)為在數(shù)據(jù)和計(jì)算在同一節(jié)點(diǎn)上的集群上運(yùn)行。隨著Kubernetes成為云原生計(jì)算的事實(shí)上的標(biāo)準(zhǔn)(甚至AWS,它擁有自己的專(zhuān)有容器管理服務(wù),已經(jīng)點(diǎn)點(diǎn)頭,并開(kāi)始提供托管的Kubernetes服務(wù)),模具就是為Cloudera投下的。如果它想支持云中的客戶(hù),DSW或其繼任者將不得不接受Kubernetes,而不是YARN。
Cloudera ML目前處于有限的私人預(yù)覽狀態(tài),支持訪問(wèn)云對(duì)象存儲(chǔ),HDFS和外部數(shù)據(jù)庫(kù)中的數(shù)據(jù),部署在公共云中,或最終通過(guò)OpenShift部署(在私有云中)。
更廣泛的問(wèn)題
雖然Cloudera ML是該公司首次發(fā)布的100%%Kubernetes產(chǎn)品,但我們并不認(rèn)為這是一次孤立的嘗試或異常情況。在后臺(tái),Apache Hadoop社區(qū)已著手將Hadoop與HDFS分離,以便云對(duì)象存儲(chǔ)也將成為一流的公民。由于Hadoop不再是運(yùn)行大數(shù)據(jù)或特別是ML工作負(fù)載的唯一場(chǎng)所,我們不會(huì)感到驚訝,如果在某些時(shí)候,Cloudera釋放Cloudera ML在任何Kubernetes集群,本地或公共云上運(yùn)行。
這就是一些更廣泛的問(wèn)題。
顯然,Cloudera將繼續(xù)支持內(nèi)部部署,這是其當(dāng)前安裝基礎(chǔ)的核心。作為一個(gè)向云計(jì)算擴(kuò)展的內(nèi)部部署供應(yīng)商,它將通過(guò)其對(duì)混合的支持而日益突出自己。但支持混合意味著添加云原生選項(xiàng),就像現(xiàn)在通過(guò)增加其與Cloudera ML的DSW產(chǎn)品線(xiàn)一樣。那么,數(shù)據(jù)工程或數(shù)據(jù)倉(cāng)庫(kù)等其他工作負(fù)載呢?在云中,這些也可以從運(yùn)行Kubernetes集群中受益。
而這再一次導(dǎo)致了Hadoop Hadoop的長(zhǎng)期存在的問(wèn)題?;叵胍幌?,正在努力使Hadoop平臺(tái)更加適合云,從分離存儲(chǔ)到容納容器化工作負(fù)載。這些是Apache社區(qū)正在進(jìn)行的長(zhǎng)期計(jì)劃。所以,一旦你用云對(duì)象存儲(chǔ)替代HDFS,用Spark替換MapReduce,你還剩下什么?這就是多種類(lèi)型工作負(fù)載的治理,管理和支持將Hadoop與大數(shù)據(jù)點(diǎn)服務(wù)區(qū)分開(kāi)來(lái)的地方。資源是否由YARN或Kubernetes決定將成為一個(gè)學(xué)術(shù)問(wèn)題。它甚至還不到2019年,但我們?nèi)匀粫?huì)做出這樣的預(yù)測(cè):將來(lái),你運(yùn)行的Hadoop將基于你如何部署它。
猜你喜歡
最新文章
點(diǎn)擊排行
- 崇陽(yáng)縣高枧鄉(xiāng)(關(guān)于崇陽(yáng)縣高枧鄉(xiāng)簡(jiǎn)介)
- RazerZephyr可穿戴空氣凈化器評(píng)測(cè)
- 您現(xiàn)在可以訓(xùn)練Google助理更好地識(shí)別您的聲音
- WallpaperEngine現(xiàn)在可用于安卓設(shè)備
- 山芋千切(關(guān)于山芋千切簡(jiǎn)介)
- 3月7日PikminBloom將讓您在散步時(shí)播種和種植Pikmin它今天開(kāi)始發(fā)布
- Twitter終于讓每個(gè)人都可以創(chuàng)建Spaces
- 山芋丸子(關(guān)于山芋丸子簡(jiǎn)介)