您現(xiàn)在的位置是:首頁 >互聯(lián)網(wǎng) > 2021-01-13 11:21:06 來源:
瓦拉達(dá)獲得美元投資以使數(shù)據(jù)湖更容易訪問
以色列初創(chuàng)公司Varada在種子輪融資中籌集了750萬美元,該輪融資計(jì)劃用于使企業(yè)更容易訪問大數(shù)據(jù)。
該公司正在吹捧一個(gè)大數(shù)據(jù)內(nèi)聯(lián)索引工具,該工具可以對(duì)存儲(chǔ)在基于云的數(shù)據(jù)湖中的信息進(jìn)行分析,而無需先對(duì)其進(jìn)行準(zhǔn)備或建模。
數(shù)據(jù)湖是存儲(chǔ)庫,以其本機(jī)格式保存大量原始數(shù)據(jù),直到需要時(shí)為止。分層數(shù)據(jù)倉(cāng)庫將數(shù)據(jù)存儲(chǔ)在文件或文件夾中時(shí),數(shù)據(jù)湖使用平面架構(gòu)來存儲(chǔ)數(shù)據(jù)。給湖泊中的每個(gè)數(shù)據(jù)元素分配一個(gè)唯一的標(biāo)識(shí)符,并用一組擴(kuò)展的元數(shù)據(jù)標(biāo)簽進(jìn)行標(biāo)記。當(dāng)出現(xiàn)業(yè)務(wù)問題時(shí),可以迅速向數(shù)據(jù)湖查詢相關(guān)數(shù)據(jù),然后可以分析較小的數(shù)據(jù)集以幫助回答問題。
事實(shí)證明,數(shù)據(jù)湖在企業(yè)中很受歡迎,因?yàn)樗鼈儽葌鹘y(tǒng)數(shù)據(jù)庫具有更大的靈活性和速度。通過允許信息保留其原始格式,可以提供更多,更及時(shí)的數(shù)據(jù)流進(jìn)行分析。
從表面上看,數(shù)據(jù)湖似乎是最容易存儲(chǔ)數(shù)據(jù)的最有效方法,因?yàn)樗鼈儾恍枰紫葓?zhí)行昂貴且費(fèi)時(shí)的 提取,轉(zhuǎn)換和加載或ETL操作。但Varada聯(lián)合創(chuàng)始人兼首席技術(shù)官David Krakov告訴SiliconANGLE,由于數(shù)據(jù)湖的結(jié)構(gòu)意味著不再根據(jù)特定的分析需求對(duì)數(shù)據(jù)湖進(jìn)行建模,因此數(shù)據(jù)湖仍然不能像某些用戶所希望的那樣高效。
“因此,數(shù)據(jù)湖上的分析采用'暴力'方法,并掃描所有數(shù)據(jù)以進(jìn)行查詢,” Krakov說。“例如,這是Amazon Web Services的Athena或EMR Presto之類的方法,具有高成本和低性能。”
數(shù)據(jù)團(tuán)隊(duì)可以采取一些技巧,以減少獲取洞察的時(shí)間,例如通過復(fù)制數(shù)據(jù),對(duì)其進(jìn)行分區(qū),對(duì)其進(jìn)行預(yù)聚合等。但是數(shù)據(jù)量仍然更大,架構(gòu)更復(fù)雜,并且數(shù)據(jù)源的數(shù)量龐大,這意味著很難在該數(shù)據(jù)的各個(gè)副本之間保持一致性和一致性。
他說:“結(jié)果是,大多數(shù)數(shù)據(jù)湖都是一個(gè)副本,并由幾個(gè)'大維度'(例如日期和地理位置)劃分。” “分析仍然大多是蠻力的,需要定制且耗時(shí)的開發(fā)以及針對(duì)該任務(wù)的ETL流程的昂貴維護(hù)。”
克拉科夫說,瓦拉達(dá)對(duì)此做出了妥協(xié)。有了它,用戶可以選擇他們的高價(jià)值數(shù)據(jù)集,并使用結(jié)構(gòu)化查詢語言命令來定義它們。然后,Varada實(shí)現(xiàn)了這個(gè)高價(jià)值的數(shù)據(jù)集,使其與數(shù)據(jù)湖保持同步,并使分析速度更快。
“通過我們的內(nèi)聯(lián)索引和分布式體系結(jié)構(gòu),我們可以對(duì)任何物化數(shù)據(jù)提供比暴力分析快100倍的性能,并且使該物化可以很容易地臨時(shí)使用,” Krakov說。
Varada的種子輪融資由Lightspeed Venture Partners牽頭,StageOne Ventures和F2 Capital參與。