您現(xiàn)在的位置是:首頁 >互聯(lián)網(wǎng) > 2020-12-30 14:00:50 來源:
Neo4j改進(jìn)了其圖數(shù)據(jù)庫的機(jī)器學(xué)習(xí)兼容性
Graph數(shù)據(jù)庫開發(fā)人員Neo4j Inc.今天推出了適用于Graph Data Science 框架的Neo4j新版本,以增強(qiáng)其機(jī)器學(xué)習(xí)游戲,該框架利用深度學(xué)習(xí)和圖卷積神經(jīng)網(wǎng)絡(luò)使圖連接的數(shù)據(jù)更易于主流數(shù)據(jù)科學(xué)算法訪問。
具體而言,版本1.4添加了圖嵌入,該技術(shù)可為圖中的每個(gè)數(shù)據(jù)元素計(jì)算周圍網(wǎng)絡(luò)的形狀。圖形數(shù)據(jù)庫的獨(dú)特之處在于它們能夠使用節(jié)點(diǎn),關(guān)系和鍵值對(duì)來表示復(fù)雜的關(guān)系,這些節(jié)點(diǎn),關(guān)系和鍵值對(duì)使用唯一的標(biāo)識(shí)符定義鏈接的數(shù)據(jù)項(xiàng)??梢员闅v這些連接,以找到使用關(guān)系表很難或不可能發(fā)現(xiàn)的相關(guān)性,因?yàn)樾枰罅康倪B接。
但是,多維圖關(guān)系無法清晰地映射到機(jī)器學(xué)習(xí)數(shù)據(jù)集中常見的低維向量。圖形嵌入通過對(duì)圖形的拓?fù)浜蛯傩赃M(jìn)行采樣以將其復(fù)雜性降低到僅用于進(jìn)一步機(jī)器學(xué)習(xí)所需的重要功能,從而使其成為可能。
Neo4j Graph數(shù)據(jù)科學(xué)庫的產(chǎn)品經(jīng)理Alicia Frame表示:“圖形嵌入可以學(xué)習(xí)圖形的結(jié)構(gòu),從而提高您對(duì)圖形的了解。” “它是從追蹤指針到運(yùn)行真正快速的查詢的畢業(yè)。” 在不降低復(fù)雜度的情況下,一個(gè)50億節(jié)點(diǎn)圖的鄰接矩陣必須具有50億平方的元素。她說:“這將巨型圖提煉成圖中每個(gè)節(jié)點(diǎn)的計(jì)算機(jī)表示形式。”
這些增強(qiáng)功能大大增加了可以對(duì)圖形運(yùn)行的數(shù)據(jù)科學(xué)算法的范圍,超出了4月份引入該庫時(shí)所包含的基本集。它們是Neo4j更大目標(biāo)的一部分,該目標(biāo)旨在使圖形數(shù)據(jù)庫超越對(duì)原始數(shù)據(jù)的查詢,從而基于連接來預(yù)測結(jié)果。
具體來說,該公司將添加三個(gè)新的嵌入選項(xiàng)。首先是Node2Vec,這是 一種流行的圖形嵌入算法,它使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)節(jié)點(diǎn)的連續(xù)特征表示,然后可以將其用于下游機(jī)器學(xué)習(xí)任務(wù)。
FastRP(隨機(jī)投影)是一種節(jié)點(diǎn)嵌入算法,Neo4j表示它以等效的精度和極高的規(guī)模比Node2Vec快75,000倍。盡管在功能上與Node2Vec等效,但Frame表示許多數(shù)據(jù)科學(xué)家可能會(huì)同時(shí)使用兩者。
她說:“ ??FastRP快如閃電,但需要更多工作來調(diào)整嵌入內(nèi)容,以了解您想要的內(nèi)容。” “許多客戶將運(yùn)行Node2Vec,直到獲得對(duì)他們有意義的結(jié)果,然后轉(zhuǎn)到FastRP大規(guī)模運(yùn)行它們。”
GraphSage 是用于使用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖進(jìn)行歸納表示學(xué)習(xí)的嵌入算法和過程??梢栽趫D形更新時(shí)連續(xù)應(yīng)用。
結(jié)果是“我們正在采用過去需要博士學(xué)位的技術(shù)。并使它們民主化,這樣任何人都可以下載并擁有圖形預(yù)測的功能。”擁有博士學(xué)位的Frame說道。“在此之前,我們將使用圖形來存儲(chǔ)數(shù)據(jù)以及Python中發(fā)生的機(jī)器學(xué)習(xí)。我們正在連接各個(gè)點(diǎn)。”