您現(xiàn)在的位置是:首頁 >要聞 > 2020-12-08 16:55:41 來源:
谷歌AI研究科學家宣布數(shù)據(jù)集搜索
從第一天開始,Google就開始涉足查找信息的業(yè)務。多年后,Google談論有關數(shù)據(jù)集的嚴肅工作。Google正在啟動一個新的搜索引擎,以幫助科學家找到所需的數(shù)據(jù)集。
周三,Google AI研究科學家Natasha Noy宣布了Google推出Dataset Search?,F(xiàn)在,如果您是科學家,則可以輕松訪問數(shù)據(jù)集,或者只是另一種追求中的數(shù)據(jù)“怪胎”,即可為您的工作,故事和智力好奇心尋找數(shù)據(jù)。
目標是為您帶來更多的單一界面。Engadget中的Jon Fingas研究了它如何使數(shù)據(jù)搜索受益。
“該工具可以更直接地訪問以開放標準提供的數(shù)據(jù),從而可以清楚地確定誰創(chuàng)建了信息,如何收集信息以及如何使用它。您不僅可以跟蹤報告的氣候數(shù)據(jù),而且可以確保使用它是相關且合法的。”
這是一項全球性(與國際性一樣)的推送,可以多種語言運行,并且即將支持其他語言。詹姆斯·文森特在《邊緣》中引用了諾伊的話:“我確實認為在過去幾年中,存儲庫的數(shù)量激增了。”
她說:“只需輸入您要查找的內容,我們將幫助您找到存儲庫提供商網(wǎng)站上已發(fā)布的數(shù)據(jù)集。” 當前,數(shù)據(jù)集和相關數(shù)據(jù)往往分布在多個數(shù)據(jù)存儲庫中,人們可能會發(fā)現(xiàn)有關這些數(shù)據(jù)集的信息既未鏈接也未被搜索引擎索引。對于進行搜索的人而言,數(shù)據(jù)發(fā)現(xiàn)充其量是乏味的。
她認真地支持生態(tài)系統(tǒng),在這種生態(tài)系統(tǒng)中,通過Google制定的指南鼓勵數(shù)據(jù)集提供者自己“以Google(和其他搜索引擎)可以更好地理解其頁面內容的方式來描述其數(shù)據(jù)”,她說過。
他們使用開放標準schema.org進行此操作。在Noy的愿望清單上:所有數(shù)據(jù)集提供者都落后于該通用標準。希望更多的數(shù)據(jù)存儲庫將使用schema.org標準來描述其數(shù)據(jù)集。Noyes說,這樣一來,數(shù)據(jù)集便是“強大的生態(tài)系統(tǒng)”的一部分。
“像這樣的搜索工具僅能滿足數(shù)據(jù)發(fā)布者愿意提供的元數(shù)據(jù)。我們希望看到你們中的許多人使用開放標準來描述您的數(shù)據(jù),使我們的用戶能夠找到他們想要的數(shù)據(jù)。 。”
恩加吉特(Engadget)的喬恩·芬加斯(Jon Fingas):“目前,這還不是確定的資源。但是,這只是一個開始,而Google無疑希望這會鼓勵其他人提高其公共數(shù)據(jù)的可搜索性。”
如果這還不夠,那么Google將在充分利用有關數(shù)據(jù)的數(shù)據(jù)方面削減一些途徑。
根據(jù)The Verge的說法,開放數(shù)據(jù)研究所所長Jeni Tennison表示,理想情況下,Google會發(fā)布自己的數(shù)據(jù)集,以使用Dataset Search。她說,Google應該發(fā)布有關數(shù)據(jù)集搜索的數(shù)據(jù)集,該數(shù)據(jù)集將由“數(shù)據(jù)集搜索”建立索引,文森特補充說。他引用了她的話:
Tennison說:“僅僅了解人們的搜索方式很重要……他們使用什么樣的術語,如何表達它們。” “如果我們想掌握人們如何搜索數(shù)據(jù)并使之更易于訪問,那么如果Google在此基礎上開放自己的數(shù)據(jù),那就太好了。” 他補充說,換句話說,Google應該發(fā)布有關數(shù)據(jù)集搜索的數(shù)據(jù)集,該數(shù)據(jù)集將由“數(shù)據(jù)集搜索”建立索引。