您現(xiàn)在的位置是:首頁(yè) >人工智能 > 2021-05-13 01:55:09 來(lái)源:
谷歌開(kāi)源robots.txt解析器推動(dòng)機(jī)器人排除協(xié)議成為官方標(biāo)準(zhǔn)
谷歌希望將數(shù)十年前的機(jī)器人排除協(xié)議(REP)變成一個(gè)官方的互聯(lián)網(wǎng)標(biāo)準(zhǔn) - 并且它正在制作自己的robots.txt解析器開(kāi)源作為推送的一部分。
REP是由荷蘭軟件工程師Martijn Koster于1994年提出的標(biāo)準(zhǔn),幾乎已經(jīng)成為網(wǎng)站用來(lái)告訴自動(dòng)爬蟲(chóng)不應(yīng)該處理哪些網(wǎng)站部分的標(biāo)準(zhǔn)。例如,谷歌的Googlebot抓取工具會(huì)在索引網(wǎng)站時(shí)掃描robots.txt文件,以檢查它應(yīng)該忽略哪些部分的特殊說(shuō)明 - 如果根目錄中沒(méi)有這樣的文件,它會(huì)認(rèn)為抓取它是好的(并且index)整個(gè)網(wǎng)站。但是,這些文件并不總是用于提供直接爬行指令,因?yàn)樗鼈円部梢蕴畛淠承╆P(guān)鍵字以改善搜索引擎優(yōu)化,以及其他用例。
值得注意的是,并非所有抓取工具都尊重robots.txt文件,幾年前互聯(lián)網(wǎng)檔案館就會(huì)選擇為其Wayback Machine歸檔工具提供支持,而其他更惡意的抓取工具也會(huì)選擇忽略REP。
雖然REP通常被稱(chēng)為“標(biāo)準(zhǔn)”,但它實(shí)際上從未成為真正的互聯(lián)網(wǎng)標(biāo)準(zhǔn),正如互聯(lián)網(wǎng)工程任務(wù)組(IETF)所定義的那樣- 互聯(lián)網(wǎng)的非營(yíng)利性開(kāi)放標(biāo)準(zhǔn)組織。而這正是谷歌正在推動(dòng)改變的方式。它表示現(xiàn)在的REP可以解釋?zhuān)赡懿⒉豢偸呛w谷歌稱(chēng)之為“今天的角落案件”。
定義undefined
這一切都是為了更好地定義現(xiàn)有的“未定義場(chǎng)景” - 例如,當(dāng)前一次掃描中已知內(nèi)容時(shí),爬蟲(chóng)如何處理將robots.txt文件呈現(xiàn)為不可訪(fǎng)問(wèn)的服務(wù)器故障情況?爬蟲(chóng)如何處理有拼寫(xiě)錯(cuò)誤的規(guī)則呢?
“對(duì)于網(wǎng)站所有者來(lái)說(shuō),這是一個(gè)具有挑戰(zhàn)性的問(wèn)題,因?yàn)槟:氖聦?shí)標(biāo)準(zhǔn)使得很難正確地編寫(xiě)規(guī)則,”谷歌在一篇博文中寫(xiě)道。“我們希望幫助網(wǎng)站所有者和開(kāi)發(fā)者在互聯(lián)網(wǎng)上創(chuàng)造出令人驚嘆的體驗(yàn),而不是擔(dān)心如何控制抓取工具。”
谷歌稱(chēng),它與REP的原作者M(jìn)artijn Koster以及網(wǎng)站管理員和其他搜索引擎合作,向IETF提交了一份關(guān)于“如何在現(xiàn)代網(wǎng)絡(luò)上使用REP”的提案。
該公司尚未全面公布該草案,但它確實(shí)對(duì)其關(guān)注的一些領(lǐng)域給出了一些指示:
任何基于URI的傳輸協(xié)議都可以使用robots.txt。例如,它不再局限于HTTP,也可以用于FTP或CoAP。
開(kāi)發(fā)人員必須至少解析robots.txt的前500 kibibytes。定義最大文件大小可確保連接不會(huì)打開(kāi)太長(zhǎng)時(shí)間,從而減輕服務(wù)器上不必要的壓力。
新的最大緩存時(shí)間為24小時(shí)或緩存指令值(如果可用),使網(wǎng)站所有者可以隨時(shí)靈活地更新robots.txt,并且爬蟲(chóng)不會(huì)使用robots.txt請(qǐng)求超載網(wǎng)站。例如,在HTTP的情況下,可以使用Cache-Control報(bào)頭來(lái)確定緩存時(shí)間。
該規(guī)范現(xiàn)在規(guī)定,當(dāng)先前可訪(fǎng)問(wèn)的robots.txt文件由于服務(wù)器故障而變得不可訪(fǎng)問(wèn)時(shí),不會(huì)在相當(dāng)長(zhǎng)的時(shí)間段內(nèi)對(duì)已知的不允許頁(yè)面進(jìn)行爬網(wǎng)。
此處值得注意的是,抓取工具可以不同地解釋robots.txt文件中包含的說(shuō)明,這可能會(huì)導(dǎo)致網(wǎng)站所有者的混淆。這就是為什么谷歌還推出了C ++庫(kù),它支持Googlebot在GitHub上的解析和匹配系統(tǒng),供任何人訪(fǎng)問(wèn)。根據(jù)GitHub的發(fā)布說(shuō)明,Google希望開(kāi)發(fā)人員構(gòu)建自己的解析器,“更好地反映Google的robots.txt解析和匹配”。
猜你喜歡
最新文章
點(diǎn)擊排行
- 懷遠(yuǎn)縣漁業(yè)科技發(fā)展有限責(zé)任公司(關(guān)于懷遠(yuǎn)縣漁業(yè)科技發(fā)展有限責(zé)任公司介紹)
- 德誠(chéng)珠寶集團(tuán)有限公司(關(guān)于德誠(chéng)珠寶集團(tuán)有限公司介紹)
- 快穿回家就要嫖(關(guān)于快穿回家就要嫖介紹)
- 快穿回來(lái) 我佛了(關(guān)于快穿回來(lái) 我佛了介紹)
- 快穿回來(lái)后我成了團(tuán)寵(關(guān)于快穿回來(lái)后我成了團(tuán)寵介紹)
- 快穿回來(lái)后我成了大佬(關(guān)于快穿回來(lái)后我成了大佬介紹)
- 德誠(chéng)改造家(關(guān)于德誠(chéng)改造家介紹)
- 德詩(shī)苑閣樓精品酒店(關(guān)于德詩(shī)苑閣樓精品酒店介紹)
隨機(jī)推薦
懷遠(yuǎn)縣漁業(yè)科技發(fā)展有限責(zé)任公司(關(guān)于懷遠(yuǎn)縣漁業(yè)科技發(fā)展有限責(zé)任公司介紹)
懷遠(yuǎn)縣淝南鄉(xiāng)中心小學(xué)(關(guān)于懷遠(yuǎn)縣淝南鄉(xiāng)中心小學(xué)介紹)
懷遠(yuǎn)縣民政局政府信息公開(kāi)年度工作報(bào)告制度(關(guān)于懷遠(yuǎn)縣民政局政府信息公開(kāi)年度工作報(bào)告制度介紹)
懷遠(yuǎn)縣民政局政府信息公開(kāi)協(xié)調(diào)制度(關(guān)于懷遠(yuǎn)縣民政局政府信息公開(kāi)協(xié)調(diào)制度介紹)
懷遠(yuǎn)縣民政局志愿服務(wù)隊(duì)(關(guān)于懷遠(yuǎn)縣民政局志愿服務(wù)隊(duì)介紹)
懷遠(yuǎn)縣殘聯(lián)志愿服務(wù)隊(duì)(關(guān)于懷遠(yuǎn)縣殘聯(lián)志愿服務(wù)隊(duì)介紹)
懷遠(yuǎn)縣榴城鎮(zhèn)金寶貝幼兒園(關(guān)于懷遠(yuǎn)縣榴城鎮(zhèn)金寶貝幼兒園介紹)
懷遠(yuǎn)縣榴城鎮(zhèn)新河社區(qū)志愿服務(wù)隊(duì)(關(guān)于懷遠(yuǎn)縣榴城鎮(zhèn)新河社區(qū)志愿服務(wù)隊(duì)介紹)