您現(xiàn)在的位置是：首頁(yè) >人工智能 > 2021-05-13 01:55:09 來(lái)源：

谷歌開(kāi)源robots.txt解析器推動(dòng)機(jī)器人排除協(xié)議成為官方標(biāo)準(zhǔn)

導(dǎo)讀谷歌希望將數(shù)十年前的機(jī)器人排除協(xié)議(REP)變成一個(gè)官方的互聯(lián)網(wǎng)標(biāo)準(zhǔn) - 并且它正在制作自己的robots txt解析器開(kāi)源作為推送的一部分。 REP

谷歌希望將數(shù)十年前的機(jī)器人排除協(xié)議(REP)變成一個(gè)官方的互聯(lián)網(wǎng)標(biāo)準(zhǔn) - 并且它正在制作自己的robots.txt解析器開(kāi)源作為推送的一部分。

REP是由荷蘭軟件工程師Martijn Koster于1994年提出的標(biāo)準(zhǔn)，幾乎已經(jīng)成為網(wǎng)站用來(lái)告訴自動(dòng)爬蟲(chóng)不應(yīng)該處理哪些網(wǎng)站部分的標(biāo)準(zhǔn)。例如，谷歌的Googlebot抓取工具會(huì)在索引網(wǎng)站時(shí)掃描robots.txt文件，以檢查它應(yīng)該忽略哪些部分的特殊說(shuō)明 - 如果根目錄中沒(méi)有這樣的文件，它會(huì)認(rèn)為抓取它是好的(并且index)整個(gè)網(wǎng)站。但是，這些文件并不總是用于提供直接爬行指令，因?yàn)樗鼈円部梢蕴畛淠承╆P(guān)鍵字以改善搜索引擎優(yōu)化，以及其他用例。

值得注意的是，并非所有抓取工具都尊重robots.txt文件，幾年前互聯(lián)網(wǎng)檔案館就會(huì)選擇為其Wayback Machine歸檔工具提供支持，而其他更惡意的抓取工具也會(huì)選擇忽略REP。

雖然REP通常被稱(chēng)為“標(biāo)準(zhǔn)”，但它實(shí)際上從未成為真正的互聯(lián)網(wǎng)標(biāo)準(zhǔn)，正如互聯(lián)網(wǎng)工程任務(wù)組(IETF)所定義的那樣- 互聯(lián)網(wǎng)的非營(yíng)利性開(kāi)放標(biāo)準(zhǔn)組織。而這正是谷歌正在推動(dòng)改變的方式。它表示現(xiàn)在的REP可以解釋?zhuān)赡懿⒉豢偸呛w谷歌稱(chēng)之為“今天的角落案件”。

定義undefined

這一切都是為了更好地定義現(xiàn)有的“未定義場(chǎng)景” - 例如，當(dāng)前一次掃描中已知內(nèi)容時(shí)，爬蟲(chóng)如何處理將robots.txt文件呈現(xiàn)為不可訪(fǎng)問(wèn)的服務(wù)器故障情況?爬蟲(chóng)如何處理有拼寫(xiě)錯(cuò)誤的規(guī)則呢?

“對(duì)于網(wǎng)站所有者來(lái)說(shuō)，這是一個(gè)具有挑戰(zhàn)性的問(wèn)題，因?yàn)槟：氖聦?shí)標(biāo)準(zhǔn)使得很難正確地編寫(xiě)規(guī)則，”谷歌在一篇博文中寫(xiě)道。“我們希望幫助網(wǎng)站所有者和開(kāi)發(fā)者在互聯(lián)網(wǎng)上創(chuàng)造出令人驚嘆的體驗(yàn)，而不是擔(dān)心如何控制抓取工具。”

谷歌稱(chēng)，它與REP的原作者M(jìn)artijn Koster以及網(wǎng)站管理員和其他搜索引擎合作，向IETF提交了一份關(guān)于“如何在現(xiàn)代網(wǎng)絡(luò)上使用REP”的提案。

該公司尚未全面公布該草案，但它確實(shí)對(duì)其關(guān)注的一些領(lǐng)域給出了一些指示：

任何基于URI的傳輸協(xié)議都可以使用robots.txt。例如，它不再局限于HTTP，也可以用于FTP或CoAP。

開(kāi)發(fā)人員必須至少解析robots.txt的前500 kibibytes。定義最大文件大小可確保連接不會(huì)打開(kāi)太長(zhǎng)時(shí)間，從而減輕服務(wù)器上不必要的壓力。

新的最大緩存時(shí)間為24小時(shí)或緩存指令值(如果可用)，使網(wǎng)站所有者可以隨時(shí)靈活地更新robots.txt，并且爬蟲(chóng)不會(huì)使用robots.txt請(qǐng)求超載網(wǎng)站。例如，在HTTP的情況下，可以使用Cache-Control報(bào)頭來(lái)確定緩存時(shí)間。

該規(guī)范現(xiàn)在規(guī)定，當(dāng)先前可訪(fǎng)問(wèn)的robots.txt文件由于服務(wù)器故障而變得不可訪(fǎng)問(wèn)時(shí)，不會(huì)在相當(dāng)長(zhǎng)的時(shí)間段內(nèi)對(duì)已知的不允許頁(yè)面進(jìn)行爬網(wǎng)。

此處值得注意的是，抓取工具可以不同地解釋robots.txt文件中包含的說(shuō)明，這可能會(huì)導(dǎo)致網(wǎng)站所有者的混淆。這就是為什么谷歌還推出了C ++庫(kù)，它支持Googlebot在GitHub上的解析和匹配系統(tǒng)，供任何人訪(fǎng)問(wèn)。根據(jù)GitHub的發(fā)布說(shuō)明，Google希望開(kāi)發(fā)人員構(gòu)建自己的解析器，“更好地反映Google的robots.txt解析和匹配”。

免責(zé)聲明：本文由用戶(hù)上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

標(biāo)簽：