日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁(yè) >人工智能 > 2021-05-13 01:55:09 來(lái)源:

        谷歌開(kāi)源robots.txt解析器推動(dòng)機(jī)器人排除協(xié)議成為官方標(biāo)準(zhǔn)

        導(dǎo)讀 谷歌希望將數(shù)十年前的機(jī)器人排除協(xié)議(REP)變成一個(gè)官方的互聯(lián)網(wǎng)標(biāo)準(zhǔn) - 并且它正在制作自己的robots txt解析器開(kāi)源作為推送的一部分。 REP

        谷歌希望將數(shù)十年前的機(jī)器人排除協(xié)議(REP)變成一個(gè)官方的互聯(lián)網(wǎng)標(biāo)準(zhǔn) - 并且它正在制作自己的robots.txt解析器開(kāi)源作為推送的一部分。

        REP是由荷蘭軟件工程師Martijn Koster于1994年提出的標(biāo)準(zhǔn),幾乎已經(jīng)成為網(wǎng)站用來(lái)告訴自動(dòng)爬蟲(chóng)不應(yīng)該處理哪些網(wǎng)站部分的標(biāo)準(zhǔn)。例如,谷歌的Googlebot抓取工具會(huì)在索引網(wǎng)站時(shí)掃描robots.txt文件,以檢查它應(yīng)該忽略哪些部分的特殊說(shuō)明 - 如果根目錄中沒(méi)有這樣的文件,它會(huì)認(rèn)為抓取它是好的(并且index)整個(gè)網(wǎng)站。但是,這些文件并不總是用于提供直接爬行指令,因?yàn)樗鼈円部梢蕴畛淠承╆P(guān)鍵字以改善搜索引擎優(yōu)化,以及其他用例。

        值得注意的是,并非所有抓取工具都尊重robots.txt文件,幾年前互聯(lián)網(wǎng)檔案館就會(huì)選擇為其Wayback Machine歸檔工具提供支持,而其他更惡意的抓取工具也會(huì)選擇忽略REP。

        雖然REP通常被稱(chēng)為“標(biāo)準(zhǔn)”,但它實(shí)際上從未成為真正的互聯(lián)網(wǎng)標(biāo)準(zhǔn),正如互聯(lián)網(wǎng)工程任務(wù)組(IETF)所定義的那樣- 互聯(lián)網(wǎng)的非營(yíng)利性開(kāi)放標(biāo)準(zhǔn)組織。而這正是谷歌正在推動(dòng)改變的方式。它表示現(xiàn)在的REP可以解釋?zhuān)赡懿⒉豢偸呛w谷歌稱(chēng)之為“今天的角落案件”。

        定義undefined

        這一切都是為了更好地定義現(xiàn)有的“未定義場(chǎng)景” - 例如,當(dāng)前一次掃描中已知內(nèi)容時(shí),爬蟲(chóng)如何處理將robots.txt文件呈現(xiàn)為不可訪(fǎng)問(wèn)的服務(wù)器故障情況?爬蟲(chóng)如何處理有拼寫(xiě)錯(cuò)誤的規(guī)則呢?

        “對(duì)于網(wǎng)站所有者來(lái)說(shuō),這是一個(gè)具有挑戰(zhàn)性的問(wèn)題,因?yàn)槟:氖聦?shí)標(biāo)準(zhǔn)使得很難正確地編寫(xiě)規(guī)則,”谷歌在一篇博文中寫(xiě)道。“我們希望幫助網(wǎng)站所有者和開(kāi)發(fā)者在互聯(lián)網(wǎng)上創(chuàng)造出令人驚嘆的體驗(yàn),而不是擔(dān)心如何控制抓取工具。”

        谷歌稱(chēng),它與REP的原作者M(jìn)artijn Koster以及網(wǎng)站管理員和其他搜索引擎合作,向IETF提交了一份關(guān)于“如何在現(xiàn)代網(wǎng)絡(luò)上使用REP”的提案。

        該公司尚未全面公布該草案,但它確實(shí)對(duì)其關(guān)注的一些領(lǐng)域給出了一些指示:

        任何基于URI的傳輸協(xié)議都可以使用robots.txt。例如,它不再局限于HTTP,也可以用于FTP或CoAP。

        開(kāi)發(fā)人員必須至少解析robots.txt的前500 kibibytes。定義最大文件大小可確保連接不會(huì)打開(kāi)太長(zhǎng)時(shí)間,從而減輕服務(wù)器上不必要的壓力。

        新的最大緩存時(shí)間為24小時(shí)或緩存指令值(如果可用),使網(wǎng)站所有者可以隨時(shí)靈活地更新robots.txt,并且爬蟲(chóng)不會(huì)使用robots.txt請(qǐng)求超載網(wǎng)站。例如,在HTTP的情況下,可以使用Cache-Control報(bào)頭來(lái)確定緩存時(shí)間。

        該規(guī)范現(xiàn)在規(guī)定,當(dāng)先前可訪(fǎng)問(wèn)的robots.txt文件由于服務(wù)器故障而變得不可訪(fǎng)問(wèn)時(shí),不會(huì)在相當(dāng)長(zhǎng)的時(shí)間段內(nèi)對(duì)已知的不允許頁(yè)面進(jìn)行爬網(wǎng)。

        此處值得注意的是,抓取工具可以不同地解釋robots.txt文件中包含的說(shuō)明,這可能會(huì)導(dǎo)致網(wǎng)站所有者的混淆。這就是為什么谷歌還推出了C ++庫(kù),它支持Googlebot在GitHub上的解析和匹配系統(tǒng),供任何人訪(fǎng)問(wèn)。根據(jù)GitHub的發(fā)布說(shuō)明,Google希望開(kāi)發(fā)人員構(gòu)建自己的解析器,“更好地反映Google的robots.txt解析和匹配”。