每一個(gè)搜索引擎的蜘蛛(baiduspider)訪問一個(gè)站點(diǎn)時(shí),它首先爬行來巡查該站點(diǎn)根目錄下是否存在robots.txt。如果存在,蜘蛛(baiduspider)就會(huì)按照該協(xié)議(protocol)書上的規(guī)則來確定自己的訪問范圍(fàn wéi);如果沒有robots.txt,那么蜘蛛就會(huì)沿著鏈接抓取,能否讓蜘蛛訪問,取決于Disallow和Allow,兩者可以同時(shí)使用。
Disallow用于描述(description)不希望被抓取和索引的一個(gè)URL,這個(gè)URL可以是一條完整的路徑。
常熟百度公司是按照給企業(yè)帶來潛在新客戶的訪問量計(jì)費(fèi),企業(yè)可以根據(jù)自己的需要,靈活控制推廣力度和投入,使企業(yè)的網(wǎng)絡(luò)推廣投入獲得最大的回報(bào)!這有幾種不同定義和寫法:
(1)Disallow:/AAA
任何以域名+Disallow描述(description)的網(wǎng)站內(nèi)容開頭的URL均不會(huì)被蜘蛛(baiduspider)訪問,也就是說以AAA目錄內(nèi)的文件均不會(huì)被蜘蛛(baiduspider)訪問;
(2)Disallow:/AAA/
則允許robots抓取和索引AAA/index.html,而不能抓取和索引AAA/admin.html;
(3)如果Disallow記錄為空,說明該網(wǎng)站的所有部分都允許被訪問。常熟百度公司由于關(guān)鍵詞廣告是在特定關(guān)鍵詞的檢索時(shí),才出現(xiàn)在搜索結(jié)果頁面的顯著位置。如:企業(yè)主在百度注冊(cè)提交“BGSEM”這個(gè)關(guān)鍵詞,當(dāng)消費(fèi)者或網(wǎng)民尋找“BGSEM”的信息時(shí),企業(yè)就會(huì)優(yōu)先被找到,百度按照給實(shí)際點(diǎn)擊量(潛在客戶訪問數(shù))收費(fèi),每次有效點(diǎn)擊收費(fèi)從幾毛錢到幾塊錢不等,由企業(yè)產(chǎn)品的競(jìng)爭(zhēng)激烈程度決定的。
常熟百度推廣通過注冊(cè)提交一定數(shù)量的關(guān)鍵詞,其推廣信息就會(huì)率先出現(xiàn)在網(wǎng)民相應(yīng)的搜索結(jié)果中。簡(jiǎn)單來說就是當(dāng)用戶利用某一關(guān)鍵詞進(jìn)行檢索,在檢索結(jié)果頁面會(huì)出現(xiàn)與該關(guān)鍵詞相關(guān)的廣告內(nèi)容。
在robots.txt文件中,至少應(yīng)有Disallow記錄,如果robots.txt為空文件,則對(duì)所有的搜索引擎robot來說,該網(wǎng)站都是開放的。
1、需要攔截子目錄中的某一個(gè)頁面之外的其他所有頁面,可以這么寫:
User-agent: *
Disallow: /AAA/
Allow: /AAA/index.html
這樣說明了所有蜘蛛(baiduspider)只可以抓取/AAA/index.html的頁面,而/AAA/文件夾的其他頁面則不能抓取,還需要注意(attention)以下錯(cuò)誤的寫法:
User-agent: *
Disallow: /AAA
Allow: /AAA/index.html
2、攔截搜索引擎對(duì)所有以admin開頭的子目錄的訪問,寫法:
User-agent: *
Disallow: /admin*/
3、要攔截對(duì)所有包含“?”號(hào)的網(wǎng)址的訪問,寫法:
User-agent: *
Disallow: /*?*
4、要攔截以.asp結(jié)尾的網(wǎng)址,寫法:
User-agent: *
Disallow:/*.asp$
5、只抓取.asp?的頁面,而.asp?=1,.asp?=2等等都不抓取,寫法:
User-agent: *
Allow: /*?$
Disallow: /*?
6、屏蔽死鏈接,寫法:
User-agent: *
Disallow: /404(死頁面).html