阿里解禁1050億美元股票：市場(chǎng)聚焦雅虎策略

發(fā)布時(shí)間：2016-03-19 文章來源：瀏覽次數(shù)：3974

Robots文件是網(wǎng)站和蜘蛛程序之間的“正人協(xié)議”——robots文件不僅僅可以節(jié)省網(wǎng)站的資源，還可以匡助蜘蛛更加有效的抓取網(wǎng)，從而進(jìn)步排名。
1：只答應(yīng)谷歌bot
假如要攔截除谷歌bot之外的所有爬蟲：
User-agent:*
disallow:/
Uer-agent:答應(yīng)的蜘蛛名
Disallow:
2：“/folder/”和“/folder”的區(qū)別
舉個(gè)例子：
User-agent:*
Disallow:/folder/
Disallow:/folder
“Disallow:folder/”表示攔截的是一個(gè)目錄，該目錄文件下的所有文件不答應(yīng)被抓取，但是答應(yīng)抓取folder.hlml。
“Disallow:/folder”：對(duì)/folder/下的所有文件和folder.html都不能被抓取。
3：“*”匹配任意字符
User-agent:*
表示屏蔽所有的蜘蛛。當(dāng)我們做了偽靜態(tài)處理之后，會(huì)同時(shí)又動(dòng)態(tài)網(wǎng)頁(yè)和靜態(tài)網(wǎng)頁(yè)，網(wǎng)頁(yè)內(nèi)容一模一樣，視為鏡態(tài)頁(yè)面，所以我們要屏蔽掉動(dòng)態(tài)的網(wǎng)頁(yè)，可以用*號(hào)來屏蔽動(dòng)態(tài)的網(wǎng)頁(yè)
User-agent:*
Disallow:/?*?/
4：$匹配網(wǎng)址結(jié)束
假如要攔截以某個(gè)字符串結(jié)束的網(wǎng)址，就可以使用$，例如，要攔截以.asp結(jié)束的網(wǎng)址：
User-agent:*
Disallow:/*.asp$
也可以打開比較優(yōu)秀的網(wǎng)站，看他們的robots文件是如何書寫的，然后根據(jù)自己的需求進(jìn)行相應(yīng)的修改。Robots文件可以讓蜘蛛把更多的時(shí)間花在要抓取的內(nèi)容上，所以優(yōu)化robots文件是很有必要的。

上一條：一個(gè)創(chuàng)業(yè)公司倒下的128...

下一條：特斯拉遭保時(shí)捷奧迪寶馬圍...

娇BBB搡BBBB揉BBBB,色色哟美女裸胸自慰喷白丝,日韩三级片在线播放,亚洲五码,{转码词},{转码词}

阿里解禁1050億美元股票：市場(chǎng)聚焦雅虎策略