真正有幾個網站像淘寶一樣牛逼呢,如果都是那樣百度、360等搜索引擎都是改關閉的時候了。先來看下什么是robots.txt。北京做網站給你完美講解.企業做網站-做網站價格
robots協議(也稱為爬蟲協議、爬蟲規則、機器人協議等)也就是robots.txt,網站通過robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協議是網站國際互聯網界通行的道德規范,其目的是保護網站數據和敏感信息、確保用戶個人信息和隱私不被侵犯。因其不是命令,故需要搜索引擎自覺遵守。一些病毒如malware(馬威爾病毒)經常通過忽略robots協議的方式,獲取網站后臺數據和個人信息。
一般的寫法也是通用的既然是外國定義的肯定他的寫法也是依英文來定義。常見的命令符是:
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖等等。
對我們不是很專業的運用人員來說沒必要研究的非常透徹,只需看到一些主要指令就可以了,下面依照我的一個織夢CMS網站http://www.87330.com來研究下, robots.txt在空間的位置肯定是根目錄下,也是蜘蛛來到你網站能夠方便爬到的位置。
User-agent: * (指的是給所有搜索引擎看的)
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
以上所有Disallow: /后面的文件夾和具體的文件名是不允許收錄的,一般考慮到網站的安全為主設置的這些指令,當然搜索引擎還是準許的。一般重要的文件和數據庫文件都需要Disallow的。還有就是網站模板所在的頁面templets也不被Disallow的,防止黑客篡改盜用等。更多針對百度搜索引擎的相關內容請訪問 百度搜索幫助中心-禁止搜索引擎收錄的方法http://www.baidu.com/search/robots.html
請立即點擊咨詢我們或撥打咨詢熱線: 134 3935 8888,我們會詳細為你一一解答你心中的疑難。項目經理在線