robots.txt是什麼?robots.txt 教學:robots.txt設定與測試工具SEO必學

robots.txt是什麼?robots.txt 教學:robots.txt設定與測試工具SEO必學
Welly SEO 編輯部

Welly SEO 編輯部

2024-02-22更新

SEO優化

# SEO概念

# 技術SEO

robots.txt是什麼?本文將分享SEO robots.txt教學,包含遭到robots.txt封鎖如何解除、robots.txt產生器等,並比較robots.txt vs meta robots,最後教你使用robots.txt測試工具。

robots.txt解密|robots.txt用途與注意事項大公開!

提升網站SEO排名的前提是Google搜尋引擎要先進行檢索與建立索引,才能讓你的網站進入SEO的戰場。

然而當你的網站遇到以下這3種問題時,可不可以請Google搜尋引擎不要建立索引呢?

  • 網頁處在測試或是部分網頁尚未架設完成的狀況
  • 內容重複性太高,或是被索引對網站排名沒有幫助
  • 網頁內容可能會對SEO排名有不良影響

答案是有的!以下將告訴你robots.txt SEO的用途與注意事項。

(一)robots.txt是什麼?robots.txt用途分享!

robots.txt是一種存放在網頁根目錄的簡易文字檔,用於告知搜尋引擎哪些網站頁面不要檢索。

robots.txt的主要用途是避免網站內龐大的資訊量使網站速度變慢,但仍需注意其無法保證100%不會被搜尋引擎檢索。

實際robots.txt範本

以下將針對robots.txt常見問題進行詳細解答:

📍為什麼使用robots.txt之後「仍有機會被搜尋引擎檢索」?

即使使用了robots.txt技術,仍有可能被搜尋引擎檢索,其原因如下:

  1. 不是所有的搜尋引擎都會支援robots.txt內的指令。
  2. 對搜尋引擎來說,robots.txt只是一個參考指令,並沒有強制執行力。
  3. 不同的搜尋引擎解讀指令的方式也會不同,因此有可能遇到無法解讀的指令便會忽略,導致指令無法實行。
  4. 如果有外部連結連到robots.txt封鎖的頁面,那搜尋引擎還是會將封鎖的內容檢索。

📍robots.txt指令內容包含哪些?

  • 網頁:想要封鎖的網頁,例如重要性較低或重複內容多的網頁
  • 媒體:網頁中的照片、影片、音檔
  • 資源:網頁中不重要的指令碼或呈現的特定樣式等

這邊先幫大家建立架構與概念,詳細的指令教學會在下一段為大家分享。

📍一定要設定robots.txt指令給Google搜尋引擎嗎?

答案是:不用的!

如果網站內的所有網頁內容都可以被搜尋引擎檢索與建立索引,那麼就不用特別設定robots.txt去封鎖頁面;如果頁面有提交robots.txt,Google搜尋引擎就會「盡量」遵照你的指令,不去收錄該頁面。

robots.txt教學:robots.txt設定、robots.txt程式代碼內容

了解robots.txt是什麼和用途之後,究竟該怎麼設定robots.txt文件?那些複雜難懂的程式代碼分別代表什麼意思呢?

(一)robots.txt程式代碼解析

以下利用表格的方式介紹5種robots.txt程式代碼:

程式代碼定義
User-agent
  • 搜尋引擎名稱填寫,可針對特定對象,例如Googlebot、bingbot、Yahoo! Slurp
  • 想要讓所有搜尋引擎檢索,請用「*」符號表示
  • 指令大小寫不限
  • Allow
  • 必須填寫完整路徑,告知搜尋引擎哪些網頁或檔案內容可以被檢索
  • 大小寫有影響
  • Disallow
  • 必須填寫完整路徑,告知搜尋引擎哪些網頁或檔案內容不得被檢索
  • 大小寫有影響
  • Crawl-delay
  • 可設定搜尋引擎訪問網站的最短時間間隔(秒)
  • 設定robots.txt Disallow以阿拉伯數字填寫
  • 目前Google和百度並不認可此命令,但其他搜尋引擎無限制
  • Sitemap
  • 填寫Sitemap robots.txt檔案的完整路徑
  • 大小寫需區分
  • robots.txt程式代碼

    (二)robots.txt常見的搜尋引擎名稱

    • Google搜尋引擎:Googlebot
    • Googlebot-Image(圖像)
    • Googlebot-News(新聞)
    • Googlebot-Video(影片)
    • Yahoo:Yahoo!Slurp
    • Bing:bingbot
    • Ahrefs:Ahrefsbot
    • 百度:Baiduspider
    • ChatGPT:GPTBot

    (三)robots.txt Examples撰寫範例

    在robots.txt的程式代碼裡,最常被大家搜尋的關鍵字是「robots txt disallow all search engine」,原因是Disallow這個程式代碼主要用於限制搜尋引擎檢索,而多數人會希望所有搜尋引擎不要檢索特定網頁內容,因此會想要搜尋此關鍵字找到程式代碼的答案。

    以下將為大家揭秘各種不同robots.txt的目的,讓你一次搞懂程式代碼邏輯!

    robots.txt目的robots.txt撰寫範例
    所有的搜尋引擎都可以檢索全部網站內容
  • User-agent: *
  • Allow:
  • 所有的搜尋引擎都不能檢索全部網站內容
  • User-agent: *
  • Disallow:/
  • 特定的搜尋引擎可以檢索全部網站內容以Googlebot為例:
  • User-agent: Googlebot
  • Allow:
  • 特定的搜尋引擎不可以檢索全部網站內容
  • User-agent: Googlebot
  • Disallow:/
  • 特定搜尋引擎可以檢索特定的網站內容
  • User-agent: Googlebot
  • Allow: /images/
  • Allow: /private/
  • 所有搜尋引擎都不能檢索特定路徑的網站內容
  • User-agent: *
  • Disallow: /images/
  • Disallow: /private/
  • 特定搜尋引擎不能檢索特定路徑的網站內容
  • User-agent: Googlebot
  • Disallow: /images/
  • Disallow: /private/
  • 所有搜尋引擎延遲爬取網站內容30秒
  • User-agent: *
  • Crawl-delay:30
  • robots.txt語法備註:

    • /:代表整個網站的所有網頁
    • *:代表所有的搜尋引擎

    最後提醒一下,通常不用特別設定「所有搜尋引擎都可以檢索網站所有內容」,因為這本就是搜尋引擎會自動執行的動作。

    (四)robots.txt進階應用

    阻擋特定的目錄與內容

    Disallow: /tmp/
    Disallow: /admin/
    

    阻擋特定檔案類型爬取

    Disallow: /*.gif$
    

    「gif」可以更換成png、jpg等檔案類型,讓搜尋引擎知道哪些檔案不要爬取。

    (五)遭到robots.txt封鎖的頁面該怎麼解除封鎖?

    根據Google官方Search Console的說明,想要解除robots.txt的方法如下:

    • STEP1:先透過robots.txt驗證工具或是Google Search Console,確認被robots.txt封鎖的頁面確實存在與位置
    • STEP2:接著,直接修改robots.txt檔案即可;如果你是使用網站代管服務,因每家代管服務的方式不同,因此請直接根據代管服務供應商的說明文件進行修改。

    ✨想了解詳細的Google官方說明:解除封鎖受到robots.txt封鎖的網頁

    (六)robots.txt Wordpress-Yoast教學

    Yoast SEO對於使用Wordpress架設網站的人想必很熟悉,許多SEO的相關設定都可以透過Yoast這個擴充程式快速達成。

    以下將教你如何利用Yoast設定robots.txt:

    • STEP1:點擊左側工具欄的「工具」
    • STEP2:接著,點擊進入「檔案編輯器」
    • STEP3:最後將robots.txt程式代碼輸入,並按下儲存即可

    ✨如果想要深入了解WordPress SEO如何執行,推薦你閱讀此篇文章:WordPress SEO怎麼做?WP SEO教學、4大SEO外掛推薦

    robots.txt Wordpress-Yoast教學

    (七)3個robots.txt產生器推薦

    如果你是看到程式代碼就頭痛的人,只要透過以下這3個robots.txt產生器,並按照只是點選想要的robots.txt指令,不用1分鐘程式代碼就生成囉!

    設定robots.txt Google注意事項

    📍robots.txt注意事項-設定

    • 建議使用文字編輯器,像是記事本、Notepad、TextEdit、vi和emacs等工具建立robots.txt檔案,而非文書軟體(例如Word),避免因符號不相容而在檢索時出現問題。
    • 務必用內容必須以CR、CR/LF或LF分隔行列,否則Google會忽略。
    • 儲存檔案時,必須選擇UTF-8編碼,並以純文字檔案格式儲存。
    • 檔名必須命名為「robots.txt」,僅能使用小寫,否則恐遭爬蟲忽略。
    • 目前robots.txt檔案的容量大小有強制規定,最多為500KB。超過此限制的內容將會被Google忽略。

    📍robots.txt注意事項-放置、變更

    • 為了讓Google正確辨識網站的robots.txt檔案指令,該檔案必須放在網站目錄的最上層,並且開放公開存取。
    • 若Google無法辨識robots.txt檔案的內容,例如檔案格式錯誤或不支援,將會直接忽略指令。
    • 若要更改網站robots.txt檔案,需更新檔案後重新提交至Google,以加速應用程式更新。
    • Google收到robots.txt檔案變更後,生效時間不固定。如需加快生效,建議重新提交檔案以推進流程。

    robots.txt vs meta robots|meta robots怎麼寫?

    說到robots.txt就不能不提到meta robots,在搜尋引擎上,常常有人用「HTML meta robots」這個關鍵字查詢,因為meta robots的語法和HTML十分類似,那究竟meta robots和我們本篇的主題robots.txt有何差異呢?

    (一)robots.txt vs meta robots比較表

    robots.txt和meta robots最大的差異就在:

    robots.txt是限制「檢索」,而meta robots則是明確的指令「不准建立索引」。
    

    此外,設定meta robots也比較麻煩,必須在你不想被索引的網頁head標籤裡,透過手動輸入的方式進行設定。

    robots.txtmeta robots
    主要功用限制搜尋引擎進行特定網站內容的「檢索」限制搜尋引擎進行特定網站內容的「建立索引」
    撰寫方式使用文字編輯器撰寫robots.txt後,上傳到網站新增在該網頁的head標籤裡
    程式代碼
  • User-agent
  • Allow
  • Disallow
  • Crawl-delay
  • Sitemap
  • meta name
  • content
  • index
  • noindex
  • follow
  • nofollow
  • (二)meta robots程式代碼解析

    meta robots程式代碼常見的有6種,像是meta index follow等,以下將詳細介紹這6種程式代碼分別代表的意義為何:

    程式代碼定義
    meta name用於輸入搜尋引擎名稱
    content填寫網頁是否允許建立索引,下令meta noindex或是index nofollow等
    index如果是允許建立索引的頁面,便可下令meta robots index網頁
    noindex下令meta robots noindex就可以禁止搜尋引擎建立索引
    follow若網頁中加入其他網頁或不同網站的連結,若未指示「meta robots nofollow」,則Google可以追蹤該網頁上的連結
    nofollowmeta nofollow用於禁止追蹤該網頁上的連結,以防止分享自己的網站權重

    meta robots程式代碼

    (三)meta robots Examples 撰寫範例

    📌meta robots index, follow

    意指允許建立索引,且可以追蹤網頁內的連結。

    然而其實沒有特別下者個meta robots的指令,根據搜尋引擎的習慣仍會這麼做,因此此設定的必要性較低。

    meta robots index follow

    📌meta index, nofollow

    表示搜尋引擎可以建立索引,但不允許追蹤網頁的連結。

    meta index, nofollow

    📌meta noindex, follow

    不允許搜尋引擎建立索引,但可以追蹤網頁的連結。

    meta noindex, follow

    📌meta noindex, nofollow

    不允許搜尋引擎建立索引,也不可以追蹤網頁的連結。

    meta noindex, nofollow

    robots.txt測試工具(robots.txt Tester)怎麼用?Google官方工具教學!

    Welly SEO建議設定完robots.txt,一定要透過robots.txt測試工具進行檢測,確認是否真的成功封鎖了不想被檢索的網頁。
    

    robots.txt測試工具在Google官方工具Search Console就有提供了,以下將針對Google官方的robots.txt測試工具進行教學:

    • STEP1:首先,搜尋robots.txt測試工具並開啟連結
    • STEP2:在robots.txt測試工具中提交有設置robots.txt的網址
    • STEP3:檢查測試結果,確認robots.txt程式代碼有無錯誤警告
    • STEP4:在網頁底部的文字方塊中輸入想測試的網頁網址
    • STEP5:在右側的下拉選單中選取想要模擬的搜尋引擎,例如Googlebot
    • STEP6:點擊「測試」 按鈕
    • STEP7:確認顯示「已允許」還是「已封鎖」
    • STEP8:如發現是與預期不符,可以在測試工具的頁面進行robots.txt檔案的測試編輯
    • STEP9:調整完後,將確認無誤的robots.txt程式代碼複製貼到網站的robots.txt檔案中

    robots.txt測試工具教學

    使用robots.txt時,你可以控制搜尋引擎是否檢索你的網站,進而提高網站的SEO優勢。因此,適當編寫、更新你的robots.txt會是一個影響網站排名的重要元素。

    以上就是robots.txt的介紹,如果您想要了解更多SEO資訊,或者想要獲取免費的SEO網站檢測,都可以透過下方黃色按鈕與Welly團隊聯繫!

    img_CTA

    最專業的 SEO 營銷團隊!

    現在就與 Welly 一起將目標關鍵字攻上 Google 首頁吧!

    熱門文章

    編輯精選

    最新文章