robots.txt
robots.txt

什麼是 robots.txt?什麼是 meta robots?它們的 SEO 重要性及區別

您是否經常感到困惑,不知道meta robots和 robots.txt 之間的區別是什麼?以及它們如何影響搜索引擎優化(SEO)?讓我們深入探討這兩者之間的差異以及它們在網站SEO中的關鍵作用。
目錄

meta robots 以及 robots.txt 的工作分別是阻止Google 檢索、索引你的頁面。在現今網路世界中,只有SEO排名高或流量高是沒有用的,流量必須有價值、要能夠產生轉換,所以使用者體驗相對重要,如果你有特定頁面會傷害使用者體驗,你可以透過這些方式去阻止該頁面出現在 Google 搜尋結果中。

我們在 Google Search Console 顯示偵測到「Noindex」標記 有介紹 noindex 的標記,即為 meta robots 阻止 Google 索引特定頁面。

ai nuclear energy background future innovation disruptive technology

meta robots vs. robots.txt

以下以表格介紹兩者的差別:

meta robotsrobots.txt
功能阻止Google索引在搜尋結果阻止Google抓取資料
使用方式<head>底下加入 meta robots 標籤,例如 noindex上傳檔名為 robots.txt 的檔案到根目錄
使用時機特定頁面不希望出現在Google搜尋結果頁中,例如購物車頁、結帳頁、網站搜尋結果頁,但這些頁面可能對SEO有幫助,所以還是會讓Google抓取資料。特定頁面完全不希望 Google 抓取資料,例如未完成頁面、測試頁面、機密頁面。
  • robots.txt 可以阻止搜尋引擎檢索你的特定頁面的資料,如果你使用了robots.txt 來阻擋搜尋引擎,那麼搜尋引擎將會略過你所阻擋的頁面,不去做檢索。
  • meta robots 是在索引層面阻止搜尋引擎索引你的頁面,但 Google 還是有爬你的網站資料。
  • 如果只是不想讓網頁顯示在 Google 搜尋結果中,請不要以 robots.txt 做為隱藏網頁的方法。如果有其他網頁的說明文字指向您的網頁,即使 Google 未造訪您的網頁,還是能夠為網頁建立索引。

meta robots 和 robots.txt 如何影響 SEO?

  1. 控制搜尋引擎爬蟲存取權限: 透過 robots.txt,您可以控制搜索引擎爬蟲是否可以訪問您站點的特定部分,這有助於保護私人內容或防止不希望被檢索的頁面被爬蟲訪問。
  2. 控制搜尋引擎索引權限 透過 meta robotsnoindex 指令,您可以控制特定頁面是否應該被搜索引擎索引。這對於臨時頁面或不希望在搜索結果中出現的頁面非常有用。

總的來說,meta robotsrobots.txt 可以被視為 SEO 的一部分,透過它們,您可以更精確地控制搜索引擎如何處理您的網站內容,以達到更好的搜索引擎結果。然而,應謹慎使用,以確保不會意外地影響到您的網站在搜索引擎中的可見性。

什麼是 robots.txt?

robots.txt 是一個檔案,這個檔案會規範來到你的網站的爬蟲的行為,像是有哪些頁面可以爬、哪些頁面不能爬。

robots.txt 檔案能夠告訴搜尋引擎檢索器,可存取網站上的哪些網址。 這個檔案主要用來避免網站因要求過多而超載,而不是讓特定網頁無法出現在 Google 搜尋結果

Google 特別強調,如要防止自己的網頁顯示在搜尋結果中,請使用其他方法,例如密碼保護或是 noindex 標記

如需自行建立 robots.txt 檔案,可以參考Google官方 建立 robots.txt 檔案,這裡我們也提供一個簡單的示例。

robots.txt 文件示例

當使用 robots.txt 文件時,你可以根據你的網站需求和機器人的行為來編寫。以下是一個簡單的 robots.txt 文件示例,展示如何指示機器人爬取網站:

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /cgi-bin/
Disallow: /temp/

Sitemap: https://www.example.com/sitemap.xml

這個示例中的 robots.txt 文件有幾個重要的指示:

  • User-agent: *:這表示這些指示適用於所有的機器人。你也可以使用特定的機器人名稱,例如 User-agent: Googlebot,以便只針對特定的機器人進行配置。
  • Disallow: /admin/:這表示機器人不應該爬取網站中的/admin/目錄及其內容。
  • Disallow: /private/:這表示機器人不應該爬取網站中的/private/目錄及其內容。
  • Disallow: /cgi-bin/:這表示機器人不應該爬取網站中的/cgi-bin/目錄及其內容。
  • Disallow: /temp/:這表示機器人不應該爬取網站中的/temp/目錄及其內容。

此外,這個示例還包含了一個可選的指示:

  • Sitemap: https://www.example.com/sitemap.xml:這表示網站的 Sitemap 文件位於 https://www.example.com/sitemap.xml,機器人可以參考該文件以更好地理解網站的結構和內容。

請注意,robots.txt 文件只是一種建議,有些機器人可能不遵守這些指示。同時,重要的內容不應僅依賴 robots.txt 文件的限制,必要時應使用其他安全措施。建議在編寫 robots.txt 文件之前,仔細閱讀官方的 robots.txt 文件規範和相關的最佳實踐。

robots.txt 的使用時機

最一開始提到 robots.txt 是一種規範,他會告訴你來到你的網站的爬蟲有哪些頁面可以爬、哪些不能爬,所以 robots.txt 至少有以下幾種的使用時機

  • 不讓爬蟲爬機密檔案
  • 不讓爬蟲爬未完成的頁面或測試頁面
  • 不讓爬蟲爬一些相對不重要的內容,避免消耗抓取預算
  • 不讓不必要的爬蟲爬取你的網站,消耗網站資源

robot.txt 測試工具

了解如何在網站上加入 robots.txt 檔案,以及了解各種 robots.txt 的語法跟規則,你可以測試一下自己加入的 robots.txt 語法是否正常。

首先,將你的 robots.txt 上傳到網站上的跟目錄下方之後,可以使用 Google 提供的robots.txt 測試工具來進行線上測試。

進入「robots.txt 測試工具」之後,你可以選擇你在 Google search Console 驗證的資源,選好就可以前往測試工具頁面了。

robotstxt google

進入測試工具頁面之後,會看到你的 robots.txt 檔案是否正確。這個測試下方會列出「 ? 個錯誤、? 項警告」,確認都沒警告或錯誤,那這個 robots.txt 就可以正確運作了。

robotstxt google 1

一般來說,你不需要特別告知搜尋引擎你已經更新了 robots.txt 檔案,因為搜尋引擎會自動抓取 robots.txt 並自己更新。

但如果你的檔案有重大錯誤,想要告訴 Google 快來抓取新檔案,可以利用測試工具的「提交」按鈕,點下去就可以告訴 Google 快來重新爬取 robots.txt 了。

meta robots 與 robots.txt 的常見問題

使用這些標籤和文件時要謹慎,確保您了解它們的作用,以避免不必要的問題,同時仍然確保搜索引擎可以正確地索引和檢索您的網站內容。

什麼是 meta robots 和 robots.txt 文件?

meta robots 是一種 HTML 標籤,用於控制搜索引擎機器人的行為,而 robots.txt 是一個文本文件,用於指示搜索引擎機器人應該如何爬取網站的內容。

meta robots 和 robots.txt 有何不同?

meta robots 是指示單個網頁的機器人指令,而 robots.txt 是一個網站級別的指令文件。meta robots 通常用於單個網頁上,而 robots.txt 適用於整個網站。

如何使用 meta robots 來控制搜索引擎機器人?

使用 noindex 指令可以阻止搜索引擎索引特定頁面,使用 nofollow 可以阻止搜索引擎跟隨頁面上的連結。

如何測試 meta robots 和 robots.txt 配置的有效性?

使用網站地圖測試工具或搜索引擎的 Webmaster 工具,來檢查搜索引擎機器人對網站的行為。

robots.txt 文件有什麼常見的錯誤?

常見錯誤包括排除了重要內容、排除過多內容、語法錯誤以及未考慮使用 User-agent 區分不同的搜索引擎爬蟲。

結論

若某些頁面你不希望在搜尋引擎被搜尋到,但這些頁面事實上有很多對 SEO 排名有加分的因素,例如有反向連結、流量,所以你會希望 Google 檢索這些頁面的資料,但別建立進搜尋引擎索引,這時候你需要 meta robots 來阻止 Google 索引你的頁面(noindex)。

而未完成或是正在測試的頁面,對實質 SEO 沒有任何幫助,希望Google不要爬取資料的話就要使用 robots.txt

需特別注意的是:

如果其他網站連結到 robots.txt 所封鎖的網頁,系統仍然可以為該網頁建立索引。雖然 Google 不會對 robots.txt 所封鎖的內容進行檢索或建立索引,但如果我們透過網路上其他網頁的連結發現封鎖的網址,仍然會建立這些網址的索引。在這種情況下,網頁網址或者網頁連結中的錨定文字這類公開資訊,仍會顯示在 Google 搜尋結果中。如要完全避免這種情形,建議使用密碼保護伺服器上的檔案、使用 noindex,或是完全移除網頁。

資料來源:

延伸閱讀:

分享

各種ChatGPT及AI工具應用、指令手冊、解決方案,每週更新。
學習最新AI工具,就上Learn AI
AI如何讓工作更輕鬆、更有效率?立刻學習!
LA廣告-1
LA廣告-2
LA廣告-3
Related Post
最新文章
數位轉型
數位轉型是什麼?簡單說給你聽

數位轉型聽起來很複雜?其實它就是利用數位科技來提升效率、改善服務。這篇文章將用最簡單的方式,帶您了解數位轉型的概念與重要性。

Selected Post
精選文章
WordPress 維護
實用!16 個 WordPress 維護的技巧手冊

網站架好了要如何進行 WordPress 維護?你需要定期維護網站核心功能、安裝的外掛、主題和其他方面。WordPress 是一個很棒的內容管理平台,但做好網站維護是讓你的網站在市場上走得更久的關鍵。

SSL憑證
SSL憑證/https是什麼?對網站SEO排名有很大的影響?

SSL(Secure Sockets Layer),也就是安全資料傳輸層憑證,是網頁伺服器與瀏覽器之間的加密通信安全技術,確保您的網站資料不容易被攔截。但它對於網站的SEO又有什麼影響呢?我們將解釋這個重要的議題,讓您更了解SSL憑證的作用。