就享知 | SEO 大揭密！網路爬蟲是什麼？能吃嗎？

註冊

知識

SEO 大揭密！網路爬蟲是什麼...

SEO 大揭密！網路爬蟲是什麼？能吃嗎？

2024-10-07

作者

koodata

191

koo.café 今天就來跟大家好好聊一下在網路世界中無所不在，但你可能卻從未察覺到的這條「蟲」。它們可是其實是整個網路搜尋世界的起點，這篇文章或許是你認識它們的唯一機會！千萬不能錯過

先回應一下標題：網路爬蟲當然不能吃，但它其實是整個搜尋世界的起點。「爬蟲」將所有上線的網頁快速瀏覽後並整理重點做索引，這樣搜尋引擎才能快速檢索相關內容。

延伸閱讀：SEO 大揭密！4 招提升你的搜尋結果排名

有讀者許願想要多瞭解一點所謂的網路爬蟲，所以 koo.café 今天就來跟大家好好聊一下在網路世界中無所不在，但你可能卻從未察覺到的這條「蟲」。不過我們得先打個預防針，今天分享的內容對於優化 SEO 並不會有太直接的幫助。但學習新知識對你來說，想必也是相當有趣的對吧？

如果你覺得 OK 沒問題的話，按照慣例，開始前替自己好好泡杯咖啡，再跟我們一起看下去吧！

谷哥的那條蟲，「Googlebot」

Googlebot 是什麼呢？它是 Google 網路檢索器的通稱，是 Google 的網路爬蟲程序（web crawler），它會在互聯網上自動收集網頁內容，而這些內容會被 Google 索引並用於生成搜尋結果。Googlebot 你可以想像是一個偶像團體的名稱，而這團裏面有很多成員，我們就來介紹幾條比較有人氣的「蟲」吧！

Googlebot 的工作原理？

就像偶像團體的工作內容是唱歌跳舞一樣，上述提到的 Googlebot 所有成員主要的工作內容是這兩件事情。

爬蟲（Crawling）：

自動訪問網頁並下載頁面內容，包括文本、圖片、影片等。
它會通過追蹤網頁中的連結來發現新的內容。當 Googlebot 訪問一個網頁時，它會記錄該頁面上的所有連結，並將這些連結加入待爬取的列表中，從而擴展其爬取範圍。

索引（Indexing）：

在抓取網頁內容後，Googlebot 會將這些資料發送回 Google 的伺服器進行處理和索引。這個過程涉及分析頁面內容、提取關鍵字、並根據內容的相關性和質量對其進行排序。
這些索引數據會存儲在Google的巨大資料庫中，當用戶進行搜尋時，Google會根據這些索引數據來提供最相關的搜尋結果。

爬蟲的頻率和控制

不過如果你是網站管理員的話，還可以通過以下方式控制 Googlebot 的爬取行為。

robots.txt 文件：

robots.txt 是一個存放在網站根目錄下的純文字文件，主要用途是告訴搜索引擎爬蟲（例如 Googlebot）哪些頁面或文件可以或不能被抓取（即索引）。這對網站管理者來說是一種控制搜索引擎行為的簡單方法。

爬取頻率設置：

在 Google Search Console 中，網站管理員可以設置 Googlebot 的爬取頻率，以減少對伺服器資源的佔用。

Googlebot 的限制

雖然 Googlebot 非常強大，但它也有一些限制：

JavaScript 處理：

雖然 Googlebot 可以執行部分JavaScript，但它對於動態加載的內容（如AJAX）可能並不完全有效。

爬取資源限制：

如果網站設置了爬取頻率限制或使用 robots.txt 文件阻止特定區域，Googlebot 可能無法抓取這些內容。

偶像…..不，是爬蟲戰隊出動！她們存在是爲了給你最好的瀏覽體驗！

那麼 Yahoo 呢？他們也有網路爬蟲嗎？

當然有！Yahoo的主要網頁爬蟲程序被稱為 Yahoo Slurp。這個爬蟲程序負責在互聯網上自動抓取網頁內容，並將其添加到 Yahoo 的搜尋引擎索引中。與 Googlebot 類似，Yahoo Slurp 會做以下幾件事：

抓取網頁內容：自動訪問網頁並下載其內容，包括文本、圖片、視頻等。
建立索引：將抓取到的網頁內容進行分析和處理，存儲在Yahoo的索引數據庫中，以便用戶搜尋時可以快速檢索到相關內容。
追蹤連結：Yahoo Slurp會通過追蹤網頁中的超連結來發現新的網頁，擴展其抓取範圍。
分析內容：爬取的內容會被分析，提取關鍵字和其他資訊，這些資訊會用於生成搜尋結果。

這可不是我們複製貼上前段的內容，而是兩者的運作就是如此雷同。而網站管理員也能利用robots.txt 文件來控制 Yahoo Slurp 的抓取行為，指示其允許或禁止抓取網站的特定部分。且Yahoo Slurp會根據網站的設定和伺服器的反應調整其抓取頻率，以確保不會過度佔用伺服器資源。

一篇文章讓你瞭解兩大爬蟲！超賺！

Googlebot 與 Yahoo Slurp 可說是搜尋引擎運作的基石，它們負責自動抓取和索引互聯網上的內容。通過爬取網頁並將內容發送回伺服器進行處理，確保用戶在搜尋時能獲得最相關和最新的結果。網站管理員可以通過 robots.txt 文件與網站管理工具控制爬蟲的行為，從而優化網站在搜尋結果中的表現。

今天 koo.café 跟大家分享了所謂的「網路爬蟲」，雖然這些小知識對 SEO 本身沒有太直接的幫助，但多瞭解一些數位世界的原理也挺不錯的對吧？我們後續會分享更多知識情報。千萬不要錯過 koo.café 的後續內容！

koodata 酷訊搜索

120 Followers

數位行銷、媒體新知

知識主題

行銷策略

品牌行銷