SEO 大揭密!網路爬蟲是什麼?能吃嗎?

2024-10-07

作者

koodata

89

koo.café 今天就來跟大家好好聊一下在網路世界中無所不在,但你可能卻從未察覺到的這條「蟲」。它們可是其實是整個網路搜尋世界的起點,這篇文章或許是你認識它們的唯一機會!千萬不能錯過

先回應一下標題:網路爬蟲當然不能吃,但它其實是整個搜尋世界的起點。「爬蟲」將所有上線的網頁快速瀏覽後並整理重點做索引,這樣搜尋引擎才能快速檢索相關內容。



延伸閱讀:SEO 大揭密!4 招提升你的搜尋結果排名


有讀者許願想要多瞭解一點所謂的網路爬蟲,所以  koo.café 今天就來跟大家好好聊一下在網路世界中無所不在,但你可能卻從未察覺到的這條「蟲」。不過我們得先打個預防針,今天分享的內容對於優化 SEO 並不會有太直接的幫助。但學習新知識對你來說,想必也是相當有趣的對吧?

如果你覺得 OK 沒問題的話,按照慣例,開始前替自己好好泡杯咖啡,再跟我們一起看下去吧!


谷哥的那條蟲,「Googlebot」

Googlebot 是什麼呢?它是 Google 網路檢索器的通稱,是 Google 的網路爬蟲程序(web crawler),它會在互聯網上自動收集網頁內容,而這些內容會被 Google 索引並用於生成搜尋結果。Googlebot 你可以想像是一個偶像團體的名稱,而這團裏面有很多成員,我們就來介紹幾條比較有人氣的「蟲」吧!











Googlebot 的工作原理?


就像偶像團體的工作內容是唱歌跳舞一樣,上述提到的 Googlebot 所有成員主要的工作內容是這兩件事情。


爬蟲(Crawling):

  • 自動訪問網頁並下載頁面內容,包括文本、圖片、影片等。
  • 它會通過追蹤網頁中的連結來發現新的內容。當 Googlebot 訪問一個網頁時,它會記錄該頁面上的所有連結,並將這些連結加入待爬取的列表中,從而擴展其爬取範圍​ 。


索引(Indexing):

  • 在抓取網頁內容後,Googlebot 會將這些資料發送回 Google 的伺服器進行處理和索引。這個過程涉及分析頁面內容、提取關鍵字、並根據內容的相關性和質量對其進行排序。
  • 這些索引數據會存儲在Google的巨大資料庫中,當用戶進行搜尋時,Google會根據這些索引數據來提供最相關的搜尋結果​。



爬蟲的頻率和控制

不過如果你是網站管理員的話,還可以通過以下方式控制 Googlebot 的爬取行為。


robots.txt 文件:

  • robots.txt 是一個存放在網站根目錄下的純文字文件,主要用途是告訴搜索引擎爬蟲(例如 Googlebot)哪些頁面或文件可以或不能被抓取(即索引)。這對網站管理者來說是一種控制搜索引擎行為的簡單方法。


爬取頻率設置:

  • 在 Google Search Console 中,網站管理員可以設置 Googlebot 的爬取頻率,以減少對伺服器資源的佔用​ ​。



Googlebot 的限制

雖然 Googlebot 非常強大,但它也有一些限制:


JavaScript 處理:

  • 雖然 Googlebot 可以執行部分JavaScript,但它對於動態加載的內容(如AJAX)可能並不完全有效。


爬取資源限制:

  • 如果網站設置了爬取頻率限制或使用 robots.txt 文件阻止特定區域,Googlebot 可能無法抓取這些內容。




偶像…..不,是爬蟲戰隊出動!她們存在是爲了給你最好的瀏覽體驗!



那麼 Yahoo 呢?他們也有網路爬蟲嗎?

當然有!Yahoo的主要網頁爬蟲程序被稱為 Yahoo Slurp。這個爬蟲程序負責在互聯網上自動抓取網頁內容,並將其添加到 Yahoo 的搜尋引擎索引中。與 Googlebot 類似,Yahoo Slurp 會做以下幾件事:


  • 抓取網頁內容:自動訪問網頁並下載其內容,包括文本、圖片、視頻等。
  • 建立索引:將抓取到的網頁內容進行分析和處理,存儲在Yahoo的索引數據庫中,以便用戶搜尋時可以快速檢索到相關內容。
  • 追蹤連結:Yahoo Slurp會通過追蹤網頁中的超連結來發現新的網頁,擴展其抓取範圍。
  • 分析內容:爬取的內容會被分析,提取關鍵字和其他資訊,這些資訊會用於生成搜尋結果。


這可不是我們複製貼上前段的內容,而是兩者的運作就是如此雷同。而網站管理員也能利用robots.txt 文件來控制 Yahoo Slurp 的抓取行為,指示其允許或禁止抓取網站的特定部分。且Yahoo Slurp會根據網站的設定和伺服器的反應調整其抓取頻率,以確保不會過度佔用伺服器資源。


一篇文章讓你瞭解兩大爬蟲!超賺!

Googlebot 與 Yahoo Slurp 可說是搜尋引擎運作的基石,它們負責自動抓取和索引互聯網上的內容。通過爬取網頁並將內容發送回伺服器進行處理,確保用戶在搜尋時能獲得最相關和最新的結果。網站管理員可以通過 robots.txt 文件與網站管理工具控制爬蟲的行為,從而優化網站在搜尋結果中的表現。


今天 koo.café 跟大家分享了所謂的「網路爬蟲」,雖然這些小知識對 SEO 本身沒有太直接的幫助,但多瞭解一些數位世界的原理也挺不錯的對吧?我們後續會分享更多知識情報。千萬不要錯過  koo.café 的後續內容!


koodata 酷訊搜索

7 Followers

數位行銷、媒體新知
知識主題
行銷策略
品牌行銷

我們使用本身的Cookie和第三方的Cookie進行分析,並根據您的瀏覽習慣和個人資料向您展示與您的偏好相關的廣告。如欲瞭解更多資訊,您可以查閱我們的隱私權政策