來自網路的爬蟲分析 @新精讚

[無邊框]

1916

來自網路的爬蟲分析

“

分析最近來自網路上的爬蟲

„

分享此文連結 //n.sfs.tw/12812

分享連結來自網路的爬蟲分析@新精讚

(文章歡迎轉載，務必尊重版權註明連結來源)

2019-10-24 23:31:38 最後編修

2018-10-13 01:48:15 By 張○○

自動目錄

訪客來源
爬蟲的來源
裝置的來源

我好奇分析了精讚最近的180萬次訪客記錄。

資料是自有的，並非來自 google analytics之類的記錄，同時也有過濾掉三天內重複的來源。

訪客來源

爬蟲或機器人比正常人來得多，從數據分析可看出53%是屬於爬蟲或機器人，可能是人類的比例約為47%。

有些擬人類的爬蟲或機器人可能混進來，因此實際比例可能人類更少。

爬蟲的來源

我分析出的爬蟲大約有50-100種之多(事實上可能更多)，某些偶爾來幾次的爬蟲就直接歸納到其它項目中，分析出前幾大爬蟲數量和所占爬蟲的比例

前幾大中排第一名的是 google的爬蟲。

第二名的 ahrefsbot https://ahrefs.com/robot ;;; 不知是什麼來頭的公司

第三名是微軟的 bing

第四名是semrush https://www.semrush.com/bot/

此四大爬蟲就約占了爬蟲來源的 79%，也就是說這四隻是超級大爬蟲。

爬蟲的來訪對網站的曝光是好事，但會吃掉不少頻寬也是壞事。

還好網站當初在建置的時候我就有考慮過，只要是被判定是爬蟲的來源，在「正被關注」的地方會標注一個大寫的B，表示我知道你的來訪，但是不會列入點擊次數。

裝置的來源

藉由 google的分析這近12個月的資料，可以知道本站有約 31.6+1.9=33.5(%)的使用者是來自於行動裝置

以上是簡單的分析資料，大概知道就好。By Alexa 的分析 https://www.alexa.com/siteinfo/sfs.tw

到目前為止本站的排名約

參考參考。

END

你可能感興趣的文章

程式、函數、資料庫命名的風格程式或資料庫自己定義統一的命名規則，可以防止因為一個拚字的錯誤花了半個小時來找，也可說是提升工作效率的關鍵。

HTC手機資料移轉記錄剛買一台新的HTC手機，想把舊機的資料移過來，超級簡單...

台灣2021(民國110年)節慶國定假日 ics下載找不到2021年的假日ics檔？沒關係，我自己做一個

W3C 的檢測及規範 w3c和一個Mozilla基金會提供的線上檢測w3c的網站

中國的網路審查(資訊長城) 介紹中國的網路審查(簡字网络审查、資訊長城或防火長城)

移除google 的頁庫存檔--移除在google中保存的網頁資料我的網頁或文件被google保存了，但我不想給別人下載要怎麼做？

隨機好文

[bc] linux 的計算機 bc 設定小數位數、計算π、次方根 linux 的計算機 bc 設定小數位數、計算π、次方根

UTF-8的網頁但IE8一片空白 UTF8編碼的網頁在Firefox 正常顯示、但IE8 就是空白，IE8編碼設定是「自動偵測」可是自動偵測到的是 big5...

維修冰箱維修冰箱

Smarty安裝 smarty 是著名的樣版引擎，非常的好用，用多了突然發現拿掉smarty反而不會寫php了，以下是安裝過程..

APACHE的記錄檔格式 LogFormat 語法在APACHE中有定義一些記錄的語法模版在 /etc/httpd/conf/httpd.conf 中： LogForm

訪客來源
爬蟲的來源
裝置的來源

到最底端