來自網路的爬蟲分析 @新精讚

[無邊框]

1916

來自網路的爬蟲分析

“

分析最近來自網路上的爬蟲

„

分享此文連結 //n.sfs.tw/12812

分享連結來自網路的爬蟲分析@新精讚

(文章歡迎轉載，務必尊重版權註明連結來源)

2019-10-24 23:31:38 最後編修

2018-10-13 01:48:15 By 張○○

自動目錄

訪客來源
爬蟲的來源
裝置的來源

我好奇分析了精讚最近的180萬次訪客記錄。

資料是自有的，並非來自 google analytics之類的記錄，同時也有過濾掉三天內重複的來源。

訪客來源

爬蟲或機器人比正常人來得多，從數據分析可看出53%是屬於爬蟲或機器人，可能是人類的比例約為47%。

有些擬人類的爬蟲或機器人可能混進來，因此實際比例可能人類更少。

爬蟲的來源

我分析出的爬蟲大約有50-100種之多(事實上可能更多)，某些偶爾來幾次的爬蟲就直接歸納到其它項目中，分析出前幾大爬蟲數量和所占爬蟲的比例

前幾大中排第一名的是 google的爬蟲。

第二名的 ahrefsbot https://ahrefs.com/robot ;;; 不知是什麼來頭的公司

第三名是微軟的 bing

第四名是semrush https://www.semrush.com/bot/

此四大爬蟲就約占了爬蟲來源的 79%，也就是說這四隻是超級大爬蟲。

爬蟲的來訪對網站的曝光是好事，但會吃掉不少頻寬也是壞事。

還好網站當初在建置的時候我就有考慮過，只要是被判定是爬蟲的來源，在「正被關注」的地方會標注一個大寫的B，表示我知道你的來訪，但是不會列入點擊次數。

裝置的來源

藉由 google的分析這近12個月的資料，可以知道本站有約 31.6+1.9=33.5(%)的使用者是來自於行動裝置

以上是簡單的分析資料，大概知道就好。By Alexa 的分析 https://www.alexa.com/siteinfo/sfs.tw

到目前為止本站的排名約

參考參考。

END

你可能感興趣的文章

超強姓名音譯網站超級強，符合我所有需求

[CentOS8] GCP政府憑證申請及掛載資安的關係開始要求各網站導入ssl，那就申請政府憑證吧

常用1200字簡體字為了加速正簡互換的效能，我針對常見的簡體字做了挑選，花了六個小時，整理出最常用的1200個簡體中文字及正體中文字對照

程式、函數、資料庫命名的風格程式或資料庫自己定義統一的命名規則，可以防止因為一個拚字的錯誤花了半個小時來找，也可說是提升工作效率的關鍵。

[Gigapixels] 一億二千萬畫素初試第一次用我的canon500D拍出一億二千萬畫素的照片

用Nibbler檢視你的網站優缺點用Nibbler檢視你的網站存取能力、seo、社交媒體和技術

隨機好文

[JAVA] JWS, JWT, JWE, JOSE是什麼？ [JAVA] JWS, JWT, JWE, JOSE是什麼？非常的複雜，儘量來搞清楚..

[CodeIgniter 3] 資料庫的使用方法整理1/2 --Select的使用 [CodeIgniter 3] 資料庫的使用方法整理：Select的使用

[大型機台] 熱血高校躲避球多少少年時光歲月耗在這個遊戲上，二十幾年前的那個時光，唯一想做的事就是把吃飯錢省下來拿去打一場五塊錢的電動，就算是沒錢也

[AS3] FLASH 引入外部as檔 FLASH AS3中，若要引用另外撰寫的 class(*.as) 檔案，該如何處理？

[SIP] Kphone安裝記錄 Kphone是2008年當時ipv6剛要推廣時，唯一支援IPv6的公用網路電話，安裝的全記錄..

訪客來源
爬蟲的來源
裝置的來源

到最底端