[精讚] [會員登入]
1587

來自網路的爬蟲分析

分析最近來自網路上的爬蟲

分享此文連結 //n.sfs.tw/12812

分享連結 來自網路的爬蟲分析@新精讚
(文章歡迎轉載,務必尊重版權註明連結來源)
2019-10-24 23:31:38 最後編修
2018-10-13 01:48:15 By 張○○
 

自動目錄

我好奇分析了精讚最近的180萬次訪客記錄。

資料是自有的,並非來自 google analytics之類的記錄,同時也有過濾掉三天內重複的來源。

訪客來源

爬蟲或機器人比正常人來得多,從數據分析可看出53%是屬於爬蟲或機器人,可能是人類的比例約為47%。

有些擬人類的爬蟲或機器人可能混進來,因此實際比例可能人類更少。

 

爬蟲的來源

我分析出的爬蟲大約有50-100種之多(事實上可能更多),某些偶爾來幾次的爬蟲就直接歸納到其它項目中,分析出前幾大爬蟲數量和所占爬蟲的比例

前幾大中排第一名的是 google的爬蟲。

第二名的 ahrefsbot https://ahrefs.com/robot ;;; 不知是什麼來頭的公司

第三名是微軟的 bing

第四名是semrush https://www.semrush.com/bot/

此四大爬蟲就約占了爬蟲來源的 79%,也就是說這四隻是超級大爬蟲。

 

爬蟲的來訪對網站的曝光是好事,但會吃掉不少頻寬也是壞事。

還好網站當初在建置的時候我就有考慮過,只要是被判定是爬蟲的來源,在「正被關注」的地方會標注一個大寫的B,表示我知道你的來訪,但是不會列入點擊次數。

 

裝置的來源

藉由 google的分析這近12個月的資料,可以知道本站有約 31.6+1.9=33.5(%)的使用者是來自於行動裝置

 

以上是簡單的分析資料,大概知道就好。By Alexa 的分析 https://www.alexa.com/siteinfo/sfs.tw

到目前為止本站的排名約

參考參考。

END

你可能感興趣的文章

UTF8和unicode的轉換 常聽到的 unicode, utf8, ascii 又是什麼?utf8和unicode之間的關係及如何轉換?

使用Wayback machine來查看以前的網站 你以前的網站長什麼樣子,想必你一定記得,但是越來越模糊,還好有人幫你把他記錄下來

台灣2021(民國110年)節慶國定假日 ics下載 找不到2021年的假日ics檔?沒關係,我自己做一個

超強姓名音譯網站 超級強,符合我所有需求

手動清除 Firefox, Chrome的DNS cache Firefox, Chrome上有別於系統的DNS cache,有時會造成使用者刷新到舊的網頁

[Opera] 使用Opera來看youtube,可以獲得更加清晰的效果 Opera是大家不常聽見的瀏覽器,但使用Opera來看youtube,可以獲得更加清晰的效果。

隨機好文

HP SAS硬碟leds燈號說明 HP SAS硬碟leds燈號(hp g7/g6系統適用)說明

UTF8中文字/全形一覽 快速查詢urf-8的中文字,共計13246中文字(5401常用字+7652罕用字+日文或編號),292全形符號,27半形符號。

詭異的創業思維 創業的思維中,有多少銀彈,有多少技術,有多少人脈,有多少時間等等,每個都要考慮進去,以熱忱建立的關係脆弱的像蘇打餅乾一樣..

[PHP] 檢查IP是否在某個網段內 mtachcidr 要檢查IP是否在某個網段內,要寫幾行?10行?5行? 不用,只要2行。以下是我寫的 code /** * matchCI

「許功蓋」的字以及源由 有玩過電腦一段時間的人,都聽過這個人(有一天我才發現7年級的竟然都不認識這個