就国内某个程序员问答网站的简单的分析
為什么80%的碼農(nóng)都做不了架構(gòu)師?>>> ??
一、數(shù)據(jù)抓取
分析頁面數(shù)據(jù),設計數(shù)據(jù)表結(jié)構(gòu)
數(shù)據(jù)只要包含投票、回答數(shù)、問題狀態(tài)、最后誰回答過、瀏覽數(shù)、問題標題、標簽,數(shù)據(jù)樣例如下:
由于一開只打算爬問題標題,問題ID、問題詳情也沒有記錄下來,最后誰回答過也不算很重要。
最后使用python的urllib2抓取數(shù)據(jù),BeautifulSoup對數(shù)據(jù)進行數(shù)據(jù)解析,mysql存取數(shù)據(jù)
寫好代碼就開始跑,由于頁面沒有限制,幾分鐘就全部抓完,或許是問題比較少,2011至今總有3.8W問題,這個還是有點失望的。
二、數(shù)據(jù)分析
? 數(shù)據(jù)只有那么幾項,到底能分析出什么呢?
? Excel作圖,下表為數(shù)據(jù)說明:
| 變量 | answers | views | question_count | solved | votes |
| 含義 | 回答數(shù) | 瀏覽量 | 問題數(shù)量 | 解決 | 投票量 |
1.問題投票分布
? ?不出意外的正太分布,似乎程序猿并不喜歡對問題進行投票,除非遇到自己特別認可或者特別厭惡的。比起stackoverflow上的情況似乎是要差點。
2.問題回答數(shù)量分布
? ? ?從上圖看以看出,回答數(shù)量集中在0-3個;而0-3個占總量的70%+。
3.問題瀏覽分布
? ? 比較神奇的是0-1000瀏覽量的問題數(shù)非常少,問題的排列使用的是:提問時間+最后有人回答過(貼吧式),這樣做,只要有人回答問題沉下去就會繼續(xù)頂起來。那么部分經(jīng)典問題就會不斷被瀏覽到;而有少數(shù)問題質(zhì)量比較差,馬上就會沉下去,如圖中X軸200左右處。比較好奇的是:從整體上看,0-1000內(nèi)瀏覽量的問題數(shù)相當少,1000左右處出現(xiàn)一個陡坡。
4.回答數(shù)量與瀏覽數(shù)量關(guān)系
? ? 首先需要說明的是上圖X軸每個點樣例數(shù)不一樣(不同回答數(shù)的問題數(shù)量不一樣),Y軸為平均views數(shù);從圖中看出回答數(shù)量和瀏覽量整體是成正比((X>5的樣例比較少)
5.問題解決情況
6.大家都在關(guān)注什么
最后使用jieba分詞對問題進行簡單的分析,上面標簽云為部分英文單詞,并不區(qū)分大小。發(fā)現(xiàn)一個結(jié)論是??英文中PHP詞頻排第一。????額,好吧,我葉良辰也是服了。?
三、最后
根據(jù)已有的數(shù)據(jù),還可以挖掘一些數(shù)據(jù),諸如:
什么樣的問題容易有更多人回答?
你編程入門時候?qū)W的語言是什么? 求助大神幫忙推薦一款適合前端小白的編輯器? 【官方比賽】社區(qū)?1111?秀代碼,讓你來秀讓你飛! 大家第一個閱讀的開源代碼是什么? 你最喜歡的開發(fā)工具是什么? 求推薦PHP框架,本人有一定PHP基礎(chǔ)。 理解能力差、數(shù)學很差的人可以做程序員嗎 百度面試題-汽水選擇問題 說說你覺得最狂霸酷炫屌炸天的命令 程序員高強度編程后如何放松?什么的問題容易被人厭惡?
等等,不過還是想再吐槽一次,問題總數(shù)量實在太少了。
最后的最后,提一下我發(fā)現(xiàn)的一個BUG,就有幾個問題的回答數(shù)量為0,但問題已經(jīng)解決,我試點開某個BUG問題看看情況,結(jié)果如下:
逗我玩呢?!
轉(zhuǎn)載于:https://my.oschina.net/toil/blog/521507
總結(jié)
以上是生活随笔為你收集整理的就国内某个程序员问答网站的简单的分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【rman】list archivelo
- 下一篇: ActiveX: 如何用.inf和.oc