近日, 闲来无事, 决定分析一下CSDN 博客用户都写些什么文章. 当然, 不是分析用户具体写了什么, 而是, 分析他们给自己的文章分了哪些类别.
于是, 开始折腾了.
1访问 http://blog.csdn.net csdn的博客首页(第1页)
2 获取这一页所有用户的名字,
3.访问该用户的主页 http://blog.csdn.net/username, 获取所有的用户分类
4. 获取csdnblog 首页的第2页, 再重复2,3, 直到全部71页首页获取完毕
结果:
1. 用户, 近期写博客的人, 在CSDN的71页内容中有934人
2.934人共创建了14534个分类
3. 这14534个分类的统计情况如下, 取前100名:
序号, 分类名称, 拥有该分类的用户数(用户总数为934人)
1,java,241 2,linux,205 3,android,172 4,数据库,121 5,javascript,111 6,mysql,93 7,设计模式,89 8,c++,86 9,算法,81 10,php,78 11,oracle,74 12,python,73 13,c/c++,72 14,c#,71 15,spring,65 16,数据结构,62 17,jquery,60 18,hibernate,55 19,html,47 20,web,45 21,ajax,44 22,jsp,43 23,操作系统,40 24,js,40 25,asp.net,37 26,sql,37 27,xml,35 28,struts2,35 29,搜索,34 30,软件工程,32 31,ubuntu,32 32,css,32 33,dp,31 34,tomcat,31 35,ios,31 36,html5,31 37,c,31 38,其他,30 39,网络,30 40,windows,29 41,数论,28 42,stl,28 43,生活,28 44,eclipse,27 45,j2ee,27 46,数据结构与算法,27 47,并查集,26 48,c语言,26 49,hadoop,26 50,svn,25 51,java基础,24 52,贪心,24 53,.net,24 54,qt,24 55,图论,23 56,database,23 57,struts,23 58,ssh,23 59,uml,22 60,sql server,21 61,线段树,20 62,杂谈,20 63,数学,20 64,计算几何,19 65,acm,19 66,随笔,19 67,json,19 68,web前端,19 69,模拟,19 70,正则表达式,18 71,字符串,18 72,面试,18 73,云计算,18 74,android开发,18 75,动态规划,17 76,maven,17 77,javaweb,17 78,工具,17 79,mfc,17 80,other,17 81,cocos2d-x,16 82,apache,16 83,opengl,16 84,服务器,16 85,javase,16 86,git,16 87,shell,16 88,matlab,15 89,ruby,15 90,mongodb,15 91,编程语言,15 92,hdu,15 93,最短路,15 94,vb.net,14 95,webservice,14 96,其它,14 97,读书笔记,13 98,总结,13 99,algorithm,13 100,程序人生,13
其他的, 就留给各位看官自己发表意见了.
---------------------可耻的分割线
以上列表, 过100的只有java,linux,android,数据库,javascript。
我自己觉得这个不是很科学, 对着这前100名, 又把抓到的数据的100名之后的东西过滤了一边。
我是觉得这前100名, 就是用的人多的分类, 在命名上面应该算是比较精炼的了。
因此,在剩下的,排在100名之后的分类, 我觉得应该按照“长尾理论”, 作为对前100名的补充。
比如java, java入门,应该也属于java这一类,但是java 不等于 java入门,所以,我过滤的方式就是,在剩下的分类名字中, 查找前面100名的名字分类, 如果找到了,就把这个分类名称归结到前面100名的分类里,也就是说把“java入门”归类到“java”这个分类中。
这么一来,得到了新的前22名(数量超过100, 但是不是说它被100人以上使用,因为有的人可以同时设置2个分类,一个叫java,一个叫java入门)
1, java, 482 2, linux, 379 3, android, 375 4, oracle, 270 5, 算法, 207 6, c++, 200 7, js, 198 8, 数据库, 194 9, web, 191 10, jquery, 176 11, javascript, 174 12, sql, 171 13, c#, 136 14, 设计模式, 133 15, 网络, 131 16, php, 131 17, html, 130 18, mysql, 128 19, acm, 119 20, 数据结构, 116 21, css, 107 22, windows, 102
这个看起来就更清楚了。
----------------可耻的分割线
虽然统计了这个, 但是觉得还有什么没做。嗯,就是砖家嘛,csdn评出了很多的砖家,看看他们使用哪些分类呢。
砖家页面在http://blog.csdn.net/experts.html 点击更多,能看到很多专家。
同样按照上面排序,前100个分类是:
1,java,44 2,数据库,28 3,javascript,27 4,linux,23 5,.net,23 6,asp.net,21 7,c#,21 8,ajax,19 9,android,19 10,c/c++,18 11,设计模式,17 12,c++,17 13,oracle,17 14,软件工程,17 15,python,17 16,windows,15 17,php,15 18,项目管理,14 19,其他,14 20,xml,14 21,sql server,13 22,ruby,13 23,mysql,12 24,web开发,11 25,随笔,11 26,杂谈,10 27,silverlight,10 28,asp,10 29,其它,9 30,生活,9 31,云计算,8 32,delphi,8 33,电子商务,8 34,css,8 35,soa,7 36,正则表达式,7 37,jquery,7 38,算法,7 39,web,7 40,linq,7 41,软件测试,7 42,hibernate,6 43,技术,6 44,eclipse,6 45,sharepoint,6 46,sql,6 47,互联网,6 48,wcf,6 49,windows mobile,6 50,html,6 51,database,6 52,移动开发,6 53,webservice,6 54,翻译,5 55,unix,5 56,spring,5 57,我的收藏,5 58,life,5 59,j2se,5 60,j2me,5 61,读书笔记,5 62,google,5 63,读书,5 64,flash,5 65,perl,5 66,windows vista,5 67,java技术,5 68,游戏,5 69,管理,5 70,mobile,5 71,操作系统,5 72,java基础,5 73,j2ee,5 74,iphone,5 75,软件开发,5 76,搜索引擎,5 77,vb,5 78,office,4 79,erlang,4 80,windows ce,4 81,visual studio,4 82,windows 7,4 83,security,4 84,windows编程,4 85,excel,4 86,ruby on rails,4 87,apache,4 88,测试,4 89,编程,4 90,程序人生,4 91,misc,4 92,网络,4 93,winform,4 94,工作流,4 95,网页制作,4 96,sqlserver,4 97,apple,4 98,flex,4 99,虚拟机,4 100,杂类,4
重新过滤一下:
1,技术,144 2,java,105 3,.net,94 4,linux,74 5,数据库,59 6,编程,56 7,c++,54 8,web,53 9,管理,52 10,sql,48 11,windows,45 12,asp.net,42 13,c#,41 14,android,41 15,javascript,38 16,ajax,36 17,oracle,36 18,asp,34 19,网络,33 20,随笔,32 21,php,32 22,生活,30 23,测试,30 24,设计模式,28 25,c/c++,28 26,算法,28 27,软件工程,27 28,其他,25 29,xml,23 30,python,23 31,游戏,23 32,sql server,23 33,项目管理,22 34,mysql,22 35,杂谈,22 36,互联网,21 37,wcf,20 38,vb,19 39,html,19 40,翻译,17 41,其它,17 42,mobile,17 43,soa,16 44,unix,16 45,css,16 46,软件测试,15 47,ruby,14 48,silverlight,13 49,软件开发,12 50,j2ee,12 51,操作系统,11 52,web开发,11 53,j2me,11 54,云计算,11 55,eclipse,11 56,database,11 57,office,10 58,visual studio,10 59,电子商务,10 60,工作流,10 61,读书,10 62,flash,9 63,flex,9 64,windows mobile,9 65,life,9 66,jquery,9 67,security,8 68,google,8 69,java技术,8 70,delphi,8 71,正则表达式,8 72,perl,8 73,移动开发,8 74,iphone,8 75,spring,8 76,linq,8 77,sharepoint,7 78,sqlserver,6 79,java基础,6 80,winform,6 81,hibernate,6 82,apple,6 83,读书笔记,6 84,misc,6 85,搜索引擎,6 86,windows vista,6 87,webservice,6 88,j2se,5 89,windows 7,5 90,apache,5 91,我的收藏,5 92,杂类,5 93,程序人生,5 94,excel,5 95,网页制作,5 96,虚拟机,4 97,erlang,4 98,ruby on rails,4 99,windows ce,4 100,windows编程,4
自己评价一下:这个数据的主要问题是
1.不是很全,毕竟我不是csdn的管理人员
2. 时效性差,因为没法获取用户创建这个分类的时间,不能跟踪他最近的分类,也就不能了解用户最近的兴趣。(解决办法就是分析他写的文章,当然这个更费时间和精力取抓取数据了,暂时不打算做)
3.对统计还不是很熟练。
4.只是简单的罗列数据,并没有分析出多少有用的东西
延伸阅读: 博客园cnblogs的用户使用哪些分类