python爬天天基金_利用数据分析技巧找出混合基金之王

python爬天天基金_利用数据分析技巧找出混合基金之王_第1张图片

一、提出问题

经过前两期文章的分析,我们基本理清了思路——通过爬虫软件获取天天基金网、好买基金网的公募基金数据,最终找到以下问题的答案。

  • 找出3年中最具投资价值的基金
  • 找出3年中风控最好的基金公司

二、数据获取

2.1爬虫软件八爪鱼介绍

本次使用的爬虫软件名字叫八爪鱼采集器,下载地址http://www.bazhuayu.com/。不需要任何爬虫知识和基础,只要给它设定好路径后便可以自动爬取数据,另外它还拥有云采集功能,不需要挂机即可利用云计算收集数据。缺点是如果不充值,数据量大的爬取任务,速度可能比较慢。对于只爬取一部分公募基金的我来说,数据量不大的情况下完全够用了。

python爬天天基金_利用数据分析技巧找出混合基金之王_第2张图片
八爪鱼界面

那么第一个问题来了,想要获取基金的详细数据,就要进入到基金的详情页,每只基金的详情页域名都不相同,如何将2000多只基金的详情页全部输入到八爪鱼中呢?

2.2获取详情页网址

观察每只基金的域名以后我发现,所有详情页的后缀都是基金代码,这同时也是基金唯一身份标识,这下问题就好办多了,我可以在混合基金列表页先爬取所有混合基金的代码之后,用Excel统一填写前缀,再将2372只基金的详情页网址输入八爪鱼中。

python爬天天基金_利用数据分析技巧找出混合基金之王_第3张图片
基金详情页

python爬天天基金_利用数据分析技巧找出混合基金之王_第4张图片
基金列表页

2.3爬取所需基金字段详情

输入2376只基金详情页的网址之后,就开始为八爪鱼设置要爬取的字段。

点击保存网址后,八爪鱼会打开第一个网址,你只需要点击想要爬取数据的区域,它会出现操作提示,你可以选择采集文本、链接、点击该链接等等操作。

在这里我们将上篇文章中拟采集的字段全部设置好。

拟采集的字段为:基金名称,基金代码,近三年收益涨幅,基金公司,基金经理,基金成立年限,基金规模,基金经理任职年限,近三年换手率,近三年涨幅,近三年夏普比率,最大回撤

python爬天天基金_利用数据分析技巧找出混合基金之王_第5张图片
设置爬取字段

三、数据清洗

3.1选择子集

由于我们暂时用不到涨跌幅数据,所以将包含涨跌幅的五列暂时隐藏

python爬天天基金_利用数据分析技巧找出混合基金之王_第6张图片
选择子集

3.2删除重复值

由于爬取数据时我们是按照基金的唯一身份标识——基金代码来爬取的,所以没有重复值。如果分析其他网上来源的数据,记得要将重复值去掉后再分析。

3.3缺失值处理

由于是要分析近三年内最优秀的基金,所以我们将成立时间小于三年的基金删除,防止“近三年涨幅”字段出现缺失值。

3.4一致化处理

python爬天天基金_利用数据分析技巧找出混合基金之王_第7张图片
异常值

python爬天天基金_利用数据分析技巧找出混合基金之王_第8张图片
错误来源

基金代码一列出现了比较多异常值,这也是我爬取完数据后发现的,由于部分基金分为前端和后端两种不同的收费方式,所以详情页爬取的时候就将这两个代码都收录了。由于绝大部分基金都是前端收费,为了统一,我们将后端收费的基金代码删除,

利用分列工具中的固定宽度选项,轻松将一列分成两列,再删除后端的部分。

四、构建模型

4.1先来分析第一个问题,找出三年中最具投资价值的基金,最具投资价值的判断标准我们选取的是三年期夏普比,夏普比的具体定义这里不再赘述,大家可以简单理解为收益风险比,这个字段的数值越大越好,代表每单位风险获得的收益越高。

由于夏普率在天天基金网上没有,必须要去另个一网站好买基金网上爬取,所以在这个部分开始分析之前,我们可以先缩小一下筛选的规模,以便二次爬取时缩短时间。

  • 删除10亿以下规模的。(三年时间做不到10亿说明业大家并不认可,有清盘风险)
  • 删除基金经理任职时间不足3年的(防止更换基金经理后投资风格发生漂移)
  • 删除指数基金(这次分析主要是为了考察基金经理的主管投资能力)
  • 删除经理管理规模20亿以下(不是初出茅庐就是做的太差)

缩小考察范围后,剩余基金数量为191只,我们再次将剩余的基金代码复制后,到好买基金网上爬取相关基金的三年夏普比、标准差和最大回撤的数据。

python爬天天基金_利用数据分析技巧找出混合基金之王_第9张图片
好买基金网的数据

得到上面的表格后我们使用vlookup函数将两张表的数据进行汇总

现在我们可以看一下三年夏普率的分布情况。

python爬天天基金_利用数据分析技巧找出混合基金之王_第10张图片
汇总后的数据

python爬天天基金_利用数据分析技巧找出混合基金之王_第11张图片
三年平均夏普率

可以看到的是,即使剔除掉业绩明显表现极差的基金后,三年夏普比的平均数、众数、中位数均低于0.5,代表大部分承担的风险大于收益。不低于1的仅有16只基金,也就是说只有16只基金承担1单位风险的同时能够获取1单位收益,跟样本总量比起来可谓是凤毛麟角。

位列三年夏普比第一名的是(001572)嘉合磐石C,这只成立于15年7月的偏债型基金拥有1.97的恐怖夏普率,成立以来创造了24.91%的收益。管理公司嘉合基金成立于2014年,是中航系旗下的公募平台,总部在上海,管理规模140亿,在公募界算比较小的,基金经理也任职时间不长。总体来说这只基金的收益可能略微比固收差一些,但它毕竟是一只基金,流动性比固收强太多,而且回撤较小,仅有-7.98%,一定程度上还是可以作为固收的替代品。

但毕竟这家公司和基金经理的背景都不算优秀,同属偏债型的基金还有鹏华弘润混合A(001190),鹏华算是公募界老10家之一,基金经理也比较有经验,追求稳健收益的同学可以用它作为补充。

python爬天天基金_利用数据分析技巧找出混合基金之王_第12张图片

而偏股型的混合基金之王是(519732)交银定期支付双息平衡混合,这只基金成立于2013年9月,至今共创造了196.5%的收益,经历过多轮牛熊转换,也算是业内的老兵了,近3年内还能有85%的收益实属不易,值得注意的是这只基金的最大回撤有-25%,也就是说在极端情况下,在最高点投入100块钱,在最低点赎回,最终只能拿到75元,对于风险偏好较低的客户不太适合,波动性大也是偏股型基金共有的特征。

python爬天天基金_利用数据分析技巧找出混合基金之王_第13张图片

4.2三年内风控最好的基金公司

利用Excel的数据透视表功能,让我们回到原始数据,看看近三年平均收益哪家强

python爬天天基金_利用数据分析技巧找出混合基金之王_第14张图片
插入数据透视表

可以看出,剔除仅有一只基金入围的中融基金外,交银基金和东证资管难分伯仲,甩出第二梯队一个身位,由于东证资管老大陈光明去年底刚刚离职,创办了自己基金公司睿远基金,今年东证资管会否出现投资风格漂移还有待观察。

交银施罗德无疑是“最佳混合基金管理公司”的有力竞争者,成立于2005年的交银施罗德,是中国第一批银行背景基金公司之一,也是众多中外合资基金公司中的佼佼者。它是由交通银行和施罗德投资管理有限公司、中国国际集装箱海运(集团)股份有限公司共同发起设立的合资基金管理公司,三方持股比例分别为65%、30%、5%。公司总部设于上海,注册资本为2亿元。

大家可能对施罗德不太了解,其实施罗德也是资管界的大鳄,施罗德集团始建于1804年,至今已有200余年的历史,是一家具领导地位的国际专业资产管理集团。截至2011年9月30日,施罗德投资管理的总资产已达2,839亿美元。目前,施罗德集团办事处遍布全球25个国家,拥有2,900名员工以及340名投资组合经理及投资专家。自1959年在伦敦证券交易所上市以来,施罗德投资一直稳居最大的资产管理公司之列。

python爬天天基金_利用数据分析技巧找出混合基金之王_第15张图片
基金公司三年平均收益

五、结语

本次分析过程,是我一次粗浅的尝试,旨在了解数据背后的分析方法和数据获取、清晰、建模的流程,最终指导具体的投资行为,未来我会继续带大家分析股票型基金和债券型基金,了解规模、持股集中度等数据对最终收益的影响,构建一个最佳的股债配置比例。

你可能感兴趣的:(python爬天天基金)