目录
1 选题的背景和意义 4
1.1 选题背景 4
1.2 选题意义 4
1.2.1理论意义 4
1.2.2现实意义 4
1.3 选题的目的 5
2 数据采集 6
2.1 数据来源分析 6
2.2 爬取数据 6
3 数据预处理 8
3.1 重复值处理 8
3.2 空值处理 8
3.3去除数据单位 8
3.4基于3σ原则检测异常值 9
4 数据分析 11
4.1数据的可视化分析 11
4.1.1不同地区上市公司净利润的数据可视化 11
4.1.2主营业务收入与净利润数据可视化 13
4.2线性回归分析方法 13
5 结论与建议 16
5.1数据分析结论 16
5.1 建议 16
5.2 心得体会 17
6参考文献 17
从1986年我国第一个证券交易柜台开张,到1990年中国股市正式成立以来,再到如今沪深交易所、香港交易所日成交量频破2万亿元,在短短30年间,中国股票市场取得了举世瞩目的发展。在中国股票市场发展的30年里,越来越多公司挂牌上市,极大程度地丰富了我国的股票市场,逐渐加强了股市的经济功能。与此同时,股票市场与也各类金融资产的关联性逐步加强,其与国民经济之间的关系越发紧密,这也不断加深了国民对于股票市场的认识。如今,在我国经济发展新时代背景下,股票市场不再只是公司进行资金筹募的工具,其对我国经济的运转情况也发挥着很好的预警作用,是我国经济格局中不可或缺的组成部分,对我国提高国民经济水平、改善公司经营状况都发挥着重要作用。
股票市场的发展,也意味着股市内外的影响因素也越发复杂多变,在有数千种股票同时交易、影响因素众多的股票市场中,这为股票市场管理者掌握股票市场运转规律带来了挑战,也使得投资者要准确预测某一只股票的价格走势,并以此实现收益变得非常困难。此外,部分公司股票由于其上市地和经营地不同,因此需要辨别股票价格波动与上市地、经营地间的关系,从而抓住关键性影响因素,这进一步增加了股票市场管理者和投资者预测股票价格走势的难度。因此,探究股票与股票市场之间的关联性,挖掘股票关联性背后的影响因素,成为中国上市公司股票中亟待解决的问题[1]。
股票上市公司与股票市场地区之间的关联性是研究股票价格行为理论的基础,通过股票关联性来分析上市公司的股票价格行为,也一直是金融证券领域的研究热点之一。股票上市公司指数中蕴含有大量的信息,且股票价格行为和股票市场指数行为也涉及到股票市场运作的各个方面。因此,研究股票与市场之间的关联性,并通过股票关联网络特征进一步探讨股票与市场关联性背后的影响因素,有助于充分挖掘股票价格行为和市场指数行为背后蕴含的信息,探索适用于股票关联性评价体系和股票关联网络特征评价体系的相关量化指标,为后续相关领域的研究提供方法借鉴和理论参考。
此外,由于我国特殊国情和体制,我国股票市场有着不同于世界上任何其他国家股票市场的特征,对中国股票上市公司价格行为进行相关研究,有助于丰富该领域研究的类型特征,帮助人员选择工作地点,为上市公司提供有利指导,促进国内相关领域研究的发展[2]。
相较于西方发达国家而言,我国的股票市场发展起步较晚,时间较短,属于新兴资本市场,市场内的投资者也表现出较不理性的特征。股票价格与市场关联性高低决定了股票选择权的价值,是股票定价和股票选购的重要影响因素,而我国股票市场内,不明就里的夸大投资市场风险的言论对股票关联性有较大影响,这体现了我国股票市场投机现象的普遍性和投资行为的非理性。因此,通过研究我国股票与市场地区之间的关联性,并通过股票关联网络特征进一步探讨股票与市场关联性背后的影响因素,可以为投资者提供科学依据,指导其进行理性的投资行为,对市场监管部门制定合理的监管体系,建设理性的资本市场,提升我国技术人员选择方向,都有着十分重要的现实意义[2]。
本文广东省全部计算机通信A股上市公司信息来源于中商产业研究院数据,中商产业研究院从全球视野和战略思维出发,整合各产业领域高端专家资源,通过全面而相识调研综合产业发展提供产业数据。中商产业咨询团队将基于当地区域的发展定位和资源禀赋对产业现状、产业配套、产业园区、重点企业、重点项目等进行全面实地调研,明确产业发展优劣势,以“补链、强链、建链”的原则精准构建全产业链,并制定产业招商方案,推荐招商目标企业,全方位、多维度开展高质量的产业咨询服务。
中商产业研究院是国内领先的政府及企事业单位咨询服务机构,拥有国家统计局颁发的《涉外调查许可证》,可以为各级政府部门及企事业单位开展统计调查及第三方评估工作,助力政府部门或企事业单位科学决策。数字经济、战略新兴产业、火炬统计等高新技术产业名录库建设、企业培训、企业催报、增加值核算。客观反映科技产业发展现状和趋势,为管理部门或企业决策提供参考依据。
本文数据从中商产业研究院对计算机通信A股上市公司数据库爬取。
(1)打开网页查询需要数据,打开页面控制面板,找到网页源代码。经过数据翻页滑动判断为动态页面,滑动页面,查看控制面板数据包变化,打开数据包标头,找到请求url和请求方法,如果网站有反爬虫机制,同时抓取User-Agent,将作为爬虫的cookie。
图2-2-1 爬取数据页面
将数据读取到jupyter notebook上,将文本数据转化为DataFrame数据类型,查看数据,显示如下:
去除数据单位
(1)广东省全部计算机通信A股上市公司信息主要为营利数据,不同上市公司盈利数据不同,部分单位为亿元,部分单位为万元,如果不加清洗直接利用,导致数据偏差巨大,直接导致数据分析的失败,所以观察数据,去除数据单位,做数据转化。
核心代码:
def data_deal(number):
if number.find('亿')!=-1:
new=float(number[:number.find('亿')].replace('.',''))*1000
pass
else:
new=number.replace('万','')
pass
return new
y=df['净利润(202209)'].map(data_deal)
统计学正态分布的3σ原则检测处理异常值。
σ代表标准差,μ代表均值,3σ原则为
数值分布在(μ-σ,μ+σ)中的概率为0.6826
数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
可以认为,Y的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。
(1)主营业务收入和净利润与员工人数关系可视化分析,折线图代码如下:
在不同地方上市的公司,各方面有较大差别,包括监管制度、指数编制方法、上市条件等,上市的主体也很不一样,因为各地的上市公司本身质量就有较大差异。所以对广东省全部计算机通信A股上市公司净利润与地区经行可视化分析。
核心代码:
fig=plt.figure(figsize=(8,6),facecolor='w')
fig.add_subplot(111)
plt.title("广东省互联网通信A股获利总利润")
plt.grid(ls='--',alpha=0.5)
plt.xlabel('城市',fontsize=12)
plt.ylabel('净利润(万)',fontsize=12)
plt.legend()
plt.savefig('广东省互联网通信A股净利润与城市.png')
通过statsmodels使用中不同统计模型估计和函数,求相关系数r和绝对系数R2 。求的存在正相关,相关系数为r=0.8380。
r=pearsonr(px,py)[0] #求相关系数,传入自变量和因变量
data1.corr() #相关关系矩阵,存在线性关系
导入线性回归分析需要的python库,它提供对许多不同统计模型估计的类和函数,并且可以进行统计测试和统计数据的探索。 拟合线性回归模型y=a*x+b,回归函数OLS()处理应变量和自变量做线性,做F检验和t检验,包含最小二乘法求拟合线性方程,并作假设检验。代码如下:
X=sm.add_constant(X)
model=sm.OLS(data1['主营业务收入'],X)
#拟合数据
model=model.fit()
#已经拟合的模型
model.summary()
课设名称:基于Python的A股上市公司数据分析与可视化
源码在:
链接:https://pan.baidu.com/s/1hjbkofelZKYQyM86g5vZaQ?pwd=gccc
提取码:gccc