爬取最近3个月每日的新浪新闻。新闻按照日进行分组,并对工作日的新闻进行舆情分析,使用Snow_NLP对于新闻进行打分,并计算每日的平均舆情得分。将舆情得分与股票指数进行比较,计算它们两者的相关系数

使用爬虫爬取最近3个月每日的新浪新闻(可以使用讲义中的方法)。将新闻按照日进行分组,并对工作日的新闻进行舆情分析,使用Snow_NLP对于新闻进行打分,并计算每日的平均舆情得分。将舆情得分与当期的股票指数进行比较,计算它们两者间的相关系数,进而判断使用舆情分析是否可以做到预测股市的变化。

思路:通过xpath对新浪新闻的标题进行提取,然后snownlp 对标题进行打分,最后得到平均值,再通过stats.pearsonr计算相关性,具体代码如下所示。

import requests
import datetime
import tushare as ts
import numpy as np
import scipy.stats as stats
import pandas as pd
from lxml import etree
from snownlp import SnowNLP

ts.set_token('2cc4731c0bdd9e1f351a1e23d3ac6cb87e4704123f2d7c18d57e57d6')
pro = ts.pro_api()

def spider(url):
    # 请求url
    response = requests.get(url)
    # 转码
    response.encoding = response.apparent_encoding
    page = etree.HTML(response.text)
    titles = []
    for l in page.xpath('//div[@class="part_01 clearfix"]//a/text()'):
        if len(l) > 10:
            titles.append(l)
        else:
            continue
    retu

你可能感兴趣的:(程序作业和报告)