交作业 爬美股吧

作业要求:
东方财富网美股吧贴子数据 包含:浏览数、评论数 、帖子标题 、帖子内容 、回复人、 回复时间、 回复内容http://guba.eastmoney.com/list,meigu.html

这个网站作为练习提升挺大的,有很多小细节要抠,花了好多时间,还是没搞完。目前能爬,但是有一些编码和最后数据处理的问题还没解决。不知为何。先交。

# -*- coding:utf-8 -*-
import requests
from lxml import etree
import csv

import sys

reload(sys)
sys.setdefaultencoding('utf-8')

start_url = "http://guba.eastmoney.com/list,meigu_1.html"
headers = {
    "User-Agent": "Mozilla / 5.0(Windows NT 6.1;Win64;x64)"
                  "AppleWebKit / 537.36(KHTML, likeGecko)"
                  "Chrome / 58.0.3029.110"
                  "Safari / 537.36"
}


# def get_total_page(start_url):
#    html = requests.get(url=start_url, headers=headers).content
#    selector = etree.HTML(html)
#    sum_page = selector.xpath("//span[@class='sumpage']/text()")
#    return sum_page


def parse_title():
    # sum_page = get_total_page(start_url)
    rows = []
    for num in range(1, 23):
        url = "http://guba.eastmoney.com/list,meigu_" + str(num) + ".html"
        html = requests.get(url=url, headers=headers).content
        selector = etree.HTML(html)
        items = selector.xpath("//div[@id='articlelistnew']/div[position()>1 and position()

思路很简单,代码也很好懂。后来突然发现评论还有分页的。先放着,把这里处理完先。
结果

交作业 爬美股吧_第1张图片
image.png
交作业 爬美股吧_第2张图片
image.png

有点丑陋。。。

你可能感兴趣的:(交作业 爬美股吧)