别来BUG求求了

【爬虫|数据分析|Hadoop】利用scrapy框架爬取小说信息并进行数据分析

文章目录

爬虫部分
- 1. 创建项目
- 2. 修改配置文件
- 3. 编写items.py
- 4. 编写爬虫脚本
- 5. 编写pipeline.py
- 6.运行项目
数据分析部分
- 1. 导包
- 2. 数据预处理
- - 2.1 读取文件
  - 2.2 查看前5行
- 3. 数据清洗
- - 3.1 地区数据处理
  - 3.2 评分数据处理
  - 3.3 年份数据处理
  - 3.4 出版社数据处理
  - 3.5 评论人数处理
  - 3.6 小说简介处理
- 4. 数据分析
- - 4.1 设置画布
  - 4.2 数据分析
  - - 4.2.1 不同国家书本数分析
    - 4.2.2 评分统计
    - 4.2.3 小说数量随年份变化情况
    - 4.2.4 出版社统计
    - 4.2.5 评论人数统计
    - 4.2.6 评论词云
  - 4.3 保存数据
Hadoop数据分析
- 1. 环境简介
- 2. WordCount
- - 2.1 项目依赖 pom.xml
  - 2.2 编写代码
  - - 2.2.1 编写WordCountDriver
    - 2.2.2 编写WordCountMapper
    - 2.2.3 编写WordCountReducer
  - 2.3 本地运行
  - 2.4 利用Hadoop集群运行

爬虫部分

1. 创建项目

scrapy startproject douban

执行完会自动生成项目文件夹及初始化文件

2. 修改配置文件

主要是为了反反爬虫，在settings.py文件中修改下面设置：

USER_AGENT = 'Mozilla/5.0(X11;Linux x86_64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/48.0.2564.116 Safari/537.36'

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 3

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}

ITEM_PIPELINES = {
   'douban.pipelines.DoubanPipeline': 300,
}

3. 编写items.py

定义爬取到的数据都有那些属性

import scrapy



class DoubanItem(scrapy.Item):
    # 书名
    book_name = scrapy.Field()
    # 作者
    author = scrapy.Field()
    # 评分
    grade = scrapy.Field()
    # 评分人数
    count = scrapy.Field()
    # 简介
    introduction = scrapy.Field()
    # 出版社
    press = scrapy.Field()
    # 金额
    price = scrapy.Field()
    # 出版时间
    publish_time = scrapy.Field()

4. 编写爬虫脚本

在 spiders 目录下随便新建一个py文件，此文件用于网页数据的爬取，内容如下：

# -*- coding:utf-8 -*-
# 时间 : 2022/6/5 21:09
# 作者 : 冷芝士鸭
import scrapy
from ..items import DoubanItem

class DoubanspiderSpider(scrapy.Spider):
    name = 'doubanspider'
    allowed_domains = ['douban.com']

    def start_requests(self):
        url = "https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4"
        yield scrapy.Request(url, callback=self.parse, dont_filter=True)

    def parse(self, response):
        item = DoubanItem()
        info_list = response.xpath("//div[@class='info']")
        for info in info_list:
            item['book_name'] = info.xpath("./h2/a/text()").extract_first().strip()
            some_info  = info.xpath("./div[@class='pub']/text()").extract_first().strip().split('/')
            item['author'] = some_info[0]
            if len(some_info) == 4:
                # 正常，否则没有金额，最后一个是时间
                if some_info[-2].__contains__("-"):
                    item['publish_time'] = some_info[-2]
                    item['press'] = some_info[-3]
                    item['price'] = some_info[-1]
                else:
                    item['publish_time'] = some_info[-1]
                    item['press'] = some_info[-2]

            item['grade'] = info.xpath("./div[2]/span[2]/text()").extract_first()
            item['count'] = info.xpath("./div[2]/span[3]/text()").extract_first()
            item['introduction'] = info.xpath("./p/text()").extract_first()
            yield item

        next_temp_url = response.xpath("//div[@id='subject_list']/div[@class='paginator']/span[@class='next']/a/@href").extract_first()
        if next_temp_url:
            next_url = response.urljoin(next_temp_url)
            yield scrapy.Request(next_url)

5. 编写pipeline.py

此文件用于在生成items对象后进行操作。可以将item对象保存在数据库或者csv中，这里保存到了本地

# 导入CSV模块
import csv


class DoubanPipeline(object):
    def __init__(self):
        # 1. 创建文件对象（指定文件名，模式，编码方式）
        with open("data.csv", "a", encoding="utf-8", newline="") as f:
            # 2. 基于文件对象构建 csv写入对象
            csv_writer = csv.writer(f)
            # 3. 构建列表头
            # csv_writer.writerow(["book_name", "author", "press", "publish_time", "grade", "count", "price", "introduction"])
            csv_writer.writerow(["book_name", "author", "press", "publish_time", "grade", "count", "price"])

    def process_item(self, item, spider):
        book_name = item.get("book_name", "N/A")
        author = item.get("author", "N/A")
        grade = item.get("grade", "N/A")
        count = item.get("count", "N/A")
        press = item.get("press", "N/A")
        publish_time = item.get("publish_time", "N/A")
        # introduction = item.get("introduction", "N/A")
        price = item.get("price", "N/A")

        # 1. 创建文件对象（指定文件名，模式，编码方式）
        with open("data.csv", "a", encoding="utf-8", newline="") as f:
            # 2. 基于文件对象构建 csv写入对象
            csv_writer = csv.writer(f)
            # 3. 构建列表头
            # csv_writer.writerow(["book_name", "author", "press", "publish_time", "grade", "count", "price", "introduction"])
            # 4. 写入csv文件内容
            # csv_writer.writerow([book_name, author, press, publish_time, grade, count, price, introduction])
            csv_writer.writerow([book_name, author, press, publish_time, grade, count, price])
            # 5. 关闭文件
            f.close()

6.运行项目

运行名称为doubanspider的爬虫脚本，将日志保存在log.txt文件中

scrapy crawl doubanspider --logfile log.txt

数据分析部分

1. 导包

import random

import jieba
import pandas as pd
from PIL import Image
from matplotlib import pyplot as plt
from pandas import *
from matplotlib.pyplot import *

2. 数据预处理

2.1 读取文件

from wordcloud import WordCloud

data = pd.read_csv("./data.csv")

2.2 查看前5行

print(data.head())

3. 数据清洗

3.1 地区数据处理

# 没有地区的默认为中国
def get_region(author):
    if author.__contains__("["):
        return author.split('[')[1].split(']')[0]
    else:
        return '中国'
    
data['region'] = data['author'].apply(get_region)
print(data['region'].head())

0 日
1 中国
2 中国
3 英
4 中国
Name: region, dtype: object

3.2 评分数据处理

# 没有评分的按照平均分填充
data=data[~(data['grade'].isnull())]
data['grade'].fillna(data['grade'].mean(), inplace=True)

3.3 年份数据处理

# 只保留年
def format_date(publish_time):
    publish_time = publish_time.strip()
    if len(publish_time) < 4 or len(publish_time) == 5:
        return "未知"
    # 按月统计有187个月，所以按年统计
    if "元" in publish_time:
        return "未知"

    return publish_time.split('-')[0].strip()

data=data[~(data['publish_time'].isnull())] #删掉空行
data['publish_time'] = data['publish_time'].apply(format_date)
print(data["publish_time"].head())

2 2022
3 2022
4 2020
5 2012
6 2012
Name: publish_time, dtype: object

3.4 出版社数据处理

# 出版社包含数字或空的行删除
def format_press(press):
    press = press.strip()
    # 删除数字
    if any(chr.isdigit() for chr in press):
        return None
    return press


data['press'] = data['press'].apply(format_press)
data=data[~(data['press'].isnull())] #删掉空行

3.5 评论人数处理

# 没有地区的默认为中国
def get_count(count):
    if count.__contains__("("):
        return count.split('(')[1].split('人')[0]
    else:
        return 0

print(len(data['count']))
data=data[~(data['count'].isnull())] #删掉空行
data['count'] = data['count'].apply(get_count)
print(len(data['count']))
print(data['count'].head())

874
874
2 8585
3 33798
4 40301
5 694348
6 47425
Name: count, dtype: object

3.6 小说简介处理

# 删除所有非中文内容
def remove_unChinese(content):
    res = ""
    content = str(content).replace("编辑推荐", "").replace("内容简介", "")
    for i in content:
        if u'\u4e00' <= i <= u'\u9fff':
           res+=i
        else:
            res+=" "
    return res
# 去除干扰信息
data['introduction'] = data['introduction'].apply(remove_unChinese)

# 转为一个字符串
text_content = ""
# 获取评论内容
for i in data['introduction']:
    text_content+=str(i)

4. 数据分析

4.1 设置画布

# UserWarning: Glyph 24341 (\N{CJK UNIFIED IDEOGRAPH-5F15}) missing from current font.
plt.rcParams['font.sans-serif'] = ['KaiTi', 'SimHei', 'FangSong']  # 汉字字体,优先使用楷体，如果找不到楷体，则使用黑体
plt.rcParams['axes.unicode_minus'] = False  # 正常显示负号

4.2 数据分析

4.2.1 不同国家书本数分析

# 数量统计

region_count = {}
for i in data['region']:
    if i in region_count:
        region_count[i] += 1
    else:
        region_count[i] = 1
print(region_count)
print(len(region_count))


# 可视化
region = DataFrame()
# 截取前20个国家
region["num"] = list(region_count.values())[:20]
region["name"] = list(region_count.keys())[:20]
plt.subplots(1, 2,constrained_layout=True, figsize=(25, 10)) # 两行一列，位置是1的子图
plt.subplot(1, 2, 1) # 两行一列，位置是1的子图
plt.xticks(rotation=90)
plt.rcParams['font.size'] = 13  # 字体大小
plt.bar(region["name"],region["num"], label='数量')
plt.legend(loc='upper right')
plt.ylabel('数量/本')
plt.xlabel('国家')
plt.title('不同国家书本数量统计')

plt.subplot(1, 2, 2) # 两行一列，位置是1的子图
plt.rcParams['font.size'] = 15  # 字体大小
plt.pie(region["num"], labels=region["name"], autopct='%.2f%%')
# 标题
plt.title("小说评分统计")
plt.show()

{‘中国’: 353, ‘英’: 87, ‘日’: 139, ‘美’: 88, ‘马来西亚’: 2, ‘意’: 15, ‘哥伦比亚’: 5, ‘法’: 23, ‘萨尔瓦多’: 1, ‘德’: 16, ‘波’: 4, ‘加’: 5, ‘巴西’: 2, ‘阿根廷’: 9, ‘爱尔兰’: 7, ‘韩’: 3, ‘清’: 1, ‘意大利’: 2, ‘智利’: 5, ‘瑞典’: 8, ‘日本’: 4, ‘奥’: 3, ‘葡’: 3, ‘美国’: 9, ‘俄’: 23, ‘以色列’: 1, ‘英国’: 1, ‘瑞士’: 1, ‘安哥拉’: 1, ‘俄罗斯’: 2, ‘南非’: 1, ‘尼日利亚’: 1, ‘苏联’: 1, ‘波兰’: 6, ‘冰岛’: 1, ‘加拿大’: 6, ‘乌克兰’: 1, ‘明’: 3, ‘荷兰’: 1, ‘捷克’: 4, ‘匈’: 2, ‘土耳其’: 3, ‘丹’: 1, ‘澳’: 2, ‘匈牙利’: 1, ‘苏’: 1, ‘挪威’: 1, ‘西’: 3, ‘墨西哥’: 2, ‘乌拉圭’: 1, ‘奥地利’: 1, ‘古巴’: 1, ‘荷’: 1, ‘丹麦’: 1, ‘德国’: 2, ‘法国’: 1, ‘比’: 1, ‘秘鲁’: 1}
58

4.2.2 评分统计

# 统计每类评分占比
grade_count = []
for i in range(11):
    grade_count.append(list(np.floor(data['grade'])).count(i))
    
print(grade_count)

# 可视化
plt.subplots(1, 2,constrained_layout=True, figsize=(25, 10)) # 两行一列，位置是1的子图

plt.subplot(1, 2, 1) # 两行一列，位置是1的子图
plt.rcParams['font.size'] = 20  # 字体大小
grade = DataFrame()
grade["rating"] = range(11)
grade["num"] = grade_count
plt.bar(grade["rating"], grade["num"])
plt.title("不同评分数量统计")

plt.subplot(1, 2, 2) # 两行一列，位置是1的子图
plt.rcParams['font.size'] = 20 # 字体大小
# 标签
label = [6, 7, 8, 9]
plt.pie(grade_count[6:10], labels=label, autopct='%.2f%%',explode=[0.2, 0.08, 0.08, 0.08])
# 标题
plt.title("不同评分所占比例统计")
plt.show()

[0, 0, 0, 0, 0, 0, 20, 166, 470, 218, 0]

4.2.3 小说数量随年份变化情况

# 按年份统计数量
time_count = {}
for i in data['publish_time']:
    if i in time_count:
        time_count[i.split("-")[0]] += 1
    else:
        time_count[i.split("-")[0]] = 1
print(time_count)
print(len(time_count))


# 对字典按键（key）进行排序（默认由小到大）
time_key_sort = sorted(time_count.keys())
# 输出结果
print(time_key_sort)
# [3, 6, 7, 8, 10]
time_count_sort = sorted(time_count.items(), key=lambda x: x[0])
# 输出结果
print(time_count_sort)
time_count_lsit = []
for i in time_count_sort:
    time_count_lsit.append(i[1])
print(time_count_lsit)
{'2022': 154, '2020': 77, '2012': 26, '2005': 18, '2018': 65, '2021': 112, '2019': 60, '2008': 38, '2017': 73, '2010': 12, '2001': 3, '2016': 34, '2013': 36, '2014': 11, '1996': 1, '1991': 8, '2009': 21, '1973': 7, '2011': 4, '2002': 7, '1994': 6, '2004': 11, '1997': 9, '2015': 25, '2000': 14, '1999': 4, '1988': 7, '1998': 11, '2003': 3, '1981': 2, '未知': 8, '2006': 6, '2007': 1}
33
['1973', '1981', '1988', '1991', '1994', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022', '未知']
[('1973', 7), ('1981', 2), ('1988', 7), ('1991', 8), ('1994', 6), ('1996', 1), ('1997', 9), ('1998', 11), ('1999', 4), ('2000', 14), ('2001', 3), ('2002', 7), ('2003', 3), ('2004', 11), ('2005', 18), ('2006', 6), ('2007', 1), ('2008', 38), ('2009', 21), ('2010', 12), ('2011', 4), ('2012', 26), ('2013', 36), ('2014', 11), ('2015', 25), ('2016', 34), ('2017', 73), ('2018', 65), ('2019', 60), ('2020', 77), ('2021', 112), ('2022', 154), ('未知', 8)]
[7, 2, 7, 8, 6, 1, 9, 11, 4, 14, 3, 7, 3, 11, 18, 6, 1, 38, 21, 12, 4, 26, 36, 11, 25, 34, 73, 65, 60, 77, 112, 154, 8]
year = DataFrame()
year["year"] = list(time_key_sort)
year["num"] = list(time_count_lsit)
plt.figure(dpi=200,figsize=(15,5))
plt.rcParams['font.size'] = 10  # 字体大小
plt.plot(year["year"], year["num"])

plt.title("小说年份统计")
plt.show()

4.2.4 出版社统计

# 数量统计
press_count = {}
for i in data['press']:
    if i in press_count:
        press_count[i] += 1
    else:
        press_count[i] = 1
# print(press_count)
# print(len(press_count))


# 可视化
press = DataFrame()
# 截取前20个国家
press["num"] = list(press_count.values())[:20]
press["name"] = list(press_count.keys())[:20]
plt.subplots(1, 2,constrained_layout=True, figsize=(25, 10)) # 两行一列，位置是1的子图
plt.subplot(1, 2, 1) # 两行一列，位置是1的子图
# 文字变斜
plt.xticks(rotation=90)
plt.rcParams['font.size'] = 12  # 字体大小
plt.bar(press["name"],press["num"], label='数量')
plt.legend(loc='upper right')
plt.ylabel('数量/本')
plt.xlabel('国家')
plt.title('不同国家书本数量统计')

plt.subplot(1, 2, 2) # 两行一列，位置是1的子图
plt.rcParams['font.size'] = 15  # 字体大小
plt.pie(press["num"], labels=press["name"], autopct='%.2f%%')
# 标题
plt.title("小说评分统计")
plt.show()

4.2.5 评论人数统计

import random

count_count = dict(zip(list(data['book_name']), list(int(i) for i in data['count'])))
# print(count_count)


# 对字典按键（key）进行排序（默认由小到大）
count_key_sort = sorted(count_count.keys())
# 输出结果
# print(count_key_sort)

count_count_sort = sorted(count_count.items(), key=lambda x: x[0])
# 输出结果
# print(count_count_sort)

count_count_lsit = []
for i in count_count_sort:
    count_count_lsit.append(i[1])

# print(count_count_lsit)

# 随机选取20本数进行展示
idx = len(count_key_sort)-20
idx = random.randint(0,idx)
print(idx)
# print(list(count_key_sort)[idx: idx + 20])
# print(list(count_count_lsit)[idx: idx + 20])

# 可视化
plt.subplots(1, 2,constrained_layout=True, figsize=(25, 10)) # 两行一列，位置是1的子图
plt.subplot(1, 2, 1) # 两行一列，位置是1的子图
# 文字变斜
plt.xticks(rotation=90)
plt.rcParams['font.size'] = 12  # 字体大小
plt.bar(list(count_key_sort)[idx: idx + 20],list(count_count_lsit)[idx: idx + 20], label='评论数量')
plt.legend(loc='upper right')
plt.ylabel('数量/条')
plt.xlabel('书名')
plt.title('不同本的评论数量统计')

plt.subplot(1, 2, 2) # 两行一列，位置是1的子图
plt.rcParams['font.size'] = 15  # 字体大小
plt.pie(list(count_count_lsit)[idx: idx + 20], labels=list(count_key_sort)[idx: idx + 20], autopct='%.2f%%')
# 标题
plt.title("小说评分统计")
plt.show()

577

4.2.6 评论词云

wc = WordCloud(
    background_color="#FFFFFF", #背景颜色
    max_words=1000, #显示最大词数
    font_path='simsun.ttc',
    width=1000,
    height=800,
    mask=np.array(Image.open("cloud.png"))
)
plt.figure(dpi=200,figsize=(15,5))
split_content = " ".join(jieba.lcut(text_content))
img = wc.generate(split_content)
plt.imshow(img)
plt.xticks([])  # 去掉x轴
plt.yticks([])  # 去掉y轴
plt.axis('off') # 去掉坐标轴
plt.show()

Building prefix dict from the default dictionary …
Dumping model to file cache F:\temp\jieba.cache
Loading model cost 0.876 seconds.
Prefix dict has been built successfully.

4.3 保存数据

# 将处理过的数据写入本地文件
data.to_csv("result.csv",index=False)

# 将分词后的内容保存
with open("introduction.txt", "w", encoding="utf-8", newline="\n") as f:
    for i in range(150):
        f.write(split_content)

print("down!")
down!
4.4 数据统计
import time

content = ""
with open("introduction.txt", "r", encoding="utf-8") as f:
    content = f.readline()

start = time.time()
word_dict = {}
for word in content:
    if word in word_dict:
        word_dict[word] += 1
    else:
        word_dict[word] = 1

end = time.time()

print(word_dict)
print("累计用时：", end - start, "秒")

{’ ': 60734000, ‘不’: 298000, ‘看’: 56000, ‘知’: 69000, ‘道’: 63000, ‘莫’: 35000, ‘言’: 58000, ‘真’: 100000, ‘幽’: 18000, ‘默’: 25000, ‘在’: 416000, ‘极’: 26000, ‘度’: 93000, ‘痛’: 13000, ‘苦’: 17000, ‘时’: 206000, ‘笑’: 19000, ‘出’: 225000, ‘声’: 30000, ‘来’: 142000, ‘获’: 76000, ‘得’: 152000, ‘内’: 71000, ‘心’: 137000…}
累计用时： 30.710124015808105 秒

Hadoop数据分析

Hadoop环境搭建请参考2022最新黑马程序员大数据Hadoop入门视频教程，最适合零基础自学的大数据Hadoop教程

1. 环境简介

本地三台虚拟机搭建了一个Hadoop集群，如上图所示

2. WordCount

编写WordCount项目，基于maven管理依赖，采用Java语言编写词频统计项目

首先需要创建一个普通的maven 项目，结构如下（三个java文件和log4j.properties文件内容在下方）

2.1 项目依赖 pom.xml

将下方内容添加进pom.xml

<dependencies>
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>RELEASEversion>
        dependency>
        <dependency>
            <groupId>org.apache.logging.log4jgroupId>
            <artifactId>log4j-coreartifactId>
            <version>2.8.2version>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-commonartifactId>
            <version>2.7.2version>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-clientartifactId>
            <version>2.7.2version>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-hdfsartifactId>
            <version>2.7.2version>
        dependency>
    dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-pluginartifactId>
                <version>2.3.2version>
                <configuration>
                    <source>1.8source>
                    <target>1.8target>
                configuration>
            plugin>
            <plugin>
                <artifactId>maven-assembly-plugin artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>WordCountDrivermainClass>
                        manifest>
                    archive>
                configuration>
                <executions>
                    <execution>
                        <id>make-assemblyid>
                        <phase>packagephase>
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>

将下方内容添加进log4j.properties

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

2.2 编写代码

2.2.1 编写WordCountDriver

/**
 * @Author: HAPPY
 * @Project_name: wordcount
 * @Package_name: PACKAGE_NAME
 * @Date: 2022/6/13 10:53
 * @Description:
 */
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCountDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        long start = System.currentTimeMillis();
        // 1 获取配置信息以及封装任务
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);

        // 2 设置jar加载路径
        job.setJarByClass(WordCountDriver.class);

        // 3 设置map和reduce类
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        // 4 设置map输出
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 5 设置最终输出kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 6 设置输入和输出路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 7 提交
        boolean result = job.waitForCompletion(true);

        System.out.println("累计用时： " + (System.currentTimeMillis() - start) / 1000 + "秒");
        System.exit(result ? 0 : 1);
    }
}

2.2.2 编写WordCountMapper

/**
 * @Author: HAPPY
 * @Project_name: wordcount
 * @Package_name: PACKAGE_NAME
 * @Date: 2022/6/13 10:53
 * @Description:
 */
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

    Text k = new Text();
    IntWritable v = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context)	throws IOException, InterruptedException {

        // 1 获取一行
        String line = value.toString();

        // 2 切割，用空格分割
        String[] words = line.split(" ");

        // 3 输出
        for (String word : words) {
            k.set(word);
            context.write(k, v);
        }
    }
}

2.2.3 编写WordCountReducer

/**
 * @Author: HAPPY
 * @Project_name: wordcount
 * @Package_name: PACKAGE_NAME
 * @Date: 2022/6/13 10:53
 * @Description:
 */
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

    int sum;
    IntWritable v = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {

        // 1 累加求和
        sum = 0;
        for (IntWritable count : values) {
            sum += count.get();
        }

        // 2 输出
        v.set(sum);
        context.write(key,v);
    }
}

2.3 本地运行

点击WordCountDriver类的运行按钮，选择修改运行配置

在此次输入文件的输入和输出路径，输出路径一定要不存在，中间用空格分割，两个路径均为文件夹路径
将输入文件置于输入文件夹中，名称随意，建议为全英文，如：input.txt

示例文件introduction.txt,新建一个直接复制即可：

    百年孤独   译者   猫科动物 之友 范晔 的 首部 原创 幻想 文学作品         知名 萌宠 博主   顾湘 绘制 治愈 系软萌 插图       用 小 动物 的 天真 融化 人类 的 感伤   给 永远 是 小 动物 的 你         内容 包括   飞马 牌 汽车     马 王登基     金鱼 马     幻影 号   四部 作品     译自         年 德语 经典 第   版           个 童话   全本 无 删减     新增     篇 通行 版未 收录 故事     旅 德文 泽尔 历时   年 翻译   比 对 德文 各个 版本   为 每个 故事 附上 解说   讲述         本书 收入 王尔德 两部 著名 的 童话集     快乐 王子 集   和   石榴 之 家     是 唯美主义 童话 的 代表作   作家 除 遵循 一般 童话 中 应有 的 惩恶扬善   锄强扶弱   劫富济贫 以及 褒美 贬丑 等 主         一位 可爱 的 英国 小女孩 爱丽丝 在 百般 无聊 之际   发现 了 一只 揣着 怀表   会 说话 的 白兔   她 追赶 着 它 而 不慎 掉 进 了 一个 兔子 洞   由此 坠入 了 神奇 的 地下 世界   在 探险 的 同时 不断 认识                                                           小王子   是 法国 著名作家 圣 埃克 絮 佩里 的 一部 享誉 世界 的 畅销 童话   本书 是 中   法   英 三种 语言 对照 的 版本   采用 彩色 插         国内 首部 黑塞 童话集   畅销 德国 百万 销量   纷扰 世界 中 的 心灵 桃源   艺术 童话 属于 世界 文学 中 最 受欢迎 的 小说 形式   在 弘扬 这一 传统 的 二十世纪 德语 作家 中   黑塞当 属 第一   其艺           一千零一夜   被 高尔基 誉为   世界 民间文学 史上 最 壮丽 的 一座 纪念碑     本书 故事 精彩   妙趣横生   想象 丰富   扣人心弦   充满 神秘 奇幻 的 色彩   蕴藏 瑰丽 丰富 的 风貌   既 是 儿         一个 蜘蛛 和 小猪 的 故事   写给 孩子   也 写给 大人     在 朱克曼 家 的 谷仓 里   快乐 地 生活 着 一群 动物   其中 小猪 威尔 伯 和 蜘蛛 夏洛 建立 了 最 真挚 的 友谊   然而   一个 最 丑恶 的 消息 打           在 成功 的 经济体 中   经济 政策 一定 是 务实 的   不是 意识形态化 的   是 具体 的   不是 抽象 的       直面 真 问题   深究 真 逻辑 的 复旦大学 经济学   毕业 课         连接 抽象 经济学 理             懂点 社会学   走出 混沌 的 日常   理解 社会 与 人生           位 社会学 巨擘         个 社会学 核心 概念         幅超 可爱 漫画   上 至 学科 奠基人 奥古斯特   孔德   埃米尔   涂尔                       一份 自我 分析 的 行动 纲领     人们 需要 得到 科学 的 凝视   这种 凝视 既 是 对象化 的

点击运行，得到结果

2022-06-30 17:33:26,345 INFO [org.apache.hadoop.conf.Configuration.deprecation] - session.id is deprecated. Instead, use dfs.metrics.session-id
2022-06-30 17:33:26,346 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=
2022-06-30 17:33:27,032 WARN [org.apache.hadoop.mapreduce.JobResourceUploader] - Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
2022-06-30 17:33:27,056 WARN [org.apache.hadoop.mapreduce.JobResourceUploader] - No job jar file set.  User classes may not be found. See Job or Job#setJar(String).
2022-06-30 17:33:27,127 INFO [org.apache.hadoop.mapreduce.lib.input.FileInputFormat] - Total input paths to process : 1
2022-06-30 17:33:27,157 INFO [org.apache.hadoop.mapreduce.JobSubmitter] - number of splits:1
2022-06-30 17:33:27,229 INFO [org.apache.hadoop.mapreduce.JobSubmitter] - Submitting tokens for job: job_local1933687710_0001
2022-06-30 17:33:27,373 INFO [org.apache.hadoop.mapreduce.Job] - The url to track the job: http://localhost:8080/
2022-06-30 17:33:27,374 INFO [org.apache.hadoop.mapreduce.Job] - Running job: job_local1933687710_0001
2022-06-30 17:33:27,376 INFO [org.apache.hadoop.mapred.LocalJobRunner] - OutputCommitter set in config null
2022-06-30 17:33:27,385 INFO [org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter] - File Output Committer Algorithm version is 1
2022-06-30 17:33:27,388 INFO [org.apache.hadoop.mapred.LocalJobRunner] - OutputCommitter is org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter
2022-06-30 17:33:27,447 INFO [org.apache.hadoop.mapred.LocalJobRunner] - Waiting for map tasks
2022-06-30 17:33:27,447 INFO [org.apache.hadoop.mapred.LocalJobRunner] - Starting task: attempt_local1933687710_0001_m_000000_0
2022-06-30 17:33:27,473 INFO [org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter] - File Output Committer Algorithm version is 1
2022-06-30 17:33:27,480 INFO [org.apache.hadoop.yarn.util.ProcfsBasedProcessTree] - ProcfsBasedProcessTree currently is supported only on Linux.
2022-06-30 17:33:27,516 INFO [org.apache.hadoop.mapred.Task] -  Using ResourceCalculatorProcessTree : org.apache.hadoop.yarn.util.WindowsBasedProcessTree@542d1666
2022-06-30 17:33:27,531 INFO [org.apache.hadoop.mapred.MapTask] - Processing split: file:/F:/PythonBigData/wordcount/input/introduction.txt:0+2871
2022-06-30 17:33:27,589 INFO [org.apache.hadoop.mapred.MapTask] - (EQUATOR) 0 kvi 26214396(104857584)
2022-06-30 17:33:27,589 INFO [org.apache.hadoop.mapred.MapTask] - mapreduce.task.io.sort.mb: 100
2022-06-30 17:33:27,589 INFO [org.apache.hadoop.mapred.MapTask] - soft limit at 83886080
2022-06-30 17:33:27,589 INFO [org.apache.hadoop.mapred.MapTask] - bufstart = 0; bufvoid = 104857600
2022-06-30 17:33:27,589 INFO [org.apache.hadoop.mapred.MapTask] - kvstart = 26214396; length = 6553600
2022-06-30 17:33:27,593 INFO [org.apache.hadoop.mapred.MapTask] - Map output collector class = org.apache.hadoop.mapred.MapTask$MapOutputBuffer
2022-06-30 17:33:27,614 INFO [org.apache.hadoop.mapred.LocalJobRunner] - 
2022-06-30 17:33:27,615 INFO [org.apache.hadoop.mapred.MapTask] - Starting flush of map output
2022-06-30 17:33:27,615 INFO [org.apache.hadoop.mapred.MapTask] - Spilling map output
2022-06-30 17:33:27,615 INFO [org.apache.hadoop.mapred.MapTask] - bufstart = 0; bufend = 5981; bufvoid = 104857600
2022-06-30 17:33:27,615 INFO [org.apache.hadoop.mapred.MapTask] - kvstart = 26214396(104857584); kvend = 26211288(104845152); length = 3109/6553600
2022-06-30 17:33:27,634 INFO [org.apache.hadoop.mapred.MapTask] - Finished spill 0
2022-06-30 17:33:27,639 INFO [org.apache.hadoop.mapred.Task] - Task:attempt_local1933687710_0001_m_000000_0 is done. And is in the process of committing
2022-06-30 17:33:27,650 INFO [org.apache.hadoop.mapred.LocalJobRunner] - map
2022-06-30 17:33:27,650 INFO [org.apache.hadoop.mapred.Task] - Task 'attempt_local1933687710_0001_m_000000_0' done.
2022-06-30 17:33:27,650 INFO [org.apache.hadoop.mapred.LocalJobRunner] - Finishing task: attempt_local1933687710_0001_m_000000_0
2022-06-30 17:33:27,650 INFO [org.apache.hadoop.mapred.LocalJobRunner] - map task executor complete.
2022-06-30 17:33:27,652 INFO [org.apache.hadoop.mapred.LocalJobRunner] - Waiting for reduce tasks
2022-06-30 17:33:27,652 INFO [org.apache.hadoop.mapred.LocalJobRunner] - Starting task: attempt_local1933687710_0001_r_000000_0
2022-06-30 17:33:27,658 INFO [org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter] - File Output Committer Algorithm version is 1
2022-06-30 17:33:27,658 INFO [org.apache.hadoop.yarn.util.ProcfsBasedProcessTree] - ProcfsBasedProcessTree currently is supported only on Linux.
2022-06-30 17:33:27,697 INFO [org.apache.hadoop.mapred.Task] -  Using ResourceCalculatorProcessTree : org.apache.hadoop.yarn.util.WindowsBasedProcessTree@2ace12a4
2022-06-30 17:33:27,700 INFO [org.apache.hadoop.mapred.ReduceTask] - Using ShuffleConsumerPlugin: org.apache.hadoop.mapreduce.task.reduce.Shuffle@27c22b09
2022-06-30 17:33:27,714 INFO [org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl] - MergerManager: memoryLimit=2568277248, maxSingleShuffleLimit=642069312, mergeThreshold=1695063040, ioSortFactor=10, memToMemMergeOutputsThreshold=10
2022-06-30 17:33:27,716 INFO [org.apache.hadoop.mapreduce.task.reduce.EventFetcher] - attempt_local1933687710_0001_r_000000_0 Thread started: EventFetcher for fetching Map Completion Events
2022-06-30 17:33:27,755 INFO [org.apache.hadoop.mapreduce.task.reduce.LocalFetcher] - localfetcher#1 about to shuffle output of map attempt_local1933687710_0001_m_000000_0 decomp: 7539 len: 7543 to MEMORY
2022-06-30 17:33:27,766 INFO [org.apache.hadoop.mapreduce.task.reduce.InMemoryMapOutput] - Read 7539 bytes from map-output for attempt_local1933687710_0001_m_000000_0
2022-06-30 17:33:27,768 INFO [org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl] - closeInMemoryFile -> map-output of size: 7539, inMemoryMapOutputs.size() -> 1, commitMemory -> 0, usedMemory ->7539
2022-06-30 17:33:27,771 INFO [org.apache.hadoop.mapreduce.task.reduce.EventFetcher] - EventFetcher is interrupted.. Returning
2022-06-30 17:33:27,772 INFO [org.apache.hadoop.mapred.LocalJobRunner] - 1 / 1 copied.
2022-06-30 17:33:27,772 INFO [org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl] - finalMerge called with 1 in-memory map-outputs and 0 on-disk map-outputs
2022-06-30 17:33:27,783 INFO [org.apache.hadoop.mapred.Merger] - Merging 1 sorted segments
2022-06-30 17:33:27,783 INFO [org.apache.hadoop.mapred.Merger] - Down to the last merge-pass, with 1 segments left of total size: 7536 bytes
2022-06-30 17:33:27,786 INFO [org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl] - Merged 1 segments, 7539 bytes to disk to satisfy reduce memory limit
2022-06-30 17:33:27,787 INFO [org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl] - Merging 1 files, 7543 bytes from disk
2022-06-30 17:33:27,788 INFO [org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl] - Merging 0 segments, 0 bytes from memory into reduce
2022-06-30 17:33:27,788 INFO [org.apache.hadoop.mapred.Merger] - Merging 1 sorted segments
2022-06-30 17:33:27,790 INFO [org.apache.hadoop.mapred.Merger] - Down to the last merge-pass, with 1 segments left of total size: 7536 bytes
2022-06-30 17:33:27,790 INFO [org.apache.hadoop.mapred.LocalJobRunner] - 1 / 1 copied.
2022-06-30 17:33:27,794 INFO [org.apache.hadoop.conf.Configuration.deprecation] - mapred.skip.on is deprecated. Instead, use mapreduce.job.skiprecords
2022-06-30 17:33:27,807 INFO [org.apache.hadoop.mapred.Task] - Task:attempt_local1933687710_0001_r_000000_0 is done. And is in the process of committing
2022-06-30 17:33:27,808 INFO [org.apache.hadoop.mapred.LocalJobRunner] - 1 / 1 copied.
2022-06-30 17:33:27,808 INFO [org.apache.hadoop.mapred.Task] - Task attempt_local1933687710_0001_r_000000_0 is allowed to commit now
2022-06-30 17:33:27,810 INFO [org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter] - Saved output of task 'attempt_local1933687710_0001_r_000000_0' to file:/F:/PythonBigData/wordcount/output/_temporary/0/task_local1933687710_0001_r_000000
2022-06-30 17:33:27,810 INFO [org.apache.hadoop.mapred.LocalJobRunner] - reduce > reduce
2022-06-30 17:33:27,810 INFO [org.apache.hadoop.mapred.Task] - Task 'attempt_local1933687710_0001_r_000000_0' done.
2022-06-30 17:33:27,810 INFO [org.apache.hadoop.mapred.LocalJobRunner] - Finishing task: attempt_local1933687710_0001_r_000000_0
2022-06-30 17:33:27,810 INFO [org.apache.hadoop.mapred.LocalJobRunner] - reduce task executor complete.
2022-06-30 17:33:28,380 INFO [org.apache.hadoop.mapreduce.Job] - Job job_local1933687710_0001 running in uber mode : false
2022-06-30 17:33:28,381 INFO [org.apache.hadoop.mapreduce.Job] -  map 100% reduce 100%
2022-06-30 17:33:28,382 INFO [org.apache.hadoop.mapreduce.Job] - Job job_local1933687710_0001 completed successfully
2022-06-30 17:33:28,388 INFO [org.apache.hadoop.mapreduce.Job] - Counters: 30
	File System Counters
		FILE: Number of bytes read=21212
		FILE: Number of bytes written=585998
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
	Map-Reduce Framework
		Map input records=1
		Map output records=778
		Map output bytes=5981
		Map output materialized bytes=7543
		Input split bytes=120
		Combine input records=0
		Combine output records=0
		Reduce input groups=282
		Reduce shuffle bytes=7543
		Reduce input records=778
		Reduce output records=282
		Spilled Records=1556
		Shuffled Maps =1
		Failed Shuffles=0
		Merged Map outputs=1
		GC time elapsed (ms)=7
		Total committed heap usage (bytes)=494927872
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=2871
	File Output Format Counters 
		Bytes Written=2545
累计用时： 2秒

进程已结束，退出代码为 0

此时去输入文件夹下查看输出结果，结果保存在part-r-00000文件中，用记事本打开就行

部分内容如下：

	396
一个	3
一份	1
一位	1
一千零一夜	1
一只	1
一定	1
一座	1
一群	1
一般	1
一部	1
三种	1
上	1
不慎	1
不断	1
不是	2
与	1
丑恶	1
世界	5
两部	1
个	2
中	6
丰富	2
为	1
主	1
之	1
之友	1
之际	1
也	1
了	4
二十世纪	1
享誉	1
人们	1
人生	1
人类	1
代表作	1
以及	1
会	1
传统	1
伯	1
位	1
作品	1
作家	2
你	1
佩里	1
儿	1
充满	1
兔子	1
...

2.4 利用Hadoop集群运行

利用maven插件将程序打包为jar文件

将带有依赖的jar文件上传至任意虚拟机

将需要处理的文本文件上传到HDFS文件系统中，上传后集群中的三台虚拟机都可以使用该文件

执行任务 hadoop jar wordcount-1.0-SNAPSHOT-jar-with-dependencies.jar /wordcount/input /wordcount/outputnew

任务执行完累计耗时175秒，个人笔记本性能不是很好，三台虚拟机都只4G内存，因此运行效率较差。

查看输出结果，输出文件在HDFS的/wordcount/outputnew文件夹下

下载后打开，内容如下，与本地统计一致

Hadoop执行流程如下图所示：

你可能感兴趣的:(爬虫,数据分析,hadoop)

HIVE 面试题总结小余真旺财 Hive hive
Hive依赖于HDFS存储数据，Hive将HQL转换成MapReduce执行，所以说Hive是基于Hadoop的一个数据仓库工具，实质就是一款基于HDFS的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理。一、Hive架构用户接口：CLI（hiveshell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）元数据：元数据包括：表名、表所属的数据库（默
Hive 面试题昨夜为你摘星
什么是Hive?Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的意义（最初研发的原因）?降低程序员使用Hadoop的难度，降低学习成本Hive的内部组成模块，作用
Python连接SQL SEVER数据库全流程 m0_74824865 面试学习路线阿里巴巴数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
电竞赛事数据分析：LNG vs BLG的胜利背后烧瓶里的西瓜皮 python 自动驾驶人工智能数据可视化机器学习
电竞赛事数据分析：LNGvsBLG的胜利背后摘要在S14瑞士轮次日，LNG以1:0战胜BLG，取得了开赛二连胜。本文将通过Python进行数据处理与分析，结合机器学习算法预测比赛结果，并使用数据可视化工具展示关键指标。通过对这场比赛的数据深入挖掘，揭示LNG获胜的关键因素。引言电子竞技（Esports）已经成为全球范围内的一项重要娱乐活动，而《英雄联盟》（LeagueofLegends,LoL）作
电竞数据怎么助力创业者在电竞行业发展 sanx18 人工智能
电竞数据对于创业者在电竞行业的发展有着非常大的助力作用，特别是在以下几个方面：1.精准市场定位与需求分析创业者可以通过电竞数据分析了解行业趋势、用户需求和市场痛点。例如，通过分析观众的观看行为、玩家的活跃度、不同游戏的受欢迎程度等数据，创业者可以更好地确定进入电竞行业的切入点，找到未被满足的市场需求。这样能够大大降低市场调研的成本，提高决策的准确性。2.个性化产品与服务开发电竞数据可以帮助创业者开
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
《Python入门+Python爬虫》——6Day 数据库可视化——Flask框架应用不摆烂的小劉 python python flask 爬虫
Python学习版本:Python3.X观看：Python入门+Python爬虫+Python数据分析1.Flask入门1.1关于Flask1.1.1了解框架Flask作为Web框架，它的作用主要是为了开发Web应用程序。那么我们首先来了解下Web应用程序。Web应用程序(WorldWideWeb)诞生最初的目的，是为了利用互联网交流工作文档。一切从客户端发起请求开始。所有Flask程序都必须创建
python爬虫项目（一百九十八）：电商平台用户行为数据分析与推荐系统、爬取电商平台用户行为数据人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫数据分析开发语言信息可视化 okhttp
在现代电商平台中，用户的行为数据对于优化用户体验、提升销量以及个性化推荐至关重要。通过抓取和分析用户的浏览、点击、购买等行为数据，电商平台能够更好地了解用户的偏好，从而推荐相关产品，增加用户的黏性和购买意愿。本篇博客将详细介绍如何通过爬虫技术抓取电商平台的用户行为数据，并结合数据分析和推荐算法，构建一个简单的推荐系统。目录一、电商平台用户行为数据二、爬虫技术实现2.1网站分析2.2使用Seleni
爬虫学习第六篇轻松搞定网络请求笨鸟笃行 python学习爬虫学习 python
嘿，小伙伴们！今天咱们来聊聊用Python进行网络请求，这是爬虫学习的敲门砖哦。别怕，跟着我一步步来，保证让你轻松上手！（一）安装requests模块首先，得把requests模块装上。看过上一篇的小伙伴应该都搞定了吧，这玩意儿超好用，能帮我们轻松发起网络请求。如果没搞定的，跟着我重新安装一遍，在vscode的终端里输入pipinstallrequests，回车，搞定！就像给手机装了个APP一样简
爬虫学习第一篇（认识爬虫流程和使用工具）笨鸟笃行 python学习爬虫学习
认识爬虫什么是爬虫？爬虫听着好像是一个什么虫子的名字，其实爬虫是一个自动化请求网站并提取数据的程序，简单理解即是一个自动化爬取数据的脚本例如以下就是一个十分简单的爬虫代码（不过这个代码不适用于所有网页，只能爬取一些没有限制的网站）importrequests#导入请求库url=""#输入爬取内容的地址res=requests.get(url)#发送请求到url这个地址print(res.statu
爬虫第二篇（网络通信之发送请求）笨鸟笃行 python学习爬虫
发起请求请求的组成部分1.请求方式（get，post等）2.请求url（目标的url）3.请求头（一般需要包含user-agent，referer，cookie）4.请求体（主要应用于post请求，post请求的参数在请求体内，get参数一般在url里面）请求方式GET请求1.定义GET请求是HTTP协议中最常见的请求方法之一，用于从服务器获取资源。它通过URL地址来请求数据，通常用于获取网页内容
Python爬虫实战（一）：翻页爬取数据存入SqlServer_python爬虫翻页 2401_84563438 程序员 python 爬虫 sqlserver
print(str(e))#关闭游标，断开数据库cursor.close()db.close()#实现主要逻辑defrun(self):fortype_numinrange(1,46):#1.拼接网页获取每个类别的页数pageurl=self.baseurl%(1,type_num)html_str=self.parse_url(url)page=self.get_page_num(html_st
四、数据湖应用平台架构 moton2017 大数据治理大数据数据湖数据管理数据架构数据安全大数据管理数据仓库
数据湖应用平台是一个用于存储、处理和分析大容量、用途数据的平台。它旨在以隐蔽、高效率的方式，为企业提供全面的数据管理和应用能力。核心概念数据湖：一个集中各种原始格式数据的存储库，包括格式化数据、半格式化数据和非格式化数据。数据应用：基于数据湖构建的各种数据分析、挖掘和应用服务，例如：数据图表线路商业智能预测分析1.要素组成一个典型的数据湖应用平台架构通常包括以下几个核心组件：数据采集层：从各种数据
如何使用Python爬虫实时获取股票行情数据并进行分析：完整教程 Python爬虫项目 2025年爬虫实战项目爬虫 python 开发语言信息可视化 c++
前言在金融领域，股票行情的实时获取和分析是投资决策中至关重要的一环。借助Python的强大生态系统，结合爬虫技术和数据分析库，投资者可以实时获取股票行情数据，并通过各种算法和模型进行深入分析。本教程将从零开始，带你深入学习如何使用Python爬取股票行情数据并进行分析。一、爬虫技术概述爬虫是从网络上自动提取信息的程序，它可以帮助我们获取互联网数据。在股票分析中，爬虫技术的应用非常广泛，尤其是通过A
python爬虫爬取图片 kanguhong python 爬虫开发语言
"""爬取目标：https://pic.netbian.com/彼岸图首页地址：https://pic.netbian.com/4kmeinv/第N页：https://pic.netbian.com/4kmeinv/index_N.htmlhttps://pic.netbian.com/uploads/allimg/240709/194631-1720525591a682.jpg仅供学习，不可用于
基于Pandas库封装Excel工具类忆想不到的晖 python pandas github excel 工具类
引言Excel是一种广泛使用的电子表格软件，它提供了大量的数据处理和计算功能，被广泛应用于数据分析和报告中。在Python中，我们可以使用pandas库来读写和处理Excel文件。但是，为了更方便和快速地操作Excel文件，我们可以封装一个Excel工具类，提供常用的读写操作方法，以提高开发效率。本文将介绍如何使用Python封装Excel操作工具类，并提供相应的例子说明。1、列表转Excel文件
阿里云服务器的作用腾云服务器阿里云服务器云计算
使用阿里云服务器能做什么？大家都知道可以用来搭建网站、数据库、机器学习、Python爬虫、大数据分析等应用，阿里云服务器网来详细说下使用阿里云服务器常见的玩法以及企业或个人用户常见的使用场景：玩转阿里云服务器使用阿里云服务器最常见的应用就是用来搭建网站，例如个人博客、企业网站等；除了搭建网站还可以利用阿里云GPU服务器搭建机器学习和深度学习等AI应用；使用阿里云大数据类型云服务器做数据分析；利用云
爬虫获取阿里巴巴 item_search 接口：根据关键字获取在售商品数据 Jelena15779585792 孔夫子API 爬虫
在电商领域，快速准确地获取商品信息对于市场分析、选品策略、库存管理以及价格监控等场景至关重要。阿里巴巴开放平台提供的item_search接口允许开发者通过关键字搜索在售商品，并获取相关商品的详细信息。本文将详细介绍如何使用爬虫技术调用item_search接口，获取在售商品数据，并提供完整的开发指南和代码示例。一、接口概述item_search是阿里巴巴开放平台提供的一个API接口，允许开发者通
Python爬虫获取item_search_img-按图搜索淘宝商品（拍立淘）接口 Jelena15779585792 API python 爬虫图搜索算法
一、引言随着电商行业的不断发展，消费者对商品搜索的效率和准确性要求越来越高。淘宝作为国内领先的电商平台，推出了按图搜索商品的功能（拍立淘），极大地提升了用户的购物体验。本文将详细介绍如何使用淘宝按图搜索商品的API接口（item_search_img），包括注册账号、上传图片、调用接口及解析响应等步骤。二、注册账号与获取API密钥注册淘宝开放平台账号要使用淘宝的按图搜索功能，首先需要在淘宝开放平台
使用Python爬虫获取淘宝搜索词推荐API接口 Jelena15779585792 淘宝API Python python 爬虫开发语言
在电商领域，搜索词推荐功能对于优化用户体验和提升搜索效率至关重要。淘宝作为国内领先的电商平台，提供了丰富的API接口，其中item_search_suggest接口可以获取搜索词推荐。本文将详细介绍如何使用Python爬虫技术调用该API接口，并获取搜索词推荐信息。一、概述淘宝的item_search_suggestAPI接口允许开发者根据提供的搜索关键字或其他相关条件，返回与搜索词相关的推荐词组
数据湖构建 HaoHao_010 服务器云服务器云计算阿里云
阿里云的数据湖构建（DataLake）是一种用于存储和处理大量不同类型数据的解决方案，通常用于大数据分析和机器学习等应用场景。数据湖与传统的数据仓库不同，它能够存储结构化、半结构化和非结构化数据，支持大规模数据的整合、存储、查询和分析。阿里云提供了一整套工具和服务来帮助企业构建数据湖，以下是数据湖构建的主要步骤和关键服务：1.数据湖概述数据湖是一种统一的数据存储库，能承载来自多个来源的数据，包括：
使用 Python 爬虫抓取电商平台特定商品库存与销售数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化自动化
一、引言随着电子商务的蓬勃发展，库存和销售数据已经成为商家、供应链管理者和市场分析师的重要参考。对于电商平台而言，实时获取商品库存、销量以及价格等信息，能够帮助商家及时调整策略、优化存货管理、做出销售预测。因此，抓取这些电商平台上的商品数据变得至关重要。本文将详细介绍如何使用Python编写爬虫，抓取电商平台（如淘宝、京东、亚马逊等）上特定商品的库存、销售数据。我们将结合最新技术，使用Reques
使用Python爬虫抓取并分析电商网站销量数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
目录：前言爬虫基础概念什么是Web爬虫爬虫的工作原理Python爬虫库介绍准备工作安装所需的库选择目标电商网站分析目标电商网站使用浏览器开发者工具分析页面结构识别需要抓取的销量数据构建爬虫程序使用requests获取网页使用BeautifulSoup解析静态网页使用Selenium抓取动态页面防止反爬虫技术模拟浏览器请求使用代理池随机延迟请求抓取电商网站的销量数据抓取商品标题、销量、价格等信息处理
考证好像真的能改变一个人‼️ 小猫椰椰探潜数据分析数据分析职场和发展大数据
考完这些证书，我真的感觉自己变样了。BDA初级数据分析师、BDA中级数据分析师、CPBA商业分析师3个方向，文科生的我，原本没有听过这些证书，但进入职场才知道，多一项技能，多一份优势刚毕业的时候，我考了BDA初级数据分析师，那个时候就尝到了甜头，不仅让简历更漂亮了，自己也掌握了数据分析技能后来的几年，我又陆陆续续考了BDA中级数据分析师和CPBA商业分析师3个方向的证书，看着这些证真的有满满的成就
冷门吃香的四个职业小猫椰椰探潜数据分析数据分析职场和发展大数据
数据分析师、商业分析师、互联网营销师、全媒体运营师…这些职业大多数人都很陌生，但是在这个内卷的时代，已经成为很多人的新选择、新出路，冷门又高薪。今天总结了这四个职业的基本信息，看看有没有你感兴趣的我是在【探潜数据分析】报名并学习的BDA数据分析师和CPBA商业分析师，两个证我都拿到手了，探潜的老师们很有耐心，一对一辅导我到拿证。我的工作因为这两个证改善很多#探潜数据分析#探潜学堂#BDA数据分析#
【Python爬虫(67)】Python爬虫实战：探秘旅游网站数据宝藏奔跑吧邓邓子 Python爬虫 python 爬虫开发语言旅游网站
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬虫前期准备2.1目标网站分析2.2技术栈选择2.3环
【Python爬虫(81)】当量子计算邂逅Python爬虫：一场技术变革的预演奔跑吧邓邓子 Python爬虫量子计算 python 爬虫开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、量子计算：崭露头角的技术新星1.1量子计算的基本原理1.2发展
数据挖掘与数据分析「已注销」数据分析数据挖掘数据分析人工智能
目录数据挖掘与数据分析一．数据的本质二．什么是数据挖掘和数据分析三．数据挖掘和数据分析有什么区别案例及应用1.基于分类模型的案例2.基于预测模型的案例3.基于关联分析的案例4.基于聚类分析的案例5.基于异常值分析的案例6.基于协同过滤的案例7.基于社会网络分析的案例8.基于文本分析的案例结语数据挖掘与数据分析在当今数字化的时代，数据成为了我们生活和工作中不可或缺的一部分。数据的价值在于其所蕴含的信
【Python爬虫(100)】从当下到未来：Python爬虫技术的进阶之路奔跑吧邓邓子 Python爬虫 python 爬虫开发语言未来发展
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、爬虫技术发展现状与瓶颈1.1爬虫技术发展现状1.2爬虫技术瓶颈
【Python爬虫(88)】当Python爬虫邂逅智能硬件：解锁数据新玩法奔跑吧邓邓子 Python爬虫 python 爬虫智能硬件开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、智能硬件的数据采集需求剖析2.1智能音箱的数据采集需求
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round