南航计网课设——基于Hadoop的网络爬虫技术

作者:shmily

文章目录

    • 实验概述
    • 环境搭建
    • 分布式网络爬虫的工作原理
    • 分布式爬虫系统的结构设计
      • 网络爬虫
      • 倒排索引+中文分词
      • 用户搜索模拟
    • 心得体会

实验概述

本实验使用java语言编程,实现了利用分布式爬虫对CSDN社区(http://www.csdn.com)的爬取和搜索。

实现搜索引擎的思路大致分为三步:一、从网上爬取数据;二、对拿到的数据进行整理即分词;三、通过关键字匹配拿到数据。

涉及到的关键技术有:Hadoop 伪分布式环境搭建、正则表达式匹配、HTML语言解析、MapReduce及Lucene中文分词。

环境搭建

这次实验是运行在Linux操作系统(CentOS)上的工程,并在其上搭建了hadoop集群。hadoop采用2.8.5版本,并在做好Master,之后直接用Virtual Box的复制功能复制三份虚拟机后,修改一下每个机器的ip地址,即可得到其他三台slave机器。分配ip地址如下:

192.168.56.101 hp-master

192.168.56.102 hp-slave1

你可能感兴趣的:(南航计网课设——基于Hadoop的网络爬虫技术)