飞翔蓝天-IT-NPF

抓取维基百科数据

1方案概述

抓取维基百科数据。

根据网上调查，现有三种解决方案：

² 使用Apache Nutch爬虫技术，深度抓取页面数据。

² 使用JWPL技术，解析Wikipaia离线数据。

² 使用Jsoup工具类，解析Wikipaia在线html dom元素。

2方案分析

2.1 ApacheNutch

2.1 Apache Nutch

2.1.1原理

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

1. 创建一个新的WebDb (admin db -create).

2. 将抓取起始URLs写入WebDB中 (inject).

3. 根据WebDB生成fetchlist并写入相应的segment(generate).

4. 根据fetchlist中的URL抓取网页 (fetch).

5. 根据抓取网页更新WebDb (updatedb).

6. 循环进行3－5步直至预先设定的抓取深度。

7. 根据WebDB得到的网页评分和links更新segments (updatesegs).

8. 对所抓取的网页进行索引(index).

9. 在索引中丢弃有重复内容的网页和重复的URLs (dedup).

10. 将segments中的索引进行合并生成用于检索的最终index(merge).

2.1.2不足

Nutch可以广度的抓取html页面，但是不能精确的分析html页面元素，进行数据分析。

2.2 JWPL

2.2.1原理

JWPL(Java Wikipedia Library)是一个开源的访问wikipeida数据的java api包。它提供的DataMachine 工具类可快速解析wiki格式文件，生成mysql的数据txt文件，可通过mysqlimport 导入到本地数据库中

2.2.2不足

无法快速有效的从词条正文（wiki格式的数据）中提取有用的信息，需要解析比对wiki中的数据模板，来查找对应的属性

2.3 Jsoup

2.3.1原理

Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

2.3.2不足

只能解析制定url的html页面信息，无法像Nutch 一样自动的进行页面抓取。

3方案实施

3.1 结论

通过以上的方案分析，任何单独的一种技术都无法实现精确抓取维基百科数据的功能。但是可以利用这些技术的优点，进行组合查询。

l 利用JWPL技术将下载的wikipedia数据进行解析，存入本地的mysql数据库中。然后根据表之间的关系，遍历分类信息，最后根据分类信息查询对应的词条。

² Category 分类信息表

² Category_outlinks 分类信息和父节点关系表

² Category_pages 分类信息对应词条表

² Page 词条信息表

l 词条信息 = https://zh.wikipedia.org/wiki/ + 词条名称

l 根据Jsoup技术解析 url 获取html信息，找出对应的属性、概述、文本

3.2 步骤

3.2.1Jwpl解析wiki数据

l 指导性的文章

http://www.cs.bgu.ac.il/~elhadad/nlp12/jwpl/wikification.html

http://www.cnblogs.com/heshizhu/archive/2012/06/26/2564267.html

3.2.1.1下载维基百科历史数据

中文维基历史下载地址http://dumps.wikimedia.org/zhwiki/

需下载这三个压缩包

http://download.wikipedia.com/zhwiki/20150703/zhwiki-20150703-pages-articles.xml.bz2

http://download.wikipedia.com/zhwiki/20150703/zhwiki-20150703-categorylinks.sql.gz

http://download.wikipedia.com/zhwiki/20150703/zhwiki-20150703-pagelinks.sql.gz

3.2.1.2下载Wikipedia离线阅读器WikiTaxi

http://jingyan.baidu.com/article/90895e0fb9fb5164ec6b0b1e.html

3.2.1.3下载JWPL jar

下载 DataMachine地址：

https://repo1.maven.org/maven2/de/tudarmstadt/ukp/wikipedia/de.tudarmstadt.ukp.wikipedia.datamachine/0.9.1/de.tudarmstadt.ukp.wikipedia.datamachine-0.9.1-jar-with-dependencies.jar

下载 WikipediaAPI 地址：

https://repo1.maven.org/maven2/de/tudarmstadt/ukp/wikipedia/de.tudarmstadt.ukp.wikipedia.api/0.9.1/de.tudarmstadt.ukp.wikipedia.api-0.9.1-jar-with-dependencies.jar

3.2.1.4通过JWPL 中的DataMachine 工具解析下载的历史数据

    
    
    
    
     
     
     
     
      
      
      
      java -jar JWPLDataMachine.jar [LANGUAGE][MAIN_CATEGORY_NAME][DISAMBIGUATION_CATEGORY_NAME][SOURCE_DIRECTORY]

LANGUAGE——JWPL_Languages语言字符串匹配。

MAIN_CATEGORY_NAME——主要的名称(上)类别的Wikipedia类别层次结构

DISAMBIGUATION_CATEGORY_NAME -类别的名称包含消歧的类别

SOURCE_DIRECTORY——包含源文件的目录的路径

l 本机命令：

    
    
    
    
     
     
     
     
      
      
      
      D:\Wikipedia>java -Dfile.encoding=utf8 -Xmx4g-cp jar-with-dependencies.jar de.t
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      udarmstadt.ukp.wikipedia.datamachine.domain.JWPLDataMachine chinese 頁面分類消歧义./zhwiki

DataMachine需要运行很长时间。运行完会在SOURCE_DIRECTORY目录下生成一个output目录，该目录里面有11个文件，这11个文件就是需要导入到mysql中的结构化数据了

3.2.1.5将解析完成的 txt文件导入到mysql数据库中

3.2.1.5.1创建数据库

    
    
    
    
     
     
     
     
      
      
      
      CREATE DATABASE zhwiki DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

3.2.1.5.2执行建表sql

jwpl_tables.sql http://www.cs.bgu.ac.il/~elhadad/nlp12/jwpl/jwpl_tables.sql

    
    
    
    
     
     
     
     
      
      
      
      --MySQLdump10.11
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Host: localhost    Database: jwpl_tables
     
     
     
     
     
     
     
     
      
      
      
      --------------------------------------------------------
     
     
     
     
     
     
     
     
      
      
      
      --Server version	5.0.37-community-nt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      /*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40101 SET @OLD_CHARACTER_SET_RESULTS=@@CHARACTER_SET_RESULTS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40101 SET @OLD_COLLATION_CONNECTION=@@COLLATION_CONNECTION */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40101 SET NAMES utf8 */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40103 SET @OLD_TIME_ZONE=@@TIME_ZONE */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40103 SET TIME_ZONE='+00:00' */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `Category`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `Category`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `Category`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL auto_increment,
     
     
     
     
     
     
     
     
      
      
      
      `pageId`int(11)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `name` varchar(255)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        PRIMARY KEY  (`id`),
     
     
     
     
     
     
     
     
      
      
      
        UNIQUE KEY `pageId`(`pageId`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `Category`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `Category` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `Category` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `Category` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `category_inlinks`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `category_inlinks`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `category_inlinks`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL,
     
     
     
     
     
     
     
     
      
      
      
      `inLinks`int(11)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK3F433773E46A97CC`(`id`),
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK3F433773BB482769`(`id`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `category_inlinks`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `category_inlinks` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `category_inlinks` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `category_inlinks` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `category_outlinks`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `category_outlinks`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `category_outlinks`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL,
     
     
     
     
     
     
     
     
      
      
      
      `outLinks`int(11)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK9885334CE46A97CC`(`id`),
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK9885334CBB482769`(`id`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `category_outlinks`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `category_outlinks` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `category_outlinks` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `category_outlinks` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `category_pages`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `category_pages`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `category_pages`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL,
     
     
     
     
     
     
     
     
      
      
      
      `pages`int(11)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK71E8D943E46A97CC`(`id`),
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK71E8D943BB482769`(`id`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `category_pages`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `category_pages` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `category_pages` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `category_pages` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `MetaData`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `MetaData`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `MetaData`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL auto_increment,
     
     
     
     
     
     
     
     
      
      
      
      `language` varchar(255)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `disambiguationCategory` varchar(255)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `mainCategory` varchar(255)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `nrofPages` bigint(20)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `nrofRedirects` bigint(20)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `nrofDisambiguationPages` bigint(20)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `nrofCategories` bigint(20)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        PRIMARY KEY  (`id`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `MetaData`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `MetaData` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `MetaData` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `MetaData` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `Page`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `Page`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `Page`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL auto_increment,
     
     
     
     
     
     
     
     
      
      
      
      `pageId`int(11)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `name` varchar(255)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `text` longtext,
     
     
     
     
     
     
     
     
      
      
      
      `isDisambiguation` bit(1)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        PRIMARY KEY  (`id`),
     
     
     
     
     
     
     
     
      
      
      
        UNIQUE KEY `pageId`(`pageId`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `Page`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `Page` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `Page` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `Page` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `page_categories`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `page_categories`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `page_categories`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL,
     
     
     
     
     
     
     
     
      
      
      
      `pages`int(11)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK72FB59CC1E350EDD`(`id`),
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK72FB59CC75DCF4FA`(`id`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `page_categories`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `page_categories` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `page_categories` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `page_categories` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `page_inlinks`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `page_inlinks`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `page_inlinks`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL,
     
     
     
     
     
     
     
     
      
      
      
      `inLinks`int(11)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK91C2BC041E350EDD`(`id`),
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK91C2BC0475DCF4FA`(`id`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `page_inlinks`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `page_inlinks` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `page_inlinks` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `page_inlinks` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `page_outlinks`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `page_outlinks`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `page_outlinks`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL,
     
     
     
     
     
     
     
     
      
      
      
      `outLinks`int(11)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK95F640DB1E350EDD`(`id`),
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK95F640DB75DCF4FA`(`id`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `page_outlinks`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `page_outlinks` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `page_outlinks` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `page_outlinks` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `page_redirects`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `page_redirects`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `page_redirects`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL,
     
     
     
     
     
     
     
     
      
      
      
      `redirects` varchar(255)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK1484BA671E350EDD`(`id`),
     
     
     
     
     
     
     
     
      
      
      
        KEY `FK1484BA6775DCF4FA`(`id`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `page_redirects`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `page_redirects` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `page_redirects` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `page_redirects` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Table structure for table `PageMapLine`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      DROP TABLE IF EXISTS `PageMapLine`;
     
     
     
     
     
     
     
     
      
      
      
      CREATE TABLE `PageMapLine`(
     
     
     
     
     
     
     
     
      
      
      
      `id` bigint(20) NOT NULL auto_increment,
     
     
     
     
     
     
     
     
      
      
      
      `name` varchar(255)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `pageID`int(11)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `stem` varchar(255)default NULL,
     
     
     
     
     
     
     
     
      
      
      
      `lemma` varchar(255)default NULL,
     
     
     
     
     
     
     
     
      
      
      
        PRIMARY KEY  (`id`),
     
     
     
     
     
     
     
     
      
      
      
        KEY `name`(`name`)
     
     
     
     
     
     
     
     
      
      
      
      ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
      --Dumping data for table `PageMapLine`
     
     
     
     
     
     
     
     
      
      
      
      --
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      LOCK TABLES `PageMapLine` WRITE;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `PageMapLine` DISABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40000 ALTER TABLE `PageMapLine` ENABLE KEYS */;
     
     
     
     
     
     
     
     
      
      
      
      UNLOCK TABLES;
     
     
     
     
     
     
     
     
      
      
      
      /*!40103 SET TIME_ZONE=@OLD_TIME_ZONE */;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      /*!40101 SET SQL_MODE=@OLD_SQL_MODE */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40101 SET CHARACTER_SET_CLIENT=@OLD_CHARACTER_SET_CLIENT */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40101 SET CHARACTER_SET_RESULTS=@OLD_CHARACTER_SET_RESULTS */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40101 SET COLLATION_CONNECTION=@OLD_COLLATION_CONNECTION */;
     
     
     
     
     
     
     
     
      
      
      
      /*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      --Dump completed on 2008-02-1112:33:30

3.2.1.5.3导入数据库

在output目录下执行批处理文件 dbimport.bat：

    
    
    
    
     
     
     
     
      
      
      
      @echo off
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      set db=zhwiki
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      set usr=root
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      set pwd=root
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db%Category.txt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db% category_inlinks.txt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db% category_outlinks.txt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db% category_pages.txt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db%MetaData.txt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db%Page.txt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db%PageMapLine.txt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db% page_categories.txt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db% page_inlinks.txt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db% page_outlinks.txt
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      mysqlimport -u%usr%-p%pwd%--local--default-character-set=utf8 %db% page_redirects.txt

3.2.2Jsoup解析hml

    
    
    
    
     
     
     
     
      
      
      
      /**
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
           * 利用Jsoup技术解析html
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
           */
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      privatevoidJsoupHtml(String categoryId,String entryId,String name){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Date date =newDate();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      //中文 简体转繁体 工具类
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      ZHConverter converter =ZHConverter.getInstance(ZHConverter.SIMPLIFIED);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      String url ="https://zh.wikipedia.org/wiki/"+name;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
               name = converter.convert(name);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Long sTime =System.currentTimeMillis();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
               logger.info(name+"    --------------------------------------------解析开始：---------------------------------url--"+url);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      //判断数据库中是否存在该词条
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      String queryEntryByNameSql ="select t.id from bk_entry t where t.name = '"+name+"'";
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      List<Map<String,Object>> list =newArrayList<Map<String,Object>>();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      try{
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                   list = jtLocal.queryForList(queryEntryByNameSql);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }catch(Exception e){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                  logger.info("判断数据库中是否存在该词条 sql 出错了"+queryEntryByNameSql);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(list.size()==0){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Document doc =null;
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      try{
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      // 5000 = 5秒
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                      doc =Jsoup.connect(url).timeout(50000).get();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(doc.select("sup").size()>0){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                       doc.select("sup").remove();//html页面的标注信息
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(doc.select(".mw-editsection").size()>0){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                       doc.select(".mw-editsection").remove();//删除编辑
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      //获取html正文信息
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Elements bodys =  doc.select("#mw-content-text > *");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      StringBuffer text =newStringBuffer();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      //解析 html 获取 概述 和 正文
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      for(Element el : bodys){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      String elText = el.text().trim();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(!StringUtil.isBlank(elText)){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           elText = converter.convert(elText);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(el.attr("id").equals("toc")){//目录
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                               text.append("@@!@@");//定义特殊符号，分割  概述和正文
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(el.tagName().equals("h2")){//分类标题
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                               text.append(""+elText+"
");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(el.tagName().equals("p")){//判断当前文本标签
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                               text.append(""+elText+"
");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      String describe ="";//概述
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      String content ="";//正文
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(!StringUtil.isBlank(text.toString())){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(text.indexOf("@@!@@")>-1){//判断当前text是否存在  正文和概述的分隔符
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           describe = text.substring(0, text.indexOf("@@!@@"));
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           content = text.substring(text.indexOf("@@!@@")+5,text.length());
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           logger.info("概述：--------------");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           logger.info(describe);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           logger.info("正文：--------------");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           logger.info(content);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }else{//如果没有 @@!@@ 分隔符的话，默认用第一段作为概述
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(text.indexOf("")>-1){//默认用第一个分类标题 做分割
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                               describe =  text.substring(0, text.indexOf(""));
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      content = text.substring(text.indexOf("")+4,text.length());
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }else{//用第一个p标签做分割
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                               describe =  text.substring(0, text.indexOf("")+4);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      content = text.substring(text.indexOf("")+7,text.length());
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           logger.info("概述：--------------");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           logger.info(describe);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           logger.info("正文：--------------");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           logger.info(content);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      //添加词条信息到数据库
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Entry entry =newEntry();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                      entry.setName(name);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                      entry.setCategoryId(categoryId);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                      entry.setAuthor("admin");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                      entry.setDescribe(describe);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                      entry.setContent(content);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                      entry.setWikiid(entryId);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      try{
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      entryService.insertSelective(entry);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      logger.info(JSON.toJSONString(entry));
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }catch(Exception e){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      logger.info("词条插入出错:-------"+JSON.toJSONString(entry));
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                      logger.info("属性：--------------");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      //获取页面属性信息   infobox
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Elements infoboxs = doc.select(".infobox");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(infoboxs.size()>0){//查找属性
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Element info = infoboxs.get(0);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Elements trs = info.select("tr");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      for(Element tr : trs){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      String key ="";
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      String val ="";
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(tr.select("th").size()>0&& tr.select("td").size()>0){// key=th 、val=td
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                               key = tr.select("th").text();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      val = tr.select("td").text();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }elseif(tr.select("th").size()==0&& tr.select("td").size()>=2){// key=td 、val=td
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                               key = tr.select("td").get(0).text();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      val = tr.select("td").get(1).text();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           key = converter.convert(key);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                           val = converter.convert(val);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(!StringUtil.isBlank(key)&&!StringUtil.isBlank(val)){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                               logger.info(key+"  :  "+val );
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Meta m =newMeta();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      //判断属性表里是否已存在该属性
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      String metaSql =" select t.id from bk_meta t where t.category_id = '-' and t.name = '"+key+"' ";//is not null
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      //                           logger.info("判断该     '"+key+"'  属性是否已存在------"+metaSql);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      List<Map<String,Object>> metaList = jtLocal.queryForList(metaSql);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      if(metaList.size()==0){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                m.setCategoryId("-");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                       m.setName(key);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      try{
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                          metaService.insertSelective(m);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }catch(Exception e){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                          logger.info("属性插入出错:-------"+JSON.toJSONString(m));
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }else{
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                m.setId(Long.parseLong(metaList.get(0).get("id").toString()));
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Metadata metadata =newMetadata();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                  metadata.setEntryId(entry.getId());
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                  metadata.setMetaId(m.getId());
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                  metadata.setValue(val);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                  metadata.setUpdateTime(date);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      try{
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                      metadataService.insertSelective(metadata);
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }catch(Exception e){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                      logger.info("属性值 插入出错:-------"+JSON.toJSONString(metadata));
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                                      e.printStackTrace();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }catch(IOException e1){
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
                      logger.error(url+"  连接超时!!!");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      Long eTime =System.currentTimeMillis();
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
               logger.info(name+"    --------------------------------------------解析结束：---------------------------------耗时--"+(eTime-sTime)+"毫秒!");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
               logger.info("");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
               logger.info("");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
               logger.info("");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
               logger.info("");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
               logger.info("");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
               logger.info("");
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
       
     
     
     
     
     
     
     
     
      
      
      
      }

你可能感兴趣的:(Jsoup,数据抓取)

00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
如何在电商平台上使用API接口数据优化商品价格 weixin_43841111 api 数据挖掘人工智能 python java 大数据前端爬虫
利用API接口数据来优化电商商品价格是一个涉及数据收集、分析、策略制定以及实时调整价格的过程。这不仅能提高市场竞争力，还能通过精准定价最大化利润。以下是一些关键步骤和策略，用于通过API接口数据优化电商商品价格：1.数据收集竞争对手价格监控：使用API接口（如Scrapy、BeautifulSoup等工具结合Python进行网页数据抓取，或使用专门的API服务如PriceIntelligence、
爬虫和代理IP的关系 xiaoxiongip666 爬虫 tcp/ip 服务器
爬虫和代理IP之间的关系是相互依存的。代理IP为爬虫提供了绕过IP限制、隐藏真实IP、提高访问速度等能力，使得爬虫能够更有效地进行数据抓取。然而，在使用时也需要注意合法性、稳定性、成本以及隐私保护等问题。
如何搭建一个ip池用来做数据抓取用 KookeeyLena4 tcp/ip 网络服务器
在当今的数据驱动时代，数据抓取成为了获取网络信息的重要手段。然而，频繁的数据抓取活动可能会触发网站的安全机制，导致IP被封禁。为了维持数据抓取的持续性和稳定性，构建一个有效的IP池变得至关重要。本文将详细介绍如何搭建一个用于数据抓取的IP池，以及相关的策略和最佳实践。一、IP池的概念IP池是一个包含多个IP地址的集合，这些IP地址可以是动态的，也可以是静态的，用于在数据抓取过程中轮换使用，以避免因
【Python】已解决ModuleNotFoundError: No module named ‘requests’ 屿小夏 python 开发语言
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决ModuleNotFoundError:Nomodulenamed‘requests’一、分析问题背景在使用Python进行网络编程或数据抓取时，requests库因其简洁易用的特性而受到广泛欢迎。然而，当尝试导入requests模块时，有时会遇到“ModuleNotFoundError:Nomodulen
uibot中级实践题，订单录入嗳车机器学习 ui
题目：步骤：系统登录、容错判断、数据抓取、数据清洗、数据筛选、数据表、信息录入、容错判断运行结果关注公众号：auto__BOT，输入：订单录入，获取源码
Haskell爬虫：连接管理与HTTP请求性能小白学大数据 python 爬虫 http 网络协议开发语言 python
爬虫技术作为数据抓取的重要手段，其效率和性能直接影响到数据获取的质量与速度。Haskell，作为一种纯函数式编程语言，以其强大的类型系统和并发处理能力，在构建高效爬虫方面展现出独特的优势。本文将探讨在Haskell中如何通过连接管理和HTTP请求优化来提升爬虫的性能。连接管理的重要性在HTTP请求中，连接管理是一个关键因素。有效的连接管理可以减少建立和关闭连接的开销，提高请求的响应速度。在Hask
如何在Java爬虫中设置代理IP：详解与技巧天启代理ip java 爬虫 tcp/ip
在进行网络爬虫时，使用代理IP可以有效地避免被目标网站封禁，提升数据抓取的成功率。本文将详细介绍如何在Java爬虫中设置代理IP，并提供一些实用的技巧和示例代码。为什么需要代理IP？在进行爬虫操作时，频繁的请求可能会引起目标网站的注意，甚至导致IP被封禁。就像一只贪心的小猫不停地偷鱼吃，迟早会被发现。为了避免这种情况，我们可以使用代理IP，模拟多个用户，从而降低被封禁的风险。获取代理IP获取代理I
2024年Java爬虫利器：Jsoup详细介绍与用法_java jsoup(1) 2401_84562143 程序员 java 爬虫开发语言
.method(Connection.Method.GET).execute();DocumentloginDoc=loginForm.parse();Elementform=loginDoc.select(“form”).first();//填充表单字段form.select(“input[name=username]”).val(“username”);form.select(“input[n
Java爬虫开发：Jsoup库在图片URL提取中的实战应用小白学大数据 python java 爬虫开发语言测试工具前端 javascript
在当今的互联网时代，数据的获取和处理变得尤为重要。对于网站内容的自动化抓取，爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言，拥有丰富的库支持网络爬虫的开发。其中，Jsoup库以其简洁、高效的特点，成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫，以实现图片URL的提取。Jsoup库简介Jsoup是一个用于解析HTML文档的Java库，它
中国地图省市县区数据抓取广东数字化转型 java 省市县地图抓取
抓取地址：DataV.GeoAtlas地理小工具系列https://datav.aliyun.com/portal/school/atlas/area_selector#&lat=30.332329214580188&lng=106.75386074913891&zoom=4.5抓取代码：抓取后，可以用BeyondCompare4工具查看比较数据抓取是否正确。packagecom.lc.iot.c
Scrapy添加代理IP池：自动化爬虫的秘密武器天启代理ip scrapy tcp/ip 自动化
在网络爬虫的世界里，IP地址的频繁更换是防止被目标网站封禁的有效手段。通过在Scrapy中添加代理IP池，你可以轻松实现自动化的IP切换，提高数据抓取的效率和稳定性。今天，我们就来详细讲解一下如何在Scrapy中添加代理IP池，让你的爬虫更加智能和高效。什么是代理IP池？代理IP池是指一组可以轮换使用的代理IP地址集合。通过在爬虫中使用代理IP池，你可以在每次请求时随机选择一个代理IP，从而避免因
数据爬虫工作中的IP清理频率 KookeeyLena3 爬虫 tcp/ip 网络协议
在大数据和信息时代，数据爬虫已经成为获取信息的重要手段。然而，频繁的数据抓取往往会引发目标网站的反爬虫机制，导致IP地址被封禁。因此，对于经常进行数据爬虫抓取工作的人来说，合理管理和清理IP地址显得尤为重要。首先，我们要了解为何需要清理或更换IP。在爬虫工作中，频繁的请求很容易触发网站的安全机制，从而被封禁IP。一旦IP被封，爬虫将无法继续从该网站抓取数据。为了避免这种情况，爬虫工作者需要定期更换
python股票自动交易从零开始-python程序化交易编程-python制作自动交易程序! weixin_37988176
如何用python进行期货程序化交易、程序化交易系统目前主要是通过计算机程序实现的，其实就是把交易者决策的过程用计算机语言描述出来，然后由计算机给出交易建议或直接发送交易指令到期货公司的。SDYGDFHFGJFGFTYKGHKTY你就是想找个软件或者券商的接口去上传交易指令，你前期的数据抓取和分析可能python都写好了，所以差这交易指令接口最后一步。对于股票的散户，正规的法子是华宝。国内量化交易
使用Python调用JavaScript进行网页自动化操作小白学大数据 python python javascript 自动化数据库爬虫
随着互联网技术的飞速发展，网页自动化操作在数据抓取、用户界面测试、内容管理等多个领域变得越来越重要。Python作为一种流行的编程语言，因其简洁的语法和强大的库支持，成为了许多开发者进行网页自动化的首选工具。然而，面对动态生成的网页内容，传统的HTTP请求库（如requests）就显得力不从心。此时，JavaScript的作用就显得尤为重要。本文将介绍如何使用Python调用JavaScript进
爬虫使用优质代理：确保高效稳定的数据采集之道神龙IP. 爬虫
爬虫使用优质代理的最佳实践在进行网络爬虫时，使用优质代理就像是为你的爬虫装上了强劲的发动机，能够大幅提升数据抓取的效率和成功率。然而，选择和使用优质代理并非易事，今天我们就来探讨如何在爬虫中有效使用优质代理。1.什么是优质代理？优质代理通常指的是那些速度快、稳定性高、匿名性强的代理IP。这些代理能够提供快速的响应时间，减少请求失败的概率，同时有效保护用户的真实IP地址。优质代理就像是一条畅通的高速
爬虫技巧分享：掌握高效数据抓取的艺术 shiming8879 爬虫 python
爬虫技巧分享：掌握高效数据抓取的艺术在当今数据驱动的世界里，爬虫技术成为了获取网页信息、分析数据不可或缺的工具。无论是学术研究、市场调研，还是商业智能，爬虫都扮演着重要的角色。然而，要编写出高效、稳定的爬虫，并非易事。本文将为你分享一系列爬虫技巧，帮助你更好地掌握数据抓取的艺术。一、基础篇：构建稳健的爬虫基础选择合适的库和工具在开始编写爬虫之前，选择合适的库和工具至关重要。Python作为一门简洁
周口泰利网络科技有限公司店淘软件基本介绍 Huang_b777
周口泰利网络科技有限公司店淘软件都有什么功能，先给大家截图看一下软件页面：上面是咱们软件的页面，咱们的软件能集采集、上货、筛选、过滤、裂变、侦察兵、一键采集上下架、一键找上家、清除僵尸宝贝、数据抓取、超级公益等等与一身，功能全面，筛选准确，过滤精细的一套软件。软件不定时更新，不定时升级，能助大家开店一臂之力！
如何在Python中使用IP代理天启代理ip python tcp/ip 开发语言
在网络爬虫、数据抓取等应用场景中，使用IP代理可以有效避免IP被封禁，提高爬取效率。本文将详细介绍如何在Python中使用IP代理，帮助你在实际项目中灵活应用。准备工作在开始之前，你需要准备以下工具和资源：Python环境：建议使用Python3.x版本。代理IP信息：包含代理IP地址和端口号的列表。requests库：用于发送HTTP请求。步骤一：安装requests库首先，确保你的Python
如何让python爬虫的数据可视化？喝汽水么信息可视化 python 开发语言学习计算机网络
Python爬虫数据可视化是一个涉及多个步骤的过程，主要包括数据抓取、数据处理、以及使用可视化库进行数据展示。以下是一个基本的流程介绍和示例，帮助你理解如何使用Python实现这一过程。第一步：数据抓取首先，你需要使用Python的爬虫库（如requests和BeautifulSoup，或者更高级的Scrapy）来抓取网页数据。这里以requests和BeautifulSoup为例：importr
掌握axios：在TypeScript中进行高效网页数据抓取小白学大数据亿牛云代理 typescript javascript 前端爬虫 python
在当今的互联网时代，数据已成为企业最宝贵的资产之一。无论是社交媒体分析、市场趋势预测还是用户行为研究，高效地获取和处理网页数据都是至关重要的。本文将通过访问抖音平台的案例，介绍如何在TypeScript中使用axios库进行高效的网页数据抓取。抖音平台概述抖音是一个流行的短视频分享平台，用户可以在这里创作和分享各种有趣的视频内容。对于数据分析师和开发者来说，抖音提供了丰富的用户生成内容，是进行社交
【吐血整理】Python爬虫实战！从入门到放弃，手把手教你数据抓取秘籍 eclipsercp 毕业设计 python 爬虫 pip python 爬虫
【吐血整理】Python爬虫实战！从入门到放弃，手把手教你数据抓取秘籍1.网络爬虫与数据抓取概述1.1网络爬虫定义与重要性网络爬虫，又称为网页蜘蛛或爬虫，是一种用来自动浏览万维网的程序。它按照一定的算法顺序抓取网页内容，同时将抓取到的数据存储起来，用于进一步的分析和处理。定义：网络爬虫是一个自动提取网页的程序，它从互联网上采集网页并提取其中的信息。重要性：网络爬虫在信息获取、数据挖掘、搜索引擎构建
python从入门到精通（十五）：python爬虫完整学习大纲 HACKNOE python 爬虫学习
一、基础知识爬虫的基本概念和工作原理。HTTP协议和网页结构。Python爬虫开发的基础库，如requests、BeautifulSoup等。常见的反爬虫机制和应对方法。二、爬虫逆向的技术代理服务器和IP封锁突破。用户代理和请求头模拟。JavaScript解析和执行。验证码识别和破解。动态网页抓取和爬虫框架。三、数据抓取和处理数据抓取的技巧和策略。数据清洗和预处理。数据存储和数据库操作。数据分析和
HTTP代理ip如何助旅游大数据领域？怎么去建立安全代理隧道连接？ luludexingfu http tcp/ip 旅游
HTTP代理IP在旅游大数据领域的应用主要体现在以下几个方面：数据抓取：旅游大数据的获取往往需要从各种在线旅游平台、社交媒体、评论网站等抓取数据。使用HTTP代理IP可以在抓取过程中隐藏真实IP，避免被目标网站封锁，从而持续、稳定地获取数据。分布式数据采集：通过在不同地理位置的代理服务器上设置HTTP代理IP，可以实现分布式数据采集，收集来自不同地区的旅游数据，为旅游行业提供更全面的市场分析。访问
不通过修改代码可以调用不同方法的三种方式山间清泉1111
Stringpath=JsoupDemo1.class.getClassLoader().getResource("com/mujiachao/xml/dtd/student.xml").getPath();Documentdocument=Jsoup.parse(newFile(path),"utf-8");Elementsname=document.getElementsByTag("name
计算机毕设分享面向高考招生咨询的问答系统设计与实现（源码+论文）源码爱鸭高考毕设毕业设计开源
文章目录0项目说明1项目说明2系统设计3系统功能3.1问答3.2问题模板4实验结果5论文目录6项目工程0项目说明面向高考招生咨询的问答系统设计与实现提示：适合用于课程设计或毕业设计，工作量达标，源码开放1项目说明本系统主要从数据获取，问题分类，问题处理和答案生成以及软件设计四个方面论述自动问答系统的设计与实现。数据获取涉及到网络数据抓取技术，数据库存储与操作，本文使用了python网络爬虫和MyS
抖音视频评论批量下载软件|抖音数据抓取工具 weixin_aa162686 音视频大数据 c#
随着业务需求的增长，抖音视频的下载需求也日益增加。传统的方式是通过逐个复制粘贴分享链接来下载视频，这种操作效率低下且耗时费力。为了解决这一问题，我们开发了一款基于C#的抖音视频评论批量下载软件，旨在实现通过关键词自动批量抓取和下载视频，极大地提高工作效率。工具功能介绍：工具界面分为两大块：批量视频提取和固定视频提取。批量视频提取：支持通过关键词搜索视频进行批量提取。固定视频提取：可通过分享链接单独
挑战30天学完Python：Day22 爬虫 Mega Qi 挑战30天学完Python python 爬虫开发语言
本系列为Python基础学习，原稿来源于30-Days-Of-Python英文项目，大奇主要是对其本地化翻译、逐条验证和补充，想通过30天完成正儿八经的系统化实践。此系列适合零基础同学，或仅了解Python一点知识，但又没有系统学习的使用者。总之如果你想提升自己的Python技能，欢迎加入《挑战30天学完Python》Day22Python爬虫第22天练习Day22Python爬虫什么是数据抓取互
抖音数据抓取工具|短视频下载工具|视频内容提取软件 weixin_CIA7500 音视频
一、开发背景：随着抖音平台的流行，越来越多的人希望能够下载抖音视频以进行个人收藏或分享。然而，目前在网上找到的抖音视频下载工具功能单一，操作繁琐，无法满足用户的需求。因此，我们决定开发一款功能强大、操作简便的抖音视频下载工具，旨在提供更好的用户体验。二、工具功能介绍：我们的抖音视频下载工具具有以下主要功能：批量视频下载：用户可以通过输入关键词，实现对抖音平台上相关视频的自动批量抓取和下载。工具会自
网络爬虫使用长效IP有哪些帮助？长效IP怎么更换电脑IP地址？动态代理ip网络爬虫
随着互联网的普及和发展，网络爬虫作为一种自动化程序，在数据抓取、信息收集等方面发挥着越来越重要的作用。然而，在进行网络爬虫操作时，经常会遇到IP被封禁或限制访问的情况，这给数据抓取工作带来了很大的不便。此时，使用长效IP来解决这个问题成为了许多网络爬虫程序的首选方案。本文将介绍网络爬虫使用长效IP的帮助以及如何更换电脑IP地址。来百度APP畅享高清图片一、网络爬虫使用长效IP的帮助防止IP被封禁在
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

抓取维基百科数据

1方案概述

2方案分析

2.1 ApacheNutch

2.1.1原理

2.1.2不足

2.2 JWPL

2.2.1原理

2.2.2不足

2.3 Jsoup

2.3.1原理

2.3.2不足

3方案实施

3.1 结论

3.2 步骤

3.2.1Jwpl解析wiki数据

3.2.1.1下载维基百科历史数据

3.2.1.2下载Wikipedia离线阅读器WikiTaxi

3.2.1.3下载JWPL jar

3.2.1.4通过JWPL 中的DataMachine 工具解析下载的历史数据

3.2.1.5将解析完成的 txt文件导入到mysql数据库中

3.2.1.5.1创建数据库

3.2.1.5.2执行建表sql

3.2.1.5.3导入数据库

3.2.2Jsoup解析hml

"+elText+"

`")>-1){//默认用第一个分类标题做分割`

`"));`

`")+4,text.length());`

你可能感兴趣的:(Jsoup,数据抓取)

抓取维基百科数据

1方案概述

2方案分析

2.1 ApacheNutch

2.1.1原理

2.1.2不足

2.2 JWPL

2.2.1原理

2.2.2不足

2.3 Jsoup

2.3.1原理

2.3.2不足

3方案实施

3.1 结论

3.2 步骤

3.2.1Jwpl解析wiki数据

3.2.1.1下载维基百科 历史数据

3.2.1.2下载Wikipedia离线阅读器WikiTaxi

3.2.1.3下载JWPL jar

3.2.1.4通过JWPL 中的DataMachine 工具 解析下载的历史数据

3.2.1.5将解析完成的 txt文件导入到mysql数据库中

3.2.1.5.1创建数据库

3.2.1.5.2执行建表sql

3.2.1.5.3导入数据库

3.2.2Jsoup解析hml

"+elText+"

")>-1){//默认用第一个分类标题 做分割

"));

")+4,text.length());

你可能感兴趣的:(Jsoup,数据抓取)

3.2.1.1下载维基百科历史数据

3.2.1.4通过JWPL 中的DataMachine 工具解析下载的历史数据

`")>-1){//默认用第一个分类标题做分割`

`"));`

`")+4,text.length());`