新闻机制抓取

1.由于项目需求,需要从特定的网站上抓取新闻,保存到本地的数据中,并且将程序打包成可运行jar,在windows自带的系统中,定时运行。

现将开放过程写出来,与大家分享。

开发前准备:

程序需要的jar

2.抓取新闻的网站:是用配置文件的形式

新建配置文件:lmsp-snatch-dataconfig.xml:内容如下:




    
        http://www.linkstec.com/*
        http://www.cs.com.cn/gppd/zzyj/*
        http://www.cs.com.cn/gppd/gszb/*
        http://www.cs.com.cn/gppd/scyj/*
        http://www.cs.com.cn/gppd/mjks/*
        http://www.cs.com.cn/gppd/cbjj/*
        http://www.cs.com.cn/sylm/zjyl_1/*
        http://www.cs.com.cn/gppd/tzpj/*
        http://www.cs.com.cn/gppd/ggrp/*
        http://www.cs.com.cn/gppd/gzqh/*
        http://www.cs.com.cn/gppd/hyyj/*
        http://www.cs.com.cn/gppd/sjjj/*
        http://www.cs.com.cn/gppd/bgdt/*
        [0-9]{6}/t[0-9]{8}
        对不起,您要访问的页面暂时没有找到
        index_
        .html
        cs.com.cn
        中证网
    

    
        http://company.stcn.com/*
        (\/[0-9]{4}){2}\/[0-9]{8}(\.\w+)
        对不起,您要访问的页面暂时没有找到
        
        .shtml
        stcn.com
        证券时报
    
    

3.程序使用的线程(建议不要修改)

新建配置文件:lmsp-snatch-threadconfig.xml:内容如下:



    0
    5

4.链接本地数据库,将从网站抓取的数据,保存到本地数据库

新建配置文件:lmsp-snatch-connection.xml 内容如下:



    oracle.jdbc.driver.OracleDriver
    jdbc:oracle:thin:@192.168.2.230:1521:ORCL
    DBTHNEW
    DBTHNEW

 

转载于:https://www.cnblogs.com/gyb109/p/6601740.html

你可能感兴趣的:(数据库)