网页爬虫--历史上的今天

网页爬虫–历史上的今天

上篇博客中我们知道了,调用第三方的API获得我们想要的数据,如果我们要的数据没有现成的API怎么办?那就需要我们去网站上爬数据了。下面就教大家怎么去网页上爬我们需要的数据。

一.使用Java JDK中的工具自己实现HTTP和HTTPS请求

写一个HttpUtils 工具类:

package org.sunming.util;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.net.ConnectException;
import java.net.HttpURLConnection;
import java.net.URL;
import org.sm.util.data.MyX509TrustManager;
import javax.net.ssl.HttpsURLConnection;
import javax.net.ssl.SSLContext;
import javax.net.ssl.SSLSocketFactory;
import javax.net.ssl.TrustManager;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import net.sf.json.JSONObject;

/**
 * 2017-8-19
 * 
 * @author sunming
 */
public class HttpUtils {

    private static Logger log = LoggerFactory.getLogger(HttpUtils.class);

    /**
     * 发起https请求并获取结果
     * 
     * @param requestUrl
     *            请求地址
     * @param requestMethod
     *            请求方式(GET、POST)
     * @param outputStr
     *            提交的数据
     * @return JSONObject(通过JSONObject.get(key)的方式获取json对象的属性值)
     */
    public static JSONObject httpsRequest(String requestUrl, String requestMethod, String outputStr) {

    JSONObject jsonObject = null;
    StringBuffer buffer = new StringBuffer();
    try {
        // 创建SSLContext对象,并使用我们指定的信任管理器初始化
        TrustManager[] tm = { new MyX509TrustManager() };
        SSLContext sslContext = SSLContext.getInstance("SSL", "SunJSSE");
        sslContext.init(null, tm, new java.security.SecureRandom());
        // 从上述SSLContext对象中得到SSLSocketFactory对象
        SSLSocketFactory ssf = sslContext.getSocketFactory();

        URL url = new URL(requestUrl);
        HttpsURLConnection httpsUrlConn = (HttpsURLConnection) url.openConnection();
        httpsUrlConn.setSSLSocketFactory(ssf);

        httpsUrlConn.setDoOutput(true);
        httpsUrlConn.setDoInput(true);
        httpsUrlConn.setUseCaches(false);
        // 设置请求方式(GET/POST)
        httpsUrlConn.setRequestMethod(requestMethod);

        if ("GET".equalsIgnoreCase(requestMethod)) {
        httpsUrlConn.connect();
        }
        // 当有数据需要提交时
        if (null != outputStr) {
        OutputStream outputStream = httpsUrlConn.getOutputStream();
        // 注意编码格式,防止中文乱码
        outputStream.write(outputStr.getBytes("UTF-8"));
        outputStream.close();
        }

        // 将返回的输入流转换成字符串
        InputStream inputStream = httpsUrlConn.getInputStream();
        InputStreamReader inputStreamReader = new InputStreamReader(inputStream, "utf-8");
        BufferedReader bufferedReader = new BufferedReader(inputStreamReader);

        String str = null;
        while ((str = bufferedReader.readLine()) != null) {
        buffer.append(str);
        }
        bufferedReader.close();
        inputStreamReader.close();
        // 释放资源
        inputStream.close();
        inputStream = null;
        httpsUrlConn.disconnect();
        jsonObject = JSONObject.fromObject(buffer.toString());
    } catch (ConnectException ce) {
        log.error("Weixin server connection timed out.");
    } catch (Exception e) {
        log.error("https request error:{}", e);
    }
    return jsonObject;
    }

    public static String httpRequest(String requestUrl, String requestMethod, String outputStr) {
    StringBuffer buffer = null;

    try {
        // 建立连接
        URL url = new URL(requestUrl);
        HttpURLConnection httpUrlConn = (HttpURLConnection) url.openConnection();
        httpUrlConn.setDoInput(true);
        httpUrlConn.setDoInput(true);
        // 设置请求方式(GET/POST)
        httpUrlConn.setRequestMethod(requestMethod);
        if ("GET".equalsIgnoreCase(requestMethod)) {
        httpUrlConn.connect();
        }

        // 当有数据需要提交时
        if (null != outputStr) {
        OutputStream outputStream = httpUrlConn.getOutputStream();
        // 注意编码格式,防止中文乱码
        outputStream.write(outputStr.getBytes("UTF-8"));
        outputStream.close();
        }

        // 获取输入流
        InputStream inputStream = httpUrlConn.getInputStream();
        InputStreamReader inputStreamReader = new InputStreamReader(inputStream, "utf-8");
        BufferedReader bufferedReader = new BufferedReader(inputStreamReader);

        // 读取返回结果
        buffer = new StringBuffer();
        String str = null;
        while ((str = bufferedReader.readLine()) != null) {
        buffer.append(str);
        }
        // 释放资源
        bufferedReader.close();
        inputStreamReader.close();
        inputStream.close();
        httpUrlConn.disconnect();
    } catch (Exception e) {
        e.printStackTrace();
    }
    return buffer.toString();
    }
}

工具类即支持GET请求,也支持POST请求,只需要掉用请求的时候传入一个请求方式就可以。

其中HTTPS请求涉及到证书的问题,所以我们需要一个证书信任管理器,这个管理器类需要自己定义,只需要实现X509TrustManager接口。

package org.sunming.util;

import java.security.cert.CertificateException;
import java.security.cert.X509Certificate;

import javax.net.ssl.X509TrustManager;

public class MyX509TrustManager implements X509TrustManager {

    @Override
    public void checkClientTrusted(X509Certificate[] arg0, String arg1) throws CertificateException {
    // TODO Auto-generated method stub

    }

    @Override
    public void checkServerTrusted(X509Certificate[] arg0, String arg1) throws CertificateException {
    // TODO Auto-generated method stub

    }

    @Override
    public X509Certificate[] getAcceptedIssuers() {
    // TODO Auto-generated method stub
    return null;
    }

}

二.选择合适的网页爬去数据

对于历史上的今天,我们选择的是http://www.lssdjt.com/。
网页爬虫--历史上的今天_第1张图片

网页上的数据很多但是我们需要的只是红框里面的数据怎么得到呢?

先获取网页的源代码

String url = "http://www.lssdjt.com/";
String html = HttpUtils.httpRequest(url, "GET", null);

<html lang="zh-CN">
<head>
<meta charset="UTF-8" />
<meta http-equiv="X-UA-Compatible" content="IE=7" />
<meta name="keywords"
    content="历史上的今天官网,历史上的今天,历史上今天,历史今天,口述历史,历史故事,历史人物,今天是什么日子,历史上的今天发生了什么" />
<meta name="description"
    content="历史上的今天官网(唯一指定网址:http://www.LSSDJT.com),充分挖掘历史老照片资源,以口述形式,适当运用音频渲染方式,以时间为线索,梳理历史上每一天所发生的大事件,给当下带来借鉴与感悟。《历史今天》让照片讲述故事,让历史照亮现实,让今天看清方向。查看历史上每天发生的重大事情,增长知识,开拓眼界,提高人文素养。" />
<title>历史上的今天官网title>
<LINK href="favicon.ico" type="image/x-icon" rel="shortcut icon">
<link href="/i/2014/css/index.css" type="text/css" rel="stylesheet" />

head>
<body>
    <div class="mini_wrap mb5 clearfix">
        <div class="mini w730">
            <ul class="l">
                <li class="minilogo"><a href="http://www.lssdjt.com/?back"
                    target="_self">历史今天官网a>li>
                <li><a href="http://www.lssdjt.com/jieri/" target="_blank">节日大全a>li>
                <li><a href="http://www.lssdjt.com/wnl/" target="_blank">万年历a>li>
                <li>    li>
                <li>
                    
                    <div id="bdshare" class="bdshare_t bds_tools get-codes-bdshare">
                        <span class="bds_more">分享到:span><a class="bds_qzone">a><a
                            class="bds_tsina">a><a class="bds_tqq">a><a
                            class="bds_renren">a><a class="bds_t163">a><a
                            class="shareCount">a>
                    div> <script type="text/javascript" id="bdshare_js"
                        data="type=tools&uid=6860001">script> <script
                        type="text/javascript" id="bdshell_js">script> <script
                        type="text/javascript">
                            document.getElementById("bdshell_js").src = "http://bdimg.share.baidu.com/static/js/shell_v2.js?cdnversion="
                                    + Math.ceil(new Date() / 3600000)
                        script> 
                li>
            ul>
            <ul class="r">
                <a href="http://www.lssdjt.com/code/else.htm" target="_blank"><font
                    color="red">chorme插件font>a>
                <li class="setting"><a href="javascript:void(0);"
                    id="setting-trigger">换肤a>li>
            ul>
            <p id="skin-box" class="clearfix">p>
        div>
    div>
    <div class="w730 clearfix">
        <ul class="mb5 clearfix">
            <li class="l w210" id="websiteLogo"><a href="/"><img
                    src="/i/2014/img/logo.gif" alt="把 历史上的今天官网,唯一指定网址:LSSDJT.COM 设为首页"
                    border="0" />a>li>
            <li class="r" id="top_banner"><img
                src="/i/images/banner_top.png" />li>
        ul>
        <ul class="nav mb5 clearfix">
            <div class="info">2017年08月19日 丁酉年六月廿八div>
        ul>
    div>
    <div class="w730 mb5 clearfix">
        <div class="box">
            <p class="img-focus">p>
            <div id="slideshow">
                <p class="paging">p>
                <p class="preview">p>
                <div class="current">
                    <p>
                        <a href="/d/19910819.htm" target="_blank"><img
                            src="http://img.lssdjt.com/200905/17/12212853973.jpg"
                            alt="苏联“八·一九”事件" />a>
                    p>
                    <span><a href="/d/19910819.htm" target="_blank">1991年8月19日
                            苏联“八·一九”事件a>span>
                div>
                <div>
                    <p>
                        <a href="/d/19150819.htm" target="_blank"><img
                            src="http://img.lssdjt.com/200905/17/75214420292.jpg"
                            alt="“好莱坞第一夫人”英格丽·褒曼出生" />a>
                    p>
                    <span><a href="/d/19150819.htm" target="_blank">1915年8月19日
                            “好莱坞第一夫人”英格丽·褒曼出生a>span>
                div>
                <div>
                    <p>
                        <a href="/d/19460819.htm" target="_blank"><img
                            src="http://img.lssdjt.com/201010/2/6B14447546.jpg"
                            alt="美国第42任总统比尔·克林顿出生" />a>
                    p>
                    <span><a href="/d/19460819.htm" target="_blank">1946年8月19日
                            美国第42任总统比尔·克林顿出生a>span>
                div>
                <div>
                    <p>
                        <a href="/d/19780819.htm" target="_blank"><img
                            src="http://img.lssdjt.com/201108/19/FE113431639.jpg"
                            alt="红卫兵组织在历史舞台消失" />a>
                    p>
                    <span><a href="/d/19780819.htm" target="_blank">1978年8月19日
                            红卫兵组织在历史舞台消失a>span>
                div>
                <div>
                    <p>
                        <a href="/d/18830819.htm" target="_blank"><img
                            src="http://img.lssdjt.com/201608/22235625394.jpg"
                            alt="“时尚女王”香奈儿诞生" />a>
                    p>
                    <span><a href="/d/18830819.htm" target="_blank">1883年8月19日
                            “时尚女王”香奈儿诞生a>span>
                div>
                <div>
                    <p>
                        <a href="/d/1942819.htm" target="_blank"><img
                            src="http://img.lssdjt.com/200905/17/8D213858943.jpg"
                            alt="斯大林格勒大会战开始" />a>
                    p>
                    <span><a href="/d/1942819.htm" target="_blank">1942年8月19日
                            斯大林格勒大会战开始a>span>
                div>
            div>
        div>
        <div class="box mt5 p5 clearfix">
            <ul class="l">
                <img src="/i/dot/dd.gif">《历史上的今天》官网,
                <font color=red>老牌新址font>:http://www.LSSDJT.com “拼音首字母”请认准!。
                <a rel="nofollow" href="#" target="_self"
                    onclick="javascript:clect()">收藏到QQ书签a>
            ul>
            <ul class="r">
                <a href="/a/about/course.htm" style="color: red;" target="_blank"><img
                    src="/i/dot/fx.gif">走近官网!a>
            ul>
        div>
        <div class="box mt5 clearfix">
            <ul class="p5">
                <a href="/d/20170808.htm" title="8·8九寨沟地震" target="_blank"><img
                    src="/i/dot/dd.gif">2017年8月8日,8·8九寨沟地震。a>   
                <a href="/d/20170807.htm" title="郎咸平遭围堵" target="_blank"><img
                    src="/i/dot/dd.gif">2017年8月7日,郎咸平遭围堵。a>   
                <a href="/d/20170731.htm" title="布达佩斯游泳世锦赛落幕" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月31日,布达佩斯游泳世锦赛落幕。a>   
                <a href="/d/20170730.htm" title="建军90年大阅兵" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月30日,建军90年大阅兵。a>   
                <a href="/d/2017730.htm" title="委内瑞拉选举引发暴乱" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月30日,委内瑞拉选举引发暴乱。a>   
                <a href="/d/20170728.htm" title="“租房落户”新规在无锡实施" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月28日,无锡发布全国首个“租购同权”新政。a>   
                <a href="/d/20170726.htm" title="印度西孟加拉邦大吉岭地区爆发大规模内乱"
                    target="_blank"><img src="/i/dot/dd.gif">2017年7月26日,印度西孟加拉邦大吉岭地区爆发新的骚乱。a>   
                <a href="/d/20170724.htm" title="中国禁贾斯汀演出" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月24日,中国拒绝加拿大男歌手贾斯汀·比伯来华演出。a>   
                <a href="/d/2017724.htm" title="游泳世锦赛孙杨400自登顶" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月24日,游泳世锦赛孙杨400自登顶。a>   
                <a href="/d/20170720.htm" title="科学家首次发现双粲重子" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月20日,科学家首次发现双粲重子。a>   
                <a href="/d/2017720.htm" title="华人科学家发现“天使粒子”" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月20日,华人科学家发现“天使粒子”。a>   
                <a href="/d/20170718.htm" title="中国正式向全世界发布洋垃圾“禁令” " target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月18日,中国正式向全世界发布洋垃圾“禁令” 。a>   
                <a href="/d/20170717.htm" title="世界首个3D打印软体人工心脏诞生" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月17日,世界首个3D打印软体人工心脏诞生:只能跳45分钟。a>   
                <a href="/d/20170715.htm" title="北京到新疆高速公路贯通" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月15日,北京到新疆高速公路大通道全线贯通。a>   
                <a href="/d/20170707.htm" title="特朗普和普京首次正式会晤" target="_blank"><img
                    src="/i/dot/dd.gif">2017年7月7日,特朗普和普京首次正式会晤。a>   
                <span class="r"><a href="/a/year/2017.htm" target="_blank"><img
                        src="/i/dot/dd.gif">2017年历史上发生了什么?a>span>
            ul>
        div>
    div>
    <div class="w730 mt5 clearfix">
        <div class="l w515">
            <div class="box">
                <div class="hd">
                    <h4>
                        <b>今天是2017年08月19日 (农历六月廿八)b>
                    h4>
                div>
                <div class="main">
                    <ul class="list clearfix">
                        <li class="gong st3"><a
                            href="http://www.lssdjt.com/d/140819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201212/30/0D161915810.jpg"
                            title="罗马帝国屋大维逝世" target="_blank"><em>14年08月19日em> <i>罗马帝国屋大维逝世i>a>li>
                        <li class="gong st3"><a
                            href="http://www.lssdjt.com/d/16620819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/8814812296.jpg"
                            title="法国著名物理学家、近代概率论的奠基者帕斯卡逝世" target="_blank"><em>1662年08月19日em>
                                <i>法国著名物理学家、近代概率论的奠基者帕斯卡逝世i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/17270819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/0C135551655.jpg"
                            title="黑尔斯观察到煤在密封容器内加热会产生 “易燃气体”" target="_blank"><em>1727年08月19日em>
                                <i>黑尔斯观察到煤在密封容器内加热会产生 “易燃气体”i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/18610819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201108/19/4F114326405.jpg"
                            title="大成国起义军主力受重挫" target="_blank"><em>1861年08月19日em> <i>大成国起义军主力受重挫i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/18660819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/C613351485.jpg"
                            title="左宗棠在福建设立清政府规模最大的新式造船厂" target="_blank"><em>1866年08月19日em>
                                <i>左宗棠在福建设立清政府规模最大的新式造船厂i>a>li>
                        <li class="gong st4"><a
                            href="http://www.lssdjt.com/d/18810819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201108/19/EE114157368.jpg"
                            title="罗马尼亚作曲家埃乃斯库诞生" target="_blank"><em>1881年08月19日em> <i>罗马尼亚作曲家埃乃斯库诞生i>a>li>
                        <li class="gong st4"><a
                            href="http://www.lssdjt.com/d/18830819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201608/22235625394.jpg"
                            title="“时尚女王”香奈儿诞生" target="_blank"><em>1883年08月19日em> <i>“时尚女王”香奈儿诞生i>a>li>
                        <li class="gong st4"><a
                            href="http://www.lssdjt.com/d/19030819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/8914259919.jpg"
                            title="中国森林经理学的开拓者之一邵均出生" target="_blank"><em>1903年08月19日em>
                                <i>中国森林经理学的开拓者之一邵均出生i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19040819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201108/19/8B114623826.jpg"
                            title="日军向俄军坚守的旅顺港要塞发起第一次进攻" target="_blank"><em>1904年08月19日em>
                                <i>日军向俄军坚守的旅顺港要塞发起第一次进攻i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19050819.htm" title="俄国沙皇成立杜马"
                            target="_blank"><em>1905年08月19日em> <i>俄国沙皇成立杜马i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19080819.htm" title="比利时正式兼并刚果"
                            target="_blank"><em>1908年08月19日em> <i>比利时正式兼并刚果i>a>li>
                        <li class="gong st4"><a
                            href="http://www.lssdjt.com/d/19150819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/200905/17/75214420292.jpg"
                            title="“好莱坞第一夫人”英格丽·褒曼出生" target="_blank"><em>1915年08月19日em>
                                <i>“好莱坞第一夫人”英格丽·褒曼出生i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19180819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/200905/17/94214346138.jpg"
                            title="诗人李叔同出家" target="_blank"><em>1918年08月19日em> <i>诗人李叔同出家i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/xibanyaliugan.htm"
                            class="screenshot"
                            rel="http://img.lssdjt.com/201308/20/9313053283.jpg"
                            title="欧洲爆发了“西班牙流感”" target="_blank"><em>1918年08月19日em> <i>欧洲爆发了“西班牙流感”i>a>li>
                        <li class="gong st3"><a
                            href="http://www.lssdjt.com/d/19250819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/200905/17/C7214256579.jpg"
                            title="中共创始人之一王烬美病逝" target="_blank"><em>1925年08月19日em> <i>中共创始人之一王烬美病逝i>a>li>
                        <li class="gong st4"><a
                            href="http://www.lssdjt.com/d/19260819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201108/19/FB1108993.jpg"
                            title="北京曲剧演员魏喜奎诞生" target="_blank"><em>1926年08月19日em> <i>北京曲剧演员魏喜奎诞生i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19420819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/200905/17/C6213849752.jpg"
                            title="盟军突击队袭击迪耶普失败" target="_blank"><em>1942年08月19日em> <i>盟军突击队袭击迪耶普失败i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/1942819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/200905/17/8D213858943.jpg"
                            title="斯大林格勒大会战开始" target="_blank"><em>1942年08月19日em> <i>斯大林格勒大会战开始i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19440819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201108/19/5E113126997.jpg"
                            title="巴黎市民发动起义" target="_blank"><em>1944年08月19日em> <i>巴黎市民发动起义i>a>li>
                        <li class="gong st3"><a
                            href="http://www.lssdjt.com/d/Kluge.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201108/19/14115526169.jpg"
                            title="纳粹德国陆军元帅京特·冯·克鲁格畏罪自杀" target="_blank"><em>1944年08月19日em>
                                <i>纳粹德国陆军元帅京特·冯·克鲁格畏罪自杀i>a>li>
                        <li class="gong st3"><a
                            href="http://www.lssdjt.com/d/19450819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/BE144621379.jpg"
                            title="印度民族解放运动的领导人鲍斯逝世" target="_blank"><em>1945年08月19日em>
                                <i>印度民族解放运动的领导人鲍斯逝世i>a>li>
                        <li class="gong st4"><a
                            href="http://www.lssdjt.com/d/19460819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/6B14447546.jpg"
                            title="美国第42任总统比尔·克林顿出生" target="_blank"><em>1946年08月19日em>
                                <i>美国第42任总统比尔·克林顿出生i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19480819.htm" title="国民党政府“改革币制”"
                            target="_blank"><em>1948年08月19日em> <i>国民党政府“改革币制”i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/1948819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/200905/17/CD213553613.jpg"
                            title="国民政府发行金圆券" target="_blank"><em>1948年08月19日em> <i>国民政府发行金圆券i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19530819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/23125643288.jpg"
                            title="伊朗摩萨台政府被推翻" target="_blank"><em>1953年08月19日em> <i>伊朗摩萨台政府被推翻i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19580819.htm"
                            title="我国奥委会同国际奥委会断绝关系" target="_blank"><em>1958年08月19日em>
                                <i>我国奥委会同国际奥委会断绝关系i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19680819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/9D134841601.jpg"
                            title="河北满城汉墓发掘" target="_blank"><em>1968年08月19日em> <i>河北满城汉墓发掘i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19780819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201108/19/FE113431639.jpg"
                            title="红卫兵组织在历史舞台消失" target="_blank"><em>1978年08月19日em> <i>红卫兵组织在历史舞台消失i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19790819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/200905/17/12213058517.jpg"
                            title="柬埔寨谴责波尔布特搞大屠杀" target="_blank"><em>1979年08月19日em> <i>柬埔寨谴责波尔布特搞大屠杀i>a>li>
                        <li class="gong st3"><a
                            href="http://www.lssdjt.com/d/19850819.htm"
                            title="日本日中友好人士宫崎世民逝世" target="_blank"><em>1985年08月19日em> <i>日本日中友好人士宫崎世民逝世i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/1985819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/9E135427561.jpg"
                            title="北回归线塔在广州落成" target="_blank"><em>1985年08月19日em> <i>北回归线塔在广州落成i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19890819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/52125842926.jpg"
                            title="哥伦比亚发动全面扫毒战争" target="_blank"><em>1989年08月19日em> <i>哥伦比亚发动全面扫毒战争i>a>li>
                        <li class="gong st5"><a
                            href="http://www.lssdjt.com/d/19910819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/200905/17/12212853973.jpg"
                            title="苏联“八·一九”事件" target="_blank"><em>1991年08月19日em> <i>苏联“八·一九”事件i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19940819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/2A135652408.jpg"
                            title="中央国家机关首次招考公务员" target="_blank"><em>1994年08月19日em> <i>中央国家机关首次招考公务员i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19950819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201107/12/1A123629771.jpg"
                            title="美国总统克林顿宣布与越南建立外交关系" target="_blank"><em>1995年08月19日em>
                                <i>美国总统克林顿宣布与越南建立外交关系i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/19960819.htm" title="我国与尼日尔恢复外交关系"
                            target="_blank"><em>1996年08月19日em> <i>我国与尼日尔恢复外交关系i>a>li>
                        <li class="gong"><em>1998年08月19日em> <i>松花江出现历史最高水位
                                达120.67米i>li>
                        <li class="gong"><em>1999年08月19日em> <i>中国保险股份有限公司改组完成i>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/20000819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201010/2/4B14035192.jpg"
                            title="中国面积最大、海拔最高的“三江源”自然保护区成立" target="_blank"><em>2000年08月19日em>
                                <i>中国面积最大、海拔最高的“三江源”自然保护区成立i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/20070819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201108/19/62105422760.jpg"
                            title="美国陆军的地面武装机器人首次在伊拉克露面" target="_blank"><em>2007年08月19日em>
                                <i>美国陆军的地面武装机器人首次在伊拉克露面i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/20100819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201011/5/1B225131708.jpg"
                            title="第二十六届国际数学家大会在印度海德拉巴举行" target="_blank"><em>2010年08月19日em>
                                <i>第二十六届国际数学家大会在印度海德拉巴举行i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/huangfurong.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201108/19/DB115859688.jpg"
                            title="港人黄福荣被国务院追授“杰出义工”称号" target="_blank"><em>2010年08月19日em>
                                <i>港人黄福荣被国务院追授“杰出义工”称号i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/2010819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201108/19/F8121454179.jpg"
                            title="法国政府驱逐近百吉卜赛人" target="_blank"><em>2010年08月19日em> <i>法国政府驱逐近百吉卜赛人i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/tansixin.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201510/27122859555.jpg"
                            title="谭思欣夺得首届青奥会银牌" target="_blank"><em>2010年08月19日em> <i>谭思欣夺得首届青奥会银牌i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/20160819.htm" class="screenshot"
                            rel="http://img.lssdjt.com/201608/23161630922.jpg"
                            title="任茜跳水女子单人10米台夺金" target="_blank"><em>2016年08月19日em> <i>任茜跳水女子单人10米台夺金i>a>li>
                        <li class="gong"><a
                            href="http://www.lssdjt.com/d/201608191700.htm"
                            class="screenshot"
                            rel="http://img.lssdjt.com/201609/22215637589.jpg"
                            title="徐玉玉电信诈骗案" target="_blank"><em>2016年08月19日em> <i>徐玉玉电信诈骗案i>a>li>
                    ul>
                    <ul class="bot">
                        <li class="l"><a href="http://www.lssdjt.com/8/18">前一天a>li>
                        <li class="l" style="margin-left: 60px;"><a
                            href="/a/today_weibo.htm" target="_blank"><img
                                src="/i/2014/img/yitie.gif" />a>li>
                        <li class="r"><a href="http://www.lssdjt.com/8/20">后一天a>li>
                    ul>
                    <ul id="menu" class="menu im">
                        <fieldset>
                            <legend>目录legend>
                            <li id="ds5">大事记li>
                            <li id="ds4">出  生li>
                            <li id="ds3">逝  世li>
                            <li id="ds2">节假日li>
                            <li id="ds1">纪念日li>
                        fieldset>
                    ul>
                div>
            div>
        div>
        <div class="r w202">
            <div class="box mb5 clearfix">
                <div class="hd">
                    <h4>日期查询h4>
                    <span class="r">月份 <select
                        onChange="document.location.href='/'+this.value+'/19/';"
                        id="js_Month">
                            <option value="1">1月option>
                            <option value="2">2月option>
                            <option value="3">3月option>
                            <option value="4">4月option>
                            <option value="5">5月option>
                            <option value="6">6月option>
                            <option value="7">7月option>
                            <option value="8">8月option>
                            <option value="9">9月option>
                            <option value="10">10月option>
                            <option value="11">11月option>
                            <option value="12">12月option>
                    select>
                    span>
                div>
                <div id="querydate">
                    <div id="calendar">
                        <ul class="calendar-week">
                            <li class="red">li>
                            <li>li>
                            <li>li>
                            <li>li>
                            <li>li>
                            <li>li>
                            <li class="red">li>
                        ul>
                        <ul class="calendar-datail">
                            <a class="other-day" href="/7/30/">30a>
                            <a class="other-day" href="/7/31/">31a>
                            <a class="green" href="/8/1/">1a>
                            <a class="green" href="/8/2/">2a>
                            <a class="green" href="/8/3/">3a>
                            <a class="green" href="/8/4/">4a>
                            <a class="red" href="/8/5/">5a>
                            <a class="red" href="/8/6/">6a>
                            <a class="green" href="/8/7/">7a>
                            <a class="green" href="/8/8/">8a>
                            <a class="green" href="/8/9/">9a>
                            <a class="green" href="/8/10/">10a>
                            <a class="green" href="/8/11/">11a>
                            <a class="red" href="/8/12/">12a>
                            <a class="red" href="/8/13/">13a>
                            <a class="green" href="/8/14/">14a>
                            <a class="green" href="/8/15/">15a>
                            <a class="green" href="/8/16/">16a>
                            <a class="green" href="/8/17/">17a>
                            <a class="green" href="/8/18/">18a>
                            <a class="selected-day red" href="/8/19/">19a>
                            <a class="red" href="/8/20/">20a>
                            <a class="green" href="/8/21/">21a>
                            <a class="green" href="/8/22/">22a>
                            <a class="green" href="/8/23/">23a>
                            <a class="green" href="/8/24/">24a>
                            <a class="green" href="/8/25/">25a>
                            <a class="red" href="/8/26/">26a>
                            <a class="red" href="/8/27/">27a>
                            <a class="green" href="/8/28/">28a>
                            <a class="green" href="/8/29/">29a>
                            <a class="green" href="/8/30/">30a>
                            <a class="green" href="/8/31/">31a>
                            <a class="other-day" href="/9/1/">1a>
                            <a class="other-day" href="/9/2/">2a>
                        ul>
                    div>
                    <div id="riqi">
                        <ul class="w100" onClick="window.open('/wnl/', '_blank');">
                            <li class="y">2017年8月li>
                            <li>丁酉年六月廿八li>
                            <li class="d">19li>
                            <li>星期六li>
                        ul>
                    div>
                div>
                <div class="bot">
                    <p id="jieri">p>
                div>
            div>
            <div class="box mb5 clearfix">
                <a href='http://tuijian.hao123.com/?type=history' target='_blank'><img
                    src='/i/images/hao123.lishi.jpg' />a>
            div>
            <div class="box mb5 clearfix">
                <ul class="p5">
                    <li>· <a target="_blank" href="/a/xiaosongshuo/20130819.htm">晓松说
                            历史上的今天8月19日a>li>
                    <li>· <a target="_blank" title="08月19日党史上的今天 "
                        href="/a/dssdjt/0819.htm">党史上的今天8月19日a>li>
                    <li>· <a target="_blank" title="08月19日教育史上的今天 "
                        href="/a/jiaoyu/0819.htm">教育史上的今天8月19日a>li>
                    <li>· <a target="_blank" title="08月19日科技史上的今天 "
                        href="/a/keji/0819.htm">科技史上的今天8月19日a>li>
                    <li>· <a target="_blank" title="08月19日English History Today"
                        href="/a/English/0819.htm">English History Today[8/19]a>li>
                    <li>· <a target="_blank" title="08月19日生日密码"
                        href="/a/shengrimima/0819.htm">生日密码[8月19日]a>li>
                    <li>· <a target="_blank" title="08月19日生日花"
                        href="/a/shengrihua/0819.htm">8月19日生日花a>li>
                ul>
            div>
            <div class="box mb5 clearfix" id="left_roll">
                <ul>
                    <li><a target="_blank"
                        title="1978年8月19日 红卫兵组织在历史舞台消失 1978年8月19日,中共中央转发共青团十大筹备委员会《关于红卫兵问题的请示报告》指出:作为文化大革命中产生的红卫兵组织,已经完成了它的历史使"
                        href="http://www.lssdjt.com/d/19780819.htm"><img
                            alt="红卫兵组织在历史舞台消失"
                            src="http://img.lssdjt.com/201108/19/FE113431639.jpg" />a>li>
                    <li><a target="_blank"
                        title="1883年8月19日 “时尚女王”香奈儿诞生 20年代初,香奈尔爱上了俄国公爵帕罗维奇。   1883年8月19日,可可.香奈尔出生在法国罗亚尔河畔一个骑兵部队卫戍区的沙穆尔镇。其父出身贫苦,"
                        href="http://www.lssdjt.com/d/18830819.htm"><img
                            alt="“时尚女王”香奈儿诞生"
                            src="http://img.lssdjt.com/201608/22235625394.jpg" />a>li>
                    <li><a target="_blank"
                        title="1942年8月19日 斯大林格勒大会战开始 1942年8月19日 斯大林格勒大会战开始  斯大林格勒巷战:苏军在马马耶夫岗抵抗   当德军冲到顿河与伏尔加河之间的大平原时,希特勒也有点犯迷糊"
                        href="http://www.lssdjt.com/d/1942819.htm"><img
                            alt="斯大林格勒大会战开始"
                            src="http://img.lssdjt.com/200905/17/8D213858943.jpg" />a>li>
                    <li><a target="_blank"
                        title="1866年8月19日 左宗棠在福建设立清政府规模最大的新式造船厂 平远 亚洲国家第一艘全钢军舰 1888.1.29下水,150吨 加入北洋水师 1895.2.17被日俘  1866年,左宗棠(1812~1885)设立福州船政局。这是当时最大的"
                        href="http://www.lssdjt.com/d/18660819.htm"><img
                            alt="左宗棠在福建设立清政府规模最大的新式造船厂"
                            src="http://img.lssdjt.com/201010/2/C613351485.jpg" />a>li>
                    <li><a target="_blank"
                        title="1861年8月19日 大成国起义军主力受重挫 图为大成国王府遗址 1861年8月19日,大成国起义军主力受重挫。 1854年(清咸丰四年)6月至1864年(清同治三年)5月,两广天地会领导的反抗清王朝封建"
                        href="http://www.lssdjt.com/d/18610819.htm"><img
                            alt="大成国起义军主力受重挫"
                            src="http://img.lssdjt.com/201108/19/4F114326405.jpg" />a>li>
                    <li><a target="_blank"
                        title="14年8月19日 罗马帝国屋大维逝世 盖乌斯屋大维,又名奥古斯都(Augustus, 公元前63年9月23日公元14年8月19日 ),是罗马帝国的开国君主,统治罗马长达43年。公元14年8月,在他去世"
                        href="http://www.lssdjt.com/d/140819.htm"><img alt="罗马帝国屋大维逝世"
                            src="http://img.lssdjt.com/201212/30/0D161915810.jpg" />a>li>
                    <li><a target="_blank"
                        title="2000年8月19日 中国面积最大、海拔最高的“三江源”自然保护区成立 三江源自然保护区成立于2000年8月19日。 青海三江源地区位于我国的西部、青藏高原的腹地、青海省南部,为长江、黄河和澜沧江的源头汇水区。地理位"
                        href="http://www.lssdjt.com/d/20000819.htm"><img
                            alt="中国面积最大、海拔最高的“三江源”自然保护区成立"
                            src="http://img.lssdjt.com/201010/2/4B14035192.jpg" />a>li>
                    <li><a target="_blank"
                        title="1925年8月19日 中共创始人之一王烬美病逝 1925年8月19日 中共创始人之一王烬美病逝  王烬美   1925年8月19日,中共山东支部的创始人王烬美在青岛病逝。王烬美,山东莒县人。1920年9月,"
                        href="http://www.lssdjt.com/d/19250819.htm"><img
                            alt="中共创始人之一王烬美病逝"
                            src="http://img.lssdjt.com/200905/17/C7214256579.jpg" />a>li>
                    <li><a target="_blank"
                        title="1968年8月19日 河北满城汉墓发掘 1968年8月19日 河北满城汉墓发掘    1968年8月19日,中国社会科学院考古研究所和河北省文物工作队在河北省满城县完成西汉中山靖王刘胜墓及 王后"
                        href="http://www.lssdjt.com/d/19680819.htm"><img
                            alt="河北满城汉墓发掘"
                            src="http://img.lssdjt.com/201010/2/9D134841601.jpg" />a>li>
                ul>
            div>
            <div class="box clearfix">
                <div style="width: 100%; height: 300px; text-align: center;">
                    <span style="font-size: 14px;">微信号(长摁可复制)span><br> <span
                        style="font-weight: bolder; margin-bottom: 0px; color: #67ad03; text-align: center; font-size: 30px; line-height: 30px; padding: 5px 0; white-space: normal; word-break: break-all; font-family: 'microsoft yahei';">Lssdjt_comspan><img
                        src="http://open.weixin.qq.com/qr/code/?username=Lssdjt_com"
                        onerror="this.parentNode.parentNode.removeChild(this.parentNode)"
                        style="max-width: 200px;"><br> <span
                        style="color: #F75000; font-size: 14px;">扫描或长摁上方二维码span>
                div>
            div>
        div>
    div>
    <div class="share">
        <ol class="bdsharebuttonbox">
            <li><a href="#" title="" data-cmd="weixin">a>li>
            <li><a href="#" title="" data-cmd="qzone">a>li>
            <li><a href="#" title="" data-cmd="tsina">a>li>
            <li><a href="#" title="">a>li>
        ol>
    div>
    <div class="w730 clearfix">
        <div class="box mt5 p5 clearfix">
            <p class="img-new">p>
            <ul class="l w515">
                <div class="search">
                    <form action="http://so.lssdjt.com/cse/search" target="_blank">
                        <input type="hidden" name="s" value="14816195620721992900"><input
                            type="text" id="q" name="q" maxlength="100" value=""
                            onmouseover="this.focus();" x-webkit-speech><span
                            class="btn_wr"><input type="submit" value="查 询"
                            class="btn" onmouseover="this.className='btn btn_h'"
                            onmousedown="this.className='btn btn_h'"
                            onmouseout="this.className='btn'">span>
                    form>
                div>
            ul>
            <ul class="r w202 right">
                <a target="_blank" href="http://www.hao123.com/?lssdjt.com"><img
                    src="/i/images/hao123.png" />a>
            ul>
        div>
    div>
    <div class="w730 clearfix">
        <div class="box mt5 clearfix">
            <div class="tab">
                <ul class="r">
                    <dl>
                        要求:pr>4 QQ:378080686 
                        <a href="javascript:void(0)" onClick="tab('link',2,2)">其他»a>
                    dl>
                ul>
                <ul class="l">
                    <li id="link_to_1"><a href="javascript:void(0)"
                        onMouseOver="tab('link',2,1)">合作a>li>
                    <li id="link_to_2" class="no"><a href="javascript:void(0)"
                        onMouseOver="tab('link',2,2)">历史a>li>
                ul>
            div>
            <div class="link_mo">
                <ul id="link_mo_1" style="display: none">
                    <li><a href="http://www.zzxu.cn/" target="_blank">作文网a>li>
                    <li><a href="http://www.kanggui.com/" target="_blank">康贵生活a>li>
                    <li><a href="http://www.114time.com/" target="_blank">北京时间a>li>
                    <li><a href="http://www.wannianli.com.cn/" target="_blank">万年历a>li>
                    <li><a href="http://www.jintianjihao.com/" target="_blank">今天几号a>li>
                    <li><a href="http://huodong.k618.cn/" target="_blank">未来网a>li>
                    <li><a href="http://www.ikandian.com/" target="_blank">看点网a>li>
                    <li><a href="http://www.tsingming.com/" target="_blank">中国清明网a>li>
                    <li><a href="http://www.zgxzw.com/" target="_blank">中国校长网a>li>
                    <li><a href="http://www.smxs.com/" target="_blank">算命a>li>
                    <li><a href="http://www.leica-camera.cn" target="_blank">徕卡报价a>li>
                    <li><a href="http://www.fwol.cn/" target="_blank">名站在线a>li>
                    <li><a href="http://www.egouz.com/" target="_blank">国外网站大全a>li>
                    <li><a href="http://bjtime.cn/?lssdjt.com" target="_blank">久久时间网a>li>
                    <li><a href="http://www.cnplugins.com/" target="_blank">chrome插件a>li>
                    <li><a href="javascript:void(0)" onClick="tab('link',2,2)">更多»a>li>
                ul>
                <ul id="link_mo_2">
                    <li><a href="http://hao.lssdjt.com/" target="_blank">精选历史网址a>li>
                    <li><a href="http://www.xueshiboke.com/" target="_blank">学史博客a>li>
                    <li><a href="http://www.ilishi.net/" target="_blank">爱历史官网a>li>
                    <li><a href="https://www.lszj.com/" target="_blank">历史之家a>li>
                    <li><a href="http://www.ilishi.com/" target="_blank">爱历史a>li>
                    <li><a href="http://www.gs5000.cn/" target="_blank">历史a>li>
                    <li><a href="http://www.huangdiliebiao.com/" target="_blank">历史故事a>li>
                    <li><a href="http://www.readlishi.com" target="_blank">看历史a>li>
                    <li><a href="http://www.lishixinzhi.com" target="_blank">历史故事a>li>
                    <li><a href="http://www.lishi.net/" target="_blank">中国历史a>li>
                    <li><a href="http://www.lishichunqiu.com/" target="_blank">历史春秋网a>li>
                    <li><a href="http://www.wenshitiandi.com/" target="_blank">文史天地杂网a>li>
                    <li><a href="http://ls.zxxk.com" target="_blank">学科历史网a>li>
                    <li><a href="http://www.tqxz.com/" target="_blank">铜雀历史网a>li>
                    <li><a href="http://www.lishi5.com/" target="_blank">盘龙历史网a>li>
                    <li><a href="http://www.shz100.com/" target="_blank">水煮百年a>li>
                    <li><a href="http://www.52klz.com/" target="_blank">我爱看历史a>li>
                    <li><a href="http://www.kklishi.com/" target="_blank">历史吧a>li>
                    <li><a href="http://www.quwenjiemi.com/" target="_blank">趣闻解密a>li>
                    <li><a href="http://www.warchina.com/" target="_blank">军事新闻a>li>
                    <li><a href="http://www.gugong.net/" target="_blank">故宫历史网a>li>
                    <li><a href="http://www.7zhan.com/" target="_blank">奇闻趣事a>li>
                    <li><a href="http://hao.360.cn/lishiwz.html?lssdjt.com"
                        target="_blank">360导航a>li>
                    <li><a href="http://www.duba.com/?lssdjt.com" target="_blank">毒霸a>li>
                ul>
            div>
        div>
        <div class="box mt5 p5 clearfix">
            <ul>
                <img src="/i/images/zhongguomeng.jpg">
            ul>
        div>
        <div class="box mt5 p5 clearfix">
            <ul>
                <a href="http://www.999.com/" title="999网址导航" target="_blank">999网址导航a>
                <a href="http://www.6789.com/" target="_blank">6789导航a>
                <a href="http://www.20z.com/?lssdjt.com" target="_blank">20Z网址导航<a
                    href="http://www.1234wu.com/?lssdjt.com" target="_blank">123网址之家a>
                    li>
            ul>
        div>
        <div class="gg728 mt5 clearfix">
            <script async
                src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js">script>
            
            <ins class="adsbygoogle"
                style="display: inline-block; width: 728px; height: 90px"
                data-ad-client="ca-pub-5781698608883961" data-ad-slot="7595400534">ins>
            <script>
                (adsbygoogle = window.adsbygoogle || []).push({});
            script>
        div>
        <div class="box clearfix">
            <ul class="p5">
                <a href="/d/p-58581.htm" title="印军越境背暗藏惊天阴谋" target="_blank"><img
                    src="/i/dot/dd.gif">印军越境背暗藏惊天阴谋a>   
                <a href="/d/p-58580.htm" title="百年前美国大都市,街上车水马龙人头攒动" target="_blank"><img
                    src="/i/dot/dd.gif">百年前美国大都市,街上车水马龙人头攒动a>   
                <a href="/d/p-58579.htm" title="红楼谜案:哪些女子与贾宝玉有过云雨之事?"
                    target="_blank"><img src="/i/dot/dd.gif">红楼谜案:哪些女子与贾宝玉有过云雨之事?a>   
                <a href="/d/p-58578.htm" title="唐朝的人为什么一般不想娶公主?" target="_blank"><img
                    src="/i/dot/dd.gif">唐朝的人为什么一般不想娶公主?a>   
                <a href="/d/p-58509.htm" title="老照片:日军占领下的开封·1938年" target="_blank"><img
                    src="/i/dot/dd.gif">老照片:日军占领下的开封·1938年a>   
                <a href="/d/p-58508.htm" title="老照片(儿童节特辑):七十年代的中国儿童"
                    target="_blank"><img src="/i/dot/dd.gif">老照片(儿童节特辑):七十年代的中国儿童a>   
                <a href="/d/p-58507.htm" title="老北京的小吃" target="_blank"><img
                    src="/i/dot/dd.gif">老北京的小吃a>   
                <a href="/d/p-58506.htm" title="老照片:希特勒御用摄影师作品" target="_blank"><img
                    src="/i/dot/dd.gif">老照片:希特勒御用摄影师作品a>   
                <a href="/d/p-58505.htm" title="老照片:二十年代末的北朝鲜" target="_blank"><img
                    src="/i/dot/dd.gif">老照片:二十年代末的北朝鲜a>   
                <a href="/d/p-58504.htm" title="老照片:塞班岛战役" target="_blank"><img
                    src="/i/dot/dd.gif">老照片:塞班岛战役a>   
            ul>
        div>
        <div class="box mt5 p5 clearfix">
            <ul class="r">
                <img src="/i/dot/dd.gif"> 很抱歉,网站放置少量广告用于日常开销,因此不再接受更多广告内容。
            ul>
            <ul class="l">
                
                <div id="bdshare" class="bdshare_t bds_tools get-codes-bdshare">
                    <span class="bds_more">分享到:span> <a class="bds_qzone">a> <a
                        class="bds_tsina">a> <a class="bds_tqq">a> <a
                        class="bds_renren">a> <a class="bds_t163">a> <a
                        class="shareCount">a>
                div>
                <script type="text/javascript" id="bdshare_js"
                    data="type=tools&uid=6860001">script>
                <script type="text/javascript" id="bdshell_js">script>
                <script type="text/javascript">
                    document.getElementById("bdshell_js").src = "http://bdimg.share.baidu.com/static/js/shell_v2.js?cdnversion="
                            + Math.ceil(new Date() / 3600000)
                script>
                
            ul>
        div>
    div>
    <div class="foot">
        <div class="w730 mb10 clearfix">
            <ul class="l">
                <a href="/me.htm" target="_blank">联系我们a>-
                <a href="/a/about/mianze.htm" target="_blank">免责声明a>-
                <a href="/code/" target="_blank">API接口a>-
                <a href="/a/about/Readme.htm" target="_blank">使用必读a>-
                <a href="/sitemap.htm" target="_blank">网站地图a>-
                <a name="StranLink">繁體中文a>
            ul>
            <ul class="r">
                <a href="/code/" target="_blank">口号:每天5分钟,让历史擦亮您的眼睛!a>
            ul>
        div>
        <div class="w730 clearfix">
            <div class="l w202">
                <h2>关注我们h2>
                <ul class="clearfix">
                    <li><iframe id=review height=24 marginheight=0
                            src="http://follow.v.t.qq.com/index.php?c=follow&a=quick&name=lssdjt_com&style=5&t=1361666951265&f=1"
                            frameborder=0 width=178 allowtransparency marginwidth=0>iframe>
                    li>
                    <li><script src="http://tjs.sjs.sinajs.cn/open/api/js/wb.js"
                            type="text/javascript" charset="utf-8">script> <wb:follow-button
                            uid="1731558991" type="red_2" width="136" height="24">wb:follow-button>
                    li>
                    <li><a href="javascript:void(0);" id="qqlist-box">订阅邮箱a>li>
                ul>
            div>
            <div class="r w515">
                <h2>合作伙伴h2>
                <ul class="clearfix">
                    <a href="/e/url?http://news.ifeng.com/history/" target="_blank">凤凰历史a>
                    <a href="http://lishi.xilu.com/" target="_blank">西陆历史a>
                    <a href="http://www.sdmz.net/" target="_blank">四大名著a>
                    <a href="http://www.qutonghua.com/" target="_blank">童话故事a>
                    <a href="http://www.mingchu.net/" target="_blank">名厨网a>
                    <BR>
                    <a href="/e/url?http://history.voc.com.cn/" target="_blank"><img
                        alt="华声历史频道" src="/i/images/link_voc.gif">a>
                    <a href="/e/url?http://history.gmw.cn/" target="_blank"><img
                        src="/i/images/link_gmw.gif">a>
                    
                    <a id="_pinganTrust" target="_blank"
                        href="http://c.trustutn.org/show?type=1&sn=201609121004030012"><img
                        src="http://c.trustutn.org/images/cert/cert_0_2.png" />a>
                ul>
            div>
        div>
        <div class="ft">
            <p>
                Copyright©2004-2014 <a href="http://www.miibeian.gov.cn"
                    class="beian" target="blank">粤ICP备11091129号a>本站中文域名:<a
                    href="http://历史上的今天.cn">历史上的今天.cna> <a href="http://历史上的今天.中国">历史上的今天.中国a>
                <a href="http://api.lssdjt.com/?ContentType=xml&appkey=rss.xml"
                    target="_blank">RSSa><a href="http://m.lssdjt.com/"
                    target="_blank">移动版a><BR>
                《历史上的今天》中文官网是个公益性的专业日史网站,需要大家的支持和爱护!
            p>
        div>
    div>
body>
html>
<div style="display: none">
    <script type="text/javascript">
        var g_date = "2017-8-19", g_year = 2017, g_month = 8, g_day = 19;
        document.getElementById("js_Month").selectedIndex = g_month - 1;
    script>
    <script type="text/javascript" src="/i/js/jquery-1.8.2.min.js">script>
    <script type="text/javascript" src="/i/layer/layer.min.js">script>
    <script type="text/javascript" src="/i/2014/js/lazyload.js">script>
    <script type="text/javascript" src="/i/2014/js/global.js">script>
    <script type="text/javascript" src="/i/2014/js/gonggao.js">script>
    <script type="text/javascript" src="/i/2014/js/index.js">script>
    <script type="text/javascript" src="/i/2014/js/jf.js">script>
    <script type="text/javascript" src="/i/2014/js/tongji.js">script>
    <script type="text/javascript" src="/e/plug/setpage/?do=auto">script>
div>

从源码中抽取需要的信息

Pattern p = Pattern.compile("(.*)(
    )(.*?)(
)(.*)"
); Matcher m = p.matcher(html); // 抽取需要的数据 for (String info : m.group(3).split(".replace(dateTag, "").replaceAll("]+>", "").trim(); Pattern p2 = Pattern.compile("(.*)(title=\")(.*?)(\")(.*)"); Matcher m2 = p2.matcher(info); if (m2.matches()) { buffer.append(m2.group(3)).append("\n\n"); } }

其中 m.group(3)取的是符合正则表达式中第三组数据。

TodayInHistoryService完整源码

package org.sm.service;

import java.text.DateFormat;
import java.text.SimpleDateFormat;
import java.util.Calendar;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.sm.util.HttpUtils;

public class TodayInHistoryService {
    /**
     * 封装历史上的今天查询方法,供外部调用
     * 
     * @return String
     */
    public static String getTodayInHistoryInfo() {
    // 获取网页源代码
    String url = "http://www.lssdjt.com/";
    String html = HttpUtils.httpRequest(url, "GET", null);
        System.out.println(html);
    // 从网页中抽取信息
    StringBuffer buffer = null;
    // 日期标签:区分是昨天还是今天
    String dateTag = getMonthDay(0);

    Pattern p = Pattern.compile("(.*)(
    )(.*?)(
)(.*)"
); Matcher m = p.matcher(html); if (m.matches()) { buffer = new StringBuffer(); if (m.group(3).contains(getMonthDay(-1))) dateTag = getMonthDay(-1); // 拼装标题 buffer.append("≡≡ ").append("历史上的").append(dateTag).append("≡≡").append("\n\n"); // 抽取需要的数据 for (String info : m.group(3).split("
"").replaceAll("]+>", "").trim(); Pattern p2 = Pattern.compile("(.*)(title=\")(.*?)(\")(.*)"); Matcher m2 = p2.matcher(info); if (m2.matches()) { buffer.append(m2.group(3)).append("\n\n"); } } } return buffer.toString(); } /** * 获取前/后n天日期(M月d日) * * @return */ private static String getMonthDay(int diff) { DateFormat df = new SimpleDateFormat("M月d日"); Calendar c = Calendar.getInstance(); c.add(Calendar.DAY_OF_YEAR, diff); return df.format(c.getTime()); } }

修改ServiceServlet doPost方法

  /**
     * 处理微信服务器发来的消息
     */
    public void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {

    // 将请求、响应的编码均设置为UTF-8(防止中文乱码)
    request.setCharacterEncoding("UTF-8");
    response.setCharacterEncoding("UTF-8");

    Map<String, String> map = null;
    try {
        map = MessageUtil.parseXml(request);
    } catch (Exception e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }

    // 发送方帐号(open_id)
    String fromUserName = map.get("FromUserName");
    // 公众帐号
    String toUserName = map.get("ToUserName");
    // 消息类型
    String msgType = map.get("MsgType");
    // 请求消息内容
    String content = map.get("Content");
    if ("text".equals(msgType) && content.startsWith("历史")) {

        // 默认回复此文本消息
        TextMessage textMessage = new TextMessage();
        textMessage.setToUserName(fromUserName);
        textMessage.setFromUserName(toUserName);
        textMessage.setCreateTime(new Date().getTime());
        textMessage.setMsgType("text");

        textMessage.setContent(TodayInHistoryService.getTodayInHistoryInfo());

        String respMessage = MessageUtil.textMessageToXml(textMessage);
        // 响应消息
        PrintWriter out = response.getWriter();
        out.print(respMessage);
        out.close();
    }
    }

网页爬虫--历史上的今天_第2张图片

项目结构:

网页爬虫--历史上的今天_第3张图片

你可能感兴趣的:(微信公众号开发)