shichen2010

使用HtmlParser实现网络爬虫并且插入数据库

爬虫的主要工做就是到搜狐的新闻首页上去抓取新闻，然后将新闻添加到数据库中。
代码其实很简单的：
LinkParser.java

 
Java
 
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
          26 
        
          27 
        
          28 
        
          29 
        
          30 
        
          31 
        
          32 
        
          33 
        
          34 
        
          35 
        
          36 
        
          37 
        
          38 
        
          39 
        
          40 
        
          41 
        
          42 
        
          43 
        
          44 
        
          45 
        
          46 
        
          47 
        
          48 
        
          49 
        
          50 
        
          51 
        
          52 
        
          53 
        
          54 
        
          55 
        
          56 
        
          57 
        
          58 
        
          59 
        
          60 
        
          61 
        
          62 
        
          63 
        
          64 
        
          65 
        
          66 
        
          67 
        
          68 
        
          69 
        
          70 
        
          71 
        
          72 
        
          73 
        
          74 
        
          75 
        
          76 
        
          77 
        
          78 
        
          79 
        
          80 
        
          81 
        
          82 
        
          83 
        
          84 
        
          85 
        
          86 
        
          87 
        
          88 
        
          89 
        
          90 
        
          91 
        
          92 
        
          93 
        
          94 
        
          95 
        
          96 
        
          97 
        
          98 
        
          99 
        
          100 
        
          101 
        
          102 
        
         import 
           
         com 
         . 
         sohu 
         . 
         SohuNews 
         ; 
        
         import 
           
         java 
         . 
         util 
         . 
         HashSet 
         ; 
        
         import 
           
         java 
         . 
         util 
         . 
         Set 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         Node 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         NodeFilter 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         Parser 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         filters 
         . 
         NodeClassFilter 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         filters 
         . 
         OrFilter 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         tags 
         . 
         LinkTag 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         util 
         . 
         NodeList 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         util 
         . 
         ParserException 
         ; 
        
         /** 
        
          *  这个类是用来搜集新闻链接地址的。将符合正则表达式的URL添加到URL数组中。 
        
          * @author guanminglin 
        
          */ 
        
         public 
           
         class 
           
         LinkParser 
           
         { 
        
         // 获取一个网站上的链接,filter 用来过滤链接 
        
         public 
           
         static 
           
         Set 
         <String> 
           
         extracLinks 
         ( 
         String 
           
         url 
         , 
           
         LinkFilter  
         filter 
         ) 
           
         { 
        
         Set 
         <String> 
           
         links 
           
         = 
           
         new 
           
         HashSet 
         <String> 
         ( 
         ) 
         ; 
        
         try 
           
         { 
        
         Parser  
         parser 
           
         = 
           
         new 
           
         Parser 
         ( 
         url 
         ) 
         ; 
        
         parser 
         . 
         setEncoding 
         ( 
         "gb2312" 
         ) 
         ; 
        
         // 过滤 <frame >标签的 filter，用来提取 frame 标签里的 src 属性所表示的链接 
        
         NodeFilter  
         frameFilter 
           
         = 
           
         new 
           
         NodeFilter 
         ( 
         ) 
           
         { 
        
         public 
           
         boolean 
           
         accept 
         ( 
         Node  
         node 
         ) 
           
         { 
        
         if 
           
         ( 
         node 
         . 
         getText 
         ( 
         ) 
         . 
         startsWith 
         ( 
         "frame src=" 
         ) 
         ) 
           
         { 
        
         return 
           
         true 
         ; 
        
         } 
           
         else 
           
         { 
        
         return 
           
         false 
         ; 
        
         } 
        
         } 
        
         } 
         ; 
        
         // OrFilter 来设置过滤 <a> 标签，和 <frame> 标签 
        
         OrFilter  
         linkFilter 
           
         = 
           
         new 
           
         OrFilter 
         ( 
         new 
           
         NodeClassFilter 
         ( 
        
         LinkTag 
         . 
         class 
         ) 
         , 
           
         frameFilter 
         ) 
         ; 
        
         // 得到所有经过过滤的标签 
        
         NodeList  
         list 
           
         = 
           
         parser 
         . 
         extractAllNodesThatMatch 
         ( 
         linkFilter 
         ) 
         ; 
        
         for 
           
         ( 
         int 
           
         i 
           
         = 
           
         0 
         ; 
           
         i 
           
         < 
           
         list 
         . 
         size 
         ( 
         ) 
         ; 
           
         i 
         ++ 
         ) 
           
         { 
        
         Node  
         tag 
           
         = 
           
         list 
         . 
         elementAt 
         ( 
         i 
         ) 
         ; 
        
         if 
           
         ( 
         tag  
         instanceof 
           
         LinkTag 
         ) 
         // <a> 标签 
        
         { 
        
         LinkTag  
         link 
           
         = 
           
         ( 
         LinkTag 
         ) 
           
         tag 
         ; 
        
         String 
           
         linkUrl 
           
         = 
           
         link 
         . 
         getLink 
         ( 
         ) 
         ; 
         // url 
        
         if 
           
         ( 
         filter 
         . 
         accept 
         ( 
         linkUrl 
         ) 
         ) 
           
         { 
        
         links 
         . 
         add 
         ( 
         linkUrl 
         ) 
         ; 
        
         } 
        
         } 
           
         else 
         // <frame> 标签 
        
         { 
        
         // 提取 frame 里 src 属性的链接如 <frame src="test.html"/> 
        
         String 
           
         frame 
           
         = 
           
         tag 
         . 
         getText 
         ( 
         ) 
         ; 
        
         int 
           
         start 
           
         = 
           
         frame 
         . 
         indexOf 
         ( 
         "src=" 
         ) 
         ; 
        
         frame 
           
         = 
           
         frame 
         . 
         substring 
         ( 
         start 
         ) 
         ; 
        
         int 
           
         end 
           
         = 
           
         frame 
         . 
         indexOf 
         ( 
         " " 
         ) 
         ; 
        
         if 
           
         ( 
         end 
           
         == 
           
         - 
         1 
         ) 
           
         { 
        
         end 
           
         = 
           
         frame 
         . 
         indexOf 
         ( 
         ">" 
         ) 
         ; 
        
         } 
        
         String 
           
         frameUrl 
           
         = 
           
         frame 
         . 
         substring 
         ( 
         5 
         , 
           
         end 
           
         - 
           
         1 
         ) 
         ; 
        
         if 
           
         ( 
         filter 
         . 
         accept 
         ( 
         frameUrl 
         ) 
         ) 
           
         { 
        
         links 
         . 
         add 
         ( 
         frameUrl 
         ) 
         ; 
        
         } 
        
         } 
        
         } 
        
         } 
           
         catch 
           
         ( 
         ParserException 
           
         e 
         ) 
           
         { 
        
         e 
         . 
         printStackTrace 
         ( 
         ) 
         ; 
        
         } 
        
         return 
           
         links 
         ; 
        
         } 
        
         public 
           
         void 
           
         doParser 
         ( 
         String 
           
         url 
         ) 
           
         { 
        
         SohuNews  
         news 
           
         = 
           
         new 
           
         SohuNews 
         ( 
         ) 
         ; 
        
         Set 
         <String> 
           
         links 
           
         = 
           
         LinkParser 
         . 
         extracLinks 
         ( 
        
         url 
         , 
           
         new 
           
         LinkFilter 
         ( 
         ) 
           
         { 
        
         //提取以 http://news.sohu.com 开头的链接 
        
         public 
           
         boolean 
           
         accept 
         ( 
         String 
           
         url 
         ) 
           
         { 
        
         if 
           
         ( 
         url 
         . 
         matches 
         ( 
         "http://news.sohu.com/[\\d]+/n[\\d]+.shtml" 
         ) 
         ) 
           
         { 
        
         return 
           
         true 
         ; 
        
         } 
           
         else 
           
         { 
        
         return 
           
         false 
         ; 
        
         } 
        
         } 
        
         } 
         ) 
         ; 
        
         //循环迭代出连接，然后提取该连接中的新闻。 
        
         for 
           
         ( 
         String 
           
         link 
           
         : 
           
         links 
         ) 
           
         { 
        
         System 
         . 
         out 
         . 
         println 
         ( 
         link 
         ) 
         ; 
        
         news 
         . 
         parser 
         ( 
         link 
         ) 
         ; 
           
         //解析连接 
        
         } 
        
         } 
        
         //测试主页新闻，可以得到主页上所有符合要求的网页地址，并进行访问。 
        
         public 
           
         static 
           
         void 
           
         main 
         ( 
         String 
         [ 
         ] 
           
         args 
         ) 
           
         { 
        
         String 
           
         url 
           
         = 
           
         "http://news.sohu.com/" 
         ; 
        
         LinkParser  
         parser 
           
         = 
           
         new 
           
         LinkParser 
         ( 
         ) 
         ; 
        
         parser 
         . 
         doParser 
         ( 
         url 
         ) 
         ; 
        
         } 
        
         }

上面这段带码比较简单，就是用来提取 http://news.sohu.com 上面的新闻连接，格式类似这样：http://news.sohu.com/20090518/n264012864.shtml
所以写了一小段的正则表达式来匹配他：

Java
 
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
         Set 
         <String> 
           
         links 
           
         = 
           
         LinkParser 
         . 
         extracLinks 
         ( 
        
         url 
         , 
           
         new 
           
         LinkFilter 
         ( 
         ) 
           
         { 
        
         //提取以 http://news.sohu.com 开头的链接 
        
         public 
           
         boolean 
           
         accept 
         ( 
         String 
           
         url 
         ) 
           
         { 
        
         if 
           
         ( 
         url 
         . 
         matches 
         ( 
         "http://news.sohu.com/[\\d]+/n[\\d]+.shtml" 
         ) 
         ) 
           
         { 
        
         return 
           
         true 
         ; 
        
         } 
           
         else 
           
         { 
        
         return 
           
         false 
         ; 
        
         } 
        
         } 
        
         } 
         ) 
         ;

还有一个核心类就是用来解析搜狐新闻的类，该类用于重网页中提取出新闻，然后将新闻添加到数据库中。代码中还用到了一个NewsBean
这段代码就不贴出来了，很简单的POJO 代码。核心代码都在下面。
SohuNews.java

 
Java
 
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
          18 
        
          19 
        
          20 
        
          21 
        
          22 
        
          23 
        
          24 
        
          25 
        
          26 
        
          27 
        
          28 
        
          29 
        
          30 
        
          31 
        
          32 
        
          33 
        
          34 
        
          35 
        
          36 
        
          37 
        
          38 
        
          39 
        
          40 
        
          41 
        
          42 
        
          43 
        
          44 
        
          45 
        
          46 
        
          47 
        
          48 
        
          49 
        
          50 
        
          51 
        
          52 
        
          53 
        
          54 
        
          55 
        
          56 
        
          57 
        
          58 
        
          59 
        
          60 
        
          61 
        
          62 
        
          63 
        
          64 
        
          65 
        
          66 
        
          67 
        
          68 
        
          69 
        
          70 
        
          71 
        
          72 
        
          73 
        
          74 
        
          75 
        
          76 
        
          77 
        
          78 
        
          79 
        
          80 
        
          81 
        
          82 
        
          83 
        
          84 
        
          85 
        
          86 
        
          87 
        
          88 
        
          89 
        
          90 
        
          91 
        
          92 
        
          93 
        
          94 
        
          95 
        
          96 
        
          97 
        
          98 
        
          99 
        
          100 
        
          101 
        
          102 
        
          103 
        
          104 
        
          105 
        
          106 
        
          107 
        
          108 
        
          109 
        
          110 
        
          111 
        
          112 
        
          113 
        
          114 
        
          115 
        
          116 
        
          117 
        
          118 
        
          119 
        
          120 
        
          121 
        
          122 
        
          123 
        
          124 
        
          125 
        
          126 
        
          127 
        
          128 
        
          129 
        
          130 
        
          131 
        
          132 
        
          133 
        
          134 
        
          135 
        
          136 
        
          137 
        
          138 
        
          139 
        
          140 
        
          141 
        
          142 
        
          143 
        
          144 
        
          145 
        
          146 
        
          147 
        
          148 
        
          149 
        
          150 
        
          151 
        
          152 
        
          153 
        
          154 
        
          155 
        
          156 
        
          157 
        
          158 
        
          159 
        
          160 
        
          161 
        
          162 
        
          163 
        
          164 
        
          165 
        
          166 
        
          167 
        
          168 
        
          169 
        
          170 
        
          171 
        
          172 
        
          173 
        
          174 
        
          175 
        
          176 
        
          177 
        
          178 
        
          179 
        
          180 
        
          181 
        
          182 
        
          183 
        
          184 
        
          185 
        
          186 
        
          187 
        
          188 
        
          189 
        
          190 
        
          191 
        
          192 
        
          193 
        
          194 
        
          195 
        
          196 
        
          197 
        
          198 
        
          199 
        
          200 
        
          201 
        
          202 
        
          203 
        
          204 
        
          205 
        
          206 
        
          207 
        
          208 
        
          209 
        
          210 
        
          211 
        
          212 
        
          213 
        
          214 
        
          215 
        
          216 
        
          217 
        
          218 
        
          219 
        
          220 
        
          221 
        
          222 
        
          223 
        
          224 
        
          225 
        
          226 
        
          227 
        
          228 
        
          229 
        
          230 
        
          231 
        
          232 
        
          233 
        
          234 
        
          235 
        
          236 
        
          237 
        
          238 
        
          239 
        
          240 
        
          241 
        
          242 
        
          243 
        
          244 
        
          245 
        
          246 
        
          247 
        
          248 
        
          249 
        
          250 
        
          251 
        
          252 
        
          253 
        
          254 
        
          255 
        
          256 
        
          257 
        
          258 
        
          259 
        
          260 
        
          261 
        
          262 
        
          263 
        
          264 
        
          265 
        
          266 
        
          267 
        
          268 
        
          269 
        
          270 
        
          271 
        
          272 
        
          273 
        
          274 
        
          275 
        
          276 
        
          277 
        
          278 
        
          279 
        
          280 
        
          281 
        
          282 
        
          283 
        
          284 
        
          285 
        
          286 
        
          287 
        
          288 
        
          289 
        
          290 
        
         import 
           
         com 
         . 
         sohu 
         . 
         bean 
         . 
         NewsBean 
         ; 
        
         import 
           
         com 
         . 
         sohu 
         . 
         db 
         . 
         ConnectionManager 
         ; 
        
         import 
           
         java 
         . 
         util 
         . 
         ArrayList 
         ; 
        
         import 
           
         java 
         . 
         util 
         . 
         List 
         ; 
        
         import 
           
         java 
         . 
         util 
         . 
         logging 
         . 
         Level 
         ; 
        
         import 
           
         java 
         . 
         util 
         . 
         logging 
         . 
         Logger 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         NodeFilter 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         Parser 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         beans 
         . 
         StringBean 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         filters 
         . 
         AndFilter 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         filters 
         . 
         HasAttributeFilter 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         filters 
         . 
         TagNameFilter 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         tags 
         . 
         Div 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         tags 
         . 
         HeadingTag 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         tags 
         . 
         Span 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         util 
         . 
         NodeList 
         ; 
        
         import 
           
         org 
         . 
         htmlparser 
         . 
         util 
         . 
         ParserException 
         ; 
        
         import 
           
         java 
         . 
         sql 
         . 
         PreparedStatement 
         ; 
        
         import 
           
         java 
         . 
         sql 
         . 
         SQLException 
         ; 
        
         /** 
        
          * 用于对搜狐网站上的新闻进行抓取 
        
          * @author guanminglin <[email protected]> 
        
          */ 
        
         public 
           
         class 
           
         SohuNews 
           
         { 
        
         private 
           
         Parser  
         parser 
           
         = 
           
         null 
         ; 
             
         //用于分析网页的分析器。 
        
         private 
           
         List  
         newsList 
           
         = 
           
         new 
           
         ArrayList 
         ( 
         ) 
         ; 
              
         //暂存新闻的List； 
        
         private 
           
         NewsBean  
         bean 
           
         = 
           
         new 
           
         NewsBean 
         ( 
         ) 
         ; 
        
         private 
           
         ConnectionManager  
         manager 
           
         = 
           
         null 
         ; 
              
         //数据库连接管理器。 
        
         private 
           
         PreparedStatement  
         pstmt 
           
         = 
           
         null 
         ; 
        
         public 
           
         SohuNews 
         ( 
         ) 
           
         { 
        
         } 
        
         /** 
        
              * 获得一条完整的新闻。 
        
              * @param newsBean 
        
              * @return 
        
              */ 
        
         public 
           
         List  
         getNewsList 
         ( 
         final 
           
         NewsBean  
         newsBean 
         ) 
           
         { 
        
         List  
         list 
           
         = 
           
         new 
           
         ArrayList 
         ( 
         ) 
         ; 
        
         String 
           
         newstitle 
           
         = 
           
         newsBean 
         . 
         getNewsTitle 
         ( 
         ) 
         ; 
        
         String 
           
         newsauthor 
           
         = 
           
         newsBean 
         . 
         getNewsAuthor 
         ( 
         ) 
         ; 
        
         String 
           
         newscontent 
           
         = 
           
         newsBean 
         . 
         getNewsContent 
         ( 
         ) 
         ; 
        
         String 
           
         newsdate 
           
         = 
           
         newsBean 
         . 
         getNewsDate 
         ( 
         ) 
         ; 
        
         list 
         . 
         add 
         ( 
         newstitle 
         ) 
         ; 
        
         list 
         . 
         add 
         ( 
         newsauthor 
         ) 
         ; 
        
         list 
         . 
         add 
         ( 
         newscontent 
         ) 
         ; 
        
         list 
         . 
         add 
         ( 
         newsdate 
         ) 
         ; 
        
         return 
           
         list 
         ; 
        
         } 
        
         /** 
        
              *  设置新闻对象，让新闻对象里有新闻数据 
        
              * @param newsTitle 新闻标题 
        
              * @param newsauthor  新闻作者 
        
              * @param newsContent 新闻内容 
        
              * @param newsDate  新闻日期 
        
              * @param url  新闻链接 
        
              */ 
        
         public 
           
         void 
           
         setNews 
         ( 
         String 
           
         newsTitle 
         , 
           
         String 
           
         newsauthor 
         , 
           
         String 
           
         newsContent 
         , 
           
         String 
           
         newsDate 
         , 
           
         String 
           
         url 
         ) 
           
         { 
        
         bean 
         . 
         setNewsTitle 
         ( 
         newsTitle 
         ) 
         ; 
        
         bean 
         . 
         setNewsAuthor 
         ( 
         newsauthor 
         ) 
         ; 
        
         bean 
         . 
         setNewsContent 
         ( 
         newsContent 
         ) 
         ; 
        
         bean 
         . 
         setNewsDate 
         ( 
         newsDate 
         ) 
         ; 
        
         bean 
         . 
         setNewsURL 
         ( 
         url 
         ) 
         ; 
        
         } 
        
         /** 
        
              * 该方法用于将新闻添加到数据库中。 
        
              */ 
        
         protected 
           
         void 
           
         newsToDataBase 
         ( 
         ) 
           
         { 
        
         //建立一个线程用来执行将新闻插入到数据库中。 
        
         Thread  
         thread 
           
         = 
           
         new 
           
         Thread 
         ( 
         new 
           
         Runnable 
         ( 
         ) 
           
         { 
        
         public 
           
         void 
           
         run 
         ( 
         ) 
           
         { 
        
         boolean 
           
         sucess 
           
         = 
           
         saveToDB 
         ( 
         bean 
         ) 
         ; 
        
         if 
           
         ( 
         sucess 
           
         != 
           
         false 
         ) 
           
         { 
        
         System 
         . 
         out 
         . 
         println 
         ( 
         "插入数据失败" 
         ) 
         ; 
        
         } 
        
         } 
        
         } 
         ) 
         ; 
        
         thread 
         . 
         start 
         ( 
         ) 
         ; 
        
         } 
        
         /** 
        
              * 将新闻插入到数据库中 
        
              * @param bean 
        
              * @return 
        
              */ 
        
         public 
           
         boolean 
           
         saveToDB 
         ( 
         NewsBean  
         bean 
         ) 
           
         { 
        
         boolean 
           
         flag 
           
         = 
           
         true 
         ; 
        
         String 
           
         sql 
           
         = 
           
         "insert into news(newstitle,newsauthor,newscontent,newsurl,newsdate) values(?,?,?,?,?)" 
         ; 
        
         manager 
           
         = 
           
         new 
           
         ConnectionManager 
         ( 
         ) 
         ; 
        
         String 
           
         titleLength 
           
         = 
           
         bean 
         . 
         getNewsTitle 
         ( 
         ) 
         ; 
        
         if 
           
         ( 
         titleLength 
         . 
         length 
         ( 
         ) 
           
         > 
           
         60 
         ) 
           
         { 
            
         //标题太长的新闻不要。 
        
         return 
           
         flag 
         ; 
        
         } 
        
         try 
           
         { 
        
         pstmt 
           
         = 
           
         manager 
         . 
         getConnection 
         ( 
         ) 
         . 
         prepareStatement 
         ( 
         sql 
         ) 
         ; 
        
         pstmt 
         . 
         setString 
         ( 
         1 
         , 
           
         bean 
         . 
         getNewsTitle 
         ( 
         ) 
         ) 
         ; 
        
         pstmt 
         . 
         setString 
         ( 
         2 
         , 
           
         bean 
         . 
         getNewsAuthor 
         ( 
         ) 
         ) 
         ; 
        
         pstmt 
         . 
         setString 
         ( 
         3 
         , 
           
         bean 
         . 
         getNewsContent 
         ( 
         ) 
         ) 
         ; 
        
         pstmt 
         . 
         setString 
         ( 
         4 
         , 
           
         bean 
         . 
         getNewsURL 
         ( 
         ) 
         ) 
         ; 
        
         pstmt 
         . 
         setString 
         ( 
         5 
         , 
           
         bean 
         . 
         getNewsDate 
         ( 
         ) 
         ) 
         ; 
        
         flag 
           
         = 
           
         pstmt 
         . 
         execute 
         ( 
         ) 
         ; 
        
         } 
           
         catch 
           
         ( 
         SQLException  
         ex 
         ) 
           
         { 
        
         Logger 
         . 
         getLogger 
         ( 
         SohuNews 
         . 
         class 
         . 
         getName 
         ( 
         ) 
         ) 
         . 
         log 
         ( 
         Level 
         . 
         SEVERE 
         , 
           
         null 
         , 
           
         ex 
         ) 
         ; 
        
         } 
           
         finally 
           
         { 
        
         try 
           
         { 
        
         pstmt 
         . 
         close 
         ( 
         ) 
         ; 
        
         manager 
         . 
         close 
         ( 
         ) 
         ; 
        
         } 
           
         catch 
           
         ( 
         SQLException  
         ex 
         ) 
           
         { 
        
         Logger 
         . 
         getLogger 
         ( 
         SohuNews 
         . 
         class 
         . 
         getName 
         ( 
         ) 
         ) 
         . 
         log 
         ( 
         Level 
         . 
         SEVERE 
         , 
           
         null 
         , 
           
         ex 
         ) 
         ; 
        
         } 
        
         } 
        
         return 
           
         flag 
         ; 
        
         } 
        
         /** 
        
              * 获得新闻的标题 
        
              * @param titleFilter 
        
              * @param parser 
        
              * @return 
        
              */ 
        
         private 
           
         String 
           
         getTitle 
         ( 
         NodeFilter  
         titleFilter 
         , 
           
         Parser  
         parser 
         ) 
           
         { 
        
         String 
           
         titleName 
           
         = 
           
         "" 
         ; 
        
         try 
           
         { 
        
         NodeList  
         titleNodeList 
           
         = 
           
         ( 
         NodeList 
         ) 
           
         parser 
         . 
         parse 
         ( 
         titleFilter 
         ) 
         ; 
        
         for 
           
         ( 
         int 
           
         i 
           
         = 
           
         0 
         ; 
           
         i 
           
         < 
           
         titleNodeList 
         . 
         size 
         ( 
         ) 
         ; 
           
         i 
         ++ 
         ) 
           
         { 
        
         HeadingTag  
         title 
           
         = 
           
         ( 
         HeadingTag 
         ) 
           
         titleNodeList 
         . 
         elementAt 
         ( 
         i 
         ) 
         ; 
        
         titleName 
           
         = 
           
         title 
         . 
         getStringText 
         ( 
         ) 
         ; 
        
         } 
        
         } 
           
         catch 
           
         ( 
         ParserException  
         ex 
         ) 
           
         { 
        
         Logger 
         . 
         getLogger 
         ( 
         SohuNews 
         . 
         class 
         . 
         getName 
         ( 
         ) 
         ) 
         . 
         log 
         ( 
         Level 
         . 
         SEVERE 
         , 
           
         null 
         , 
           
         ex 
         ) 
         ; 
        
         } 
        
         return 
           
         titleName 
         ; 
        
         } 
        
         /** 
        
              * 获得新闻的责任编辑，也就是作者。 
        
              * @param newsauthorFilter 
        
              * @param parser 
        
              * @return 
        
              */ 
        
         private 
           
         String 
           
         getNewsAuthor 
         ( 
         NodeFilter  
         newsauthorFilter 
         , 
           
         Parser  
         parser 
         ) 
           
         { 
        
         String 
           
         newsAuthor 
           
         = 
           
         "" 
         ; 
        
         try 
           
         { 
        
         NodeList  
         authorList 
           
         = 
           
         ( 
         NodeList 
         ) 
           
         parser 
         . 
         parse 
         ( 
         newsauthorFilter 
         ) 
         ; 
        
         for 
           
         ( 
         int 
           
         i 
           
         = 
           
         0 
         ; 
           
         i 
           
         < 
           
         authorList 
         . 
         size 
         ( 
         ) 
         ; 
           
         i 
         ++ 
         ) 
           
         { 
        
         Div  
         authorSpan 
           
         = 
           
         ( 
         Div 
         ) 
           
         authorList 
         . 
         elementAt 
         ( 
         i 
         ) 
         ; 
        
         newsAuthor 
           
         = 
           
         authorSpan 
         . 
         getStringText 
         ( 
         ) 
         ; 
        
         } 
        
         } 
           
         catch 
           
         ( 
         ParserException  
         ex 
         ) 
           
         { 
        
         Logger 
         . 
         getLogger 
         ( 
         SohuNews 
         . 
         class 
         . 
         getName 
         ( 
         ) 
         ) 
         . 
         log 
         ( 
         Level 
         . 
         SEVERE 
         , 
           
         null 
         , 
           
         ex 
         ) 
         ; 
        
         } 
        
         return 
           
         newsAuthor 
         ; 
        
         } 
        
         /* 
        
              * 获得新闻的日期 
        
              */ 
        
         private 
           
         String 
           
         getNewsDate 
         ( 
         NodeFilter  
         dateFilter 
         , 
           
         Parser  
         parser 
         ) 
           
         { 
        
         String 
           
         newsDate 
           
         = 
           
         null 
         ; 
        
         try 
           
         { 
        
         NodeList  
         dateList 
           
         = 
           
         ( 
         NodeList 
         ) 
           
         parser 
         . 
         parse 
         ( 
         dateFilter 
         ) 
         ; 
        
         for 
           
         ( 
         int 
           
         i 
           
         = 
           
         0 
         ; 
           
         i 
           
         < 
           
         dateList 
         . 
         size 
         ( 
         ) 
         ; 
           
         i 
         ++ 
         ) 
           
         { 
        
         Span  
         dateTag 
           
         = 
           
         ( 
         Span 
         ) 
           
         dateList 
         . 
         elementAt 
         ( 
         i 
         ) 
         ; 
        
         newsDate 
           
         = 
           
         dateTag 
         . 
         getStringText 
         ( 
         ) 
         ; 
        
         } 
        
         } 
           
         catch 
           
         ( 
         ParserException  
         ex 
         ) 
           
         { 
        
         Logger 
         . 
         getLogger 
         ( 
         SohuNews 
         . 
         class 
         . 
         getName 
         ( 
         ) 
         ) 
         . 
         log 
         ( 
         Level 
         . 
         SEVERE 
         , 
           
         null 
         , 
           
         ex 
         ) 
         ; 
        
         } 
        
         return 
           
         newsDate 
         ; 
        
         } 
        
         /** 
        
              * 获取新闻的内容 
        
              * @param newsContentFilter 
        
              * @param parser 
        
              * @return  content 新闻内容 
        
              */ 
        
         private 
           
         String 
           
         getNewsContent 
         ( 
         NodeFilter  
         newsContentFilter 
         , 
           
         Parser  
         parser 
         ) 
           
         { 
        
         String 
           
         content 
           
         = 
           
         null 
         ; 
        
         StringBuilder  
         builder 
           
         = 
           
         new 
           
         StringBuilder 
         ( 
         ) 
         ; 
        
         try 
           
         { 
        
         NodeList  
         newsContentList 
           
         = 
           
         ( 
         NodeList 
         ) 
           
         parser 
         . 
         parse 
         ( 
         newsContentFilter 
         ) 
         ; 
        
         for 
           
         ( 
         int 
           
         i 
           
         = 
           
         0 
         ; 
           
         i 
           
         < 
           
         newsContentList 
         . 
         size 
         ( 
         ) 
         ; 
           
         i 
         ++ 
         ) 
           
         { 
        
         Div  
         newsContenTag 
           
         = 
           
         ( 
         Div 
         ) 
           
         newsContentList 
         . 
         elementAt 
         ( 
         i 
         ) 
         ; 
        
         builder 
           
         = 
           
         builder 
         . 
         append 
         ( 
         newsContenTag 
         . 
         getStringText 
         ( 
         ) 
         ) 
         ; 
        
         } 
        
         content 
           
         = 
           
         builder 
         . 
         toString 
         ( 
         ) 
         ; 
            
         //转换为String 类型。 
        
         if 
           
         ( 
         content 
           
         != 
           
         null 
         ) 
           
         { 
        
         parser 
         . 
         reset 
         ( 
         ) 
         ; 
        
         parser 
           
         = 
           
         Parser 
         . 
         createParser 
         ( 
         content 
         , 
           
         "gb2312" 
         ) 
         ; 
        
         StringBean  
         sb 
           
         = 
           
         new 
           
         StringBean 
         ( 
         ) 
         ; 
        
         sb 
         . 
         setCollapse 
         ( 
         true 
         ) 
         ; 
        
         parser 
         . 
         visitAllNodesWith 
         ( 
         sb 
         ) 
         ; 
        
         content 
           
         = 
           
         sb 
         . 
         getStrings 
         ( 
         ) 
         ; 
        
         //                String s = "\";} else{ document.getElementById('TurnAD444').innerHTML = \"\";} } showTurnAD444(intTurnAD444); }catch(e){}"; 
        
         content 
           
         = 
           
         content 
         . 
         replaceAll 
         ( 
         "\\\".*[a-z].*\\}" 
         , 
           
         "" 
         ) 
         ; 
        
         content 
           
         = 
           
         content 
         . 
         replace 
         ( 
         "[我来说两句]" 
         , 
           
         "" 
         ) 
         ; 
        
         } 
           
         else 
           
         { 
        
         System 
         . 
         out 
         . 
         println 
         ( 
         "没有得到新闻内容！" 
         ) 
         ; 
        
         } 
        
         } 
           
         catch 
           
         ( 
         ParserException  
         ex 
         ) 
           
         { 
        
         Logger 
         . 
         getLogger 
         ( 
         SohuNews 
         . 
         class 
         . 
         getName 
         ( 
         ) 
         ) 
         . 
         log 
         ( 
         Level 
         . 
         SEVERE 
         , 
           
         null 
         , 
           
         ex 
         ) 
         ; 
        
         } 
        
         return 
           
         content 
         ; 
        
         } 
        
         /** 
        
              * 根据提供的URL，获取此URL对应网页所有的纯文本信息，次方法得到的信息不是很纯， 
        
              *常常会得到我们不想要的数据。不过如果你只是想得到某个URL 里的所有纯文本信息，该方法还是很好用的。 
        
              * @param url 提供的URL链接 
        
              * @return RL对应网页的纯文本信息 
        
              * @throws ParserException 
        
              * @deprecated 该方法被 getNewsContent()替代。 
        
              */ 
        
         @Deprecated 
        
         public 
           
         String 
           
         getText 
         ( 
         String 
           
         url 
         ) 
           
         throws 
           
         ParserException 
           
         { 
        
         StringBean  
         sb 
           
         = 
           
         new 
           
         StringBean 
         ( 
         ) 
         ; 
        
         //设置不需要得到页面所包含的链接信息 
        
         sb 
         . 
         setLinks 
         ( 
         false 
         ) 
         ; 
        
         //设置将不间断空格由正规空格所替代 
        
         sb 
         . 
         setReplaceNonBreakingSpaces 
         ( 
         true 
         ) 
         ; 
        
         //设置将一序列空格由一个单一空格所代替 
        
         sb 
         . 
         setCollapse 
         ( 
         true 
         ) 
         ; 
        
         //传入要解析的URL 
        
         sb 
         . 
         setURL 
         ( 
         url 
         ) 
         ; 
        
         //返回解析后的网页纯文本信息 
        
         return 
           
         sb 
         . 
         getStrings 
         ( 
         ) 
         ; 
        
         } 
        
         /** 
        
              * 对新闻URL进行解析提取新闻，同时将新闻插入到数据库中。 
        
              * @param content 
        
              */ 
        
         public 
           
         void 
           
         parser 
         ( 
         String 
           
         url 
         ) 
           
         { 
        
         try 
           
         { 
        
         parser 
           
         = 
           
         new 
           
         Parser 
         ( 
         url 
         ) 
         ; 
        
         NodeFilter  
         titleFilter 
           
         = 
           
         new 
           
         TagNameFilter 
         ( 
         "h1" 
         ) 
         ; 
        
         NodeFilter  
         contentFilter 
           
         = 
           
         new 
           
         AndFilter 
         ( 
         new 
           
         TagNameFilter 
         ( 
         "div" 
         ) 
         , 
           
         new 
           
         HasAttributeFilter 
         ( 
         "id" 
         , 
           
         "sohu_content" 
         ) 
         ) 
         ; 
        
         NodeFilter  
         newsdateFilter 
           
         = 
           
         new 
           
         AndFilter 
         ( 
         new 
           
         TagNameFilter 
         ( 
         "span" 
         ) 
         , 
           
         new 
           
         HasAttributeFilter 
         ( 
         "class" 
         , 
           
         "c" 
         ) 
         ) 
         ; 
        
         NodeFilter  
         newsauthorFilter 
           
         = 
           
         new 
           
         AndFilter 
         ( 
         new 
           
         TagNameFilter 
         ( 
         "div" 
         ) 
         , 
           
         new 
           
         HasAttributeFilter 
         ( 
         "class" 
         , 
           
         "editUsr" 
         ) 
         ) 
         ; 
        
         String 
           
         newsTitle 
           
         = 
           
         getTitle 
         ( 
         titleFilter 
         , 
           
         parser 
         ) 
         ; 
        
         parser 
         . 
         reset 
         ( 
         ) 
         ; 
             
         //记得每次用完parser后，要重置一次parser。要不然就得不到我们想要的内容了。 
        
         String 
           
         newsContent 
           
         = 
           
         getNewsContent 
         ( 
         contentFilter 
         , 
           
         parser 
         ) 
         ; 
        
         System 
         . 
         out 
         . 
         println 
         ( 
         newsContent 
         ) 
         ; 
             
         //输出新闻的内容，查看是否符合要求 
        
         parser 
         . 
         reset 
         ( 
         ) 
         ; 
        
         String 
           
         newsDate 
           
         = 
           
         getNewsDate 
         ( 
         newsdateFilter 
         , 
           
         parser 
         ) 
         ; 
        
         parser 
         . 
         reset 
         ( 
         ) 
         ; 
        
         String 
           
         newsauthor 
           
         = 
           
         getNewsAuthor 
         ( 
         newsauthorFilter 
         , 
           
         parser 
         ) 
         ; 
        
         //先设置新闻对象，让新闻对象里有新闻内容。 
        
         setN              
         ews 
         ( 
         newsTitle 
         , 
           
         newsauthor 
         , 
           
         newsContent 
         , 
           
         newsDate 
         , 
           
         url 
         ) 
         ; 
        
         //将新闻添加到数据中。 
        
         this 
         . 
         newsToDataBase 
         ( 
         ) 
         ; 
        
         } 
           
         catch 
           
         ( 
         ParserException  
         ex 
         ) 
           
         { 
        
         Logger 
         . 
         getLogger 
         ( 
         SohuNews 
         . 
         class 
         . 
         getName 
         ( 
         ) 
         ) 
         . 
         log 
         ( 
         Level 
         . 
         SEVERE 
         , 
           
         null 
         , 
           
         ex 
         ) 
         ; 
        
         } 
        
         } 
        
         //单个文件测试网页 
        
         public 
           
         static 
           
         void 
           
         main 
         ( 
         String 
         [ 
         ] 
           
         args 
         ) 
           
         { 
        
         SohuNews  
         news 
           
         = 
           
         new 
           
         SohuNews 
         ( 
         ) 
         ; 
        
         news 
         . 
         parser 
         ( 
         "http://news.sohu.com/20090518/n264012864.shtml" 
         ) 
         ; 
             
         } 
        
         }

存放新闻的数据库用的是MySql 建表语句如下：（其实不用数据库也可以的，在SohuNews类中注释掉那行红色的代码就可以了，所有得到的新闻都会在后台打印的。）

MySQL
 
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
          12 
        
          13 
        
          14 
        
          15 
        
          16 
        
          17 
        
         CREATE 
           
         DATABASE 
           
         IF NOT EXISTS 
          sohunews; 
        
         USE 
          sohunews; 
        
          -- 
        
         -- Definition of table `news` 
        
          -- 
        
         DROP 
           
         TABLE 
           
         IF EXISTS 
          `news`; 
        
         CREATE 
           
         TABLE 
          `news` 
          ( 
        
           `newsid` 
           
         int(11) 
           
         NOT NULL 
           
         auto_increment, 
        
           `newstitle` 
           
         varchar(60) 
           
         NOT NULL, 
        
           `newsauthor` 
           
         varchar(20) 
           
         NOT NULL, 
        
           `newscontent` 
           
         text 
           
         NOT NULL, 
        
           `newsurl` 
           
         char(130) 
           
         NOT NULL, 
        
           `newsdate` 
           
         varchar(24) 
           
         NOT NULL, 
        
         PRIMARY KEY 
           (`newsid`) 
        
          ) 
           
         ENGINE 
         = 
         InnoDB 
            
         DEFAULT 
           
         CHARSET 
         =utf8;

以上的代码写的很粗糙，项目中使用到了HtmlParser工具包，如果需要可以到http://sourceforge.net/projects/htmlparser 网站上下载。如果有需要这个

这篇文章只是一篇抛砖引玉的文章，希望懂爬虫的你能够给点意见，大家交流交流！！

项目源代码：SohuNews

ps:http://www.blogjava.net/gml520/archive/2009/05/20/271691.html

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
「豆包Marscode体验官」 | 云端 IDE 启动 & Rust 体验张风捷特烈 ide rust 开发语言后端
theme:cyanosis我正在参加「豆包MarsCode初体验」征文活动MarsCode可以看作一个运行在服务端的远程VSCode开发环境。对于我这种想要学习体验某些语言，但不想在电脑里装环境的人来说非常友好。本文就来介绍一下在MarsCode里，我的体验rust开发体验。一、MarsCode是什么它的本质是:提供代码助手和云端IDE服务的web网站，可通过下面的链接访问https://www
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
Spring Boot中实现跨域请求 BABA8891 spring boot 后端 java
在SpringBoot中实现跨域请求（CORS，Cross-OriginResourceSharing）可以通过多种方式，以下是几种常见的方法：1.使用@CrossOrigin注解在SpringBoot中，你可以在控制器或者具体的请求处理方法上使用@CrossOrigin注解来允许跨域请求。在控制器上应用：importorg.springframework.web.bind.annotation.
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
详解：如何设计出健壮的秒杀系统？夜空_2cd3
作者：Yrion博客园：cnblogs.com/wyq178/p/11261711.html前言：秒杀系统相信很多人见过，比如京东或者淘宝的秒杀，小米手机的秒杀。那么秒杀系统的后台是如何实现的呢？我们如何设计一个秒杀系统呢？对于秒杀系统应该考虑哪些问题？如何设计出健壮的秒杀系统？本期我们就来探讨一下这个问题：image目录一：****秒杀系统应该考虑的问题二：****秒杀系统的设计和技术方案三：*
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
补充元象二面 Redstone Monstrosity 前端面试
1.请尽可能详细地说明，防抖和节流的区别，应用场景？你的回答中不要写出示例代码。防抖（Debounce）和节流（Throttle）是两种常用的前端性能优化技术，它们的主要区别在于如何处理高频事件的触发。以下是防抖和节流的区别和应用场景的详细说明：防抖和节流的定义防抖：在一段时间内，多次执行变为只执行最后一次。防抖的原理是，当事件被触发后，设置一个延迟定时器。如果在这个延迟时间内事件再次被触发，则重
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

使用HtmlParser实现网络爬虫并且插入数据库

你可能感兴趣的:(html,Web,前端,爬虫,HtmlParser)