简单的爬虫爬取文章

我们会用一些简单的爬虫去爬取小说等,那么在别人的网站中我们的应选择对应的标题等数据作为爬取的内容标杆
如以下代码
//模拟浏览器发请求
Connection connect = Jsoup.connect(“”");
Document doc = connect.get();
//System.out.println(document);
Elements select = doc.select(".list16");
for (Element list16 : select) {
//System.out.println(select);

		Elements select2 = list16.select("a[href]");
		for (Element a : select2) {
			//System.out.println(a);
			String url = a.attr("href");
			System.out.println(url);
			if(!url.startsWith("http")) {
				url="http:"+url;
			}
			if(!url.contains("subject")) {
				
				Connection connect2 = Jsoup.connect(url);
				Document document = connect2.get();
				Elements select3 = document.select(".article");
				String text=null;
				for (Element element : select3) {
					//System.out.println(element);
					 text = element.text();
					//以标题作为文本的名称,内容作为文本的内容存在本地磁盘
					
					//System.out.println(text);
				}
				String attr = a.attr("title");
				attr = attr.replace("|", "").replace("*", "").replace("\"", "").replace("?", "").replace("/", "")
						.replace("\\", "").replace(">", "").replace("<", "").replace(":", "");
				//System.out.println(attr);
				FileUtilIO.writeFile("G:/爬虫/"+attr+".txt", text, "utf8");
				
			}
		
		}
		
	}

选择不同的,与之网站对应的数据,就可以做到简单的爬取了

纯属个人观点
不喜勿喷
wuhui

你可能感兴趣的:(简单的爬虫爬取文章)