a0agd1X50

利用内存数据库和布隆过滤器写的网络爬虫

内存数据库用来保存待访问url，布隆过滤器用来记录已访问的url。先前我们待访问url是存放在内存中，已访问的url是利用HashSet实现的。

布隆过滤器

package hashfilter;

import java.util.BitSet;

import bdb.CrawlUrl;

public class SimpleBloomFilter {
	private static final int DEFAULT_SIZE=2<<24;
	private static final int seeds[]={7,11,13,31,37,61};
	private BitSet bits=new BitSet(DEFAULT_SIZE);
	private SimpleHash func[]=new SimpleHash[seeds.length];
	
	public SimpleBloomFilter()
	{
		int n=func.length;
		for(int i=0;i<n;i++)
		{
			func[i]=new SimpleHash(DEFAULT_SIZE,seeds[i]);
		}
	}
	
	public void add(CrawlUrl crawlUrl)
	{
			add(crawlUrl.getOriUrl());
	}
	
	private void add(String value)
	{
		if(value!=null)
		{
			for(SimpleHash f:func)
			{
				bits.set(f.hash(value), true);
			}
		}
	}
	
	public boolean contains(CrawlUrl crawlUrl)
	{
			return contains(crawlUrl.getOriUrl());
	}
	
	private boolean contains(String value)
	{
		if(value==null)
			return false;
		else
		{
			boolean ret=true;
			for(SimpleHash f:func)
			{
				ret=ret&&bits.get(f.hash(value));
			}
			return ret;
		}
	}
}

package hashfilter;

public class SimpleHash {
	private int cap;
	private int seed;
	public SimpleHash(int cap,int seed)
	{
		this.cap=cap;
		this.seed=seed;
	}
	
	public int hash(String value)
	{
		int result=0;
		int n=value.length();
		for(int i=0;i<n;i++)
		{
			result=result*seed+value.charAt(i);
		}
		return (cap-1)&result;
	}

}

内存数据库

package bdb;

import java.io.Serializable;
import java.util.Date;

import com.sleepycat.je.utilint.Timestamp;



public class CrawlUrl implements Serializable{
	private static final long serialVersionUID=7931672194843948629L;
	public CrawlUrl(){
		
	}
	private String oriUrl;				// 原始 URL 的值，主机部分是域名
	
	private String url;					// URL 的值，主机部分是 IP，为了防止重复主机的出现
	private int urlNo;					// URL NUM
	private int statusCode;				// 获取 URL 返回的结果码
	private int hitNum;					// 此 URL 被其他文章引用的次数
	private String charSet;				// 此 URL 对应文章的汉字编码
	private String abstractText;		// 文章摘要
	private String author;				// 作者
	private int weight;					// 文章的权重(包含导向词的信息)
	private String description;			// 文章的描述
	private int fileSize;				// 文章大小
	private Timestamp lastUpdateTime;	// 最后修改时间
	private Date timeToLive;			// 过期时间
	private String title;				// 文章名称
	private String type;				// 文章类型
	private String[] urlRefrences;		// 引用的链接
	private int layer;					// 爬取的层次， 从种子开始， 依次为第 0 层， 第 1 层...

	public int getLayer()
	{
		return layer;
	}
	public void setLayer(int layer)
	{
		this.layer=layer;
	}
	public String getUrl()
	{
		return url;
	}
	public void setUrl(String url)
	{
		this.url=url;
	}
	public int getUrlNo()
	{
		return urlNo;
	}
	public void setUrlNo(int urlNo) 
	{
		this.urlNo = urlNo;
	}
	public int getStatusCode() 
	{
		return statusCode;
	}
	public void setStatusCode(int statusCode) 
	{
		this.statusCode = statusCode;
	}
	public int getHitNum() 
	{
		return hitNum;
	}
	public void setHitNum(int hitNum) 
	{
		this.hitNum = hitNum;
	}
	public String getCharSet() 
	{
		return charSet;
	}
	public void setCharSet(String charSet) 
	{
		this.charSet = charSet;
	}
	public String getAbstractText() 
	{
		return abstractText;
	}
	public void setAbstractText(String abstractText) 
	{
		this.abstractText = abstractText;
	}
	public String getAuthor() 
	{
		return author;
	}
	public void setAuthor(String author) 
	{
		this.author = author;
	}
	public int getWeight() 
	{
		return weight;
	}
	public void setWeight(int weight)
	{
		this.weight = weight;
	}
	public String getDescription() 
	{
		return description;
	}
	public void setDescription(String description) 
	{
		this.description = description;
	}
	public int getFileSize() 
	{
		return fileSize;
	}
	public void setFileSize(int fileSize) 
	{
		this.fileSize = fileSize;
	}
	public Timestamp getLastUpdateTime() 
	{
		return lastUpdateTime;
	}
	public void setLastUpdateTime(Timestamp lastUpdateTime)
	{
		this.lastUpdateTime = lastUpdateTime;
	}
	public Date getTimeToLive() 
	{
		return timeToLive;
	}
	public void setTimeToLive(Date timeToLive) 
	{
		this.timeToLive = timeToLive;
	}
	public String getTitle() 
	{
		return title;
	}
	public void setTitle(String title) 
	{
		this.title = title;
	}
	public String getType() 
	{
		return type;
	}
	public void setType(String type) 
	{
		this.type = type;
	}
	public String[] getUrlRefrences() 
	{
		return urlRefrences;
	}
	public void setUrlRefrences(String[] urlRefrences) 
	{
		this.urlRefrences = urlRefrences;
	}
	public final String getOriUrl() 
	{
		return oriUrl;
	}
	public void setOriUrl(String oriUrl) 
	{
		this.oriUrl = oriUrl;
	}
}

package bdb;

public interface Frontier {
	public CrawlUrl getNext() throws Exception;
	public boolean putUrl(CrawlUrl url) throws Exception;

}

package bdb;

import java.io.File;





import com.sleepycat.bind.serial.StoredClassCatalog;
import com.sleepycat.je.Database;
import com.sleepycat.je.DatabaseConfig;
import com.sleepycat.je.Environment;
import com.sleepycat.je.EnvironmentConfig;

public abstract class AbstractFrontier {
	private Environment env;
	private static final String CLASS_CATALOG="java_class_catalog";
	protected StoredClassCatalog javaCatalog;
	protected Database catalogdatabase;
	protected Database database;
	
	public AbstractFrontier(String homeDirectory)
	{
		System.out.println("Opening environment in: "+homeDirectory);
		EnvironmentConfig envConfig=new EnvironmentConfig();
		envConfig.setTransactional(true);
		envConfig.setAllowCreate(true);
		env=new Environment(new File(homeDirectory),envConfig);
		
		DatabaseConfig dbConfig=new DatabaseConfig();
		dbConfig.setAllowCreate(true);
		dbConfig.setTransactional(true);
		catalogdatabase=env.openDatabase(null, CLASS_CATALOG, dbConfig);
		// A single StoredClassCatalog object is normally used along with a set of databases that stored serialized objects.
		// 存放需要序列化的对象
		javaCatalog=new StoredClassCatalog(catalogdatabase);
		DatabaseConfig dbConfig0=new DatabaseConfig();
		dbConfig0.setAllowCreate(true);
		dbConfig0.setTransactional(true);
		// 存放的是key
		database=env.openDatabase(null,"URL", dbConfig0);
	}
	public void close()
	{
		database.close();
		javaCatalog.close();
		env.close();
	}
	protected abstract void put(Object key,Object value);
	protected abstract Object get(Object key);
	protected abstract Object delete(Object key);

}

package bdb;

import java.util.Map.Entry;
import java.util.Set;

import com.sleepycat.bind.EntryBinding;
import com.sleepycat.bind.serial.SerialBinding;
import com.sleepycat.collections.StoredMap;

public class BDBFrontier extends AbstractFrontier implements Frontier{
	private StoredMap pendingUrisDB=null;

	public BDBFrontier(String homeDirectory) {
		super(homeDirectory);
		// TODO Auto-generated constructor stub
		// 获得DatabaseEntry有两种方式，一是通过其构造函数，参数是对象的字节；
		// 二是通过EntryBinding.objectToEntry()函数来获得
		EntryBinding keyBinding=new SerialBinding(javaCatalog, String.class);
		EntryBinding valueBinding=new SerialBinding(javaCatalog,CrawlUrl.class);
		// Creates a map entity view of a Database
		pendingUrisDB=new StoredMap(database,keyBinding,valueBinding,true);
		
	}

	@Override
	public CrawlUrl getNext() throws Exception {
		// TODO Auto-generated method stub
		CrawlUrl result=null;
		if(!pendingUrisDB.isEmpty())
		{
//			Set entrys=pendingUrisDB.entrySet();
//			System.out.println(entrys);
			Entry<String,CrawlUrl> 
			entry=(Entry<String,CrawlUrl>)pendingUrisDB.entrySet().iterator().next();
			result=entry.getValue();
			delete(entry.getKey());
		}
		return result;
	}

	@Override
	public boolean putUrl(CrawlUrl url) throws Exception {
		// TODO Auto-generated method stub
		put(url.getOriUrl(),url);
		return true;
	}

	@Override
	protected void put(Object key, Object value) {
		// TODO Auto-generated method stub
		pendingUrisDB.put(key, value);
		
	}

	@Override
	protected Object get(Object key) {
		// TODO Auto-generated method stub
		return pendingUrisDB.get(key);
	}

	@Override
	protected Object delete(Object key) {
		// TODO Auto-generated method stub
		return pendingUrisDB.remove(key);
	}
	
	// 根据url可计算键值，可使用包括MD5在内的各种压缩算法
	private String calulateUrl(String url)
	{
		return url;
	}
	
	public boolean contains(CrawlUrl url)
	{
		return pendingUrisDB.containsKey(url.getOriUrl());
	}
	
	public boolean isEmpty()
	{
		return pendingUrisDB.isEmpty();
	}
	
	// 测试程序
//	public static void main(String[] args)
//	{
//		BDBFrontier bDBFrontier=new BDBFrontier("D:\\bdb");
//		CrawlUrl url=new CrawlUrl();
//		url.setOriUrl("http://www.baidu.com");
//		try {
//			bDBFrontier.putUrl(url);
//			System.out.println(bDBFrontier.getNext().getOriUrl());
//			bDBFrontier.close();
//		} catch (Exception e) {
//			// TODO Auto-generated catch block
//			e.printStackTrace();
//		}
//	}

}

封装待访问url和已访问url

import bdb.BDBFrontier;
import bdb.CrawlUrl;
import hashfilter.SimpleBloomFilter;


public class NewLinkQueue {
	private static SimpleBloomFilter visitedUrl=new SimpleBloomFilter();
	private static BDBFrontier unvistedUrl=new BDBFrontier("D:\\bdb");
	
	public static Object unvisitedUrlDeQueue() throws Exception
	{
		return unvistedUrl.getNext().getOriUrl();
	}
	
	public static void addUnvisitedUrl(String url)
	{
		CrawlUrl crawlUrl=new CrawlUrl();
		crawlUrl.setOriUrl(url);
		if(url!=null&&!url.trim().equals("")
				&&!unvistedUrl.contains(crawlUrl)&&!visitedUrl.contains(crawlUrl))
		{
			try {
				unvistedUrl.putUrl(crawlUrl);
			} catch (Exception e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}
		}
	}
	
	public static boolean unvisitedUrlIsEmpty()
	{
		return unvistedUrl.isEmpty();
	}
	
	public static void addVisitedUrl(String url)
	{
		CrawlUrl crawlUrl=new CrawlUrl();
		crawlUrl.setOriUrl(url);
		visitedUrl.add(crawlUrl);
	}

}

//下载网页

import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.concurrent.TimeUnit;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.http.Header;
import org.apache.http.HttpResponse;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.conn.HttpClientConnectionManager;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.impl.conn.BasicHttpClientConnectionManager;
import org.apache.http.params.BasicHttpParams;
import org.apache.http.params.HttpConnectionParams;
import org.apache.http.params.HttpParams;


public class DownLoadFile {
	
	private String filePath;
	private CloseableHttpClient httpclient;
	
	DownLoadFile()
	{
		filePath=null;
//		httpclient=HttpClients.createDefault();
//		HttpParams httpParams=new BasicHttpParams();
//		HttpConnectionParams.setConnectionTimeout(httpParams, 50000);
//		HttpConnectionParams.setSoTimeout(httpParams, 5000);
		
	}
	
	//根据URL和网页类型生成需要保存的网页的文件名，去除URL中的非文件名字符
	public String getFileNameByUrl(String url,String contentType)
	{
		url=url.substring(7);
		//text/html类型
		if(contentType.indexOf("html")!=-1)
		{
			url=url.replaceAll("[\\?/:|<>\"]","_")+".html";
			return url;
		}
		else
		{
			return url.replaceAll("[\\?/:|<>\"]","_")+"."
					+contentType.substring(contentType.lastIndexOf("/")+1);
		}
	}
	
	//保存网页字节数组到本地文件，filePath为要保存的文件的相对路径
	
	
	
	
	//下载URL指向的网页
	public String downloadFile(String url)
	{
		System.out.println("link:"+url);
//		HttpClientConnectionManager connManager=new BasicHttpClientConnectionManager();
//		connManager.closeIdleConnections(5, TimeUnit.SECONDS);
//		httpclient=HttpClients.createMinimal(connManager);
		
		
//		RequestConfig.Builder requestBuilder=RequestConfig.custom();
//		requestBuilder = requestBuilder.setConnectionRequestTimeout(5*1000);
//		requestBuilder = requestBuilder.setConnectTimeout(5*1000);
//		HttpClientBuilder builder=HttpClientBuilder.create();
//		builder.setDefaultRequestConfig(requestBuilder.build());
//		CloseableHttpClient httpclient=builder.build();
		
		 HttpParams params = new BasicHttpParams();

		 HttpConnectionParams.setConnectionTimeout(params, 10000);

		 HttpConnectionParams.setSoTimeout(params, 10000);

		 HttpClient httpClient = new DefaultHttpClient(params);
		
		
		try {
			HttpGet httpGet=new HttpGet(url);
			HttpResponse response=httpClient.execute(httpGet);
			System.out.println("得到http响应");
			if(response.getStatusLine().getStatusCode()==HttpStatus.SC_OK)
			{
			
/**************************************************************************************/
				//提取网页编码方式
/*				Header[] headers=response.getAllHeaders();
				
				String charset=null;
				int temp=-1;
				for(int i=0;i<headers.length;i++)
				{
					if((temp=headers[i].getValue().indexOf("charset="))!=-1)
					{
//						int end=headers[i].getValue().indexOf("\"");
//						if(end==-1)
//							end=headers[i].getValue().indexOf(">");
//						charset=headers[i].getValue().substring(temp+8,end-1);
						charset=headers[i].getValue().substring(temp+8);
						break;
					}
				}
*/				
/*				InputStream in=response.getEntity().getContent();
				
				
				String charset=null;
				byte b[]=null;
				int contentLength=in.available();
				if(contentLength>1000)
				{
					contentLength=1000;
				}
				
				b=new byte[1000];
				in.read(b,0,contentLength);
				String strTmp=new String(b);
				Pattern p;
				Matcher m;
				String regex="gb2312|GB2312|GBK|gbk|utf-8|UTF-8|utf8|UTF8";
				p=Pattern.compile(regex);
				m=p.matcher(strTmp);
				if(m.find())
				{
					charset=m.group();
				}
				else
				{
					charset="utf-8";
				}
				
				System.out.println("得到网页字符集"+charset);
//				BufferedReader br=new BufferedReader(new InputStreamReader(in));
//				if(charset==null)
//				{
//					String line="";
//					StringBuffer buffer=new StringBuffer();
//					while((line=br.readLine())!=null)
//					{
//						buffer.append(line);
//					}
//					line=buffer.toString();
//					int a=line.indexOf("charset=");
//					String str=line.substring(a);
//					charset=str.substring(8,str.indexOf("\""));
//				}
//				if(charset==null)
//				{
//					charset="utf-8";
//				}
*/
/*************************************************************************************/
/*				//得到网页内容
				BufferedReader responseBody=new BufferedReader(new InputStreamReader(in,charset));
*/
/*************************************************************************************/
				String a=response.getFirstHeader("Content-Type").getValue();
				System.out.println("Content-Type内容: "+a);
				
				
				InputStream responseBody=response.getEntity().getContent();
				filePath="E:\\temp\\"
				+getFileNameByUrl(url,response.getFirstHeader("Content-Type").getValue());
				System.out.println("文件路径： "+filePath);
//				saveToLocal(responseBody,filePath);
				FileOutputStream outputStream=new FileOutputStream(new File(filePath));
				
				int length=0;
				byte b[]=new byte[1024];
				
				while((length=responseBody.read(b))!=-1)
				{
					outputStream.write(b,0,length);
				}
				
				responseBody.close();
				outputStream.close();
			}
			else
			{
				System.err.print("Method Failed:"+response.getStatusLine().getStatusCode());
			}
		} catch (ClientProtocolException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}catch(Exception e){
			e.printStackTrace();
		}
		
//		try {
//			httpclient.close();
//		} catch (IOException e) {
//			// TODO Auto-generated catch block
//			e.printStackTrace();
//		}
	
		return filePath;
	}
	
	private void saveToLocal(InputStream responseBody,String filePath) throws IOException
	{
//		int ch;
//		FileWriter fw=new FileWriter(filePath);
//		
//		
//		while((ch=responseBody.read())!=-1){
//			fw.write(ch);
//		}
//		responseBody.close();
//		fw.close();
//		
//		return ;
		
		
		
		
		
//		String line="";
//		StringBuffer buffer=new StringBuffer();
//		int i=0;
//		while((line=responseBody.readLine())!=null)
//		{
//			buffer.append(line);
//			System.out.println("第"+i+"次循环");
//			i++;
//		}
//		line=buffer.toString();
//		System.out.println(line);//输出源码
/**********************************************************************************************/
		//向文件中写入源码字符串
//		FileWriter fw1=new FileWriter(filePath);
//		fw1.write(line);
//		fw1.close();
//		System.out.println("保存完成"+filePath);
		
//		DataOutputStream out=new DataOutputStream(new FileOutputStream(new File(filePath)));
//		for(int i=0;i<b.length;i++)
//		{
//			out.write(b[i]);
//		}
		FileOutputStream outputStream=new FileOutputStream(new File(filePath));
		
		byte b[]=new byte[1024];
		
		while(responseBody.read(b)!=-1)
		{
			outputStream.write(b);
		}
		responseBody.close();
		outputStream.close();
	}
/*****************************************************************************************/
	//调试用
//	public static void main(String[] args)
//	{
//		DownLoadFile df=new DownLoadFile();
//		df.downloadFile("http://www.baidu.com");
//	}
}

提取链接

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.util.HashSet;
import java.util.Set;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;


public class HtmlParserTool {
	public static Set<String> extractLinks(String filePath)
	{
		Set<String> links=new HashSet<String>();
		NodeList nodeList;
		String line="";  
        StringBuffer sb=new StringBuffer();
        NodeFilter linkFilter=new NodeClassFilter(LinkTag.class);
        OrFilter lastFilter=new OrFilter();
        lastFilter.setPredicates(new NodeFilter[]{linkFilter});
		try {
			BufferedReader br=new BufferedReader(new FileReader(filePath));
			while((line=br.readLine())!=null)
			{
				sb.append(line);
			}
			Parser parser=Parser.createParser(sb.toString(), "utf-8");
			nodeList=parser.parse(lastFilter);
			Node nodes[]=nodeList.toNodeArray();
			String link=null;
			for(int i=0;i<nodes.length;i++)
			{
				if(nodes[i] instanceof  LinkTag)//	<a>  标签
				{
					LinkTag linkNode=(LinkTag)(nodes[i]);
					link=linkNode.getLink();
					links.add(link);
				}
				else//	<frame标签>
				{
					//提取frame里src属性的链接，如<frame src="test.html"/>
					String frame=nodes[i].getText();
					int start=frame.indexOf("src");
					int end=frame.indexOf(" ");
					if(end==-1)
					{
						end=frame.indexOf(">");
					}
					String frameUrl=frame.substring(start+5, end-1);
					links.add(frameUrl);
				}
			}
			
		} catch (FileNotFoundException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}catch (Exception e) {
			e.printStackTrace();
		}
		return links;
		
		
//		try {
//			Parser parser=new Parser(url);
//			parser.setEncoding("gb2312");
//			NodeFilter linkFilter=new NodeClassFilter(LinkTag.class);
//			OrFilter lastFilter=new OrFilter();
//			lastFilter.setPredicates(new NodeFilter[]{linkFilter});
////			parser.setEncoding("gb2312");
//			nodeList=parser.parse(lastFilter);
//			Node[] nodes=nodeList.toNodeArray();
//			String link="";
//			System.out.println("开始提取链接循环");
//			for(int i=0;i<nodes.length;i++)
//			{
//				if(nodes[i] instanceof  LinkTag)//	<a>  标签
//				{
//					LinkTag linkNode=(LinkTag)(nodes[i]);
//					link=linkNode.getLink();
//					links.add(link);
//				}
//				else//	<frame标签>
//				{
//					//提取frame里src属性的链接，如<frame src="test.html"/>
//					String frame=nodes[i].getText();
//					int start=frame.indexOf("src");
//					int end=frame.indexOf(" ");
//					if(end==-1)
//					{
//						end=frame.indexOf(">");
//					}
//					String frameUrl=frame.substring(start+5, end-1);
//					links.add(frameUrl);
//				}
//			}
//		} catch (ParserException e) {
//			// TODO Auto-generated catch block
//			e.printStackTrace();
//		}
//		catch(Exception e){
//			e.printStackTrace();
//		}
//		return links;
	}
}

主程序

import java.util.Set;


public class MyClawler {
	private void initCrawlerWithSeeds(String[] seeds)
	{
		for(int i=0;i<seeds.length;i++)
		{
			NewLinkQueue.addUnvisitedUrl(seeds[i]);
		}
	}
	
	public void crawling(String[] seeds)
	{
/******************************************************************************/
		//定义过滤器
/*		LinkFilter filter=new LinkFilter()
		{
			public boolean accept(String url)
			{
				if(url.startsWith("http://www.baidu.com"))
					return true;
				else 
					return false;
			}
		};
*/
/******************************************************************************/
		
		initCrawlerWithSeeds(seeds);
		
		DownLoadFile downLoader=new DownLoadFile();
		Set<String> links=null;
		String filePath=null;
		while(!NewLinkQueue.unvisitedUrlIsEmpty())
		{
			String visitUrl;
			try {
				visitUrl = (String)NewLinkQueue.unvisitedUrlDeQueue();// 未访问队列队首Url出列
				System.out.println("提取未访问的Url"+visitUrl);
				if(visitUrl==null)
					continue;
				filePath=downLoader.downloadFile(visitUrl);// 下载网页
				NewLinkQueue.addVisitedUrl(visitUrl);// 将该Url放入已访问队列
				links=HtmlParserTool.extractLinks(filePath);// 提取网页中的链接
				System.out.println("网页中的链接数："+links.size());
				for(String link:links)
				{
					NewLinkQueue.addUnvisitedUrl(link);// 将链接放入未访问队列
					System.out.println(link);
				}
				System.out.println("网页中的链接数："+links.size());
			} catch (Exception e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}
			
			
		}
		
	}
	
	public static void main(String[] args)
	{
		MyClawler clawler=new MyClawler();
		clawler.crawling(new String[]{"http://www.baidu.com"});
		System.out.println("done");
	}
}

参考文献：《自己动手写网络爬虫》、Berkeley DB参考手册等

docker 安装elasticsearch kibana，设置密码 biguojun docker elasticsearch kibana
安装elasticsearchdockerpulldocker.elastic.co/elasticsearch/elasticsearch:7.17.28dockerrun-d--namedocker-es-e"ES_JAVA_OPTS=-Xms512m-Xmx512m"-e"discovery.type=single-node"-vD:\docker\es\data:/usr/share/el
在Ubuntu上安装MEAN Stack的4个步骤 Kaede6 技术文章-Linux服务部署 ubuntu linux 运维
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
TypeScript语言的网络编程俞嫦曦包罗万象 golang 开发语言后端
TypeScript语言的网络编程引言随着现代网络应用程序的不断发展，对编程语言的需求也在不断提高。JavaScript作为前端开发的主要语言，凭借其动态特性和广泛的应用，成为了Web开发的中坚力量。而TypeScript作为JavaScript的超集，逐渐在开发社区中获得了越来越多的关注。其静态类型的特性使得开发者在编写大型应用程序时能够更加得心应手。尤其是在网络编程方面，TypeScript展
用Python抓取网页标题：使用`requests`库的实用指南清水白石008 python Python题库 python 开发语言
用Python抓取网页标题：使用requests库的实用指南在数据获取的时代，网页抓取（WebScraping）成为了一项重要的技能。无论是获取新闻标题、产品价格，还是数据分析，网页抓取都能提供丰富的信息。本文将详细介绍如何使用Python的requests库编写一个简单的爬虫，抓取某个网站的标题。我们将通过实例和代码片段，使整个过程清晰易懂，帮助你快速上手网页抓取。一、了解网页抓取网页抓取是指通
大疆无人机航点飞行KMZ文件提取航点坐标程序员南飞无人机 macos java spring
一、需要插件jaxenjaxen1.1.4dom4jdom4j1.6.1二、KMZ解压成KMLpackagecom.dji.sample.common.util;importorg.dom4j.Document;importorg.dom4j.io.SAXReader;importjava.io.File;importjava.io.FileInputStream;importjava.io.In
Java删除特定下标数组元素程序员南飞 Java 数组删除元素字符串遍历
15:16:06publicstaticvoidmain(String[]args){//数组创建以后长度不变，定义新的数组添加长度//删除特定下标数组String[]array1=newString[]{"a","b","b","c","d"};//删除第二个bintkey=2;String[]array2=newString[array1.length-1];for(inti=0;i=key)
深度解析ECharts.js：构建现代化数据可视化的利器斯~内克 WebGL echarts 信息可视化前端
引言：数据可视化的新时代挑战在数字化转型浪潮中，数据可视化已成为企业决策和用户体验的关键环节。面对海量数据的呈现需求，传统表格已无法满足用户对直观洞察的渴求。作为百度开源的JavaScript可视化库，ECharts.js凭借其强大的功能和灵活的扩展性，正在成为前端开发者的首选工具。本文将从核心技术解析、实践指南到性能优化，带您全面掌握这个可视化利器。一、ECharts核心技术架构剖析1.1分层渲
Java基础知识三（运算符）浪迹天涯的贺 Java基础系列上 java 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档前言更新第三篇文章，这篇文章讲一下Java的运算符相关的知识，对于Java中所有的运算符的种类和内容做一个总结在Java编程中，运算符（Operators）是执行特定操作的符号，它们用于操作变量和数据。本文将详细介绍Java中的运算符种类、用法以及其作用。1.算术运算符（ArithmeticOperators）算术运算符用于执行基本的
JAVA：网络编程 Socket 的技术指南拾荒的小海螺 JAVA java 网络开发语言
1、简述JavaNIO（Non-blockingI/O）是一种基于通道（Channel）和缓冲区（Buffer）的I/O模型，支持非阻塞通信和多路复用，适合高并发场景。相比传统的阻塞I/O（BIO），NIO更高效，因为它避免了线程被阻塞，降低了系统资源消耗。代码样例：https://gitee.com/lhdxhl/springboot-example.git核心组件：Channel（通道）：数据
如何运用python爬虫爬取图片素材网站的图片？（附完整代码）大懒猫软件 vue.js python 网络爬虫图像处理 bash
在当今数字化时代，高质量的图片资源对于设计师、开发者以及任何需要视觉素材的用户来说都至关重要。壁纸社作为一个提供丰富壁纸资源的网站，涵盖了从普通高清到4K、5K甚至8K超高清的多种分辨率，满足了不同用户的需求。然而，手动下载这些壁纸不仅耗时，而且效率低下。因此，开发一个自动化爬虫程序，批量下载高质量壁纸，不仅能节省时间，还能提高工作效率。本文将详细介绍如何使用Python爬虫技术从壁纸社爬取并保存
【网络爬虫】(2) requests模块，案例：网络图片爬取，附Python代码立Sir 网络爬虫爬虫 python
1.基本原理1.1requests模块requests是Python中一个非常流行的HTTP客户端库，用于发送所有的HTTP请求类型。它基于urllib，但比urllib更易用。中文文档地址：Requests:让HTTP服务人类—Requests2.18.1文档（1）requests.get(url,**kwargs)requests.get()函数是requests库中用于发送HTTPGET请求
爬虫基础 20岁30年经验的码农 1024程序员节
mavenpomorg.jsoupjsoup1.16.1org.apache.httpcomponentshttpcore4.4.16org.apache.httpcomponentshttpclient4.5.14commons-iocommons-io2.13.0====================================遍历网站内容爬取网站网址packagecom.xiaocao
三分钟让你搞懂云计算中的CDN是什么？云上的阿七云计算
随着互联网的快速发展，网站的访问速度和稳定性越来越受到重视。而在众多提升网站性能的技术中，CDN（内容分发网络）无疑是一个非常重要的工具。今天，我们就来聊聊云计算中的CDN是什么，以及它是如何为网站带来显著好处的。CDN是什么？CDN，全称ContentDeliveryNetwork，翻译过来就是“内容分发网络”。它是一种分布式的网络架构，通过将网站的静态资源（如图片、视频、JavaScript文
pyspark 遇到**Py4JJavaError** Traceback (most recent call last) ~\AppData\ 2pi spark python
Py4JJavaErrorTraceback(mostrecentcalllast)~\AppData\Local\Temp/ipykernel_22732/1401292359.pyin---->1feat_df.show(5,vertical=True)D:\Anaconda3\envs\recall-service-cp4\lib\site-packages\pyspark\sql\data
MyBatis-Plus整合SpringBoot及使用 kkk1622245 mybatis spring boot 后端
MyBatis-Plus是一个为简化开发而生的MyBatis增强工具，在Java开发领域广受欢迎。它继承了MyBatis的所有特性，并且通过引入强大的功能增强，极大减少了开发者的工作量。对于使用SpringBoot开发的项目，整合MyBatis-Plus能够使数据访问层的代码更加简洁，增强开发效率。在本文中，我们将详细探讨如何在SpringBoot项目中整合MyBatis-Plus并简要介绍其使用
xxl-job 执行器端服务器的简单搭建一切随缘～～～ xxl-job xxljob
xxl-job执行器端服务器的简单搭建先讲一下我们平时怎么使用xxl-job的，再引出背后是如何实现的。我觉得对于一款成功的框架来说，好用，是非常重要的一个特性。框架要便于接入，便于使用。对于用户来说，不要有太多的使用成本，最好是能够开箱即用，快速上手的。Java为什么这么流行呢？因为它的生态好。说是生态好，其实就是Spring那一套嘛，后面又有了SpringBoot。你想要使用什么组件，市面上基
Python爬虫-爬取汽车之家燃油车月销量榜数据写python的鑫哥爬虫案例1000讲 python 爬虫汽车之家燃油车月销量榜单数据
前言本文是该专栏的第48篇，后面会持续分享python爬虫干货知识，记得关注。在本文中，笔者已整理18篇汽车平台相关的爬虫项目案例。对此感兴趣的同学，可以直接翻阅查看。而本文，笔者将以汽车之家平台为例子。基于Python爬虫，实现批量爬取全部“燃油车”的月销量数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文
3.14学习总结 2402_88131930 学习
今天完成了几道关于二叉树的算法题关于二叉树的最小最大深度和数据流中的第k大元素，用到优先队列，学习了有关java的基础知识，学习了双指针法。
基于 SSM 架构的 JAVA 网络直播带货查询系统设计与 JSP 实践成果 2401_85702623 架构 java 开发语言
第二章关键技术的研究2.1JSP技术介绍JSP技术本身是一种脚本语言，但它的功能是十分强大的，因为它可以使用所有的JAVA类。当它与JavaBeans类进行结合时，它可以使显示逻辑和内容分开，这就极大的方便了用户的需求。JavaBeans可以对JSP技术的程序进行扩展，从而形成新的应用程序，而且JavaBeans的代码可以重复使用，所以就便于对程序进行维护。JavaBean组件有内部的接口，可以帮
springboot毕设电脑销售管理系统程序+论文真纯Django毕设程序 spring boot 课程设计后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展和普及，电脑已经成为现代生活和工作中不可或缺的重要工具。电脑销售行业也随之迎来了前所未有的发展机遇，但同时也面临着激烈的市场竞争和不断变化的客户需求。传统的销售管理模式已难以满足当前市场的快速响应和精细化管理要求。因此，开发一套高效、便捷、全面的电脑销售管
spring bean的生命周期和循环依赖 huingymm 面试学习使用 spring java 后端
springbean的生命周期在Spring框架中，Bean的生命周期是指从Bean的创建到销毁的整个过程。Spring容器负责管理Bean的生命周期，开发者可以通过配置或编程方式干预Bean的创建、初始化和销毁过程。以下是SpringBean生命周期的详细步骤：1.实例化（Instantiation）Spring容器根据配置（如XML、注解或Java配置）创建Bean的实例。这一步是通过反射调用
Java、Python、PHP、Go：网站开发语言全维度对比与选择指南生信天地开发语言 java python
在数字化转型浪潮中，网站开发技术的选择直接影响着项目的成败。Java、Python、PHP、Go四门语言凭借各自特性，在不同场景中展现出独特的竞争力。根据Statista2024年开发者调查报告，Java仍以34%的企业级应用占比位居榜首，而Go以27%的增速成为云原生领域新宠。本文基于技术特性、行业案例及发展趋势，深度解析四大语言的优劣势，助您做出精准技术选型。一、性能与并发能力：高负载场景的生
面试中JVM常被问到的问题以及对应的答案酷爱码经验分享面试 jvm 职场和发展
在面试中，关于JVM常被问到的问题以及对应的答案可能包括：什么是JVM？它的作用是什么？答：JVM是Java虚拟机的缩写，是Java程序运行的环境。它负责将Java源代码编译成字节码并运行在不同平台上。请解释一下JVM的内存结构。答：JVM内存结构主要包括堆内存、方法区、虚拟机栈、本地方法栈和程序计数器等部分。什么是Java的垃圾回收机制？答：Java的垃圾回收机制是通过不再被引用的对象由垃圾收集
Java入门第72课——String字符串基本操作猴子学编程 Java零基础课程 Java字符串 String StringBuilder
1.1String及其常用API1.1.1String是不可变对象·java.lang.String使用了final修饰，不能被继承；·字符串底层封装了字符数组及针对字符数组的操作算法；·字符串一旦创建，对象永远无法改变，但字符串引用可以重新赋值；·Java字符串在内存中采用Unicode编码方式，任何一个字符对应两个字节的定长编码。1.1.2String常量池·Java为了提高性能，静态字符串(
Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做含宇网络 spring boot java 后端
Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做【免费赠送源码】Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、
Java XML与JSON相互转换详解我真的不想做程序员 java java xml json 开发语言后端数据结构
目录一、为什么需要XML与JSON转换二、使用Jackson库进行转换1.添加依赖2.XML转JSON3.JSON转XML三、注意事项在现代软件开发中，数据格式的转换是一项常见的任务，特别是在处理不同系统或服务之间的数据交换时。XML（可扩展标记语言）和JSON（JavaScript对象表示法）是两种广泛使用的数据格式。本文将深入探讨如何在Java中实现XML与JSON之间的相互转换，并提供完整的
Java Stream 流的介绍吱屋猪_ java
介绍在Java8中，引入了StreamAPI，它为处理集合（如List、Set等）提供了一种更简洁、声明式的方式。Stream流的设计目标是支持对数据集合的高效操作，尤其是能够进行链式操作、并行处理等，极大地提升了代码的可读性和可维护性。本文将介绍JavaStream流的基础概念、常用操作以及如何利用Stream进行集合数据处理。1.什么是Stream流Stream是Java8引入的一个新的类，它
当 Selenium 的 click() /send_keys()等方法失效时：JavaScript 在 UI 自动化测试中的神奇用法做测试的小薄测试高阶 selenium javascript ui 自动化测试
引言在使用Selenium进行WebUI自动化测试时，我们通常依赖Selenium提供的原生方法（如click()、send_keys()等）来操作页面元素。然而，在某些复杂场景下，这些方法可能会失效。例如：元素被遮挡或隐藏。页面加载延迟导致元素无法正常交互。某些特殊的动态行为无法通过Selenium原生方法触发。这时，JavaScript就成为了我们的“救星”。通过driver.execute_
做个简易的计算器酷小亚 java基础面向对象
使用多态实现计算器的加减乘除，根据运算符不同实例化不同子类进行计算（运算符可键盘接收输入）例如：加法有num1、num2属性，方法：计算求和减法有num1、num2属性，方法：计算求差乘法有num1、num2属性，方法：计算求乘除法有num1、num2属性，方法：计算求除先看效果图：代码如下：packagecom_03.jin;importjava.util.Scanner;/***使用多态实现计
Spring基本使用沉下心来学技术 spring java 后端
Spring是什么？Spring是一个开源框架，它由RodJohnson创建，于2003年发布。Spring框架的主要目标是简化Java企业级应用的开发，通过提供一组全面的解决方案，如依赖注入、控制反转（IOC）、面向切面编程（AOP）、事务管理等，使得开发者能够更加专注于业务逻辑的实现，而不是底层的细节。官网：https://spring.io/projects/spring-framework
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

利用内存数据库和布隆过滤器写的网络爬虫

你可能感兴趣的:(java,搜索引擎,爬虫,网络爬虫,内存数据库)