一只小鱼儿

分布式爬虫（java+ 附github链接）

这个分布式爬虫是以前自己和同学一起合作的，后来在这个基础上改进了一些特性，同样的只是提供一个大概的思路，欢迎大家提出建议（注：爬虫代码仅供学习参考，须在法律允许范围内使用）

github链接：https://github.com/colabin/distributed_spider_demo

功能简介：

这个爬虫是一个可拓展的分布式爬虫，采用主从的通信模式，在主机端维护url队列，当从机与主机打招呼后，主机会分发url给从机，从机得到url后进行解析，再返回解析结果给主机持久化，然后主机再分配一个url给从机循环该过程，整个过程就是这样。

遇到的一些问题：

在之前的面试中，面试官问道从机每爬取一次就返回给主机，这样不会造成主机压力比较大？于是当时也考虑了不同的方案，一种方案是从机接收到url后就一直在本地循环解析，url加入队列，再持久化的过程，这样就只需要和主机打个招呼拿个url就完了，但是这样会造成一个问题，就是url的过滤，因为目前方案中url过滤在主机端进行，主机会过滤掉已爬取的url和重复的url，采用这种方案会导致从机之间不知道对方爬了哪些网页，如果在从机之间增加通信则会大大增加这个爬虫的复杂度，也考虑过为每个从机分配一个hash值，根据hash值判断要不要爬取url，这样从机爬取的url就不会重复，这个方案有一定的可行性，也是可以改进的一种方案。考虑到实际情况，当前爬虫的瓶颈主要是网络请求这一块，所以还是采取当前的通信模式了

还有一个问题就是连接的问题，当前主机和从机采取的是短连接的方式，就是从机每请求一次url都会建立一个新连接请求，从机爬取完后传回主机就断开连接，下次继续发起新的请求获取url。考虑过长连接，这样就不必接连不断地发起请求，但是长连接和短连接哪个性能好一点我还没试，希望有大神能够讲解一下。

这个爬虫作品目前来说是理想型的，没有考虑丢包情况下从机如何处理，从代码可以看出是从机发送一个请求过去会默认一定可以接受到主机的回复，如果发给主机的包丢失或者主机发回的包丢失那么从机就会处于阻塞状态，目前想法是通过线程休眠和轮询实现超时重新发起请求，重传3次失败则抛出异常，以后有时间我会改进一下，或者大家有更好的建议可以提出来。

为了提高容错性，我们在主机端维护了一个任务队列，当分配给从机一个任务后，如果从机10s内没有返回任务结果（可能是从机抛错等各种异常），则主机会将该任务从任务队列中移除并将url重新加入待爬取队列分配给其他从机

关于爬虫入门的一系列文章中提到的问题，这个爬虫里面也有了解决方案对应的代码，有些代码还不是很完善，也只是给大家提供一个大致的思路（部分解决方案的代码也是从网上搜索找来的，如果有作者看到是自己的代码请联系我，我会补充上作者信息）

项目结构图如下：

下面我贴出部分关键代码：

server client共用类

Mail类：作为主机和从机之间的通信类(部分getter,setter函数省略掉，太占篇幅)

public class Mail implements Serializable {
	private static final long serialVersionUID = 1L;
	private final MailState Type;       //消息类型分为3类：握手，爬取内容，挥手
	private String urlList = "";
	private List extractedContent = new ArrayList();
	private String taskId;
}

MailState类：消息类型

public enum MailState {
	Greeting,Passage,Bye;
}

server :

Task类：任务对象

public class Task {
	String taskId;
	String url;
	String createTime;
}

TaskManager类：维护url的去重和任务队列的监控

public class TaskManager extends java.util.TimerTask {
    
     public LinkedList urlToCrawList = new LinkedList<>();
     public HashSet urlCrawedHashSet = new HashSet<>();
     public List taskQueueList = new LinkedList<>();
     
     public Task getTaskById(String id){
	 for(Task task: taskQueueList ){
	     if(task.getTaskId().equals(id)){
		 return task;
	     }
	 }
	 return null;
     }

    @Override
    public void run() {
	// TODO Auto-generated method stub
	Date now = new Date();
	for(Task task : taskQueueList){
	    
	    String createTime = task.getCreateTime();
	    SimpleDateFormat df = new  SimpleDateFormat("yyyyMMddhhmmss");
	    Date cDate = null;
	    try {
		cDate = df.parse(createTime);
	    } catch (ParseException e) {
		e.printStackTrace();
	    }
	    long dif = (now.getTime() - cDate.getTime())/1000 ;
	    if(dif>7){  //运行时间超过7s，判定任务无效，重新加入等待执行队列
		urlToCrawList.add(task.getUrl());
		taskQueueList.remove(task);
		System.err.println("因任务超时，url"+task.getUrl()+"被重新加回待爬取队列，任务"+task.getTaskId()+"被从监听队列移除");
	    }
	    
	}
    }
}

server类 :

public class server {
    
    Lock lock = new Lock();
    Persisitence persistence = new Persisitence();
    
    boolean isListen = true; // 表示服务器是否继续接收链接
    int downMes = 0; // 提取到的网页数量
    int clientNum = 0 ; //连接的客户端数量
 
    int numToCraw = 10; // 限制爬取数量
    int depthToCraw = 3; // 限制爬取层数
    
    ServerSocket clientListener;
    int port; // 监听端口
    
    TaskManager taskManager = new TaskManager();
    ExecutorService executor = Executors.newFixedThreadPool(50); // 创建固定容量大小的缓冲池

    public server3(int por, String url) throws Exception {
	this.port = por;
	taskManager.urlToCrawList.add(url);
    }

    public void setNumToCraw(int numToCraw) {
        this.numToCraw = numToCraw;
    }

    public void setDepthToCraw(int depthToCraw) {
        this.depthToCraw = depthToCraw;
    }

    public void start() throws IOException {

	clientListener = new ServerSocket(port);
	while (true) {
	    System.out.println("主线程等待客户端连接");
	    Socket socket = clientListener.accept();
	    // 开启一个线程
	    executor.execute(new CreateServerThread(socket));
	    
	    // 不断轮训判断是否满足爬取条件
//	    if (downMes >= numToCraw ||depthToCraw >=5 ) {
//		isListen = false; // 此时服务器主动与客户端挥手
//	    }
//	    if (clientNum<= 0 ) {
//		return;
//	    }
	}
    }
    class Lock {
    } // 用于同步对任务队列的访问

    class CreateServerThread implements Runnable {
	private Socket client;
	ObjectInputStream is = null;
	ObjectOutputStream os = null;
	Mail2 send ; 
	Mail2 get ; 

	public CreateServerThread(Socket s) throws IOException {
	    client = s;
	}

	@Override
	public void run ()  {
	    System.out.println("进入服务器端子线程并和"+client.getInetAddress()+"开始通信");
	    try {
		is = new ObjectInputStream(new BufferedInputStream(
			client.getInputStream()));
		os = new ObjectOutputStream(client.getOutputStream());
		String contentExtracted = null ;
		Mail2 get = (Mail2) is.readObject();
		
		if (!isListen) { 
			os.writeObject(new Mail2(MailState.Bye)); // 客户端可能还会传链接过来客户端进入END状态开始上传
			clientNum -- ;
			is.close();
			os.close();
			return ;
		}
		
		    switch (get.getType()) {
		    case Greeting:
			    clientNum++ ; //客户端连接数量+1
			    if (taskManager.urlToCrawList.size() != 0) {
				  synchronized (lock) {  sendURL();}
			    }
			    else{
				Thread.sleep(10000);
				  if (taskManager.urlToCrawList.size() != 0){
				      synchronized (lock) {  sendURL();}
				  }
				  else{
				      os.writeObject(new Mail2(MailState.Bye)); // 客户端可能还会传链接过来客户端进入END状态开始上传
				      os.close();
				  }
			    }
//			Timer timer = new Timer(); // 定时扫描任务队列，清楚超时的任务
//			timer.schedule(taskManager, 1000, 5000); // 1s后执行，每5s扫描一次
			
			break;
		    case Passage:
			List extractedContent2 = get.getExtractedContent();
			System.err.println("服务器获得的网页内容————————————————————"+extractedContent2.toString());
			//持久化
			downMes++;
			
			String[] links = get.getUrlList().split(" ");
			for (String a : links) {
			    System.err.println("传来的链接数"+links.length);
			 //   if (!taskManager.urlCrawedHashSet.contains(a)&& !taskManager.urlToCrawList.contains(a)) // 保护客户端以前没有爬取过和待爬取队列不重复
				taskManager.urlToCrawList.offerLast(a); // 将客户端发过来的链接全部压入队列
			    System.err.println("传来url压入队列，目前待爬取url队列数量"+taskManager.urlToCrawList.size());
			}
			String taskid = get.getTaskId();
			Task t = taskManager.getTaskById(taskid);
			taskManager.taskQueueList.remove(t); // 从执行队列里移除
			System.err.println("url压入队列完毕，任务Id:"+t.getTaskId()+"url:"+t.getUrl()+"完成并从任务队列移除");
			taskManager.urlCrawedHashSet.add(t.getUrl()); // 将url添加到已爬取队列
			System.err.println("url:"+t.getUrl()+"加入到已爬取url队列");
			
			//从队列里面取url,对队列的访问要加锁
			    if (taskManager.urlToCrawList.size() != 0) {
				synchronized (lock) {  sendURL();}
			    }
			    else{
				Thread.sleep(10000);
				  if (taskManager.urlToCrawList.size() != 0){
				      synchronized (lock) {  sendURL();}
				  }
				  else{
				      os.writeObject(new Mail2(MailState.Bye)); // 客户端可能还会传链接过来客户端进入END状态开始上传
				      os.close();
				  }
			    }
			default:
			    return ;
		    } // 结束switch
	    } catch (Exception e) {
               e.printStackTrace();
	    }
	}

	private void sendURL() throws IOException {
	    String url = taskManager.urlToCrawList.poll();
	    Task task = new Task(url);
	    String createTime = new SimpleDateFormat("yyyyMMddhhMMss").format(new Date()); // 生成加入队列时间
	    task.setCreateTime(createTime);
	    taskManager.taskQueueList.add(task); // 加入任务队列
	    Mail2 mail = new Mail2(MailState.Linking);
	    mail.setUrlList(url);
	    mail.setTaskId(task.getTaskId());
	    System.err.println("任务Id:"+task.getTaskId()+"url:"+task.getUrl()+"被加入到任务监听队列");
	    System.err.println("任务Id:"+task.getTaskId()+"url:"+task.getUrl()+"被发送到client");
	    os.writeObject(mail);
	    os.flush();
	}
    }
    public static void main(String[] args) throws Exception{
	    server3 s = new server3(9000, "http://www.qq.com");
	    s.setDepthToCraw(1);
	    s.setNumToCraw(1);
	    s.start();
	}
}

client :

parser类：解析url和网页源码（提取规则根据具体抓取需求自行实现）

public class Parser {

    public static String proxyIPList[] = {"ec2-50-16-197-120.compute-1.amazonaws.com"};
    public static int proxyPortList[] = { 8001};
    
    WebBrowser webBrowser = new WebBrowser();
    List nextPageLinks = new ArrayList();

    public String getUrlContent(String url) throws Exception {

	
	URL urlToDownload = new URL(url);
	HttpURLConnection conn = (HttpURLConnection) urlToDownload.openConnection();
	
	conn.setRequestProperty("User-agent","Mozilla/5.0 (Windows NT 6.1; rv:16.0) Gecko/20100101 Firefox/16.0");
     // conn.setRequestProperty("Cookie",""); //模拟登录功能
	conn.setConnectTimeout(3000);
	conn.setReadTimeout(3000);
	
	
	 for (int i = 1; i <= 3; i++) {       //抛错则减慢爬取速率，重试3次
		try {
		    conn.connect();
			int code = conn.getResponseCode();
			// ip被限制,切换ip代理
			if (code == HttpStatus.SC_FORBIDDEN) {
			    for (int j = 0; i < proxyIPList.length; i++) {
				if (testProxyServer(url, proxyIPList[i], proxyPortList[i])) { // 代表有可以用的代理ip
				    return getUrlContent(url);
				}
				if (i == proxyIPList.length) {
				    return null;
				}
			    }
			}
			// 页面重定向
			if (code == HttpStatus.SC_MOVED_PERMANENTLY
				|| code == HttpStatus.SC_MOVED_TEMPORARILY
				|| code == HttpStatus.SC_SEE_OTHER
				|| code == HttpStatus.SC_TEMPORARY_REDIRECT) {
			    // 读取新的URL地址
			    String location = conn.getHeaderField("location");
			    // 再根据location爬取一遍
			    getUrlContent(location);
			}

			if (code == HttpStatus.SC_OK) { // 如果获取到网页字符集
			    String line = null;
			    StringBuffer bf = new StringBuffer();
			    if (conn.getContentEncoding() != null) {
				BufferedReader reader = new BufferedReader(
					new InputStreamReader(conn.getInputStream(),
						conn.getContentEncoding()));
				while ((line = reader.readLine()) != null) {
				    bf.append(line);
				}
				return bf.toString();
			    } else {
				BufferedReader reader = new BufferedReader(
					new InputStreamReader(conn.getInputStream(), "gbk"));
				while ((line = reader.readLine()) != null) {
				    bf.append(line);
				}
				return bf.toString();
			    }
			}
			    //成功则
		} catch (Exception e) {
		    try {
			if(i==3){
			    System.out.println("3次重试均失败");
				break ;
			}
			Thread.sleep(i * 3000);
			e.printStackTrace();
			System.out.println("正在等待重试");
			continue;
		    } catch (InterruptedException e1) {
			// TODO Auto-generated catch block
			e1.printStackTrace();
		    }
		}

	    }
       
	 return conn.getResponseMessage();  
	
    }

     /**
     * 设置代理
     */
    public void setProxy(String proxyIP, int proxyPort) {

	// 有些代理在授权用户访问因特网之前，要求用户输入用户名和口令。如果您使用位于防火墙之内的Web浏览器，您就可能碰到过这种情况。以下是执行认证的方法：  
	// URLConnection connection=url.openConnection(); String   password="username:password"; 
	// String   encodedPassword=base64Encode(password); 
	// connection.setRequestProperty("Proxy-Authorization",encodedPassword); 
	// 设置爬取的代理（外网环境下注释掉就可以）
	System.getProperties().put("proxySet", "true");
	System.getProperties().put("proxyHost", proxyIP);
	System.getProperties().put("proxyPort", proxyPort);
    }

    private boolean testProxyServer(String url, String proxyIP, int proxyPort) {
	// TODO Auto-generated method stub
	setProxy(proxyIP, proxyPort);
	try {
	    HttpURLConnection conn = (HttpURLConnection) new URL(url).openConnection();
	    conn.connect();
	    int statusCode = conn.getResponseCode();
	    if (statusCode == 403) {
		return false;
	    }
	} catch (Exception e) {
	    e.printStackTrace();
	}
	return true;
    }
    /**
     * 获取网页编码
     * @param url
     * @return
     */
    public String getCharset(String url) throws Exception {
	// log.info("进入读页面的关键词:" + keyword);
	String charset = "";
	URL httpurl = new URL(url);

	HttpURLConnection httpurlcon = (HttpURLConnection) httpurl
		.openConnection();
	// google需要身份
	httpurlcon.setRequestProperty("User-agent", "Mozilla/4.0");
	charset = httpurlcon.getContentType();
	// 如果可以找到
	if (charset.indexOf("charset=") != -1) {
	    charset = charset.substring(charset.indexOf("charset=")
		    + "charset=".length(), charset.length());
	    return charset;
	} else {
	    return null;
	}
    }

   /**
     *
     * 动态加载js页面
     * @param url
     * @return
     */
    private String dynamicDownLoad(String url) throws Exception {
	
	//webBrowser.setURL(new URL(url));
	// webBrowser .addWebBrowserListener(new WebBrowserListener() {
	// public void documentCompleted(WebBrowserEvent event) { }
	// public void downloadStarted(WebBrowserEvent event) {}
	// public void downloadCompleted(WebBrowserEvent event) { }
	// public void downloadProgress(WebBrowserEvent event) { }
	// public void downloadError(WebBrowserEvent event) { }
	// public void titleChange(WebBrowserEvent event) { }
	// public void statusTextChange(WebBrowserEvent event) { }
	// public void windowClose(WebBrowserEvent arg0) { }
	// });                    //添加监听事件
	
	String jscript = "function getAllHtml() {" + "var a='';"
		+ "a = '';" + "a += document.title;"
		+ "a += '';" + "a += document.body.outerHTML;"
		+ "a += '';" + "return a;" + "}" + "getAllHtml();";
	String result = webBrowser.executeScript(jscript);
	return null;
    }

    /**
     * @param number 提取分页的个数
     * @return
     */
    public List extracLinks(String content,int number) throws Exception {
	
	Document doc = Jsoup.parse(content);
	if(number==0){     //不需要进行分页爬取
            //TODO 制定规则提取链接
	    return null ;
	}
	else{
	    if(number==0){      //达到提取分页的个数，停止爬取
		    return null;              
		}
	    else{
		    //TODO 制定规则提取下一页链接，深度遍历
		    nextPageLinks.add("下一页link");
		    number--;
		    extracLinks("下一页链接",number);
		}
	    return nextPageLinks ;
	}	
    }

    public String extractContent(String content) throws Exception {

	Document doc = Jsoup.parse(content);
	//TODO 制定规则提取要抓取内容
	return null;
    }
  
}

client类：

public class client {
    
    Socket ServerConnection;
    int port;
    String ip;
 
    Parser parser = new Parser(); // 用于获取网页的内容
    
    Mail2 get ;
    Mail2 send;
    
    client3( String ip,int port) {
        TimeZone tz = TimeZone.getTimeZone("ETC/GMT-8");
        TimeZone.setDefault(tz);
	this.port = port;
	this.ip = ip;
    }
    
   public void handing() throws Exception{
       
        ServerConnection = new Socket(ip, port);
        ObjectOutputStream os = new ObjectOutputStream(ServerConnection.getOutputStream());
        ObjectInputStream is = new ObjectInputStream(new BufferedInputStream(ServerConnection.getInputStream()));
	
	    send = new Mail2(MailState.Greeting);
	    os.writeObject(send);
	    os.flush();
	    
	    get = (Mail2)is.readObject();  //获得链接
            String msgType =  get.getType().toString();
            System.err.println("第一次打招呼，服务器传回的消息类型"+msgType);
            
            handleMessage(get);
           
	    is.close();
	    os.close();
	    ServerConnection.close(); 
	    
   }


    public void run() throws Exception {
	handing();
	work();
    }

    private void work() {
	
	
	while (true) {
	    try {
		System.err.println("尝试连接服务器");
		
		ServerConnection = new Socket(ip,port);
		ObjectOutputStream os =  new ObjectOutputStream(ServerConnection.getOutputStream());
		ObjectInputStream  is = new ObjectInputStream(new BufferedInputStream(ServerConnection.getInputStream()));
		
		    System.err.println("连接成功");
		    System.out.println("现在开始将链接和内容上传,待上传链接" + send.getUrlList());
		  
		    os.writeObject(send); // 将爬取到的链接发送到server
		    os.flush();
		    
		    System.out.println("上传完毕" );
		    
		    Mail2  get = (Mail2)is.readObject();  //服务器接收到一个url链接可能会返回一个待爬取的url，也可能是bye
		           
		    handleMessage(get);   
		    
		    is.close();
		    os.close();
		    ServerConnection.close();
		}
	   catch (Exception e) {
		e.printStackTrace();
		System.out.println("Connection Error:" + e);
	    }
	}
    }
    
    private void handleMessage(Mail2 get2) throws Exception {
	
	// TODO Auto-generated method stub
	   if(get.getType()==MailState.Bye){  //bye则停止工作
               return ;
           }
           
           String url = get.getUrlList();  //服务端传回url，	先默认url是一个，以后改成多个以逗号连接的url则需要循环调用 parser.getUrlContent(url)
           String  taskId = get.getTaskId();
           System.out.println("服务器传来的待爬取url:"+url+" taskid:"+taskId);
           //提取传来url中的链接保存到待上传队列
           
           String content = parser.getUrlContent(url);
           List linksExtracted  = parser.extracLinks(content,0); 
           String contentExtracted = parser.extractContent(content);
           
           
           send = new Mail2(MailState.Passage);
           send.getExtractedContent().add(contentExtracted);
           StringBuffer link_list = new StringBuffer();
	    for (String str : linksExtracted) {
		link_list.append(str).append(",");
	    }
	    send.setUrlList(link_list.toString());
	    send.setTaskId(taskId);  //默认上传玩提取链接后才算任务完成
           System.err.println("链接抓取和内容抓取完成");
 
    }

    @Test
	public static void main(String[] args) throws Exception{
	client3 cli1=new client3("127.0.0.1",9000);
	cli1.run();
	}

}

要指出的是限制爬取深度这个功能暂时是为实现的，不过理论上来说按照前文说的给url附加个深度属性，服务器进行判断达到限定深度即可停止爬取是可以实现的，以后有时间我会完善这一部分

关键代码片段如上，一些细节部分留待大家去分析，有什么建议和疑问都可以告诉我~

python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
python爬虫面试真题及答案_Python面试题爬虫篇(附答案) 朴少 python爬虫面试真题及答案
0|1第一部分必答题注意：第31题1分，其他题均每题3分。1，了解哪些基于爬虫相关的模块？-网络请求：urllib，requests，aiohttp-数据解析：re，xpath，bs4，pyquery-selenium-js逆向：pyexcJs2，常见的数据解析方式？-re、lxml、bs43，列举在爬虫过程中遇到的哪些比较难的反爬机制？-动态加载的数据-动态变化的请求参数-js加密-代理-coo
20个必不可少的Python第三方库（存干货分享）！ Python派小星 Python python 编程语言
读者您好。今天我将介绍20个属于我常用工具的Python库，我相信你看完之后也会觉得离不开它们。他们是：Requests.KennethReitz写的最富盛名的http库。每个Python程序员都应该有它。Scrapy.如果你从事爬虫相关的工作，那么这个库也是必不可少的。用过它之后你就不会再想用别的同类库了。wxPython.Python的一个GUI（图形用户界面）工具。我主要用它替代tkinte
《爬虫职海录》卷二 • 爬在广州爬虫
HI，朋友们好，「爬虫职海录」第二期更新啦！本栏目的内容方向会以爬虫相关的“岗位分析”和“职场访谈”为主，方便大家了解一下当下的市场行情。本栏目持续更新，暂定收集国内主要城市的爬虫岗位相关招聘信息，有求职和跳槽打算的小伙伴们，可以多多关注。本期为广州篇！这不马上就要过年了，每年这时候都有很多小伙伴按捺不住，想要跳槽或者观望观望。这两年行情不好，大家转行or跳槽，都需要多做功课，慎重做决定。本次我依
Java编写爬虫和Python编写爬虫到底有什么区别菜到极致就是渣网络知识爬虫 java 爬虫大数据 javascript
关于Java编写爬虫和Python编写爬虫，以前我就特别疑惑，但是却并没有放在心上，不知道最近我为什么会突然感兴趣。于是我就搜了一下爬虫相关知识以及学习课程，结果我发现全都是用Python来进行网络爬虫，基本上看不到Java爬虫，以前没学爬虫的时候，我还以为只能用Python进行爬虫，难道我还要再去学Python？后面我才发现Java也可以进行爬虫，但是竟然Java也可以爬虫的话，为什么很多教学网
数据分析？小意思！python帮你搞定山禾家的猫
前言如果大家经常阅读Python爬虫相关的公众号，都会是以爬虫+数据分析的形式展现的，这样很有趣，图表也很不错，今天了，我就来分享上一次在培训中的一个作品：猫眼电影爬虫及分析。通过猫眼电影TOP100榜的爬虫，然后进行可视化，让学员体会到，小数据爬虫也能玩出这样的花样来。爬虫爬虫分析这里是获取的是top100的电影数据，进行了跨页爬虫，获取的字段：电影名，主演，上映时间，评分，电影类型和时长。最后
php解析html类库simple_html_dom(爬虫相关) 七彩邪云
下载地址：https://github.com/samacs/simple_html_dom解析器不仅仅只是帮助我们验证html文档；更能解析不符合W3C标准的html文档。它使用了类似jQuery的元素选择器，通过元素的id，class，tag等等来查找定位；同时还提供添加、删除、修改文档树的功能。当然，这样一款强大的htmlDom解析器也不是尽善尽美；在使用的过程中需要十分小心内存消耗的情况。
《爬虫职海录》卷二 • 爬在广州 K哥爬虫爬虫
HI，朋友们好，「爬虫职海录」第二期更新啦！本栏目的内容方向会以爬虫相关的“岗位分析”和“职场访谈”为主，方便大家了解一下当下的市场行情。本栏目持续更新，暂定收集国内主要城市的爬虫岗位相关招聘信息，有求职和跳槽打算的小伙伴们，可以多多关注。本期为广州篇！这不马上就要过年了，每年这时候都有很多小伙伴按捺不住，想要跳槽或者观望观望。这两年行情不好，大家转行or跳槽，都需要多做功课，慎重做决定。本次我依
Windows下安装配置爬虫工具Scrapy及爬虫环境罗伊德666
爬虫工具Scrapy在Mac和Linux环境下都相对好装，但是在Windows上总会碰到各种莫名其妙的问题。本文记录下Scrapy在Window上的安装过程。本文是基于Python2.7及Windows10安装Scrapy及各种爬虫相关库。下载安装ScrapyScrapy官方文档按照官网建议下载安装Anaconda,使用这个安装比直接pip安装会少很多问题。下载地址安装完成后，python2.7也
Python数据分析之猫眼电影TOP100 罗罗攀
前言如果大家经常阅读Python爬虫相关的公众号，都会是以爬虫+数据分析的形式展现的，这样很有趣，图表也很不错，今天了，我就来分享上一次在培训中的一个作品：猫眼电影爬虫及分析。通过猫眼电影TOP100榜的爬虫，然后进行可视化，让学员体会到，小数据爬虫也能玩出这样的花样来。爬虫爬虫分析这里是获取的是top100的电影数据，进行了跨页爬虫，获取的字段：电影名，主演，上映时间，评分，电影类型和时长。最后
【Python从入门到精通】（二十八）五万六千字对Python基础知识做一个了结吧【值得收藏】 m0_67403013 面试学习路线阿里巴巴 android 前端后端
为什么写这篇文章我从2021年6月13号写下第一篇Python的系列专栏算起，陆续更新了二十七篇Python系列文章。在此感谢读者朋友们的支持和阅读，特别感谢一键三连的小伙伴。本专栏起名【Python从入门到精通】，主要分为基础知识和项目实战两个部分，目前基础知识部分已经完全介绍完毕。下一阶段就是写Python项目实战以及爬虫相关的知识点。为了对前期学习的Python基础知识做一个总结归纳，以帮助
python爬虫相关 cjz0422 python 爬虫开发语言
基础知识点python格式化python格式化数字格式化pythonprint("{:.2f}".format(3.1415926))#设置两位小数print("{:.2%}".format(0.25))#百分比print("{:^10}".format("aaaaa"))#居中print("{:10}".format("aaaaa"))#右对齐结果python3.1425.00%aaaaaaaa
利用python的urllib库爬取某度热搜 lupe_c 爬虫 python 百度
非计算机专业，对爬虫比较感兴趣，最近又在学爬虫相关的知识，自己写了点实战的练习项目，在CSDN上展示一下，一方面是记录一下自己学习成果和代码，另一方面，自己从CSDN上学到了不少，把自己写的一些东西展示出来，希望也可以帮到别人。首先，导入需要的库importurllib.requestimportlxml.html输入目标网页和构造请求头baidu_rul='https://top.baidu.c
随手写写 catcherin麦田
今天开始收集相关基金股票数据网站，复习爬虫相关知识，准备数据爬取脚本。连续日更想休息一下，暂停日更一天，明天继续加油！以一句话自勉：其实越是好走的路，一般都是下坡路，越是难走的路，往往坚持住了就是最好的路。你要努力走，走到灯火通明。
Python bs4解析库使用详解永远是少年啊 python爬虫 python 爬虫 bs4 数据解析编程开发
今天继续给大家介绍Python爬虫相关知识，本文主要内容是Pythonbs4解析库使用详解。一、Pythonbs4库简介与安装bs4是Python的一个第三方库，主要用于从HTML或者是XML文档中快速提取数据。bs4是BeautifulSoup库的简称，最后的4是版本号。要想使用bs4进行数据解析，就必须先安装bs4，安装命令为：pipinstallbs4安装完毕后，在Python程序中导入时，
python3 爬虫相关学习4： requests.post 奔跑的犀牛先生爬虫学习 python
requests.post()基本功能类requests.get()，他们的次级属性基本一样POST比GET更安全，url地址中不会暴露用户的账号密码等信息POST请求对数据长度没有要求importrequesetsurl="http://www.iciba.com/fy?a=fy"headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64
Python网络爬虫原理及实践会python的小孩 python 爬虫开发语言 Python教程 Python入门数据库
1网络爬虫网络爬虫：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫相关技术和框架繁多，针对场景的不同可以选择不同的网络爬虫技术。2Scrapy框架（Python）2.1.Scrapy架构2.1.1.系统架构2.1.2.执行流程总结爬虫开发过程，简化爬虫执行流程如下图所示：爬虫运行主要流程如下：（1）Scrapy启动Spider后加载Spaider的start_url，生成req
【Python 网络爬虫】使用 urllib 爬取网页源码、图片和视频有请小发菜 Python 网络爬虫 python 爬虫开发语言
目录1.网络爬虫简介2.使用urllib爬虫2.1发送请求2.2数据保存和异常处理2.3模拟浏览器发起请求2.4添加请求头2.5认证登录3.下载图片和视频4.拓展-万能视频下载1.网络爬虫简介前面介绍了HTML基础和CSS基础，了解了页面元素构成的基础上，这对于爬虫来说，看到源代码也能熟悉一二，并且也能更好地定位到所需要的数据。接下来带大家更深入了解爬虫相关知识。网络爬虫是一种按照一定的规则，自动
python学习系列1---爬取糗事百科段子余蝈蝈
python学习了大半个月了。前段时间一直在慕课网看廖雪峰老师的python学习入门和进阶，视频地址http://www.imooc.com/learn/317。讲的很好，很通俗易懂，一边讲解还能一边练习。后面开始学习python爬虫相关的知识，看的课程都是来自http://wiki.jikexueyuan.com/project/python-crawler-guide/summarize.ht
20个常用的Python库汲之郎
Requests.KennethReitz写的最富盛名的http库。每个Python程序员都应该有它。Scrapy.如果你从事爬虫相关的工作，那么这个库也是必不可少的。用过它之后你就不会再想用别的同类库了。wxPython.Python的一个GUI（图形用户界面）工具。我主要用它替代tkinter。你一定会爱上它的。Pillow.它是PIL（Python图形库）的一个友好分支。对于用户比PIL更加
Python入门第5篇（爬虫相关）龙井茶Sky Python python 爬虫开发语言
目录爬虫初步说明html相关基础urllib之读取网页内容http相关基础requests之webapi调用爬虫初步说明爬虫，一句话来说，即模拟浏览器爬取一些内容，如自动下载音乐、电影、图片这种的具体可能是直接访问网页进行解析，也可能是调用webapi直接获取数据，后者应该更多一些html相关基础html、js、css构成了html的三要素urllib之读取网页内容fromurllib.reque
精选2个小例子，带你快速入门Python文件处理妄心xyx
精选2个小例子，带你快速入门Python文件处理我们来讲一讲文件的使用,python对数据的处理分两种一种是本地文件的处理，另外一种是通过网络数据处理(也就是爬虫相关的).而本地的数据处理，主要是通过文件的读和写完成~~我们先想一想平时对文件处理一般遇到哪些问题:如何读取一个文件的内容,然后处理,最后写到一个新的文件如何更改一个文件夹下的某一些文件名这个两个是非常常见的问题，如何处理呢,pytho
爬虫入门案例——Java还能用来写爬虫？翰戈.summer 其他内容爬虫开发语言 java python
目录前言入门案例依赖导入爬虫代码注意事项爬取结果总结前言我们在和Python程序员交流的时候，经常会听到他们谈论和爬虫相关的事，爬这个网站，爬那个网站的。这个时候如果听不懂的话，气氛就显得尴尬了。事实上我们Java程序员是有自己的爬虫的！那么和Python相比，Java实现的爬虫有什么不同呢？下面我们来看看两者有什么区别，用一个简单的案例来体验如何用Java实现网络爬虫。以后在和Python程序员
中国python爬虫违法违规案例大汇总（爬虫学得好，牢饭....）爱摸鱼的菜鸟码农 python 大数据安全爬虫
最近在GitHub发现了一个爬虫库，这个库整理了所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规。该项目库用来整理所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规。致力于帮助在中国大陆工作的爬虫行业从业者了解我国相关法律，避免触碰数据合规红线。违法违规案例汇总爬虫禁区1：为违法违规组织提供爬虫相关服务（验证码识别服务贩卖、SEO……）CASE1:知乎某极验破解者自述被抓（已删除
C语言两个文本相似度的算法,两个文本相似度算法实现和对比 Bearseason C语言两个文本相似度的算法
背景最近做一个爬虫相关的项目,需要排除掉一些相似的链接,比如分页控件里上一页,下一页等等没什么用的链接.编辑距离算法编辑距离，又称Levenshtein距离(莱文斯坦距离也叫做EditDistance)，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。这个概念是由俄罗斯科学家V
Python爬虫知识储备就叫飞六吧 python 爬虫开发语言
Python爬虫知识储备一、基础知识常见的Python爬虫相关库和工程化爬虫框架：请求库：requests：用于发送HTTP请求并获取响应的流行库。它简单易用，适合大多数爬虫任务。urllib：Python的标准库之一，包含了处理URL和发送HTTP请求的模块。aiohttp：支持异步HTTP请求的库，适用于需要高效处理多个请求的情况。解析库：BeautifulSoup：用于解析HTML和XML文
python学习-要学 Python 需要怎样的基础？编程大乐趣
人生苦短，很高兴你选择了python，这是我比较喜欢的语言。如果你是想做pythonweb相关的话，可以看看这个指南pythonweb入坑指南-python-web-guide0.1文档,都是根据我的工作经(cai)验(keng)总结的。主要涉及python网站和爬虫相关的开发，还有一些工程性的东西。入行不久，经验有限，希望能给你指条路。下边列举了计算机基础、开发工具、代码规范、软件工程相关的东西
在Linux服务器部署爬虫程序？大佬只需七步！ q56731523 服务器 linux 爬虫数据库爬虫程序爬虫IP
之前在某乎上看见一篇关于《为什么很多程序员都建议使用Linux》的文章，结合我自身关于Linux的使用经验。心血来潮得写了一段关于我在Linux系统部署爬虫程序的心得，希望结识更多的爬虫技术大佬，一起游弋在代码世界中。根据我多年在Linux上部署爬虫程序的经验，大体上可以通过以下七个步骤进行：步骤1：安装Python和需要的库首先确保Linux系统上安装了Python，以及需要的爬虫相关的库，比如
Python 爬虫入门心态与习惯 Python python 爬虫 requests beautifulsoup 豆瓣
文章目录Python爬虫入门`requests`库`beautifulsoup4`库函数`findall()`，`find()`函数`get()`爬虫实例1：抓小说爬虫实例2：抓豆瓣top250的电影信息后记Python爬虫入门Python的爬虫功能使得程序员可以快速抓取并分析网页中的信息，它实质上是模拟浏览器访问网页。本章主要常用的两个爬虫相关的库requests，beautifulsoup4。
你应该知道关于Python的这几个技巧！ python 筱水花 python 爬虫开发语言学习
随着大数据时代的到来，我们每天都在接触爬虫相关的事情，这其中就不得不提及Python这门编程语言。我已经使用Python编程有多年了，即使今天我仍然惊奇于这种语言所能让代码表现出的整洁和对DRY编程原则的适用。这些年来的经历让我学到了很多的小技巧和知识，大多数是通过阅读很流行的开源软件，如Django,Flask,Requests中获得的。1.字典推导(Dictionarycomprehensio
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

分布式爬虫（java+ 附github链接）

你可能感兴趣的:(爬虫相关)