is you？

网络爬虫——爬取京东数据

下面是我的代码框架（请先看代码需要改进的地方）

需要改进的是

1、采用双缓冲队列，即两个队列，可以理解为一个队列用于生产者的数据写入，一个用于消费者的数据读取，当消费者队列没有数据从生产者队列获取，减少锁的竞争。
2、使用selenium（webdriver）连接池（在另一个中会有）。
3、代码过于繁琐与冗余，可以进行精简（这个可能没时间了）。

架构及代码详细说明（后面附上我的完整代码）

1、model中包括一个模型，该模型表示我要爬取的京东的信息。比如一本书包括书的识别码，名字，价格，出版社等信息。
2、runmain中包含两个包，一个是运行包（有main函数，消费者-生产者模型），一个是需要调用包（作用是对字符串进行拼接以获取全部的要提取信息的url）。
3、thread包中是消费者-生产者模型，product和consumer。具体请看代码。
4、downloader中包括下载的所有类，需要有selenium基础。
5、analysis中包括所有解析的类，需要有selenium基础。
6、bloomFilterpack这是一个过滤器。
7、database数据库的有关操作，需要有mongodb基础，redis基础。

架构思路

1、首先获取京东官网的所有要爬取的数据（分类信息）。如下图所示，箭头所指方向即为要获取的分类信息。获取该部分所有的数据并存入redis数据库，具体看下方代码及注释。

解释：下图中蓝色的代码刚开始不显示，只有鼠标移动到上图右边红框上才会显示该部分代码。

package runmain;

/**
 1. 
 

创建时间：2019年1月18日 下午6:43:11
 3. 
 4. 项目名称：integration_zhong
 5. 
 6. @author 王锋洲
 7. 
 8. @version 1.0
 9. 
 10. @since JDK 1.8
 11. 
 12.        文件名称：run_project.java
 13. 
 14.        类说明：主类，调用方法将所有分类信息插入到数据库并进行后续操作。
 15.

 */
public class RunProject {

	public static void main(String[] args) {
		Jedis jedis = new Jedis("192.168.50.194");
		jedis.flushAll();
		
		InitRedis init = new InitRedis();
		init.Init();

		//获取首页内容
		GetContent content=new GetContent();
		//调用方法，代码如下
		content.getcontenttext();
		
		System.out.println("title success");

	}
}

public void getcontenttext()
	{

		try {
		    /*调用GetContent()方法，该方法以GetDownload_html方法返回值作为参数*/
			ana_content.GetContent(down.GetDownload_html(base.GetToVisit()));
		} catch (InterruptedException e) {
			e.printStackTrace();
		}
	}

public class AnalysisContent
{
	List<String> list = new ArrayList<String>();
	Jedis jedis=new Jedis();
	RedisBase jedis_content=new RedisBase();
	public void GetContent(String result)
	{
		//这里可以用正则解析，具体可以自己编写
		//用Jsoup解析代码
		Document doc=Jsoup.parse(result);
		
		Elements links = doc.select("div[class=JS_popCtn cate_pop]").select("div[class=cate_part clearfix]").select("div[class=cate_part_col1]").select("dd[class=cate_detail_con]").select("a[href]");
		for(Element link:links)
		{
			String content="";
			content=link.attr("title");
			if(content.isEmpty())
			{
				content=link.text();
				if((content.isEmpty()))
				{
					continue;
				}
			}
			if(content.length()>5)
			{
				continue;
			}
			this.list.add(content);
		}
		//添加到redis数据库
		jedis_content.AddToVisitTitle(list);
	}
}

public class DownloadHtml {
	private String downloadresult;

	public void StartDownload(String download_url) throws InterruptedException {
			System.setProperty("webdriver.chrome.driver", "G:\\Tools\\chromedriver.exe");// 相当于一个静态变量 ，存在内存里面！
			ChromeOptions option = new ChromeOptions();
			option.setBinary("D:/Google/Chrome/Application/chrome.exe");
			option.setHeadless(true);
			WebDriver driver = new ChromeDriver(option);
			driver.manage().window().maximize();
			driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);//
			// 全局等待元素TimeUnit.SECONDS 线程
//			JavascriptExecutor js = (JavascriptExecutor) driver;
			driver.get(download_url);
//			js.executeScript("window.scrollTo(0,document.body.scrollHeight)");
			Thread.sleep(3000);
			Actions action=new Actions(driver);
			/*模拟鼠标移动到该元素上*/
			action.moveToElement(driver.findElement(By.xpath("//div[@id='J_cate']/ul/li/a"))).perform();
			
			try {
				Thread.sleep(3000);
			downloadresult=driver.getPageSource();
		} catch (Exception e) {
			e.printStackTrace();
		}
		finally
		{
			driver.quit();
			System.out.println("已关闭3");
		}
	}
	//该方法调用StartDownload()函数
	public String GetDownload_html(String download_url) throws InterruptedException {
		this.StartDownload(download_url);
		return this.downloadresult;
	}
}

redis数据库执行结果如下图

2、经过第一步的实现，将所有类别都加入了Redis数据库。使用生产者-消费者模型对数据进行精细处理。
解释1：当生产者的待处理队列不为空时，进行生产者睡眠，这时消费开始处理队列反之，当待处理队列为空时，生产者运行，存储数据到待处理队列。
解释2：使用Future处理，防止中断，或者使用try–catch–finally进行代替。
（1）生产者从redis数据库中获取一个分类信息，使用selenium自动测试模拟输入商品类别并模拟点击“搜索按钮”以获取当前url，再对该url进行拼接并存入到redis待处理队列中。具体看代码注释。

//生产者
public void produce() {

		lock.lock();
		try {
			//待处理队列非空，则睡眠
			while (!base.ToVisitEmpty()) {
				System.out.println("生产者" + Thread.currentThread().getName() + " waiting");
				condition.await();
			}
			// while (!base.ToVisitEmptyTitle()) {
			// 获取数据

			ExecutorService executor = Executors.newSingleThreadExecutor();
			//FutureTask处理，预防中断代码的执行。这个代码不是很好。
			FutureTask<String> future = new FutureTask<String>(new Callable<String>() {
			// 使用Callable接口作为构造参数
				@Override
				public String call() throws IOException {
					//获取一个分类信息
					String title = base.GetToVisitedTitle();
					//添加到已访问的分类数据队列
					base.AddVisitedTitle(title);
					// 字符串拼接
					pingjie.geturl(title);

					Long length1 = jedis.llen("toVisitTitle");
					Long length2 = jedis.llen("toVisit");
					System.out.println("toVisitTitle当前长度：" + length1);
					System.out.println("toVisit当前长度：" + length2);

					return "执行成功";
				}
			});
			executor.execute(future);
			try {
				String result = future.get(3000, TimeUnit.MILLISECONDS); // 取得结果，同时设置超时执行时间为5秒。同样可以用future.get()，不设置执行超时时间取得结果
				System.out.println(result);
			} catch (InterruptedException e) {
				System.out.println("produceInterruptedException：error");
			} catch (ExecutionException e) {
				System.out.println("produceExecutionException：error");
			} catch (TimeoutException e) {
				System.out.println("produceTimeoutException：error");
			} finally {
				executor.shutdown();
			}

			// }
			condition.signalAll();
			System.out.println("消费者" + Thread.currentThread().getName() + " Runnable");
		} catch (InterruptedException e) {
			e.printStackTrace();
		} finally {
			lock.unlock();
		}
	}

package runmain;

import java.util.LinkedList;
import java.util.concurrent.TimeUnit;

import javax.servlet.ServletContext;
import javax.servlet.http.HttpSession;

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import org.openqa.selenium.support.ui.ExpectedConditions;
import org.openqa.selenium.support.ui.WebDriverWait;

import analysis.AnalysisUrl;
import analysis.AnalysisPage;
import database.redis.RedisBase;
import downloader.DownloadTitleHtml;

/**

* 创建时间：2019年1月19日 上午10:05:25  

* 项目名称：integration_zhong  

* @author 王锋洲

* @version 1.0

* @since JDK 1.8 

* 文件名称：String_pingjie.java  

* 类说明：  拼接url，调用的类库有 AnalysisUrl，AnalysisPage，RedisBase，DownloadTitleHtml

*/
public class StringGetAllUrl
{
	AnalysisPage ana_page=new AnalysisPage();
	//下载页面
	DownloadTitleHtml down_html=new DownloadTitleHtml();
	//rdis数据库操作
	RedisBase base = new RedisBase();
	//解析页面
	AnalysisUrl anaurl=new AnalysisUrl();
	//传递要处理的分类数据，进行拼接操作
	public void geturl(String title)
	{
		System.out.println("解析当前url");
		String currenturl=anaurl.AnalysisCurrentUrl(title);
		
		System.out.println("currenturl"+currenturl);
		//生产者中对url进行截取与拼接，以产生不同的页码对应的不同url
		String[] str1 = currenturl.split("&");
		String url1 = str1[0] + "&" + str1[1]+"&page=";
		
		System.out.println("解析当前页面页数");
		int n=ana_page.GetPage(down_html.GetTitleHtml(title));
		//该拼接方式不完善，会漏抓数据，请改进或者使用selenium一页一页的模拟点击
		for(int i=1;i<=n*2;i++)
		{
			String url2=url1+i;
			//加入到redis数据库中
			base.AddToVisit(url2);
			//System.out.println("插入成功");
			i++;
		}
	}
}


//获取当前url并返回，该方法在上面被调用
public String AnalysisCurrentUrl(String title)
	{
		String current_url ="";
		System.setProperty("webdriver.chrome.driver", "G:\\Tools\\chromedriver.exe");// 相当于一个静态变量 ，存在内存里面！
		ChromeOptions option = new ChromeOptions();
		option.setBinary("D:/Google/Chrome/Application/chrome.exe"); 
		option.setHeadless(true);
		WebDriver driver = new ChromeDriver(option);
		driver.manage().window().maximize();
		driver.manage().timeouts().implicitlyWait(7, TimeUnit.SECONDS);// 全局等待元素TimeUnit.SECONDS 线程
		String url = "https://www.jd.com/";
		try
		{
			driver.get(url);
		}
		catch(Exception ew)
		{
			ew.printStackTrace();
		}
		WebDriverWait webDriverWait = new WebDriverWait(driver, 5);
		webDriverWait.until(ExpectedConditions.elementToBeClickable(By.id("key"))).sendKeys(title);
		webDriverWait.until(ExpectedConditions.elementToBeClickable(By.xpath("//div[@id='search']/div/div[2]/button"))).click();
		try {
			Thread.sleep(5000);
			current_url = driver.getCurrentUrl();
			
		} catch (InterruptedException e1) {
			e1.printStackTrace();
		}
		
		driver.quit();
		System.out.println("已关闭1");
		try {
			current_url = new String(current_url.getBytes("iso-8859-1"), "utf-8");
		} catch (UnsupportedEncodingException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return current_url;
		
	}

//获取页面的html代码
public String GetTitleHtml(String title) {
		String downloadresult = "";
		try {
			System.out.println("GetTitleHtml");
			System.setProperty("webdriver.chrome.driver", "G:\\Tools\\chromedriver.exe");// 相当于一个静态变量 ，存在内存里面！
			ChromeOptions option = new ChromeOptions();
			option.setBinary("D:/Google/Chrome/Application/chrome.exe");
			option.setHeadless(true);
			WebDriver driver = new ChromeDriver(option);
			driver.manage().window().maximize();
			driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);// 全局等待元素TimeUnit.SECONDS 线程
			String url = "https://www.jd.com/";
			try
			{
				Thread.sleep(2000);
				driver.get(url);//时间超时
			}
			catch(Exception e)
			{
				e.printStackTrace();
			}
			WebDriverWait webDriverWait = new WebDriverWait(driver, 5);
			webDriverWait.until(ExpectedConditions.elementToBeClickable(By.id("key"))).sendKeys(title);
			webDriverWait
					.until(ExpectedConditions.elementToBeClickable(By.xpath("//div[@id='search']/div/div[2]/button")))
					.click();
			try {
				Thread.sleep(3000);
				downloadresult = driver.getPageSource();//时间超时
			} catch (Exception e1) {
				e1.printStackTrace();
			}
			driver.quit();

			System.out.println("已关闭2");
		} catch (Exception e) {
			e.printStackTrace();
		}
		return downloadresult;
	}


//解析当前页面的html代码以获取页码并返回
public int GetPage(String result)
	{
		Document doc=Jsoup.parse(result);
		String link=doc.getElementById("J_topPage").select("span[class=fp-text]").select("i").text();
		if(link.isEmpty())
		{
			return 0;
		}
		return Integer.parseInt(link);
	}

（2）消费者从待处理队列中取出url（用多线程）对该url进行获取页面数据->解析要获取的数据->存入到mongodb数据库过程。具体看代码注释。

//消费者
	public void consumer() {
		lock.lock();
		try {
			//当待处理队列为空则该线程睡眠
			while (base.ToVisitEmpty()) {
				System.out.println("消费者" + Thread.currentThread().getName() + " waiting");
				condition.await();
			}
			//当待处理队列非空时一直处理直到处理完毕
			while (!base.ToVisitEmpty()) {

				ExecutorService executor = Executors.newSingleThreadExecutor();
				FutureTask<String> future = new FutureTask<String>(new Callable<String>() {
				// 使用Callable接口作为构造参数
					@Override
					public String call() throws IOException, InterruptedException {

						// 从数据库中取数据读取链接
						String aimurl = base.GetToVisit();
						String aimhtml = "";
						// 下载aimurl的全部的HTML资源用于解析数据，这里和上面的的方法大体一样，就不一一赘述了
						aimhtml = get.GetAllHtml_aimurl(aimurl);
						//解析数据并存到mongodb数据库，看下面代码
						ana_value.deal_download_result(aimhtml);
						
						System.out.println("ana_value");
						System.out.println("aimurl:" + aimurl);
						//添加到已处理队列
						base.AddVisited(aimurl);

						return "执行成功";
						
					}
				});
				executor.execute(future);
				// 在这里可以做别的任何事情
				try {
					String result = future.get(3000, TimeUnit.MILLISECONDS); 
					// 取得结果，同时设置超时执行时间为5秒。同样可以用future.get()，不设置执行超时时间取得结果
					System.out.println(result);
				} catch (InterruptedException e) {
					System.out.println("consumerInterruptedException：error");
				} catch (ExecutionException e) {
					System.out.println("consumerExecutionException：error");
				} catch (TimeoutException e) {
					System.out.println("consumerTimeoutException：error");
				} finally {
					executor.shutdown();
				}

			}
			//唤醒线程
			condition.signalAll();
			System.out.println("生产者" + Thread.currentThread().getName() + " Runnable");
		} catch (InterruptedException e) {
			e.printStackTrace();
		} finally {
			lock.unlock();
		}
	}

	//处理解析数据存入mongodb数据库
	public void deal_download_result(String downloadresult) {
		List<org.bson.Document> data = new ArrayList<org.bson.Document>();
		//使用jsoup解析，可以用正则替代，xpath也可以
		Document doc = Jsoup.parse(downloadresult);
		Elements elements = doc.select("ul[class=gl-warp clearfix]").select("li[class=gl-item]");
		String name = "";
		String price = "";
		String publish = "";
		String href = "";
		String Textcommit = "";
		String commith = "";
		for (Element ele : elements) {

			id++;
			name = ele.select("div[class=p-name p-name-type-2]").select("a").select("em").text();
			price = ele.select("div[class=p-price]").select("strong").select("i").text().trim();
			publish = ele.select("div[class=p-shop]").select("a").attr("title");
			href = ele.select("div[class=p-name p-name-type-2]").select("a").attr("href");
			Textcommit = ele.select("div[class=p-commit]").select("strong").select("a").text();
			commith = ele.select("div[class=p-commit]").select("strong").select("a").attr("href");

			if (publish.isEmpty()) {
				publish = "未知出版社";
			}
			org.bson.Document document = new org.bson.Document("name", name)
					.append("price", price)
					.append("publish", publish)
					.append("href", href)
					.append("Textcommit", Textcommit)
					.append("commith", commith);

			data.add(document);
		}
		BatchData bachdata=new BatchData();
		bachdata.data_batch(data);

完整代码：https://gitee.com/zfenghan/internet_worm.git

Spring Data JPA Vic2334 JAVA Spring spring 后端 java 开源
SpringDataJPA什么是JPA？相同处：1.都跟数据库操作有关，JPA是jdbc的升华，升级版。2.JDBC和JPA都是一组规范1接口。3.都是由SUN公司推出的不同处：1.JDBC是有各个关系型数据库实现的，JPA是有ORM框架实现。2.JDBC使用SQL语句和数据库通信，JPA用面向对象方式，通过ORM框架生成SQL，进行操作。3.JPA在JDBC之上，JPA也要依赖JDBC才能操作数
手撕multi-head self attention 代码心若成风、自然语言处理语言模型 transformer
在深度学习和自然语言处理领域，多头自注意力（Multi-HeadSelf-Attention）机制是Transformer模型中的核心组件之一。它允许模型在处理序列数据时，能够同时关注序列中的不同位置，从而捕获到丰富的上下文信息。下面，我们将详细解析多头自注意力机制的实现代码。一、概述多头自注意力机制的核心思想是将输入序列进行多次线性变换，然后分别计算自注意力得分，最后将所有头的输出进行拼接，并通
js实现关于分页的一种实现方式番薯(Koali) Java java web 分页数据 javascript
项目中用到列表的地方很多，二页面列表的显示必然要求分页，所以分页和查询几乎密不可分，如果说你不会分页查询数据，那你基本上还属于菜鸟。分页的原理很简单，从sql上看就是从哪一条开始，往后差几条。所以sql只需要传2个参数，这只是原理罢了，关键是实现。而实现的方法就多了去了，架构师干这个是小菜一碟。在我的项目中，关于分页架构师已经写好了一个管理分页的类，这个类与sql耦合，控制分页只需哟啊控制这个类的
【STM32】USART串口收发HEX数据包&收发文本数据包傍晚冰川 stm32 网络嵌入式硬件单片机笔记学习 c语言
有关串口知识参考：【STM32】USART串口协议&串口外设-学习笔记-CSDN博客HEX模式/十六进制模式/二进制模式：以原始数据的形式显示文本模式/字符模式：以原始数据编码后的形式显示参考上面文章查看ASCII编码表HEX数据包包头包尾和载荷数据重复问题的解决方法：解决思路方法文本数据包文本模式有大量的字符可以作为包头包尾，可以有效避免载荷数据和包头包尾重复的问题HEX数据包和文本数据包两者的
大白话讲解MIPI DPHY、C PHY与M PHY的不同应用与优势空间机器人 Serdes知识合集汽车
1.MIPIDPHY：高速公路上的小跑车想象一下你在高速公路上开着一辆小跑车，这辆车虽然不如跑车那样极速，但它能在城市和乡村之间快速穿梭，满足大多数日常需求。MIPIDPHY就像这辆小跑车，适合那些需要高速、高效，但不要求极限速率的场景，比如手机显示屏和摄像头之间的连接。在这个“跑车”里，时钟信号和数据信号分别通过两条“车道”——一条是时钟车道（CLK），另一条是数据车道（Data）。这两条车道的
sql获取某列出现频次最多的值_业务硬核SQL集锦金渡江 sql获取某列出现频次最多的值
戳上方蓝字关注我这两年学会了跑sql，当时有很多同学帮助我精进了这个技能，现在也写成一个小教程，反馈给大家。适用对象：工作中能接触到sql查询平台的业务同学(例如有数据查询权限的产品与运营同学)适用场景：查询hive&mysql上的数据文档优势：比起各类从零起步的教程教材，理解门槛低，有效信息密度大，可以覆盖高频业务场景。文末有一些常见的小技巧，希望帮助同学们提升工作效率。SQL的基础结构：做一个
Matlab多种算法解决未来杯B的多分类问题 Subject.625Ruben 算法分类机器学习数学建模未来杯 matlab 人工智能
1.读取数据首先，我们从Excel文件中读取训练集和测试集：2.训练集划分我们将80%的数据用于训练，20%用于验证。3.训练多个模型我们选取8种常见分类模型，并存储预测结果。fori=1:length(modelNames)switchmodelNames{i}case'MultinomialLogisticRegression'B=mnrfit(X_train,Y_train,'model',
Hive SQL 精进系列： JSON_TUPLE 快速提取多键值进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、json_tuple函数基础2.1基本语法参数解释返回值简单示例三、应用场景3.1数据提取与分析3.2数据集成与转换3.3复杂JSON数据处理四、json_tuple、get_json_object和from_json的对比4.1功能特点4.2语法和使用复杂度4.3性能表现4.4示例对比使用json_tuple使用get_json_object使用from_json五、使用注意事项
python:数据类构建器愚戏师 python基础与机器学习 python windows 开发语言
在Python中，数据类（DataClasses）用于快速创建主要目的是存储数据的类，自动生成__init__,__repr__,__eq__等方法。“Python提供了几种构建简单类的方式，这些类只是字段的容器，几乎没有额外功能。这种模式称为“数据类”（dataclass），dataclasses包就支持该模式。”引用自《流畅的python（第二版）》1.基础数据类使用@dataclass装饰器
RAW图与BAYER图异同越甲八千【opencv学习】【海康相机视觉案例】计算机视觉人工智能
RAW图是一种未经处理、未压缩的图像文件格式，它记录了图像传感器捕捉到的原始数据，包含了拍摄时的大量图像信息。下面从多个方面详细介绍RAW图：参考：B站大清光学定义与基本概念定义：RAW文件是图像传感器将捕捉到的光源信号转化为数字信号的原始数据。相机在拍摄时，光线通过镜头到达图像传感器，传感器将光线的强度、颜色等信息转化为电信号，再经过模数转换变成数字数据，RAW格式直接保存这些原始数据，而不经过
如何使用 Spring Boot 实现分页和排序大G哥 spring boot 后端 java spring
在SpringBoot中实现分页和排序通常是通过SpringDataJPA或者SpringDataMongoDB提供的分页功能来完成的。以下是一个基于SpringDataJPA的分页和排序实现的基本步骤。1.添加依赖首先，确保你在pom.xml中包含了SpringDataJPA和数据库驱动的依赖。org.springframework.bootspring-boot-starter-data-jp
Elasticsearch大文件检索性能提升20倍实践（干货）_elasticsearch 查询优化 2401_84247505 2024年程序员学习 elasticsearch jenkins 大数据
3、问题排查与定位步骤1：限定返回记录条数。不提供直接访问末页的入口。baidu，360，搜狗等搜索引擎都不提供访问末页的请求方式。都是基于如下的请求方式：通过点击上一下、下一页逐页访问。这个从用户的角度也很好理解，搜索引擎返回的前面都是相关度最高的，也是用户最关心的信息。Elasticsearch的默认支持的数据条数是10000条，可以通过post请求修改。最终，本步骤将支持ES最大返回值100
Spring Boot整合JWT 实现双Token机制 Cloud_. spring boot 后端 java
目录JWT核心概念解析SpringBoot整合步骤2.1基础环境搭建2.2Token生成与解析2.3拦截器实现企业级增强方案3.1双Token刷新机制3.2安全防护策略常见问题与解决方案1.JWT核心概念解析1.1Token的三重使命身份凭证：替代Session实现无状态认证信息载体：存储用户基础信息（如userid、roles）安全屏障：数字签名防止数据篡改1.2JWT结构示例Header{"a
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
Scala语言的硬件驱动花韵婷包罗万象 golang 开发语言后端
使用Scala语言进行硬件驱动开发引言随着计算机技术的快速发展，硬件设备的交互和控制在现代应用中显得尤为重要。大多数硬件驱动程序都用C或C++编写，但随着Scala语言的流行及其在数据处理和并发编程中的优势，越来越多的开发者开始探讨利用Scala进行硬件驱动开发的可能性。本文将深入探讨Scala语言在硬件驱动开发中的应用、优势、以及一些实际案例。什么是硬件驱动硬件驱动（DeviceDriver）是
Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
自动同步多服务器下SQL脚本3.0 a栋栋栋遇到的问题 sql 自动化事务失效
由于上一版发现数据库【MySQL】不支持DML事务回滚，该迭代主要是去兼容这种问题。数据表新增一个completed字段，用来表示当前版本下同步成功的个数。数据表CREATETABLE`auto_sql_version`(`id`intNOTNULLAUTO_INCREMENT,`version`varchar(20)CHARACTERSETutf8mb4COLLATEutf8mb4_0900_a
云计算、边缘计算与雾计算白小白呀笔记大数据
云计算（数据上传到云端进行处理）云计算(CloudComputing)是一种基于互联网的计算方式，通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。通俗的讲，云是网络、互联网的一种比喻说法，即互联网与建立互联网所需要的底层基础设施的抽象体。“计算”指的是一台足够强大的计算机提供的计算服务（包括各种功能，资源，存储）。“云计算”可以理解为：通过互联网可以使用足够强大的计算机为用户提
架构模式之黑板模式 weixin_30518397 c/c++游戏数据库
一、定义黑板模式是一种常用的架构模式，应用中的多种不同数据处理逻辑相互影响和协同来完成数据分析处理。黑板模式允许多个消息读写者同时存在，消息的生产者和消费者完全分开。这就像一个黑板，任何一个教授（消息的生产者）都可以在其上书写消息，任何一个学生（消息的消费者）都可以从黑板上读取消息，两者在空间和时间上可以解耦，并且互不干扰。这种模式对于没有确定解决方案策略的问题是有用的。二、模式组成黑板模式由3个
黑板架构风格 BGM不迷路架构
一、定义黑板架构（BlackboardArchitecture）是一种用于解决复杂问题的系统架构模式，其中多个独立的组件（通常称为知识源）共同工作，通过共享一个共同的“黑板”（通常是一个全局的共享数据结构）来实现解决方案的推演的架构风格。每个组件根据黑板上的信息做出贡献，修改黑板上的状态，直到最终完成任务。二、组成黑板架构由黑板（Blackboard）、知识源（KnowledgeSources）、
大模型+智能代理：自动化测试的终极组合？测试者家园软件测试质量效能人工智能人工智能软件测试质量效能职场和发展 AI赋能智能体 LLM
用ChatGPT做软件测试在软件测试领域，自动化测试的目标一直是提高测试效率、减少人工干预、提升缺陷发现率。然而，传统自动化测试仍然面临诸多挑战，例如脚本维护成本高、难以应对动态UI变化、测试数据生成受限，以及难以覆盖复杂业务逻辑。近年来，大模型（LLM,LargeLanguageModel）+智能代理（Agent）的结合，为自动化测试带来了新的可能性。这种“智能测试代理”能够利用大模型的自然语言
SSL 和 TLS 认证百里自来卷 ssl 网络协议网络
SSL（SecureSocketsLayer，安全套接层）认证是一种用于加密网络通信和验证服务器身份的安全技术。它是TLS（TransportLayerSecurity，传输层安全协议）的前身，虽然现在大多数应用使用的是TLS，但仍习惯性地称之为SSL认证。SSL认证SSL认证的核心作用数据加密：防止数据在传输过程中被窃取或篡改，保证机密性。身份验证：验证服务器身份，防止用户连接到伪造的服务器（如
SSL的原理和应用 m0_74092749 ssl 网络协议网络
前言：SSL协议便是Internet上应用最为广泛的网络数据安全传输协议。SSL协议隶属于会话层,处于有连接的会话层之上,它一经产生就在Internet领域发挥了它的巨大作用。目前,国外著名的商用浏览器和Web服务器都支持SSL协议,SSL已成为最流行的WWW安全协议。目前已经有若干国外厂商推出了基于SSL的安全产品,但是协议在核心密码算法上都有出口限制,大多采用一些低安全强度的算法,而且协议代码
详解PriorityQueue 27xixi 算法数据结构 java
PriorityQueue是Java集合框架中的一个类，它实现了优先级队列的数据结构。优先级队列是一种特殊的队列，其中的元素按照优先级顺序出队，而不是按照插入顺序（FIFO）。默认情况下，PriorityQueue是一个最小堆，即优先级最小的元素最先出队。1.PriorityQueue的特点基于堆实现:PriorityQueue通常基于二叉堆（最小堆或最大堆）实现。无界队列:PriorityQue
java Stream API中的聚合操作 27xixi java java18
聚合操作是指对一组数据进行处理，最终生成一个单一的结果。在编程中，聚合操作通常用于对集合（如列表、数组等）中的元素进行统计、计算或汇总。常见的聚合操作包括求和、求平均值、查找最大值/最小值、计数等。在Java的StreamAPI中，聚合操作是通过终端操作（TerminalOperations）来实现的。以下是一些常见的聚合操作及其用法：1.求和（Sum）对集合中的元素进行求和。示例：求整数列表的和
IIS网站用myssl评级为B级 bigsea76 windows ssl
不光是IIS网站，包括.net使用HttpListener开发的web程序，在默认情况下都会被评为B级。提示为：降级原因：1.没有使用AEAD系列加密套件,降级为B2.没有优先使用FS系列加密套件，降级为B。我现在知道AEAD系列加密套件指的是那些支持认证加密和关联数据（AuthenticatedEncryptionwithAssociatedData）的套件，比如AES-GCM和ChaCha20
Redis 常用数据类型 27xixi java技术栈 redis 数据库缓存
Redis常用数据类型的详细介绍及其典型应用场景：String（字符串）描述：最基本的数据类型，可存储文本、数字或二进制数据（最大512MB）。常用命令：SETkeyvalue：设置值GETkey：获取值INCRkey：将值自增1（原子性操作）EXPIREkeyseconds：设置过期时间应用场景：缓存简单键值对（如用户会话、配置项）。计数器（如文章阅读量、库存扣减）。分布式锁（结合SETNX命令
LabVIEW cRIO中CSV文件的读取 LabVIEW开发 LabVIEW知识 LabVIEW功能 CRIO
在LabVIEWcRIO中读取CSV文件，需通过文件传输、路径配置、数据解析等步骤实现。本文详细说明如何通过代码读取本地存储的CSV文件，并探讨直接通过对话框选择文件的可行性及替代方案。一、CSV文件传输至cRIO本地存储1.使用NIMAX文件管理步骤：打开NIMAX（Measurement&AutomationExplorer）。连接目标cRIO设备，进入“文件”选项卡。选择路径（如/c/），点
python高并发访问mysql_Python访问MySQL 阿廖林诺
Python访问数据库作为Python开发工程师，选择哪个数据库呢？当然是MySQL。因为MySQL不仅免费，普及率最高，出了错，可以很容易找到解决方法。而且，围绕MySQL有一大堆监控和运维的工具，安装和使用很方便。使用MySQLMySQL是Web世界中使用最广泛的数据库服务器。SQLite的特点是轻量级、可嵌入，但不能承受高并发访问，适合桌面和移动应用。而MySQL是为服务器端设计的数据库，能
Redis 源码分析-内部数据结构 quicklist 笨手笨脚の #Redis redis 数据结构数据库 quicklist 链表快速链表 ziplist
Redis源码分析-内部数据结构quicklistquicklist是Redis对外暴露的list数据结构的内部实现，经常被当作队列或栈使用，我们可以从常用的一些api上先思考一下它的结构最常用的就是lpush、lpop、rpush、rpop，同时它也支持lindex查询某元素在list中的索引，linsert在指定元素旁边插入新元素。从头、尾节点的push、pop来看，这就是双向链表最优秀的设计
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

网络爬虫——爬取京东数据

下面是我的代码框架（请先看代码需要改进的地方）

需要改进的是

架构及代码详细说明（后面附上我的完整代码）

架构思路

你可能感兴趣的:(网络爬虫——爬取京东数据)