satikey

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）--更新1

更新备注：将src文件改成了一个完整的项目，解压后可以直接导入到Eclipse中去，省去大家配置（项目乱码请改项目属性为GBK）。另外，如果你要登陆人人网的话，需要申请一个人人网账号。这里提供公用的:\

java123456

请自行修改RenRenNotify.java 对应的东西。

首先文章有点长，需要点耐心。这里我是一步一步的做的。。。。比较的细，如果你是代码达人，那你就直接下载代码吧。

有人说图片看不清，我抱歉，第一次咱的图片不完美，你把图片在浏览器上拖动到新窗口，就可以看到你大图了。

需求来源，最近学校的课程项目需要一个省，高校，院系的三级级联的东西，这下麻烦了。全国那么多的高校，而且每一个高校的院系设置又不一样，我们小组只有六个人，而且技术都不咋地，要统计那么多的数据，我们估计这学期就别想完成这个项目了。但是我们知道人人网，开心网，腾讯微博上都要高校的数据库，于是想法就产生了：

1.要么咱拼人品让他们的技术人员给我们他们的数据库，想法是好的，但是人家不肯呀

2.要么咱通过某种手段获取他们的数据

今天，咱选择第二种。用到工具有：

EditPlus：小巧好用的文本编辑器，是超越的文本编辑器，不解释，用了就知道

Apanta：这个强烈推荐，用它来写Html,Javascript,Css感觉非常好，而且支持各种各样的Javascript的库，如：

Jquery，但是我想把他集成到MyEclipse上去，出了一点问题，遗憾，弄的我只能同时开启两个。

HttpAnalyzer：这个是用来抓包用的，无论什么包统统抓，不过只能抓Http协议的包，当年傻，分析飞信协议的时候，

用这个抓，结果只抓了一点东西。如果你想抓取更底层的推荐一个：WireShark，免费的好用的。

MyEclipse:这个不多说了，弄过J2EE的应该都知道的。

另外就是第三Jar包了，HttpClient 4.01 请到：http://hc.apache.org/downloads.cgi 下载，只要是4版本上的都应该可以，如果是3.1版本的估计你要重新写一些代码，因为4较3还是有很大的改进的。

一般来说，一个网站对访问它内部的东西需要权限的验证的，比如你下载某个网站的东西，他会提示说只有会员才可以下载，于是乎，这里存在一个session，保存了你的登陆信息也就是你的访问网站内部资源的权限了。人人网估计也不是省油的灯（这里有问题，后面解释），于是我们应该登陆它才能获得访问它内部资源的权限。那么我们首先来抓包分析应该怎么用登陆，于是HttpAnalyzer闪亮登场.

打开HttpAnalyzer，让他开始工作，我们打开浏览器，输入renren.com。第一次咱先不急着登陆。我们随便输入一个账号密码看看：

我们看到当你输入用户名密码后就将你输入的东西post到：http://www.renren.com/PLogin.do,

其中PostData有四个：email,password,origURL,domain。至于后面的数据是我们刚刚在登陆页面上填写的数据。

我们再来看看它登陆页面的源代码：

注意我红色标注的地方：我们注意到，除了我们刚刚在上面发送的数据还有其他的隐藏发送的的东西：例如：origURL等等，这里他们是<input type="hidden" />，应该说在form里面的input都应该发送过去，但是这里他只发送了四个。

既然postdata只有那么四个参数，那我们就姑且只用那个四个东西好了。

所以我们用HttpClient构造请求的时候，就应该将这四个参数的给附带进去，部分代码如下：

// 将要发送的数据封包
  List<NameValuePair> params = new ArrayList<NameValuePair>();
  params.add(new BasicNameValuePair("email", this.email));
  params.add(new BasicNameValuePair("password", this.password));
  params.add(new BasicNameValuePair("origURL", origURL));
  params.add(new BasicNameValuePair("domain", domain));

接下来我们来完整登陆一次:

当输入正确的用户名密码，点击登陆，我们又获得什么样的东西呢？参见如下：

返回的内容意思大概是地址转变了要进行跳转，而且返回的相应头是 302，文件修改了。再看一下返回的消息头：

有一个Location，应该是要我们跳转的地址。这样我们应该可以访问人人网的任意连接资源了。

登录过程的完整代码（包含读嗅探指定资源的链接）：

import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.List;

import org.apache.http.HttpResponse;
import org.apache.http.NameValuePair;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.ResponseHandler;
import org.apache.http.client.entity.UrlEncodedFormEntity;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.impl.client.BasicResponseHandler;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.message.BasicNameValuePair;
import org.apache.http.protocol.HTTP;

/**
 * 
 * 
 * Author : Saitkey < [email protected] >
 */
public class RenRenNotify {
	private static HttpResponse response;
	private static DefaultHttpClient httpClient;

	public RenRenNotify(String userName, String password) {
		this.httpClient = new DefaultHttpClient();
		String loginForm = "http://www.renren.com/PLogin.do";
		String origURL = "http://www.renren.com/Home.do";
		String domain = "renren.com";
		// 在首页表单上是隐藏的 抓包后分析，并没有发送到服务器
		// String autoLogin = "true";
		// 构造一个POST请求，利用Httclient提供的包
		HttpPost httpPost = new HttpPost(loginForm);
		// 将要发送的数据封包
		List<NameValuePair> params = new ArrayList<NameValuePair>();
		params.add(new BasicNameValuePair("email", userName));
		params.add(new BasicNameValuePair("password", password));
		params.add(new BasicNameValuePair("origURL", origURL));
		params.add(new BasicNameValuePair("domain", domain));

		// 封包添加到Post请求
		try {
			httpPost.setEntity(new UrlEncodedFormEntity(params, HTTP.UTF_8));
		} catch (UnsupportedEncodingException e1) {
			// TODO Auto-generated catch block
			e1.printStackTrace();
		}
		// 将 get 和post 方法包含到一个函数里面去,这里就是登陆过程了。
		response = postMethod(httpPost);
		/*
		 * 有跳转 System.out.println(response.getStatusLine());//返回302
		 * Header[]headers=response.getAllHeaders(); for (int i = 0; i <
		 * headers.length; i++) { Header header = headers[i];
		 * System.out.println(header.getName()+": "+header.getValue()); }
		 */
		// 读取跳转的地址
		// String redirectUrl = response.getFirstHeader("Location").getValue();
		// 查看一下跳转过后，都出现哪些内容.
		// response=getMethod(redirectUrl);//函数见后面
		// System.out.println(response.getStatusLine()); // HTTP/1.1 200 OK

		// 读取一下主页都有什么内容 已经登陆进去
		// System.out.println(readHtml("http://www.renren.com/home"));
	}

	// 嗅探指定页面的代码
	public String notify(String url) {
		HttpGet get = new HttpGet(url);
		ResponseHandler<String> responseHandler = new BasicResponseHandler();
		String txt = null;
		try {
			txt = httpClient.execute(get, responseHandler);
		} catch (ClientProtocolException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			get.abort();
		}
		return txt;
	}

	// 用post方法向服务器请求 并获得响应，因为post方法要封装参数，因此在函数外部封装好传参
	public HttpResponse postMethod(HttpPost post) {
		HttpResponse resp = null;
		try {
			resp = httpClient.execute(post);
		} catch (ClientProtocolException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			post.abort();
		}
		return resp;
	}

	// 用get方法向服务器请求 并获得响应
	public HttpResponse getMethod(String url) {
		HttpGet get = new HttpGet(url);
		HttpResponse resp = null;
		try {
			resp = httpClient.execute(get);
		} catch (ClientProtocolException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			get.abort();
		}
		return resp;
	}

	public static void main(String[] args) {
		RenRenNotify notify = new RenRenNotify("[你的用户名]",
				"[你的密码]");
		System.out.println(notify
				.notify("http://www.renren.com/home"));
	}

}

好了，现在登录了。我们去修改自己的教育信息吧，首先自然是进入相应的页面：

当我们进入了修改教育信息的时候，我们发现HttpAnalyzer里面多了如下内容：

注意红色的内容。这里应该是所有高校的信息。体积也达到了402kb，看一下里面的内容：

这个里面有个奇怪的东西：\u4e2d\u56fd 这个是 “中国”的意思，经过转码了。用JavaScript 直接 alert('u4e2d\u56fd ')，就明了了。

对于一长串的字符，可以用下面的代码进行回来（code是源）：

		StringBuffer sb = new StringBuffer(code);
		int pos;
		while ((pos = sb.indexOf("\\u")) > -1) {
			String tmp = sb.substring(pos, pos + 6);
			sb.replace(pos, pos + 6, Character.toString((char) Integer
					.parseInt(tmp.substring(2), 16)));
		}
		code = sb.toString();

接下来，我们选择一个高校看看，HttpAnalyzer里面出现如下的信息：

再来一下：

所以通过上面两次抓取，我们应该得出一个例子，那就是：我们选择好了一个大学，就会相应的得出他的ID，然后这时候会想服务器发送一个请求查询：http://www.renren.com/GetDep.do?id=13003 ，其中id后面的便是高校的代号了。然后返回的是一串html代码，如下：

这里同样是奇怪的一串数字，这种也是Unicode，不过是十进制的，而且在编码的前后分别加上“&#”和“；”就可以形成Html实体字符，可以在网页上直接显示。

对于以上的代码，我们也参照上面写一个转换的代码：如下：

		StringBuffer sb=new StringBuffer(code);
		int pos;
		while ((pos=sb.indexOf("&#"))>-1) {
			String tmp=sb.substring(pos+2, pos+7);
			sb.replace(pos, pos+8, Character.toString((char)Integer.parseInt(tmp,10)));
		}
		code=sb.toString();

写到这里，我们的工作也做了一大半了。于是乎，我这里不得不跟大家陈清一个事实，获得

http://s.xnimg.cn/a13819/allunivlist.js

http://www.renren.com/GetDep.do?id=13003

的页面代码，人人网是没有设置 session的权限认证的。直接可以读不信你可以点击上面的两个地址，你就发现，原来可以直接读取的。

也就是说。我们可以另辟路径，不用通过HttpClient去登陆一下在取得数据，这一点很不好意思。我刚开始没有意识到。不过，这里你也还是学会了一种登陆一个服务器的办法，说不定以后你会用到呢。

好了，下面我们开始另一种方法。

首先，我们对获取http://s.xnimg.cn/a13819/allunivlist.js的数据进行分析一下：

var allUnivList = [{"id":"00","univs":"","name":"\u4e2d\u56fd","provs":[{............."country_id":0,"name":"\u53f0\u6e7e"}]},{"id":"01","univs"...................

这样的数据类型。我想做过ajax的都知道是json类型的。但是这里我要用Java的正则表达式进行解析。

首先分析数据结构：

[{国家:[{省市区[{高校S}],......}],....},....] 大概就是这样的结构其中....表示可能有多个同级机构。如安徽省呵北京市，而在北京市下有清华大学和北京大学是同级的。以此类推啦。

我只需要中国的的大学，所以我首先选出中国这块的数据：用到的正则表达式是："\"provs\":(.*?)]}"

这里主要对比在台湾省结束的时候，有]}标志，而且在前面并没有出现，而且用非贪婪模式去批判就能保证是中国的高校了。如图

取得了中国部分，接下来对中国的省市区进行解析了，同样，我们看到：

[{"id":"00",............"country_id":0,"name":"..........."},这样的结构

所以对每一个省我们可以分析到如下的正则表达式：id\":(.*?),\"univs\":(.*?),\"country_id\":0,\"name\":\"(.*?)\"}

然后对中国这部分进行一个循环，就可以得到中国所有的省市区了，同样我们对每一个省市，要对他们包含的高校进行选择：

我们很容易就可以看到高校的结构应该是：{"id":1001,"name":"\u6e05\u534e\u5927\u5b66"} 类似，那么正则表达式应该是："id\":(.*?),\"name\":\"(.*?)\""；

对于每一个高校，我们可以类似于省市那样处理，用循环匹配，就可以得到这个省市的所以高校。但是对于每一个高校。我们要还需要获得他的院系信息。前文跟大家分分析了，院系信息是通过http://www.renren.com/GetDep.do?id=xxxx来动态获取（xxx代表高校的编号），那么我们在抓取高校的时候，顺带也将他们的院系信息获取了。

写了这么多，咱直接上代码：

你也可以选择下载下面的代码。里面有一些必要的文件已经jar包，需要自己配置一下。如果不会，请留言吧，我争取重新打包再上传上来。

import java.io.File;
import java.io.IOException;
import java.io.PrintStream;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.ResponseHandler;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.BasicResponseHandler;
import org.apache.http.impl.client.DefaultHttpClient;

/**
 * 
 * 
 * Author : Saitkey < [email protected] >
 */
public class GenerateSQL {
	// 构建省的sql文件
	private File province = new File("provice.sql");
	// 构建高校的sql文件
	private File college = new File("college.sql");
	// 构建院系的sql文件
	private File department = new File("department.sql");

	GenerateSQL() throws ClientProtocolException, IOException {
		HttpClient client = new DefaultHttpClient();
		ResponseHandler<String> responseHandler = new BasicResponseHandler();
		String depUrl = "http://www.renren.com/GetDep.do?id=";
		String allunivs = "http://s.xnimg.cn/a13819/allunivlist.js";
		HttpGet get = new HttpGet(allunivs);
		System.out.println("读取高校信息...");
		StringBuffer sb = new StringBuffer(client.execute(get, responseHandler));
		System.out.println("读取完成...");

		// 对获取的字符串进行处理截取从"provs":到}]},{"id":"01"部分
		String alluinvRegex = "\"provs\":(.*?)]}";
		Pattern pattern = Pattern.compile(alluinvRegex);
		String chn = "";
		Matcher matcher = pattern.matcher(sb.toString());
		matcher.find();
		chn = matcher.group(1);
		// System.out.println(convertFromHex(tmp));

		// 对截取的中国部分按照省市区进行匹配"id":1,"univs" ...... "country_id":0,"name":"台湾"
		String regex2 = "id\":(.*?),\"univs\":(.*?),\"country_id\":0,\"name\":\"(.*?)\"}";
		Pattern pattern2 = Pattern.compile(regex2);
		Matcher matcher2 = pattern2.matcher(chn);
		StringBuilder provsBuilder = new StringBuilder();
		StringBuilder colBuilder = new StringBuilder();
		StringBuilder deparBuilder = new StringBuilder();
		while (matcher2.find()) {
			// 我们项目的sql语句，如果你们数据库不一样，稍微修改一下拉
			provsBuilder.append("insert into province(PROID,PRONAME)values('"
					+ matcher2.group(1) + "','"
					+ convertFromHex(matcher2.group(3)) + "');\n");
			System.out.println("生成-" + convertFromHex(matcher2.group(3))
					+ "-数据库");
			// 取得学校的ID，还有名字 "id":1001,"name":"\u6e05\u534e\u5927\u5b66"
			String colRegex = "id\":(.*?),\"name\":\"(.*?)\"";
			Pattern colPattern = Pattern.compile(colRegex);
			Matcher colMatcher = colPattern.matcher(matcher2.group(2));
			while (colMatcher.find()) {
				colBuilder
						.append("insert into COLLEGE(PROID,COLID,COLNAME)values('"
								+ matcher2.group(1)
								+ "','"
								+ colMatcher.group(1)
								+ "','"
								+ convertFromHex(colMatcher.group(2)) + "');\n");

				System.out.println("生成-" + convertFromHex(colMatcher.group(2))
						+ "-数据库");

				get = new HttpGet(depUrl + colMatcher.group(1));
				ResponseHandler<String> depHandler = new BasicResponseHandler();
				generateDepartment(client.execute(get, depHandler), colMatcher
						.group(1), deparBuilder);
			}

		}
		PrintStream ps = new PrintStream(province);
		ps.print(provsBuilder.toString());
		ps.close();

		PrintStream ps2 = new PrintStream(college);
		ps2.print(colBuilder.toString());
		ps2.close();

		PrintStream ps3 = new PrintStream(department);
		ps3.print(deparBuilder.toString());
		ps3.close();
		System.err.println("\n\n\n完成数据库生成，请打开项目目录查看！");
	}

	// 这个函数用来处理行查询到的高校院系 <option
	// value='&#20013;&#22269;&#35821;&#35328;&#25991;&#23398;&#23398;&#38498;'>&#20013;&#22269;&#35821;&#35328;&#25991;&#23398;&#23398;&#38498;</option>
	public void generateDepartment(String src, String colid, StringBuilder sb) {
		String departRegex = "value='(.+?)'>";// 开始用这个正则表达式"value='(.*?)'>";
		// 后来发现有问题，问题你自己探索吧。
		Pattern pattern = Pattern.compile(departRegex);
		Matcher matcher = pattern.matcher(src);
		while (matcher.find()) {
			sb.append("insert into DEPARTMENT(COLID,DEPNAME)values('" + colid
					+ "','" + convertFromDec(matcher.group(1)) + "');\n");
		}
	}

	public static String convertDec(String src) {
		return Character.toString((char) Integer.parseInt(src, 10));
	}

	public static String convertHex(String src) {
		return Character
				.toString((char) Integer.parseInt(src.substring(2), 16));
	}

	// 转换&#xxxxx;形式Unicode
	private String convertFromDec(String code) {
		StringBuffer sb = new StringBuffer(code);
		int startPos;
		int endPos;
		while ((startPos = sb.indexOf("&#")) > -1) {
			endPos = sb.indexOf(";");
			String tmp = sb.substring(startPos + 2, endPos);
			sb.replace(startPos, endPos + 1, Character.toString((char) Integer
					.parseInt(tmp, 10)));
		}
		return code = sb.toString();
	}

	// 转换16进制的Unicode，
	private String convertFromHex(String code) {
		StringBuffer sb = new StringBuffer(code);
		int pos;
		while ((pos = sb.indexOf("\\u")) > -1) {
			String tmp = sb.substring(pos, pos + 6);
			sb.replace(pos, pos + 6, Character.toString((char) Integer
					.parseInt(tmp.substring(2), 16)));
		}
		return code = sb.toString();
	}

	public static void main(String[] args) throws ClientProtocolException,
			IOException {
		new GenerateSQL();
	}
}

写到这里，基本上完成了高校数据库的抓取工作，现在只需要导入刚刚生成的sql文件就可以了。如果你想抓取其他的信息。原理也应该差不多的吧。只不过要看看他们有没有设置session 的权限认证了。如果有，那你得写一个登陆的东西获得那认证，前面也写了差不多。应该可以看懂的。感谢你花这么长的时间。

至于标题的省高校院系级联，好吧，我骗你了。只不过今天就到此了，还有Asp.net的任务。有了数据库了，咱还怕写不出来那个级联么？各位看官，如果你要什么好的级联，可以分享一下吧。

声明：抓取人人网数据仅供学习之用，不对人人网有任何恶意的行为。

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
在Ubuntu中编译含有JSON的文件出现报错芝麻糊76 Linux kill_bug linux ubuntu json
在ubuntu中进行JSON相关学习的时候，我发现了一些小问题，决定与大家进行分享，减少踩坑时候出现不必要的时间耗费截取部分含有JSON部分的代码进行展示char*str="{\"title\":\"JSONExample\",\"author\":{\"name\":\"JohnDoe\",\"age\":35,\"isVerified\":true},\"tags\":[\"json\",\"
数据结构之哈希表 X同学的开始数据结构数据结构散列表
哈希表(散列表)出现的原因在顺序表中查找时，需要从表头开始，依次遍历比较a[i]与key的值是否相等，直到相等才返回索引i；在有序表中查找时，我们经常使用的是二分查找，通过比较key与a[i]的大小来折半查找，直到相等时才返回索引i。最终通过索引找到我们要找的元素。但是，这两种方法的效率都依赖于查找中比较的次数。我们有一种想法，能不能不经过比较，而是直接通过关键字key一次得到所要的结果呢？这时，
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
我在大学遇到的兼职坑2 竹音小居
不要存在侥幸，天上不会掉馅饼上一次我讲述了我在某宝刷单遇到的坑，今天我就来讲讲比某宝刷单更坑的兼职，不，这应该不是兼职了，是被骗。我因为在某宝刷单交了会费，最后连本金都没有挣回来，就想找一个不用交本金的刷单平台，然后我就上网搜了一下“有没有不用交钱的兼职”，没成想还真有，我打开网页链接，看人家上面写的文案，确实很心动，不用交钱，加一下客服的qq就可以接单，而且网页上还有很多别人挣钱的截图，佣金非常
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
C++八股 Petrichorzncu 八股总结 c++开发语言
这里写目录标题C++内存管理C++的构造函数，复制构造函数，和析构函数深复制与浅复制：构造函数和析构函数哪个能写成虚函数，为什么？C++数据结构内存排列结构体和类占用的内存：==虚函数和虚表的原理==虚函数虚表（Vtable）虚函数和虚表的实现细节==内存泄漏==指针的工作原理函数的传值和传址new和delete与malloc和freeC++内存区域划分C++11新特性C++常见新特性==智能指针
【树一线性代数】005入门 Owlet_woodBird 算法
Index本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376分析实现总结本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376已知非空二叉树T的结点值均为正整数，采用顺序存储方式保存，数据结构定义如下:t
更改npm镜像源为淘宝镜像骆小骆基于node.js
npm常用指令后缀*最近复习了一下node.js整理了一下跟node.js相关的指令后缀*--save、-S参数意思是把模块的版本信息保存到dependencies（生产环境依赖）中，即你的package.json文件的dependencies字段中；–--save-dev、-D参数意思是把模块版本信息保存到devDependencies（开发环境依赖）中，即你的package.json文件的de
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
python获取子进程返回值_Python对进程Multiprocessing子进程返回值 weixin_39752157 python获取子进程返回值
在实际使用多进程的时候，可能需要获取到子进程运行的返回值。如果只是用来存储，则可以将返回值保存到一个数据结构中；如果需要判断此返回值，从而决定是否继续执行所有子进程，则会相对比较复杂。另外在Multiprocessing中，可以利用Process与Pool创建子进程，这两种用法在获取子进程返回值上的写法上也不相同。这篇中，我们直接上代码，分析多进程中获取子进程返回值的不同用法，以及优缺点。初级用法
【数据结构-一维差分】力扣2848. 与车相交的点 hlc@ 数据结构数据结构 leetcode 算法
给你一个下标从0开始的二维整数数组nums表示汽车停放在数轴上的坐标。对于任意下标i，nums[i]=[starti,endi]，其中starti是第i辆车的起点，endi是第i辆车的终点。返回数轴上被车任意部分覆盖的整数点的数目。示例1：输入：nums=[[3,6],[1,5],[4,7]]输出：7解释：从1到7的所有点都至少与一辆车相交，因此答案为7。示例2：输入：nums=[[1,3],[5
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
斟一小组鸡血视频和自己一起成长
http://m.v.qq.com/play/play.html?coverid=&vid=c0518henl2a&ptag=2_6.0.0.14297_copy有一种努力叫做靠自己http://m.v.qq.com/play/play.html?coverid=&vid=i0547o426g4&ptag=2_6.0.0.14297_copy世界最励志短片https://v.qq.com/x/pa
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

用HttpClient抓取人人网高校数据库（省，高校，院系三级级联）--更新1

你可能感兴趣的:(apache,数据结构,json,正则表达式,qq)