iamaboyy

Nutch流程之Fetch

1. 概述

Fetch主要是从待抓取列表中取出url，进行抓取解析，期间产生crawl_parse，carwl_fetch，parse_data，parse_text文件夹。本次将讲解Fetch的大致流程，重点将是各个文件夹的产生过程以及包含的内容。对于Fetch的生产者、消费者模型，这些将不会讲解。

2. 正文

在Fetcher类的fetch（）方法中，设置了执行fetch操作的job。其中，

job.setOutputFormat(GeneralChannelFetcherOutputFormat.class);方法是重要的。后面的各个文件夹的产生都由它控制。（GeneralChannelFetcherOutputFormat.class是在Nutch源码的基础上修改过的代码。）

实现抓取过程的是FetchThread类中的run()方法。

ProtocolOutput output = protocol.getProtocolOutput(fit.url,fit.datum);

ProtocolStatus status = output.getStatus();

Content content = output.getContent();

这几行代码实现url源码的抓取，将生成的内容放到Content对象中。

接下来，根据status的状态信息，进行相应的操作。

switch(status.getCode())

case ProtocolStatus.SUCCESS: // got a page

pstatus =output(fit.url, fit.datum, content, status,

CrawlDatum.STATUS_FETCH_SUCCESS);

当状态时success时，会先执行output方法。Output方法也是一个重要的方法，下面来看看output方法。

private ParseStatus output(Text key, CrawlDatum datum,

Content content, ProtocolStatus pstatus, int status) {

datum.setStatus(status);

datum.setFetchTime(System.currentTimeMillis());

if (pstatus != null)datum.getMetaData().put(Nutch.WRITABLE_PROTO_STATUS_KEY, pstatus);

//上面的代码实现为value的抓取状态设值。如抓取时间。

ParseResult parseResult= null;

if (content != null) {

Metadata metadata =content.getMetadata();

// add segment tometadata

metadata.set(Nutch.SEGMENT_NAME_KEY, segmentName);

// add score tocontent metadata so that ParseSegment can pick it up.

try {

scfilters.passScoreBeforeParsing(key, datum, content);

} catch (Exception e){

if(LOG.isWarnEnabled()) {

e.printStackTrace(LogUtil.getWarnStream(LOG));

LOG.warn("Couldn't pass score, url " + key + " (" +e + ")");

}

/* Note: Fetcher willonly follow meta-redirects coming from the

* original URL. */

if (parsing &&status == CrawlDatum.STATUS_FETCH_SUCCESS) {

try {

parseResult =this.parseUtil.parse(content);//对抓取到的源码进行解析

} catch (Exceptione) {

LOG.warn("Error parsing: " + key + ": " +StringUtils.stringifyException(e));

}

if (parseResult ==null) {

byte[] signature =

SignatureFactory.getSignature(getConf()).calculate(content,

newParseStatus().getEmptyParse(conf));

datum.setSignature(signature);

}

/* Store status codein content So we can read this value during

* parsing (as aseparate job) and decide to parse or not.

content.getMetadata().add(Nutch.FETCH_STATUS_KEY,Integer.toString(status));

}

//涉及到setOutputFormat中设定的类了。

try {

output.collect(key,new NutchWritable(datum));

if (content != null&& storingContent)

output.collect(key,new NutchWritable(content));

if (parseResult !=null) {

for (Entry<Text,Parse> entry : parseResult) {

Text url =entry.getKey();

Parse parse =entry.getValue();

ParseStatusparseStatus = parse.getData().getStatus();

if(!parseStatus.isSuccess()) {

LOG.warn("Error parsing: " + key + ": " +parseStatus);

parse =parseStatus.getEmptyParse(getConf());

}

// Calculate pagesignature. For non-parsing fetchers this will

// be done inParseSegment

byte[] signature =

SignatureFactory.getSignature(getConf()).calculate(content, parse);

// Ensure segmentname and score are in parseData metadata

parse.getData().getContentMeta().set(Nutch.SEGMENT_NAME_KEY,

segmentName);

parse.getData().getContentMeta().set(Nutch.SIGNATURE_KEY,

StringUtil.toHexString(signature));

// Pass fetch timeto content meta

parse.getData().getContentMeta().set(Nutch.FETCH_TIME_KEY,

Long.toString(datum.getFetchTime()));

if (url.equals(key))

datum.setSignature(signature);

try {

scfilters.passScoreAfterParsing(url, content, parse);

} catch (Exceptione) {

if(LOG.isWarnEnabled()) {

e.printStackTrace(LogUtil.getWarnStream(LOG));

LOG.warn("Couldn't pass score, url " + key + " (" +e + ")");

}

output.collect(url, new NutchWritable(

newParseImpl(new ParseText(parse.getText()),

parse.getData(), parse.isCanonical())));

}

} catch (IOException e){

if(LOG.isFatalEnabled()) {

e.printStackTrace(LogUtil.getFatalStream(LOG));

LOG.fatal("fetchercaught:"+e.toString());

}

在output.collect()方法中，就涉及到相关文件的生成了。下面就来看看

GeneralChannelFetcherOutputFormat.class做了点什么。

public RecordWriter<Text, NutchWritable> getRecordWriter(finalFileSystem fs,

final JobConf job,

final String name,

final Progressable progress) throws IOException {

Path out =FileOutputFormat.getOutputPath(job);

final Path fetch =

newPath(new Path(out, CrawlDatum.FETCH_DIR_NAME),

name);/*crawl-fetch��key-datum��

map��ͣ��ŵ��url��״̬��Ϣ*/

final Path content =

new Path(new Path(out,Content.DIR_NAME), name);

final CompressionTypecompType =

SequenceFileOutputFormat.getOutputCompressionType(job);

final MapFile.WriterfetchOut =

new MapFile.Writer(job,fs, fetch.toString(), Text.class, CrawlDatum.class,

compType, progress);

return newRecordWriter<Text, NutchWritable>() {

private MapFile.WritercontentOut;

privateRecordWriter<Text, Parse> parseOut;

{

if(GeneralChannelFetcher.isStoringContent(job)) {

contentOut = newMapFile.Writer(job, fs, content.toString(),

Text.class, Content.class,

compType, progress);

}

if(GeneralChannelFetcher.isParsing(job)) {

parseOut = newGeneralChannelParseOutputFormat().getRecordWriter(fs, job, name, progress);

}

public void write(Textkey, NutchWritable value)

throws IOException {

Writable w =value.get();

if (w instanceofCrawlDatum)

fetchOut.append(key, w);

else if (winstanceof Content)

contentOut.append(key, w);

else if (winstanceof Parse)

parseOut.write(key, (Parse)w);

}

public voidclose(Reporter reporter) throws IOException {

fetchOut.close();

if (contentOut !=null) {

contentOut.close();

}

if (parseOut !=null) {

parseOut.close(reporter);

}

};

}

从中可以看出，根据不同的crawlDatun的内容，输出到不同的目录中。

if (w instanceof CrawlDatum)

fetchOut.append(key, w);

else if (winstanceof Content)

contentOut.append(key, w);

else if (winstanceof Parse)

parseOut.write(key, (Parse)w);

从这段代码可以看出，crawl_fetch中的内容是value，及其抓取状态信息。Content中的内容是网页的源码。而segments中的其他文件内容的产生，则由另外一个类来实现——GeneralChannelParseOutputFormat。

下面就来了解下这个类。

public RecordWriter<Text, Parse> getRecordWriter(FileSystemfs, JobConf job,

String name, Progressable progress) throws IOException {

this.filters = newURLFilters(job);

this.normalizers = newURLNormalizers(job, URLNormalizers.SCOPE_OUTLINK);

this.scfilters = newScoringFilters(job);

final int interval =job.getInt("db.fetch.interval.default", 2592000);

final booleanignoreExternalLinks = job.getBoolean("db.ignore.external.links",false);

int maxOutlinksPerPage =job.getInt("db.max.outlinks.per.page", 100);

final int maxOutlinks =(maxOutlinksPerPage < 0) ? Integer.MAX_VALUE

: maxOutlinksPerPage;

final CompressionTypecompType = SequenceFileOutputFormat.getOutputCompressionType(job);

Path out =FileOutputFormat.getOutputPath(job);

Path text = new Path(newPath(out, ParseText.DIR_NAME), name);

Path data = new Path(newPath(out, ParseData.DIR_NAME), name);

Path crawl = new Path(newPath(out, CrawlDatum.PARSE_DIR_NAME), name);

final String[]parseMDtoCrawlDB =job.get("db.parsemeta.to.crawldb","").split(" *,*");

final MapFile.WritertextOut =

new MapFile.Writer(job,fs, text.toString(), Text.class, ParseText.class,

CompressionType.RECORD,progress);

final MapFile.WriterdataOut =

new MapFile.Writer(job,fs, data.toString(), Text.class, ParseData.class,

compType, progress);

final SequenceFile.WritercrawlOut =

SequenceFile.createWriter(fs, job, crawl, Text.class, CrawlDatum.class,

compType, progress);

return newRecordWriter<Text, Parse>() {

public void write(Textkey, Parse parse)

throws IOException {

String[]secondleveldoamin=new String[]{"org","com","edu","net","ac","gov"};//�д��

String fromUrl =key.toString();

String fromHost =null;

String toHost =null;

Stringfromdomain=null;

Stringtodomain=null;

textOut.append(key,new ParseText(parse.getText()));

ParseData parseData= parse.getData();

// recover thesignature prepared by Fetcher or ParseSegment

String sig =parseData.getContentMeta().get(Nutch.SIGNATURE_KEY);

if (sig != null) {

byte[] signature =StringUtil.fromHexString(sig);

if (signature !=null) {

// append aCrawlDatum with a signature

CrawlDatum d =new CrawlDatum(CrawlDatum.STATUS_SIGNATURE, 0);

d.setSignature(signature);

crawlOut.append(key, d);

}

// see if the parsemetadata contain things that we'd like

// to pass to themetadata of the crawlDB entry

CrawlDatum parseMDCrawlDatum= null;

for (String mdname :parseMDtoCrawlDB) {

String mdvalue =parse.getData().getParseMeta().get(mdname);

if (mdvalue != null){

if(parseMDCrawlDatum == null) parseMDCrawlDatum = new CrawlDatum(

CrawlDatum.STATUS_PARSE_META, 0);

parseMDCrawlDatum.getMetaData().put(new Text(mdname),

newText(mdvalue));

}

if (parseMDCrawlDatum!= null) crawlOut.append(key, parseMDCrawlDatum);

try {

ParseStatuspstatus = parseData.getStatus();

if (pstatus !=null && pstatus.isSuccess() &&

pstatus.getMinorCode() == ParseStatus.SUCCESS_REDIRECT) {

String newUrl =pstatus.getMessage();

int refreshTime =Integer.valueOf(pstatus.getArgs()[1]);

try {

newUrl =normalizers.normalize(newUrl,

URLNormalizers.SCOPE_FETCHER);

} catch(MalformedURLException mfue) {

newUrl = null;

}

if (newUrl !=null) newUrl = filters.filter(newUrl);

String url =key.toString();

if (newUrl !=null && !newUrl.equals(url)) {

String reprUrl=

URLUtil.chooseRepr(url, newUrl,

refreshTime < Fetcher.PERM_REFRESH_TIME);

CrawlDatumnewDatum = new CrawlDatum();

newDatum.setStatus(CrawlDatum.STATUS_LINKED);

if (reprUrl !=null && !reprUrl.equals(newUrl)) {

newDatum.getMetaData().put(Nutch.WRITABLE_REPR_URL_KEY,

new Text(reprUrl));

}

crawlOut.append(new Text(newUrl), newDatum);

}

} catch(URLFilterException e) {

// ignore

}

// collect outlinksfor subsequent db update

Outlink[] links =parseData.getOutlinks();

int outlinksToStore= Math.min(maxOutlinks, links.length);

if(ignoreExternalLinks) {

try {/*此处做了修改，对于外连接进行过滤，过滤的规则是，将由相同domain的取出，nutch自带的是将

具有相同host的取出*/

fromHost = newURL(fromUrl).getHost().toLowerCase();

String[]fromHosts=fromHost.split("\\.");

inti=fromHosts.length-1;

if(fromHosts[i].equals("cn")){

for(intj=0;j<secondleveldoamin.length;j++){

if(fromHosts[i-1].equals(secondleveldoamin[j]))

{

fromdomain=fromHosts[i-2];

break;

}

else

continue;

}

if(fromdomain==null)

fromdomain=fromHosts[i-1];

}

if(fromHosts[i].equals("org")||fromHosts[i].equals("com")

||fromHosts[i].equals("net"))

fromdomain=fromHosts[i-1];

} catch(MalformedURLException e) {

fromHost = null;

}

} else {

fromHost = null;

}

int validCount = 0;

CrawlDatum adjust =null;

List<Entry<Text, CrawlDatum>> targets = newArrayList<Entry<Text, CrawlDatum>>(outlinksToStore);

List<Outlink>outlinkList = new ArrayList<Outlink>(outlinksToStore);

for (int i = 0; i< links.length && validCount < outlinksToStore; i++) {

String toUrl =links[i].getToUrl();

// ignore links toself (or anchors within the page)

if(fromUrl.equals(toUrl)) {

continue;

}

if(ignoreExternalLinks) {

try {

toHost = newURL(toUrl).getHost().toLowerCase();

String[]toHosts=toHost.split("\\.");

intk=toHosts.length-1;

if(toHosts[k].equals("cn")){

for(intj=0;j<secondleveldoamin.length;j++){

if(toHosts[k-1].equals(secondleveldoamin[j]))

{

todomain=toHosts[k-2];

break;

}

else

continue;

}

if(todomain==null)

todomain=toHosts[k-1];

}

if(toHosts[k].equals("org")||toHosts[k].equals("com")

||toHosts[k].equals("net"))

todomain=toHosts[k-1];

} catch (MalformedURLExceptione) {

toHost = null;

}

if (todomain ==null || !todomain.equals(fromdomain)) { // external links

continue; //skip it

}

// if(toHost==null||!toHost.equals(fromHost)){

// continue;

// }

}

try {

toUrl =normalizers.normalize(toUrl,

URLNormalizers.SCOPE_OUTLINK); // normalize the url

toUrl =filters.filter(toUrl); // filter theurl

if (toUrl ==null) {

continue;

}

} catch (Exceptione) {

continue;

}

CrawlDatum target= new CrawlDatum(CrawlDatum.STATUS_LINKED, interval);

Text targetUrl =new Text(toUrl);

try {

scfilters.initialScore(targetUrl, target);

} catch(ScoringFilterException e) {

LOG.warn("Cannot filter init score for url " + key +

",using default: " + e.getMessage());

target.setScore(0.0f);

}

targets.add(newSimpleEntry(targetUrl, target));

outlinkList.add(links[i]);

validCount++;

}

try {

// compute scorecontributions and adjustment to the original score

adjust =scfilters.distributeScoreToOutlinks((Text)key, parseData,

targets,null, links.length);

} catch (ScoringFilterExceptione) {

LOG.warn("Cannot distribute score from " + key + ":" + e.getMessage());

}

for (Entry<Text,CrawlDatum> target : targets) {

crawlOut.append(target.getKey(), target.getValue());

}

if (adjust != null)crawlOut.append(key, adjust);

Outlink[]filteredLinks = outlinkList.toArray(new Outlink[outlinkList.size()]);

parseData = newParseData(parseData.getStatus(), parseData.getTitle(),

filteredLinks,parseData.getContentMeta(),

parseData.getParseMeta());

dataOut.append(key,parseData);

if(!parse.isCanonical()) {

CrawlDatum datum =new CrawlDatum();

datum.setStatus(CrawlDatum.STATUS_FETCH_SUCCESS);

String timeString= parse.getData().getContentMeta().get(Nutch.FETCH_TIME_KEY);

try {

datum.setFetchTime(Long.parseLong(timeString));

} catch (Exceptione) {

LOG.warn("Can't read fetch time for: " + key);

datum.setFetchTime(System.currentTimeMillis());

}

crawlOut.append(key, datum);

}

public voidclose(Reporter reporter) throws IOException {

textOut.close();

dataOut.close();

crawlOut.close();

}

};

}

这个类大致做了以下几件事情。产生crawl_parse、parse_text、parse_data三个文件夹。Prase_text就是网页中解析出来的文本内容。Crawl_parse中最主要的是包含了从ParseData中提取出来的Outlink格式化了的外连接信息,外连接由CrawlDatum.STATUS_LINKED做标记。

此外，crawl_parse中还包含了其他一些内容。但是如果要提取外连接的话，根据Liked即可获取。

在这段代码中还有个参数可以设置——ignoreExternalLinks。这个BOOLEAN参数用来设置是否需要外连接。外连接是用来更新crawldb中的内容的，当然你可以设置db.update.additions.allowed，来要求外连接是否更新到crawldb中。

当ignoreExternalLinks设置为true时，你可以更改外连接选取规则，来选择你想要的外连接。Nutch自带的是host相同的外连接，上面的代码是domain一样的外连接。

挑选出外连接之后，以装有外连接的数组为构造参数，重新构造一个ParseData，产生parse_data文件夹。

你可能感兴趣的:(String,null,url,Path,output,Parsing)

LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
Some jenkins settings SnC_
Jenkins连接到特定gitlabproject的特定branch我采用的方法是在pipeline的script中使用git命令来指定branch。如下：stage('Clonerepository'){steps{gitbranch:'develop',credentialsId:'gitlab-credential-id',url:'http://gitlab.com/repo.git'}}
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
2024.9.6 Python，华为笔试题总结，字符串格式化，字符串操作，广度优先搜索解决公司组织绩效互评问题，无向图 RaidenQ python 华为 leetcode 算法力扣广度优先无向图
1.字符串格式化name="Alice"age=30formatted_string="Name:{},Age:{}".format(name,age)print(formatted_string)或者name="Alice"age=30formatted_string=f"Name:{name},Age:{age}"print(formatted_string)2.网络健康检查第一行有两个整数m
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
【Bugs】Python：“ModuleNotFoundError: No module named ‘XXX‘” 系'辞工具箱 python bug anaconda
问题描述Python使用库的前提是必须已安装了相应的库，往往利用“命令行指令”实现安装，一般安装解法类似。但，还是具有延伸问题，本博客对此作记录。【1】Nomodulenamed‘seaborn’(1.1):情况1：为Anaconda安装【图1-2】.定位Anaconda路径【图3】.Anaconda路径加入Path>&
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
leetcode-617. 合并二叉树 manba_ leetcode hot100 leetcode 算法
题目描述给你两棵二叉树：root1和root2。想象一下，当你将其中一棵覆盖到另一棵之上时，两棵树上的一些节点将会重叠（而另一些不会）。你需要将这两棵树合并成一棵新二叉树。合并的规则是：如果两个节点重叠，那么将这两个节点的值相加作为合并后节点的新值；否则，不为null的节点将直接作为新二叉树的节点。返回合并后的二叉树。注意:合并过程必须从两个树的根节点开始。示例1：输入：root1=[1,3,2,
NPM私库搭建-verdaccio（Linux） Beam007 npm linux 前端
1、安装nodelinux服务器安装nodea)、官网下载所需的node版本https://nodejs.org/dist/v14.21.0/b)、解压安装包若下载的是xxx.tar.xz文件，解压命令为tar-xvfxxx.tar.xzc)、修改环境变量修改：/etc/profile文件#SETPATHFORNODEJSexportNODE_HOME=NODEJS解压安装的路径exportPAT
Golang语言基础知识点总结最帅猪猪侠 golang 开发语言后端
Golang语言基础知识点小总结1.go语言有两大类型：值类型：数值类型，bool，string，数组，struct结构体变量直接存储值，内存通常在栈中分配,修改值,不会对源对象产生影响引用类型：指针，slice切片，管道chan，map，interface变量存储的是一个地址，这个地址对应的空间才真正存储数据值，内存通常在堆上分配，当没有任何变量引用这个地址时，该地址对应的数据空间就成为一个垃圾
string trim的实现 JamesSawyer
if(typeofString.prototype.trim!=='function'){String.prototype.trim=function(){//这个正则的意思是//'^''$'表示结束和开始//'^\s*'表示任意以空格开头的空格//'\s*$'表示任意以空格结尾的空格//'\S*'表示任意非空字符//'$1'表示'(\S*(\s*\S*)*)'returnthis.replace
[Swift]LeetCode943. 最短超级串 | Find the Shortest Superstring 黄小二哥 swift
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号：山青咏芝（shanqingyongzhi）➤博客园地址：山青咏芝（https://www.cnblogs.com/strengthen/）➤GitHub地址：https://github.com/strengthen/LeetCode➤原文地址：https://www.cnblogs.com/streng
[Swift]LeetCode767. 重构字符串 | Reorganize String weixin_30591551 swift runtime
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号：山青咏芝（shanqingyongzhi）➤博客园地址：山青咏芝（https://www.cnblogs.com/strengthen/）➤GitHub地址：https://github.com/strengthen/LeetCode➤原文地址：https://www.cnblogs.com/streng
前端代码上传文件余生逆风飞翔前端 javascript 开发语言
点击上传文件import{ElNotification}from'element-plus'import{API_CONFIG}from'../config/index.js'import{UploadFilled}from'@element-plus/icons-vue'import{reactive}from'vue'import{BASE_URL}from'../config/index'i
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方