jiutao_tang

Nutch 的命令

Nutch采用了一种命令的方式进行工作，其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下：

1. Crawl
Crawl是“org.apache.nutch.crawl.Crawl”的别称，它是一个完整的爬取和索引过程命令。
使用方法：
Shell代码
bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN]

bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN]
参数说明：
    <urlDir>：包括URL列表的文本文件，它是一个已存在的文件夹。
    [-dir <d>]：Nutch保存爬取记录的工作目录，默认情况下值为：./crawl-[date]，其中[date]为当前目期。
    [-threads <n>]：Fetcher线程数，覆盖默认配置文件中的fetcher.threads.fetch值（默认为10）。
    [-depth <i>]：Nutch爬虫迭代的深度，默认值为5。
    [-topN <num>]：限制每一次迭代中的前N条记录，默认值为 Integer.MAX_VALUE。

配置文件：
hadoop-default.xml
    hadoop-site.xml
    nutch-default.xml
    nutch-site.xml
    crawl-tool.xml

其他文件：
crawl-urlfilter.txt

2. Readdb
    Readdb命令是“org.apache.nutch.crawl.CrawlDbReader”的别称，返回或者导出Crawl数据库（crawldb）中的信息。
   使用方法：
Shell代码
bin/nutch rseaddb <crawldb> (-stats | -dump <out_dir> | -url <url>)

bin/nutch rseaddb <crawldb> (-stats | -dump <out_dir> | -url <url>)
参数说明：
<crawldb>：crawldb目录.
[-stats]:：在控制台打印所有的统计信息
[-dump <out_dir>]：导出crawldb信息到指定文件夹中的文件
[-url <url>]：打印指定URL的统计信息
实例：
Shell代码
$ bin/nutch readdb fullindex/crawldb -stats

$ bin/nutch readdb fullindex/crawldb -stats

CrawlDb statistics start: fullindex/crawldb
Statistics for CrawlDb: fullindex/crawldb
TOTAL urls:     468030
retry 0:        467361
retry 1:        622
retry 2:        32
retry 3:        15
min score:      0.0
avg score:      0.0034686408
max score:      61.401
status 1 (db_unfetched):        312748
status 2 (db_fetched): 80671
status 3 (db_gone):     69927
status 4 (db_redir_temp):       1497
status 5 (db_redir_perm):       3187
CrawlDb statistics: done
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

说明：
-stats命令是一个快速查看爬取信息的很有用的工作，其输出信息表示了：
DB_unfetched：链接到已爬取页面但还没有被爬取的页面数（原因是它们没有通过url过滤器的过滤，或者包括在了TopN之外被Nutch丢弃）
DB_gone：表示发生了404错误或者其他一些臆测的错误，这种状态阻止了对其以后的爬取工作。
DB_fetched表示已爬取和索引的页面，如果其值为0，那肯定出错了。

3. readlinkdb
它是"org.apache.nutch.crawl.LinkDbReader"的别称，导出链接库中信息或者返回其中一个URL信息。
使用方法：
Shell代码
Bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)

Bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)
参数说明：
<linkdb>：linkdb工作目录
[-dump <out_dir>]：导出信息到文件夹下
[-url <url>]：打印某个URL的统计信息
实例：
Shell代码
$ bin/nutch readlinkdb fullindex/linkdb -url www.ccnu.edu.cn - no link information

$ bin/nutch readlinkdb fullindex/linkdb -url www.ccnu.edu.cn - no link information
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

4. inject
它是"org.apache.nutch.crawl.Injector"的别称，注入新URL到crawldb中。
使用方法：
Shell代码
bin/nutch injector <crawldb> <urldir>

bin/nutch injector <crawldb> <urldir>
参数说明：
<crawldb>：crawldb文件夹
<urldir>：保存有URL的文件的文件夹目录
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

以下配置文件参数影响到了注入方式：
db.default.fetch.interval——按天设置爬取间隔，默认值30.0f
db.score.injected——设置URL的默认打分，默认值1.0f
urlnormalizer.class——规范化URL的类，默认值为 org.apache.nutch.net.BasicUrlNormalizer

5. generate
它是“org.apache.nutch.crawl.Generator”，从Crawldb中抓取新的Segment。
使用方法：
Shell代码
bin/nutch generator <crawldb> <segments_dir> [-topN <num>] [-numFetchers <fetchers>] [-adddays <days>]

bin/nutch generator <crawldb> <segments_dir> [-topN <num>] [-numFetchers <fetchers>] [-adddays <days>]
参数说明：
<crawldb>：crawldb目录
<segments_dir>：新建的爬取Segment目录
[-topN <num>]：选取前多少个链接，默认值为Long.MAX_VALUE
[-numFetchers <fetchers>]：抓取分区数量。 Default: Configuration key -> mapred.map.tasks -> 1
[-adddays <days>]: 添加 <days>到当前时间，配置crawling urls ，以将很快被爬取db.default.fetch.interval默认值为0。爬取结束时间在当前时间以前的。
示例：
Shell代码
bin/nutch generate /my/crawldb /my/segments -topN 100 -adddays 20

bin/nutch generate /my/crawldb /my/segments -topN 100 -adddays 20
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
说明：
generate.max.per.host – 设置单个主机最大的URL数量，默认情况下：unlimited。

6. fetch
它是“org.apache.nutch.fetcher.Fetcher”的代称，它负责一个segment的爬取。
使用方法：
Shell代码
bin/nutch fetcher <segment> [-threads <n>] [-noParsing]

bin/nutch fetcher <segment> [-threads <n>] [-noParsing]
参数说明：
<segment>：segment目录
[-threads <n>]：运行的fetcher线程数默认值为 Configuration Key -> fetcher.threads.fetch -> 10
[-noParsing]：禁用自动解析segment数据
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
说明：
Fetcher依赖于多个插件以爬取不同的协议，目前已有的协议及支撑插件如下：
http:
protocol-http
protocol-httpclient
https:
protocol-httpclient
ftp:
protocol-ftp
file:
protocol-file
当爬取网上文档的时候，不应该使用protocol-file，因为它是用于爬取本地文件的。如果你想爬取http、https，应当使用protocol-httpclient。
7. parse
它是“org.apache.nutch.parse.ParseSegment”的代称，它对一个segment运行ParseSegment。
使用方法：
Shell代码
bin/nutch parse <segment>

bin/nutch parse <segment>
参数说明：
<segment>：Segment文件夹
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
说明：
它依赖于多个插件来解析不同格式的内容，支持的格式及插件有：
内容格式插件备注
text/html parse-html 使用NekoHTML 或者TagSoup解析HTML
application/x-javascript parse-js 解析JavaScript 文档(.js).
audio/mpeg parse-mp3 解析MP3 Audio文档(.mp3).
application/vnd.ms-excel parse-msexcel 解析MSExcel文档 (.xls).
application/vnd.ms-powerpoint parse-mspowerpoint 解析MSPower!Point 文档
application/msword parse-msword 解析MSWord文档
application/rss+xml parse-rss 解析RSS文档(.rss)
application/rtf parse-rtf 解析RTF文档(.rtf)
application/pdf parse-pdf 解析PDF文档
application/x-shockwave-flash parse-swf 解析Flash 文档 (.swf)
text-plain parse-text 解析Text文档(.txt)
application/zip parse-zip 解析Zip文档(.zip)
other types parse-ext 通过基于content-type或者路径前缀的外部命令来解析文档
默认情况下只有txt、HTML、JS格式的插件可用，其他的需要在nutch-site.xml中配置使用。
8 . segread
"segread" 是"org.apache.nutch.segment.SegmentReader"的代称，它读取并导出Segment数据。
使用方法：
Shell代码
bin/nutch segread <segment>

bin/nutch segread <segment>
参数说明：
<segment>：Segment文件夹
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
说明：
在Nutch0.9后的版本中改为了readseg
9 . updatedb
它是“org.apache.nutch.crawl.CrawlDb”的代称，用fetch过程中获取的信息更新crawldb。
使用方法：
Shell代码
bin/nutch updatedb <crawldb> <segment> [-noadditions]

bin/nutch updatedb <crawldb> <segment> [-noadditions]
参数说明：
<crawldb>：crawldb目录
<segment>：已经爬取的segment目录
[-noadditions]：是否添加新的链接到crawldb中
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

10. invertlinks
它是“org.apache.nutch.crawl.LinkDb”的代称，它用从segment中获取到的信息更新linkdb。
使用方法：
Shell代码
bin/nutch invertlinks <linkdb> (-dir segmentsDir | segment1 segment2 ...)

bin/nutch invertlinks <linkdb> (-dir segmentsDir | segment1 segment2 ...)

参数说明：
<linkdb>: linkdb目录
<segment>: segment目录，可以指定至少一个的文件夹

配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
11. index
它是“org.apache.nutch.indexer.Indexer”的代称，创建一个segment的索引，利用crawldb和linkdb中的数据对索引中的页面打分。
使用方法：
Shell代码
bin/nutch index <index> <crawldb> <linkdb> <segment> ...

bin/nutch index <index> <crawldb> <linkdb> <segment> ...
参数说明：
<index>: 索引创建后的保存目录
<crawldb>: crawldb目录
<linkdb>: linkdb目录
<segment>: segment目录，可以指定多个
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

12. merge
Merge是“org.apache.nutch.indexer.IndexMerger”的代称，它合并多个segment索引。
使用方法：
bin/nutch merge [-workingdir <workingdir>] <outputIndex> <indexesDir> ...

参数说明：
[-workingdir <workingdir>]：提定工作目录
<outputIndex>：合并后的索引存储目录
<indexesDir>：包含待合并的索引目录，可以指定多个

配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
13. mergedb
它是“org.apache.nutch.crawl.CrawlDbMerger”的代称，合并多个CrawlDb，URLFilter可选择性地过滤指定内容。
可以合并多个DB到一个中。当你分别运行爬虫并希望最终合并DB时，它会相当有用。可选择地，可以运行当前URLFilter过滤数据库中的URL，以滤去不需要的URL。当只有一个DB时也很有用，它意味着你可以通过这个工作去滤掉那些DB中你不想要的URL。
只用这个工具来过滤也是可能的，在这种情况下，只指定一个crawldb。
如果同一个URL包括在多个CrawlDb中，只有最近版本的才会被保留，即由org.apache.nutch.crawl.CrawlDatum.getFetchTime()值决定的。然而，所有版本的元数据被聚合起来，新的值代替先前的值。
使用方法：
bin/nutch merge output_crawldb crawldb1 [crawldb2 crawldb3 ...] [-filter]
参数说明：
output_crawldb：CrawlDb输出文件夹
crawldb1 [crawldb2 crawldb3 ...]：一个或者多个CrawlDb(s).
-filter：采用的URLFilters
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

14. mergelinkdb
它是“org.apache.nutch.crawl.LinkDbMerger”的代称，用于合并多个linkdb，可以选择性的使用URLFilter来过滤指定内容。
当分别从多个segment群中分布式建立LinkDb而又需要合并为一个时很有用。或者，也可以指定单个LinkDb，只是用它来过滤URL。
只用这个工具来过滤也是可能的，在这种情况下，只指定一个LinkDb。
如果一个URL包含在多个LinkDb中，所有的内部链接被聚合，但是最多db.max.inlinks 指定的内链数会添加进来。如果被激活，URLFilter可以应用到所有的目标URL及其内链中。如果目标链接被禁止，所有的该目标链接的内链将和目标链接一起被移去。如果某些内链被禁止，那么只有他们会被移去，在校验上面提到的最大限制数时他们不会被计算在内。
使用方法：
bin/nutch mergelinkdb output_linkdb linkdb1 [linkdb2 linkdb3 ...] [-filter]
参数说明：
output_linkdb：输出linkdb
linkdb1 [linkdb2 linkdb3 ...]: 多于一个的输入LinkDb(s)
-filter: Actual URLFilters to be applied on urls and links in LinkDb(s).
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
15. mergesegs
它是“org.apache.nutch.segment.SegmentMerger”的代称，用于合并多个segment，可以选择性地输出到一个或者多个固定大小的segment中。
使用方法：
Shell代码
bin/nutch mergesegs output_dir (-dir segments | seg1 seg2 ...) [-filter] [-slice NNNN]

bin/nutch mergesegs output_dir (-dir segments | seg1 seg2 ...) [-filter] [-slice NNNN]

参数说明：
output_dir：结果segment的名称或者segment片的父目录
-dir segments：父目录，包括多个segment
seg1 seg2 ...：segment目录列表
-filter：通过URLFilters过滤
-slice NNNN: 创建多个输出segment，每一个中包括了NNNN个URL。

配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
16. dedup
“dedup”是“org.apache.nutch.indexer.DeleteDuplicates”的别名，它segment indexes中去掉重复的页面。
使用方法：
Shell代码
bin/nutch dedup <indexes> ...

bin/nutch dedup <indexes> ...
参数说明：
<indexes>：indexes索引文件
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml
17. plugin
它是“org.apache.nutch.plugin.PluginRepository”的代称，用于从插件库中加载一个插件并执行其主方法。
使用方法：
Shell代码
bin/nutch plugin <pluginId> <className> [args ...]

bin/nutch plugin <pluginId> <className> [args ...]参数说明：
<pluginId>：期望执行的插件ID
<className>：包含主方法的类名
[args]：传入插件的参数
配置文件：
hadoop-default.xml
hadoop-site.xml
nutch-default.xml
nutch-site.xml

参看：http://apps.hi.baidu.com/share/detail/30702067

示例：

1. “Nutch使用总结”中的抓取企业内部网的例子，主要要先进行配置网址等操作，详见

http://blog.csdn.net/jiutao_tang/archive/2011/05/27/6450137.aspx

bin/nutch crawl urls -dir csdn -threads 4 -depth 2 -topN 30

           urls是存放需要爬行网址的文件夹目录。
           -dir选项是抓取的页面的存放目录。
           -threads选项是启动的最大线程数。
           -depth选项是能爬行的最大深度，也就是最多爬行到第几级的页面，也叫爬行深度。
           -topN选项是在每层深度上，所能爬行的最多页面数，也称爬行广度。

执行完成后，在根目录下生成了 csdn 文件夹，含有segment, linkdb, indexed, index, crawldb子文件夹

crawldb: 爬行数据库，用来存储所要爬行的网址
linkdb: 链接数据库，用来存储每个网址的链接地址，包括源地址和链接地址
segments: 抓取的网址被作为一个单元，而一个segment 就是一个单元。
一个 segment 包括以下几个子目录:

crawl_generate:包含所抓取的网址列表
crawl_fetch:包含每个抓取页面的状态
content:包含每个抓取页面的内容
parse_text:包含每个抓取页面的解析文本
parse_data:包含每个页面的外部链接和元数据
crawl_parse:包含网址的外部链接地址，用于更新 crawldb数据库

indexes: 采用 Lucene 的格式建立索引集

2. index

重新索引上面命令获取的数据，segments目录下有两个segment文件夹，保存目录不能相同，故一个是 ik/index 一个是 ik/index2

bin/nutch index ik/index csdn/crawldb csdn/linkdb csdn/segments/20110601155128

bin/nutch index ik/index2 csdn/crawldb csdn/linkdb csdn/segments/20110601155248

也可以把它们用一条命令执行，分开是为了演示merge命令
单命令：bin/nutch index ik/index csdn/crawldb csdn/linkdb csdn/segments/20110601155128 csdn/segments/20110601155248

3.merge

合并上面两条命令生成的索引

$ bin/nutch merge ik/indexes ik/index ik/index2

把后面的合并到前面去

4.dedup 去重

$ bin/nutch dedup ik/indexes

最后，就是最终的索引 ik/indexes

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
Shell、Bash、Zsh这都是啥啊小白码上飞 bash linux 开发语言
Zsh和Bash都是我们常用的Shell，那先搞明白啥是shell吧。Shell作为一个单词，他是“壳”的意思，蛋壳坚果壳。之所以叫壳，是为了和计算机的“核”来区分，用它表示“为使用者提供的操作界面”。所以这个命名其实很形象，翻译成中文，直译过来叫“壳层”。个人认为这个叫法很奇怪，意译貌似也没有什么好的词汇来匹配。就还是叫shell吧。维基百科给的定义是：Incomputing,ashellisa
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
Some jenkins settings SnC_
Jenkins连接到特定gitlabproject的特定branch我采用的方法是在pipeline的script中使用git命令来指定branch。如下：stage('Clonerepository'){steps{gitbranch:'develop',credentialsId:'gitlab-credential-id',url:'http://gitlab.com/repo.git'}}
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
Linux vi常用命令 fengyehongWorld Linux linux
参考资料viコマンド（vimコマンド）リファレンス目录一.保存系命令二.删除系命令三.移动系命令四.复制粘贴系命令一.保存系命令⏹保存并退出:wq⏹强制保存并退出:wq!⏹退出(文件未编辑):q⏹强制退出(忽略已编辑内容):q!⏹另存为:w新文件名二.删除系命令⏹删除当前行dd⏹清空整个文档gg：移动到文档顶部dG：删除到最后一行ggdG三.移动系命令⏹移动到文档顶部gg⏹移动到文档底部#方式1G
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
简单说说关于shell中zsh和bash的选择秋刀prince MacOS 小猿们的开发日常 bash
希望文章能给到你启发和灵感～如果觉得文章对你有帮助的话，点赞+关注+收藏支持一下博主吧～阅读指南开篇说明一、基础环境说明1.1硬件环境1.2软件环境二、什么是shell、bash、zsh?2.1bash2.2zsh三、选择Bash还是Zsh？四、一些常见问题开篇说明本篇主要简单说明一下，shell中bash和zsh的区别和选择；我们经常会把这两个搞混，不知道什么时候用哪一个，以及怎么使用；一、基础
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
python结束子进程_如何清除python中的子进程 weixin_39995943 python结束子进程
我们使用python进程来管理长时间运行的python子进程。有时需要终止子进程。kill命令不会完全终止进程，只会使其失效。运行以下脚本将演示此行为。importsubprocessp=subprocess.Popen(['sleep','400'],stdout=subprocess.PIPE,shell=False)或者p=subprocess.Popen('sleep400',stdout
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
Linux CTF逆向入门蚁景网络安全 linux 运维 CTF
1.ELF格式我们先来看看ELF文件头，如果想详细了解，可以查看ELF的manpage文档。关于ELF更详细的说明：e_shoff：节头表的文件偏移量（字节）。如果文件没有节头表，则此成员值为零。sh_offset：表示了该section（节）离开文件头部位置的距离+-------------------+|ELFheader|---++--------->+-------------------
APQP，ASPICE，敏捷，功能安全，预期安全，这些汽车行业的一堆标准二大宝贝安全架构
前言APQP,ASPICE,敏捷，功能安全，预期安全，PMP，PRICE2汽车行业的有这样一堆标准。我是半路出家来到汽车行业做项目经理的，对几个标准的感觉是，看了文档和各种解析之后还是一头雾水，不知道到底说了个啥，别人问我还是一脸懵逼。APQP（TS16949的最重要工具），ASPICE（软件）这些是质量标准，是优化整个公司体系的，但这套体系对项目管理有要求；敏捷，PMP这些是项目管理的标准；项目
linux脚本sed替换变量,sed 命令中替换值为shell变量诺坎普之约 linux脚本sed替换变量
文章目录sed命令中替换值为shell变量替换基本语法sed中替换使用shell变量总结参考文档sed命令中替换值为shell变量替换基本语法大家都是sed有很多用法，最多就应该是替换一些值了。让我们先回忆sed的替换语法。在sed进行替换的时候sed-i's/old/new/g'1.txtecho"hellooldfrank"|sed's/old/new/g'结果如下：hellonewfrank
前端代码上传文件余生逆风飞翔前端 javascript 开发语言
点击上传文件import{ElNotification}from'element-plus'import{API_CONFIG}from'../config/index.js'import{UploadFilled}from'@element-plus/icons-vue'import{reactive}from'vue'import{BASE_URL}from'../config/index'i
LeetCode 673. Number of Longest Increasing Subsequence (Java版; Meidum) littlehaes 字符串动态规划算法 leetcode 数据结构
welcometomyblogLeetCode673.NumberofLongestIncreasingSubsequence(Java版;Meidum)题目描述Givenanunsortedarrayofintegers,findthenumberoflongestincreasingsubsequence.Example1:Input:[1,3,5,4,7]Output:2Explanatio
Shell脚本中sed使用 jcrhl321 linux
目录一、sed编辑器1、sed概述2、sed的工作流程3、sed命令的常见格式4、sed命令常用操作二、sed常用命令使用1、sed打印2、sed删除3、sed替换4、sed插入与增加4、sed剪切粘贴与复制粘贴一、sed编辑器sed（StreamEDitor）是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑（删除、替换、添加、移动等），最后输出所有行或者仅输出
shell脚本中sed命令如何使用变量歪歪的酒壶 linux
在shell脚本中我们常常需要使用sed命令进行配置文件的更新，但是更新的内容又往往根据环境相关。值并不是固定的。这里我们介绍一种在sed命令中使用变量的方法。比如，在nginx的配置中，我们需要根据环境来更新/etc/nginx/sites-available/default中的目录配置。通常我们采用一个变量，来记录当前环境需要配置的目录比如：dist_dir=/home/dev/code/ui
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

Nutch 的命令

你可能感兴趣的:(shell,url,文档,merge,output,statistics)