耗先生

大数据——nutch1.8+solr 4 配置过程+ikanalayzer2012 中文分词器

Nutch 2.2.1目前性能没有Nutch 1.7好，参考这里，NUTCH FIGHT! 1.7 vs 2.2.1. 所以我目前还是使用的Nutch 1.8。

1 下载已编译好的二进制包，解压

$ wget http://psg.mtu.edu/pub/apache/nutch/1.8/apache-nutch-1.8-bin.tar.gz
$ tar zxf apache-nutch-1.8-bin.tar.gz
将解压后的文件移到/usr中,存为nutch-1.8

也可下载tar.gz文件包，http://mirrors.cnnic.cn/apache/下载后解压。移到自己的安装目录：

$ sudo mv apache-nutch-1.8 /usr/nutch-1.8

2 验证一下

$ cd /usr/nutch-1.8
$ bin/nutch

如果出现”Permission denied”请运行下面的命令：

$ chmod +x bin/nutch
出现nutch使用帮助即可。

如果有Warning说 JAVA_HOME没有设置，请设置一下JAVA_HOME.jdk环境配置问题。

3 添加种子URL

在nutch文件夹中

mkdir urls
sudo gedit /urls/seed.txt
添加要爬取的url链接，例如 http://www.tianya.cn/

4 设置URL过滤规则

如果只想抓取某种类型的URL，可以在 conf/regex-urlfilter.txt设置正则表达式，于是，只有匹配这些正则表达式的URL才会被抓取。

例如，我只想抓取豆瓣电影的数据，可以这样设置：

#注释掉这一行
# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]
# accept anything else
#注释掉这行
#+.
+^http:\/\/movie\.douban\.com\/subject\/[0-9]+\/(\?.+)?$
+^表示可以匹配所有url链接

爬虫爬取时，需要约束爬取的范围。基本所有的爬虫都是通过正则表达式来完成这个约束。

最简单的，正则：

http://www.xinhuanet.com/.*

代表"http://www.xinhuanet.com/"后加任意个任意字符（可以是0个）。

通过这个正则可以约束爬虫的爬取范围,但是这个正则并不是表示爬取新华网所有的网页。新华网并不是只有www.xinhuanet.com这一个域名，还有很多子域名，类似:news.xinhuanet.com

这个时候我们需要定义这样一个正则:

http://([a-z0-9]*\.)*xinhuanet.com/

这样就可以限制爬取新华网所有的网页了。

每种爬虫的正则约束系统都有一些区别，这里拿Nutch、WebCollector两家爬虫的正则系统做对比：

Nutch官网： http://nutch.apache.org/

WebCollector官网: http://crawlscript.github.io/WebCollector/

5 设置agent名字

conf/nutch-site.xml:


  http.agent.name
  My Nutch Spider

这里的配置参考nutch-default.xml,给value赋值即可

6 安装Solr

由于建索引的时候需要使用Solr，因此我们需要安装并启动一个Solr服务器。

参考Nutch Tutorial 第4、5、6步，以及Solr Tutorial。

6.1 下载，解压

$ wget http://mirrors.cnnic.cn/apache/lucene/solr/4.8.1/solr-4.8.1.tgz

也可以下载tar.gz文件包。http://apache.fayea.com/lucene/solr/

$ tar -zxvf solr-4.8.1.tgz

$ sudo mv solr-4.8.1 /usr/solr4.8.1

6.2 运行Solr

cd /usr/solr4.8.1/example
java -jar start.jar

验证是否启动成功

用浏览器打开

http://localhost:8983/solr/#/

，如果能看到页面，说明启动成功。

6.3 将Nutch与Solr集成在一起

NUTCH安装目录是：/usr/nutch1.8

SOLR安装目录是：/usr/solr4.8.1

将NUTCH-1.8/conf/schema-solr4.xml拷贝到SOLR_DIR/exanple/solr/collection1/conf/，重命名为schema.xml，并在...最后添加一行(具体解释见Solr 4.2 - what is _version_field?)，

重启Solr，

# Ctrl+C to stop Solr
java -jar start.jar

7 使用crawl脚本一键抓取

Nutch自带了一个脚本，./bin/crawl，把抓取的各个步骤合并成一个命令，看一下它的用法

$ bin/crawl 
Missing seedDir : crawl

注意，是使用bin/crawl，不是bin/nutch crawl，后者已经是deprecated的了。

7.1 抓取网页

$ ./bin/crawl ~/urls/ ./TestCrawl http://localhost:8983/solr/ 2

～/urls 是存放了种子url的目录
TestCrawl 是存放数据的根目录（在Nutch 2.x中，则表示crawlId，这会在HBase中创建一张以crawlId为前缀的表，例如TestCrawl_Webpage）
http://localhost:8983/solr/ , 这是Solr服务器
2，numberOfRounds，迭代的次数

过了一会儿，屏幕上出现了一大堆url，可以看到爬虫正在抓取！

fetching http://music.douban.com/subject/25811077/ (queue crawl delay=5000ms)
fetching http://read.douban.com/ebook/1919781 (queue crawl delay=5000ms)
fetching http://www.douban.com/online/11670861/ (queue crawl delay=5000ms)
fetching http://book.douban.com/tag/绘本 (queue crawl delay=5000ms)
fetching http://movie.douban.com/tag/科幻 (queue crawl delay=5000ms)
49/50 spinwaiting/active, 56 pages, 0 errors, 0.9 1 pages/s, 332 245 kb/s, 131 URLs in 5 queues
fetching http://music.douban.com/subject/25762454/ (queue crawl delay=5000ms)
fetching http://read.douban.com/reader/ebook/1951242/ (queue crawl delay=5000ms)
fetching http://www.douban.com/mobile/read-notes (queue crawl delay=5000ms)
fetching http://book.douban.com/tag/诗歌 (queue crawl delay=5000ms)
50/50 spinwaiting/active, 61 pages, 0 errors, 0.9 1 pages/s, 334 366 kb/s, 127 URLs in 5 queues

7.2 查看结果

$ bin/nutch readdb TestCrawl/crawldb/ -stats
14/02/14 16:35:47 INFO crawl.CrawlDbReader: Statistics for CrawlDb: TestCrawl/crawldb/
14/02/14 16:35:47 INFO crawl.CrawlDbReader: TOTAL urls:	70
14/02/14 16:35:47 INFO crawl.CrawlDbReader: retry 0:	70
14/02/14 16:35:47 INFO crawl.CrawlDbReader: min score:	0.005
14/02/14 16:35:47 INFO crawl.CrawlDbReader: avg score:	0.03877143
14/02/14 16:35:47 INFO crawl.CrawlDbReader: max score:	1.23
14/02/14 16:35:47 INFO crawl.CrawlDbReader: status 1 (db_unfetched):	59
14/02/14 16:35:47 INFO crawl.CrawlDbReader: status 2 (db_fetched):	11
14/02/14 16:35:47 INFO crawl.CrawlDbReader: CrawlDb statistics: done

8 一步一步使用单个命令抓取网页

上一节为了简单性，一个命令搞定。本节我将严格按照抓取的步骤，一步一步来，揭开爬虫的神秘面纱。感兴趣的读者也可以看看 bin/crawl 脚本里的内容，可以很清楚的看到各个步骤。

先删除第7节产生的数据，

$ rm -rf TestCrawl/

8.1 基本概念

Nutch data is composed of:

The crawl database, or crawldb. This contains information about every URL known to Nutch, including whether it was fetched, and, if so, when.
The link database, or linkdb. This contains the list of known links to each URL, including both the source URL and anchor text of the link.
A set of segments. Each segment is a set of URLs that are fetched as a unit. Segments are directories with the following subdirectories:
- a crawl_generate names a set of URLs to be fetched
- a crawl_fetch contains the status of fetching each URL
- a content contains the raw content retrieved from each URL
- a parse_text contains the parsed text of each URL
- a parse_data contains outlinks and metadata parsed from each URL
- a crawl_parse contains the outlink URLs, used to update the crawldb

8.2 inject:使用种子URL列表，生成crawldb

$ bin/nutch inject TestCrawl/crawldb ~/urls

将根据～/urls下的种子URL，生成一个URL数据库，放在crawdb目录下。

8.3 generate

$ bin/nutch generate TestCrawl/crawldb TestCrawl/segments

这会生成一个 fetch list，存放在一个segments/日期目录下。我们将这个目录的名字保存在shell变量s1里：

$ s1=`ls -d TestCrawl/segments/2* | tail -1`
$ echo $s1

8.4 fetch

$ bin/nutch fetch $s1

将会在 $1 目录下，生成两个子目录, crawl_fetch 和 content。

8.5 parse

$ bin/nutch parse $s1

将会在 $1 目录下，生成3个子目录, crawl_parse, parse_data 和 parse_text 。

8.6 updatedb

$ bin/nutch updatedb TestCrawl/crawldb $s1

这将把crawldb/current重命名为crawldb/old，并生成新的 crawldb/current 。

8.7 查看结果

$ bin/nutch readdb TestCrawl/crawldb/ -stats

8.8 invertlinks

在建立索引之前，我们首先要反转所有的链接，这样我们就可以获得一个页面所有的锚文本，并给这些锚文本建立索引。

$ bin/nutch invertlinks TestCrawl/linkdb -dir TestCrawl/segments

8.9 solrindex, 提交数据给solr，建立索引

$ bin/nutch solrindex http://localhost:8983/solr TestCrawl/crawldb/ -linkdb TestCrawl/linkdb/ TestCrawl/segments/20140203004348/ -filter -normalize

8.10 solrdedup, 给索引去重

有时重复添加了数据，导致索引里有重复数据，我们需要去重，

$bin/nutch solrdedup http://localhost:8983/solr

8.11 solrclean, 删除索引

如果数据过时了，需要在索引里删除，也是可以的。

$ bin/nutch solrclean TestCrawl/crawldb/ http://localhost:8983/solr

9.solr与tomcat整合

9.1 下载tomcat安装包，点这里下载：http://tomcat.apache.org/download-70.cgi
$ tar -zxvf apache-tomcat-7.0.57.tar.gz
$ sudo mv apache-tomcat-7.0.57 /usr/tomcat
这里我的安装目录是/usr/tomcat

9.2 整合solr与tomcat

假定$SOLR_HOME为/usr/tomcat/solr

步骤1，从solr-4.8.1/dist复制solr-4.8.1.war到$SOLR_HOME下的wabapps中，并重命名为solr.war；

步骤2，将solr-4.8.1/example/solr复制到$/usr/tomcat目录；

步骤3，在tomcat/conf/catalina/localhost下新建solr.xml，如下：

 
           xml version="1.0" encoding="utf-8"?> 
          
           <Context docBase="/usr/tomcat/wabapps/solr.war" reloadable="true" >     
          
               <Environment name="solr/home" type="java.lang.String" value="/usr/tomcat/solr" override="true" />     
          
           Context>

步骤4，从solr-4.8.1/example/lib/ext复制所有的jar到tomcat/lib下，并复制solr-4.8.1/example/resources/log4j.properties到tomcat/lib下(有关日志的说明，见http://wiki.apache.org/solr/SolrLogging)，须知，solr-4.8.1.jar并没有自带日志打印组件，因此这个步骤不执行，可能引起“org.apache.catalina.core.StandardContext filterStart SEVERE: Exception starting filter SolrRequestFilter org.apache.solr.common.SolrException: Could not find necessary SLF4j logging jars.”异常；

步骤五， 进入到 /tomcat/solr/collection1/conf/ 目录下的solrconfig.xml文件中，修改两处，一是注释掉文件中的这一部分代码,大致可以知道,这个简单的项目用不到这些配置:

[plain] view plaincopy

二是配置一个数据索引文件夹,这里配置到 /tomcat/solrindex :没有solrindex记得创建

[plain] view plaincopy

  
${solr.data.dir:}  
  
  
${solr.data.dir:/tomcat/solrindex}

步骤六 ，配置/usr/tomcat/webapps/solr/WEB-INF项目的web.xml,这里正确的配置为:

[plain] view plaincopy

solr/home
/usr/tomcat/solr
java.lang.String

10.配置IK

a.下载 ikanalayzer2012:

http://code.google.com/p/ik-analyzer/downloads/list

本例使用 IK Analyer 2012-FF hotfix 1

该版本可以适用 solr 4.0, 其它版本可能不兼容.

b.下载后,unzip 解压,将 jar 文件复制到 /usr/solr/example/solr-webapp/webapp/WEB-INF/lib

并在 /usr/solr/example/solr-webapp/webapp/WEB-INF/ 下新建目录: classes

将 stopword.dic 和 IKAnalyzer.cfg.xml 复制到其中.可以在该 xml 中配置其它的扩展词库

c.配置schema.xml文件,路径是:

/usr/solr/example/solr/collection1/conf/schema.xml

在众多fieldType当中添加一条

大数据——nutch1.8+solr 4 配置过程+ikanalayzer2012 中文分词器_第1张图片

当建立索引时，要对name字段进行分词，在schema.xml中搜索，将其中的 name字段设置：

改为：

大数据——nutch1.8+solr 4 配置过程+ikanalayzer2012 中文分词器_第2张图片

type的内容即上面刚设置的一个fieldType: text_ik。

大数据——nutch1.8+solr 4 配置过程+ikanalayzer2012 中文分词器_第3张图片

当建立索引的时候，name字段将按IK进行分词。

d.重新启动

e.查看结果

你可能感兴趣的:(大数据,nutch,solr,tomcat,学习总结)

深入探讨Ceph：分布式存储架构的未来深度Linux ceph 分布式架构 C/C++
在数字化浪潮汹涌澎湃的当下，数据量呈爆发式增长，传统存储系统在应对海量数据存储、高并发访问以及灵活扩展等方面，逐渐显得力不从心。分布式存储技术应运而生，成为解决现代数据存储难题的关键方案，而Ceph作为分布式存储领域的佼佼者，正日益受到广泛关注和应用。Ceph以其卓越的性能、高可靠性、强大的扩展性以及开源的特性，在众多分布式存储系统中脱颖而出，被广泛应用于云计算、大数据、人工智能等前沿领域。无论是
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
《AI 大模型 ChatGPT 的传奇》武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js 算法数据结构
《AI大模型ChatGPT的传奇》——段方某世界100强企业大数据/AI总设计师教授北京大学博士后助理：1三6三二四61四五41AI大模型的概念和特点1.1什么是”大模型、多模态“？1.2大模型带来了什么？1.3大模型为什么能产生质变？1.4算法层面的跃升1.4.1RNN到transformor1.4.2扩散模型diffusion1.4.3跨模态的CLIP框架1.5AIGC的耀眼成果1.5.1AI
十、大数据资源平台功能架构 moton2017 大数据治理大数据大数据治理数据资产数据管理元数据架构数据资源
一、大数据资源平台的功能架构图总体结构大数据资源平台功能架构图关键组件：1.用户（顶行）此部分标识与平台交互的各种利益相关者。其中包括：市领导各部门分析师区政府外部组织公民开发人员运营经理2.功能模块（顶部水平部分）这些代表平台的主要功能区域：门户（Portal）：用户访问平台的入口。开放中心（开放中心）：方便数据共享和访问。共享中心（共享中心）：管理数据共享和协作。运营中心：监控和管理平台的运营
分布式系统架构设计原理与实战：理解分布式系统的基本概念 AI天才研究院计算大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍在当今的互联网时代，数据量的爆炸性增长和业务的快速发展，使得单一的计算机系统已经无法满足我们的需求。为了解决这个问题，分布式系统应运而生。分布式系统是一种能在多台计算机（也称为节点）上运行，并通过网络进行通信和协调的系统。它能够提供高可用性、高可靠性、高扩展性和高性能等特性，因此在云计算、大数据、微服务等领域得到了广泛的应用。然而，设计和实现一个分布式系统并不是一件容易的事情。它涉及到
阿里云服务器的作用腾云服务器阿里云服务器云计算
使用阿里云服务器能做什么？大家都知道可以用来搭建网站、数据库、机器学习、Python爬虫、大数据分析等应用，阿里云服务器网来详细说下使用阿里云服务器常见的玩法以及企业或个人用户常见的使用场景：玩转阿里云服务器使用阿里云服务器最常见的应用就是用来搭建网站，例如个人博客、企业网站等；除了搭建网站还可以利用阿里云GPU服务器搭建机器学习和深度学习等AI应用；使用阿里云大数据类型云服务器做数据分析；利用云
数据湖构建 HaoHao_010 服务器云服务器云计算阿里云
阿里云的数据湖构建（DataLake）是一种用于存储和处理大量不同类型数据的解决方案，通常用于大数据分析和机器学习等应用场景。数据湖与传统的数据仓库不同，它能够存储结构化、半结构化和非结构化数据，支持大规模数据的整合、存储、查询和分析。阿里云提供了一整套工具和服务来帮助企业构建数据湖，以下是数据湖构建的主要步骤和关键服务：1.数据湖概述数据湖是一种统一的数据存储库，能承载来自多个来源的数据，包括：
HTML5期末大作业：基于 html css js仿腾讯课堂首页 web学生网页设计 web前端 css dreamweaver html html5期末作业
精彩专栏推荐文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主作者主页:【主页——获取更多优质源码】web前端期末大作业：【毕设项目精品实战案例(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码：【Echarts大屏展示大数据平台可视化(150套)】HTML+CSS+JS实例代码：【️HTML+CSS+JS实例代码
总结：记一次内存溢出导致的tomcat频繁挂掉问题小魏的博客 java jvm tomcat linux 内存泄漏
一、问题背景今天中午开始，几台线上服务器差不多在同个时间段相继挂掉，于是急忙排查故障原因。二、原因分析首先使用visualVM看资源使用情况，发现线程有2万多，甚至有的实例超过3万，于是通过jstack命令查看线程堆栈信息，看哪里代码生成太多的线程。失望的是，只看到线程池名称，但是看不到具体是哪个代码类引起的问题。于是另一种方式，换个角度，能否看到哪些对象占用空间大。使用jmap-dump命令，结
记一次线上tomcat访问慢的排查过程 a_sunny_a tomcat java
记一次线上tomcat访问慢的排查过程排查步骤top命令导出jvm栈的使用情况查看当前进程的线程数（ps-T-ppid|wc-l）解决方法tomcat问题排查经常使用的命令排查步骤top命令使用top命令查看cpu使用率发现cpu使用率并不高导出jvm栈的使用情况jvm栈内存足够使用，并且并未抛出溢出的异常查看当前进程的线程数（ps-T-ppid|wc-l）线程数为295（偏高），于是查看线上to
python天气数据分析与处理,用python数据分析天气 2401_84504019 人工智能
本篇文章给大家谈谈python天气预报可视化分析报告，以及基于python的天气预测系统研究，希望对各位有所帮助，不要忘了收藏本站喔。基于大数据重庆市气象数据分析摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对气象数据等问题，对气象信息进行研究分析，然后开发设计出气象数据分
Java本地缓存技术选型（Guava Cache、Caffeine、EhCache）子龙技术 java
前言对一个java开发者而言，提到缓存，第一反应就是Redis。利用这类缓存足以解决大多数的性能问题了，我们也要知道，这种属于remotecache（分布式缓存），应用的进程和缓存的进程通常分布在不同的服务器上，不同进程之间通过RPC或HTTP的方式通信。这种缓存的优点是缓存和应用服务解耦，支持大数据量的存储，缺点是数据要经过网络传输，性能上会有一定损耗。与分布式缓存对应的是本地缓存，缓存的进程和
从0-1学习Mysql第七章: 分区与分库分表一小路一掌握 Go 语言：编程世界的进阶钥匙学习 mysql 数据库后端面试
第七章:分区与分库分表在大数据时代，单个数据库或表往往难以应对海量数据带来的存储、查询和维护压力。分区、分表和分库分表技术正是在这种背景下应运而生。它们通过将数据进行逻辑或物理拆分，实现数据管理的灵活性和系统性能的优化。1.分区表的概念与使用场景1.1什么是分区表？分区表是将一个大表按照某种规则（如范围、列表、哈希等）划分为多个逻辑子表的技术。虽然物理上数据仍存储在同一张表内，但查询时数据库可以根
Spark之PySpark james二次元大数据 Spark Python PySpark
PySpark是ApacheSpark的PythonAPI，它允许开发者使用Python编程语言进行大规模数据处理和分析。ApacheSpark是一个快速、通用、可扩展的大数据处理引擎，支持批处理、流处理、机器学习、图计算等多种数据处理模式。PySpark使得Python开发者能够利用Spark强大的分布式计算能力，处理大数据集，并执行高效的并行计算。一、PySpark核心概念1.RDD（弹性分布
Request header is too large 请求头太大 james二次元 nginx
在我们的日常开发工作中，可能会遇到请求头太大的问题，导致请求失败F12可以看到，前端传入了很长一段参数后台可以看到问题原因：请求头超过了tomcat的限制值。post请求是没有参数大小限制，但是服务器有自己的默认大小解决方式一：可以修改Tomcat的server.xml文件增加maxHttpHeaderSize参数配置,当maxPostSize=0时,表示不限制解决方式二：如果你是SpringBo
天气API接口在日常生活与商业决策中的应用 FB13713612741 python
天气，作为自然界中最不可控却又对人类活动影响巨大的因素之一，其变化无常的特性使得人们长期以来都在寻找预测和控制它的方法。随着科技的进步，尤其是互联网和大数据技术的发展，天气信息的获取和应用变得更加便捷和高效。天气API接口，作为连接天气数据与各类应用的桥梁，正逐步渗透到我们日常生活的方方面面，并在商业决策中发挥着越来越重要的作用。一、天气API接口的基本概念与技术原理天气API接口是一种提供天气数
大数据最全大模型入门到应用——LangChain：索引（Indexes）-[文本分割器 2401_84182507 程序员 langchain
分类目录：《大模型从入门到应用》总目录LangChain系列文章：基础知识快速入门安装与环境配置链（Chains）、代理（Agent:）和记忆（Memory）快速开发聊天模型模型（Models）基础知识大型语言模型（LLMs）基础知识LLM的异步API、自定义LLM包装器、虚假LLM和人类输入LLM（HumanInputLLM）缓存LLM的调用结果加载与保存LLM类、流式传输LLM与ChatMod
pandas series 相加_Numpy和Pandas教程 weixin_39778393 pandas series 相加
Pandas简介-python数据分析library-基于numpy(对ndarray的操作)-有一种用python做Excel/SQL/R的感觉-为什么要学习pandas?-pandas和机器学习的关系，数据预处理，featureengineering。-pandas的DataFrame结构和大家在大数据部分见到的spark中的DataFrame非常类似。目录-numpy速成-Series-Da
基于springboot的在线小说阅读平台设计与实现-计算机毕业设计源码+LW文档 qq_375279829 计算机毕业设计程序源码 java spring boot java 数据库
开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：Maven3.3.9浏览器：谷歌浏览器数据库代码：DROPTABLEIFEXISTS`discussxiaoshuoxinxi`;/*!40101SET@saved_c
2025届毕业设计选题参考，包含网站管理系统开发，微信小程序开发，APP开发，大数据分析，人工智能平姐设计计算机毕业设计选题清单微信小程序开发语言人工智能数据分析
网站开发选题：1、基于Java的企业食堂管理系统的设计与实现2、基于web的办公平台3、综合学工服务系统4、超市管理系统5、基于springboot的云笔记共享系统6、毕业生实习管理系统7、驾校预约管理系统8、基于Java的航空订票系统9、企业资源规划系统10、洗衣房预约管理系统的设计与实现11、桌面端有声小说12、基于Python的毕业生就业率分析管理系统的设计与实现13、基于VUE的富平县农产
tomcat jndi + spring配置 cyong888 java 数据库 tomcat spring exception bean 数据库 jar
tomcatjndi+spring配置一、简介JNDI:JavaNamingandDirectoryInterface(JNDI)首先关于jndi的配置网上资料很多，但大多都不是我想要的，原因很简单，改的配置文件太多，耦合度还是太高。据网上资料所言，需要更改的配置文件有三：tomcat的server.xml，工程下的WEB-INF/web.xml和spring的数据源bean的配置。虽然只有三个，
十分钟了解大数据处理的五大关键技术及其应用 IT时代周刊 2019年5月大数据程序员编程语言 hadoop
其中主要工作环节包括：♦大数据采集、♦大数据预处理、♦大数据存储及管理、♦大数据分析及挖掘、♦大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。一、大数据采集技术数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取
【FL0091】基于SSM和微信小程序的社区二手物品交易小程序猿毕设小程序微信小程序 spring boot python 后端 java
‍博主介绍‍全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/知乎/b站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发、文档编写、答疑辅导等。精彩专栏推荐订阅计算机毕业设计精品项目案例（持续更新）文末获取源码+数据库+文档感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和学长沟
[ vulhub漏洞复现篇 ] solr 远程命令执行 (CVE-2017-12629-RCE) _PowerShell [靶场实战 ]vulhub vulhub漏洞复现 Apache Solr 远程命令执行 CVE-2017-12629 渗透测试
博主介绍‍博主介绍：大家好，我是_PowerShell，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！文章目录博主介绍一、漏洞编号二、影响范围三、漏洞描述四、环境搭建1、进入CVE-2017-12629-RCE环境2、启动C
Java中的堆外内存：DirectByteBuffer与Unsafe 吴晓斌kobe Java学习 java 堆外内存 Unsafe
在Java中，堆内存（Heap）是JVM管理的内存区域，用于存储对象实例。然而，Java还支持使用堆外内存（Off-HeapMemory），即直接操作操作系统分配的内存。堆外内存的使用场景广泛，尤其是在需要高性能、低延迟的应用中，如网络通信、文件IO、大数据处理等。本文将深入探讨堆外内存的使用场景、性能优势及潜在风险，并通过代码实战展示如何使用DirectByteBuffer和Unsafe来操作堆
Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider m0_74823490 面试学习路线阿里巴巴 python flask hadoop
开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql5.7数据库工具：Navicat11开发软件：PyCharm系统展示管理员登录管理员功能界面比赛信息管理看板展示系统管理摘要本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析，然后搭建开发平台以及配置计算机软硬件；通过对数据流图以及系统结构的设计，创建
汽车行业大数据应用的主要方向数据科学智慧大数据
汽车行业大数据应用的主要方向随着技术的不断发展和智能化的浪潮，大数据在汽车行业中的应用越来越广泛。下面将介绍汽车行业大数据应用的主要方向，并提供相关的源代码示例。智能驾驶与自动驾驶大数据在智能驾驶与自动驾驶技术中起着重要的作用。通过收集和分析大量的车载传感器数据、地图数据、交通状况数据等，可以实现实时的环境感知、路径规划和决策，从而提高驾驶安全性和效率。以下是一个简单的示例代码，展示了如何使用大数
Spring Boot从入门到精通：一站式掌握企业级开发一位卑微的码农 spring boot 后端 java
前言SpringBoot作为Java领域最流行的微服务框架，凭借其约定优于配置的理念和快速启动的特性，极大简化了Spring应用的初始搭建和开发过程。本文将带你从零开始系统学习SpringBoot，最终实现精通级应用开发，涵盖核心原理、实战技巧及性能优化。一、SpringBoot入门篇1.SpringBoot简介核心优势：自动配置、内嵌服务器（Tomcat/Jetty）、Starter依赖简化适用
简单叙述 Spring Boot 启动过程魔道不误砍柴功 spring boot java 数据库
文章目录1.准备阶段：应用启动的入口2.创建SpringApplication对象：开始启动工作3.配置环境（Environment）：识别开发环境与生产环境4.启动监听器和初始化器：感知启动的关键事件5.创建ApplicationContext容器：加载核心Bean6.自动配置（Auto-Configuration）：自动加载所需Bean7.启动内嵌Web服务器：Tomcat、Jetty、Und
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他