wbw1985

Heritrix信息集合

Heritrix

Heritrix是一个爬虫框架，可加如入一些可互换的组件。

　　它的执行是递归进行的，主要有以下几步：

　　1。在预定的URI中选择一个。

　　2。获取URI

　　3。分析，归档结果

　　4。选择已经发现的感兴趣的URI。加入预定队列。

　　5。标记已经处理过的URI

　　Heritrix主要有三大部件：范围部件，边界部件，处理器链

　　范围部件：主要按照规则决定将哪个URI入队。

　　边界部件：跟踪哪个预定的URI将被收集，和已经被收集的URI，选择下一个 URI，剔除已经处理过的URI。

　　处理器链：包含若干处理器获取URI，分析结果，将它们传回给边界部件

　　Heritrix的其余部件有：

　　WEB管理控制台：大多数都是单机的WEB应用，内嵌JAVA HTTP 服务器。

　　操作者可以通过选择Crawler命令来操作控制台。

　　Crawler命令处理部件：包含足够的信息创建要爬的URI。

　　Servercache（处理器缓存）：存放服务器的持久信息，能够被爬行部件随时查到，包括IP地址，历史记录，机器人策略。

　　处理器链：

　　预取链：主要是做一些准备工作，例如，对处理进行延迟和重新处理，否决随后的操作。

　　提取链：主要是获得资源，进行DNS转换，填写请求和响应表单

　　抽取链：当提取完成时，抽取感兴趣的HTML，JavaScript，通常那里有新的也适合的URI，此时URI仅仅被发现，不会被评估

　　写链：存储爬行结果，返回内容和抽取特性，过滤完存储。

　　提交链：做最后的维护，例如，测试那些不在范围内的，提交给边界部件

　　Heritrix 1.0.0包含以下关键特性：

　　1.用单个爬虫在多个独立的站点一直不断的进行递归的爬。

　　2。从一个提供的种子进行爬，收集站点内的精确URI，和精确主机。

　　3。主要是用广度优先算法进行处理。

　　4。主要部件都是高效的可扩展的

　　5。良好的配置，包括：

　　a。可设置输出日志，归档文件和临时文件的位置

　　b。可设置下载的最大字节，最大数量的下载文档，和最大的下载时间。

　　c。可设置工作线程数量。

　　d。可设置所利用的带宽的上界。

　　e。可在设置之后一定时间重新选择。

　　f。包含一些可设置的过滤机制，表达方式，URI路径深度选择等等。

　　Heritrix的局限：

　　1。单实例的爬虫，之间不能进行合作。

　　2。在有限的机器资源的情况下，却要复杂的操作。

　　3。只有官方支持，仅仅在Linux上进行了测试。

　　4。每个爬虫是单独进行工作的，没有对更新进行修订。

　　5。在硬件和系统失败时，恢复能力很差。

　　6。很少的时间用来优化性能。

在本地配好了一个heritrix，建了一个job爬了一个网站的URL，生成一个mirror文件夹，里面是爬到的镜像文件。然后我写了个lucence的demo，把目标文件夹定为那个mirror文件夹，然后开始递归地建立索引。可是效率MS不怎么高，有的一个子文件夹就要5 6分钟，请问heritrix爬下来的文件是不是要经过某些处理才开始建立索引啊？

heritrix是要优化和定制过的，具体的方法是重新一个方法，将抓取的网页按要求用正则表达式匹配好，然后再用lucence建立索引，那样效率就提高了

heritrix安装使用

1）下载heritrix-1.14.3-src.zip
2）解压，并在eclipse3.2中配置heritrix工程
3）jdk1.5及以上，compliance level 1.5及以上
4）文件配置如下，将src/conf和src/webapps目录放到工程目录下面
5）修改conf目录下面的heritrix.properties文件，两个地方：
       @VERSION@ 改为 1.14.3
      heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = admin:xxm
      heritrix.cmdline.port = 改为 heritrix.cmdline.port = 8080
6）将conf目录下面的modules目录放到src/java目录下面
7）运行heritrix.java文件即可运行heritrix
8）heritrix的最大特定就是，抓取内容可定制，所以主要是自编两个类
      继承Extractor，实现extractor方法，对网页的特定内容进行抓取
     继承 FrontierScheduler，复写 schedule方法，抓取到的链接等放入到抓取列表
9）特别注意，如果自己实现Extractor类，那么必须实现构造函数
      构造函数(String name) {
this(name, "***");
      }
   如果不实现这个构造函数，那么就会报如下错误
    java.lang.reflect.InvocationTargetException

到此heritrix已经可以启动，并且可以定制自己的抓取任务了。接下来就是找个项目来试验如何抓取网页内容，并且如果结合lucene来实现垂直搜索引擎。

heritrix详细配置

1 下载和解压
从http://crawler.archive.org/下载解压到本地 E:/heritrix-1.14.3

2 配置环境变量
HERITRIX_HOME=E:/heritrix-1.14.3
path后追加 ;%HERITRIX_HOME%/bin

3 配置 heritrix

拷贝E:/heritrix-1.14.3/conf/jmxremote.password.template到E:/heritrix-1.14.3下
并从命名为jmxremote.password

修改E:/heritrix-1.14.3/conf下的heritrix.properties 文件
用UrltraEditor或其他的文本编辑工具打开，找到 heritrix.cmdline.admin =
admin是空的这是登陆heritrix UI的用户名和密码格式为 username:password
heritrix.cmdline.admin = admin:admin

heritrix.cmdline.port = 8080 配置端口为了不和tomcat的8080端口冲突我改为8888

用winrar 打开E:/heritrix-1.14.3下的heritrix-1.14.jar文件，将其目录中的profiles文件夹拷到

E:/heritrix-1.14.3/conf目录下即完成heritrix的配置

（用些网友说要将jmxremote.password文件的属性改为只读，我不知道为什么？，官方文档里也没说）

4 启动heritrix
开始 -》运行 -》cmd 打开cmd端口
输入heritrix --admin=admin:admin
--admin heritrix的启动参数必须的*

弹出一个Heritrix窗口   打印。。。。。。。。。。。。。Heritrix version: 1.14.3

cmd窗口打印出
2009-04-15 星期三 10:42:03.04 Starting heritrix
Heritrix 1.14.3 is running.
Web console is at: http://127.0.0.1:8888
Web console login and password: admin/admin
表示启动完成

5 抓取任务

用浏览器打开http://127.0.0.1:8888 输入用户名和密码
选Jobs选项，在Create New Job 下选择 With defaults 子项

Create new crawl job based on default profile

Name of new job 和Description 随便写
Seeds 填写要抓取的网站 http://www.verycd.com/ （必须以/结尾）

单击Modules 按钮

Select Modules and Add/Remove/Order Processors

从上而下，可以看到，需要配置的内容共有7项

1.CrawlScope
CrawlScope用于配置当前应该在什么范围内抓取网页链接。比如，如果选择BroadScope，则表示当前

抓取的范围不受限制，但如果选择了HostScope，则表示抓取的范围在当前的Host内。

选择 org.archive.crawler.scope.BroadScope 单击change按钮即可

2.URI Frontier
URI Frontier是一个URL的处理器，它将决定下一个被处理的URL是什么。同时，它还会将经由处理器

链所解析出来的URL加入到等待处理的队列中去。在例子中，使用BdbFrontier类来做为处理器，全权

掌管URL的分配

选择 org.archive.crawler.frontier.BdbFrontier 单击change按钮即可

3.Pre Processors
这个队列中，所有的处理器都是用来对抓取时的一些先决条件做判断的。比如判断robot.txt的信息等

，它是整个处理器链的入口

选择org.archive.crawler.prefetch.Preselector 和

org.archive.crawler.prefetch.PreconditionEnforcer 两项（在下拉列表中选择好，点击Add添加即可

）

4.Fetcher：从名称上看，它用于解析网络传输协议，比如解析DNS、HTTP或FTP等

选择org.archive.crawler.fetcher.FetchDNS
org.archive.crawler.fetcher.FetchHTTP 两个单击Add添加

5.Extractors
它主要用是于解析当前获取到的服务器返回内容，这些内容通常是以字符串形式缓存的。在这个队列中

，包括了一系列的工具，如解析HTML、CSS等。在解析完毕，取出页面中的URL后，将它们放入队列中，等

待下次继续抓取

org.archive.crawler.extractor.ExtractorHTTP
org.archive.crawler.extractor.ExtractorHTML
org.archive.crawler.extractor.ExtractorCSS
org.archive.crawler.extractor.ExtractorJS
org.archive.crawler.extractor.ExtractorSWF

6.Writers
Writers主要是用于将所抓取到的信息写入磁盘。通常写入磁盘时有两种形式，一种是采用压缩的方式写

入，在这里被称为Arc方式，另一种则采用镜象方式写入。当然处理起来，镜象方式要更为容易一些。
默认的是Arc方式点击旁边的Remove 删除在下拉框中选择

org.archive.crawler.writer.MirrorWriterProcessor 单击Add添加

7 Post Processors
在整个抓取解析过程结束后，进行一些扫尾的工作，比如将前面Extractor解析出来的URL有条件的加入

到待处理队列中去

org.archive.crawler.postprocessor.CrawlStateUpdater
org.archive.crawler.postprocessor.LinksScoper
org.archive.crawler.postprocessor.FrontierScheduler 单击Add添加

【在设置时，可以看见在队列的右侧总是有“Up”、“Down”和“Remove”这样的操作是因为在处理器链

的设置过程中，每一个队列中的处理器都是要分先后顺序的】

设置运行时的参数

在设置完处理链后，选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面

后，有很多可以设定的参数，对于需要了解详情的设置，请点击设置框左边的“？”号，可看到弹出的帮

助信息。这里只要更改 “HTTP-Header”项中的内容，更改其属性值user-agent和 from
其中user-agent中的 PROJECT_URL_HERE 对应自己的完整URL地址，（http://192.168.16.128）
from中设置自己的合法email地址只需是格式正确的邮件地址就可以
＠VERSION＠是设置heritrix的版本填上1.14.3
user-agent Mozilla/5.0 (compatible; heritrix/1.14.3 +http://192.168.16.128)

设置完成后单击“Submit job”链接会回到Job是页面

显示了“Job created”，这表示刚才所设置的抓取任务已经被成功的建立。同时，在下面的“Pending

Jobs”一栏，可以清楚的看到刚刚被创建的Job，它的状态目前为“Pending”。

最后启动这个任务。回到“Console”界面上，可以看到刚刚创建的任务已经显示了出来，等待我们开始

它。
单击面版中的“Start”链接，就会将此时处于“Pending”状态的抓取任务激活，令其开始抓取
此时，面版中出现了一条抓取状态栏，它清楚的显示了当前已经被抓取的链接数量

抓取完毕后在E:/heritrix-1.14.3/目录下生成以个jobs目录
进入jobs 可以看到 verycd-20090415024225919 其中verycd就是job的名称
进去里面有一个mirror目录是因为在前面设置了Writer的类型为MirrorWriter
里面每一个站点的URL地址即为保存的目录名称

至此 heritrix抓取任务就到此结束...

heritrix的配置和抓取任务的创建

今天折腾了半天，终于把Heritrix配置好了，真是太不容易了，要把这个过程写下来。

配置：
1.下载heritrix-1.14.3： http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/1.14.3/heritrix-1.14.3.zip/download
2.解压到D:/dev/heritrix-1.14.3
3.把heritrix-1.14.3.jar解压并把里面的profiles文件夹拷到conf下
4.修改conf目录下的heritrix.properties为
heritrix.cmdline.admin = admin:admin(表示用户名和密码都是admin，用:分开)
heritrix.cmdline.port = 8080
4.把conf目录下的jmxremote.password.template另存为jmxremote.password并移动到D:/dev/heritrix-1.14.3目录下
5.设置环境变量：
在系统变量里新建 HERITRIX_HOME=D:/dev/heritrix-1.14.3
并在系统变量的path后添加;%HERITRIX_HOME%/bin
6.在命令行下输入heritrix --admin=admin:admin启动heritrix。

抓取任务的创建：
1.在地址栏输入http://localhost:8080出现heritrix，说明已经启动成功。输入用户名和密码并登陆。
2.点击“Jobs”标签页,会出现：
Create New Job
Based on existing job
Based on a recovery
Based on a profile
With defaults

第一次创建就选"With defaults"，输入Name of new job, Description ,seeds的地址，seeds的地址要特别注意，比如http://news.sohu.com/（最后那个/是必须的），如果要输入多个url，可以用回车隔开，也就是每行一个url。
3.点下面的“modules"设置Writers，把默认的ARCWriterProcessor删除，添加MirrorWriterProcessor。
4.点“settings”设置 http-headers（这是非常非常重要的一点，当时折磨了我一个多小时，都快崩溃了，不过关键是我没好好利用起我那本书，要不然就不至于这么惨烈）
给个例子吧，就全明白了：
user-agent:IE/7.0 (compatible; heritrix/1.14.3 +http://10.2.21.240)
from:[email protected]
最重要的是user-agent中http前的那个+号，我就因为它一直没跑通，from中填写email地址，只要是email格式的就行
5.最后点击“submit job”就完成了job的创建
6.点“Console”中的start就能开始抓取任务，然后我们就可以在Job Status看到任务的执行情况。

Heritrix导入eclipse总结：

很长时间就想试试这个强大的爬虫了，但是经过多次在命令行里按照网上的各位大侠的方法都失败，不知道为什么，今天还试了一下1.12.1和1.14.1两个版本的，都是提示密码文件的要设成单用户并只读，我已经如此设置了安全标签，但仍不能解决问题，所以决定在Eclipse里面试一下，多次失败后，终于成功启动了Heritrix！
    下面简要列一下，其实很简单：
    1、在Eclipse下新建一个项目。（哪一个版本应该无所谓吧，JDK1.5）；
    2、将1.14.1版的Heritrix两个.zip文件下载并解压到临时目录（heritrix-1.14.1-src.zip和heritrix-1.14.1.zip）；
    3、从第一个zip文件解压目录下/src/java复制三个文件夹（包）：org、com、st到项目中的src上；
    4、从第一个zip文件解压目录下/src/conf复制所有文件夹及文件到项目根目录中（可能有不需要的文件）；
    5、从第一个zip文件解压目录下/src/resourses复制所有文件夹及文件到项目根目录中（可能有不需要的文件）；
    6、从第二个zip文件解压目录下复制webapps目录到项目根目录中；
    7、把项目下Heritrix.properties文件复制到/src目录下（实践中发现）；
    8、在项目上鼠标右键->构建路径->添加外部归档找到任意一个解压的目录下的lib文件夹，选中文件夹中的所有包；
    9、从第一个zip文件解压目录下/src/conf/下的profiles文件夹复制到Eclipse工作空间所在分区的根目录；
    10、配置Heritrix.properties，主要配置四项：如下红色部分所示
##############################################################################
# HERITRIX PROPERTIES
##############################################################################

# Properties with prefixes 'heritrix.', 'org.archive.', or 'system.' prefix
# get copied into System.properties on startup so available via
# System.getProperties. (For 'system.' properties, that prefix is stripped.
# (See Heritrix.loadProperties()).

# Version is filled in by the maven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version = 1.14.1

# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs

# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8088
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081

##############################################################################
# LOGGING
##############################################################################

    11、在Eclipse下启动Heritrix，找到项目src下的org.archive.crawler包下的主类Heritrix.java鼠标右键->运行方式->java项目，即可启动Heritrix！
    启动后，Eclipse状态栏信息如下：
08:32:15.468 EVENT Starting Jetty/4.2.23
08:32:15.734 WARN!! Delete existing temp dir C:/DOCUME~1/ycf/LOCALS~1/Temp/Jetty_127_0_0_1_8088__ for WebApplicationContext[/,jar:file:/E:/projects/eclipse_workspace/Heritrix1.14.1/webapps/admin.war!/]
08:32:16.171 EVENT Started WebApplicationContext[/,Heritrix Console]
08:32:16.609 EVENT Started SocketListener on 127.0.0.1:8088
08:32:16.609 EVENT Started org.mortbay.jetty.Server@137c60d
Heritrix version: 1.14.1

    上面的包的复制都在直接在Eclipse里面的项目上直接进行的，这样可以减少修改Eclipse的项目配置文件。

参考文献：

http://yeniu040209.javaeye.com/blog/356743

http://hi.baidu.com/z57354658/blog/item/32f936ea0d62d4d9d439c960.html

http://www.javaeye.com/topic/262753

http://daisy8564.javaeye.com/blog/473370

2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
2022-04-18 Apbenz
语重心长的和我说，不要老是说不行，人至而立之年危机四伏，内在的，外在的，感觉就是心力憔悴，让人无所适从。面对职场的无情，突然好羡慕干体力劳动的外卖小哥。难道命运是想让我去送外卖了吗？干体力活才能让我活下去？fastadmin打卡成功,淘宝金币任务完成。ㅏㅓㅗㅜㅡㅣㅐㅔㅑㅕㅛㅠㅢㅒㅖY行。야자여자요리우유의사얘기예
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
把握“三度”打造“三有”干部队伍辛德瑞拉卡卡卡
“胜败兴亡之分，不得不归咎于人事也”。干部队伍建设工作的好坏，关系到党和国家的发展全局。近日，新疆维吾尔自治区党委书记马兴瑞在部分党群单位走访调研时强调，要努力培养造就忠诚干净担当的高素质专业化干部队伍。各级组织部门应当在培养选拔干部、吸收优秀青年到党内来、培养造就优秀人才上下功夫，切实增强干部投身实践、解决问题、推进工作的能力，着力打造高素质专业化干部队伍。“天生我材必有用”，增强选育有“准度”
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
人生的每一步路都算数 sheli
如果你想打工，一直靠打工赚钱，那你就会不断的希望自己变得更专业，不断的希望能够获得更好的工作机会，升职加薪。如果你的目标志不在此，而是拥有自己的企业，那你的选择就会出现差别。在认真打工的人眼里，会“不务正业”，会总是选择不同岗位，甚至放弃高薪机会。但是这背后都是有更加长远的规划。成功富人所必需的管理技能包括：1．对现金流的管理。2．对系统的管理。3．对人员的管理。所以，在没有获得这些能力之前，只要
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
人怎么才能认识自己？阿尚青子自由写作人
人怎么才能认识自己？（原问题）我从不愿意上纲上线地确定偌大的话题，就直接说吧。纵使你能认识世界上的万事万物，你很难做到真实地认识自己。因为即使就这个世界，基本上每个人也很难做到客观、公正、科学地认识。对你好的人就是好吗？一件事情是否能够保持永远原来的样子？借不到钱的男友，女友想离开他就理直气壮？父母对子女有几分慷慨，又有几分是无私？工作的意义究竟是什么？是工作需要你，还是你需要工作呢？诸如此类的问
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

Heritrix信息集合

你可能感兴趣的:(eclipse,工作,properties,url,任务,jobs)