秃顶

三天学会网络爬虫之Day03

三天学会网络爬虫之Day03

第一章课程计划
第二章案例扩展
- 2.1.定时任务。
- - 2.1.1.Cron表达式
  - 2.1.2.Cron测试
- 2.2.网页去重
- - 2.2.1.去重方案介绍
  - 2.2.2. SimHash
  - - 2.2.2.1.流程介绍
    - 2.2.2.2.签名距离计算
    - 2.2.2.3.导入simhash 工程
- 2.3.代理的使思
- - 2.3.1.代理服务器
  - 2.3.1.使用代理
第三章 ElasticSearch环境准备
- 3.1.安装ElasticSearch服务
- 3.2.安装ES的图形化界面插件.
- 3.3.安装IK分词器

第一章课程计划

1.案例扩展
a)定时任务,
b)网页去重。
c)代理的使用。
2.Elastic环境准备
3. Spring Data ElasticSearch 回顾
a)完成ES基本使用。
b)完成复杂查询。
4.查询案例实现

第二章案例扩展

2.1.定时任务。

在案例中我们使用的是spring 内置的Spring Task,这是Spring3.0加入的定时任务功能。我们使用注解的方式定时启动爬虫进行数据爬取。
我们使用的是@Scheduled注解，其属性如下:

cron: cron表达式，指定任务在特定时间执行;
fixedDelay:上一次任务执行完后多久再执行，参数类型为long，单位 ms.
3 ) fixedDelayString: 与fixedDelay含义一样，只是参数类型变为string-.
fixedRate:按一定的频率执行任务，参数类型为long，单位 ms
fixedRateString: 与fixedRate的含义一样，只是将参数类型变为string
initialDelay:延迟多久再第一次执行任务，参数类型为 long，单位 ms
initialDelayString:与initialDelay的含义一样，只是将参数类型变为string.
zone:时区，默认为当前时区，一般没有用到.
我们这里的使用比较简单，固定的间隔时间来启动爬虫。例如可以实现项目启动后，每隔一小时启动一次爬虫。但是有可能业务要求更高，并不是定时定期处理,而是在特定的时间进行处理，这个时候我们之前的使用方式就不能满足需求了。例如我要在工作日(周一到周五)的晚上八点执行。这时我们就需要Cron表达式了。

2.1.1.Cron表达式

Cron 的表达式是字符串，实际上是由七子表达式，描述个别细节的时间表。这些子表达式是分开的空白，代表:

Seconds
Minutes
Hourse
Day-of-Monthe
Month
Day-of-Week
Year (可选字段)
例"0012 ? * WED”在每星期三下午12:00执行, “*”代表整个时间段s
每一个字段都有一套可以指定有效值，如
Seconds (秒):可以用数字0-59表示，
Minutes(分):可以用数字0—59表示，
Hours(时):可以用数字0-23表示,
Day-of-Month(天):可以用数字1-31中的任一一个值，但要注意一些特别的月份·
Month(月):可以用0-11或用字符串:JAN,IFEB,MAR,APR,MAY, JUN,JUL,AUG,SEP, OCT, NOV,DEC u
Day-of-Week(天):可以用数字1-7表示（1=星期日）或用字符口串:SUN,MON,TUE, WED,THU, FRI,SATv
“/”:为特别单位，表示为“每”如“0/15”表示每隔15分钟执行一次,“0”表示为从“0”分开始，“3/20”表示表示每隔20 分钟执行一次，“3”表示从第3分钟开始执行
“?”:表示每月的某一天，或第周的某一天
“L”:用于每月，或每周，表示为每月的最后一天，或每个月的最后星期几如“6L”表示“每月的最后一个星期五”‘

2.1.2.Cron测试

先把之前爬虫的@Component注解取消，避免干扰测试

/ / @component
public class JobProcessor implements PageProcessor {

编写使用cron表达式的测试用例:

@component
public class TaskTest { 
@scheduled( cron = "0/5* **﹐米﹐*")
public void test() {
system.out.println(LocalDateTime.now()+"任务执行了");
}

2.2.网页去重

之前我们对下载的url地址进行了去重操作，避免同样的url下载多次。其实不光url需要去重，我们对下载的内容也需要去重。
在网上我们可以找到许多内容相似的文章。但是实际我们只需要其中一个即可，同样的内容没有必要下载多次，那么如何进行去重就需要进行处理了。

2.2.1.去重方案介绍

指纹码对比
最常见的去重方案是生成文档的指纹门。例如对一篇文章进行MD5加密生成一个字符串，我们可以认为这是文章的指纹码，再和其他的文章指纹码对比，一致则说明文章重复。但是这种方式是完全一致则是重复的，如果文章只是多了几个标点符号，那仍旧被认为是重复的，这种方式并不合理。

BloomFilterv
这种方式就是我们之前对url进行去重的方式，使用在这里的话，也是对文章进行计算得到一个数，再进行对比，缺点和方法1是一样的，如果只有一点点不一样，也会认为不重复，这种方式不合理。

KMP算法
KMP算法是一种改进的字符串匹配算法。KMP算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。能够找到两个文章有哪些是一样的，哪些不一样。
这种方式能够解决前面两个方式的“只要一点不一样就是不重复”的问题。但是它的时空复杂度太高了，不适合大数据量的重复比对。
还有一些其他的去重方式:最长公共子串、后缀数组、字典树、DFA等等，但是这些方式的空复杂度并不适合数据量较大的工业应用场景。我们需要找到一款性能高速度快，能够进行相似度对比的去重方案;
Google 的 simhash算法产生的签名，可以满足上述要求。这个算法并不深奥，比较容易理解。这种算法也是目前Google搜索引擎所目前所使用的网页去重算法。

2.2.2. SimHash

2.2.2.1.流程介绍

simhash是由 Charikar在2002年提出来的，为了便于理解尽量不使用数学公式，分为这几步:
1、分词，把需要判断文本分词形成这个文章的特征单词。
2、hash，通过 hash算法把每个词变成hash值，比如“美国”通过hash算法计算为100101,“51区”通过hash算法计算为101011。这样我们的字符串就变成了一串串数字。
3、加权，通过2步骤的 hash 生成结果，需要按照单词的权重形成加权数字串，“美国”的 hash值为“100101”，通过加权计算为“4-4-4 4-4 4” “51区”计算为“5-55-555”。
4、合并，把上面各个单词算出来的序列值累加，变成只有一个序列串。“美国”的“4 -4-44-4 4”,“51区”的“ 5-55-555”.
5、降维，把算出来的“9-91-119”变成01串，形成最终的simhash签名。

2.2.2.2.签名距离计算

我们把库里的文木都转换为simhash签名，并转换为long类型存储，空间大大减少。现在我们虽然解决了空间，但是如何计算两个simhash的相似度呢?,
我们通过海明距离(Hamming distance）就可以计算出两个 simhash到底相似不相似。两个simhash对应二进制（01串)取值不同的数量称为这两个simhash的海明距离。
举例如下:10101和 00110 从第一位开始依次有第一位、第四、第五位不同，则海明距离为3。对于二进制字符串的a和 b，海明距离为等于在a xOR b运算结果中1的个数（普遍算法）。

2.2.2.3.导入simhash 工程

这个算法使用creekLou实现的功能进行使用。
这个项目不能直接使用，因为 jar包的问题，需要进行改造。这里已经改造好的。
导入工程simhash，并打开测试用例。

2.3.代理的使思

有些网站不允许爬虫进行数据爬取，因为会加大服务器的压力。其中一种最有效的方式是通过ip+时间进行鉴别，因为正常人不可能短时间开启太多的页面，发起太多的请求。
我们使用的WebMagic可以很方便的设置爬取数据的时间(参考第二天的的3.1.爬虫的配置、启动和终止)。但是这样会大大降低我们爬取数据的效率，如果不小心ip 被禁了，会让我们无法爬去数据，那么我们就有必要使用代理服务器来爬取数据。

2.3.1.代理服务器

代理（英语: Proxy)，也称网络代理，是一种特殊的网络服务，允许一个网络终端（一般为客户端）通过这个服务与另一个网络终端(一般为服务器）进行非直接的连接。
提供代理服务的电脑系统或其它类型的网络终端称为代理服务器(英文:ProxyServer）。一个完整的代理请求过程为:客户端首先与代理服务器创建连接，接着根据代理服务器所使用的代理协议，请求对目标服务器创建连接、或者获得目标服务器的指定资源。

我们就需要知道代理服务器在哪里（ ip和端口号）才可以使用。网上有很多代理服务器的提供商，但是大多是免费的不好用，付费的还行。

2.3.1.使用代理

WebMagic使用的代理APIProxyProvider。因为相对于site 的“配置”，ProxyProvider定位更多是1个“组件”，所以代理不再从 site设置，而是由HttpClientDownloader 设置。

ProxyProvider有一个默认实现:SimpleProxyProvider。它是一个基于简单Round-Robin的、没有失败检查的ProxyProvider。可以配置任意个候选代理，每次会按顺序挑选一个代理使用。它适合用在自己搭建的比较稳定的代理的场景。
如果需要根据实际使用情况对代理服务器进行管理（例如校验是否可用，定期清理、添加代理服务器等)，只需要自己实现APIProxyProvider即可。

第三章 ElasticSearch环境准备

3.1.安装ElasticSearch服务

启动服务：

当出现以下内容表示启动完成

访问地址是 http://127.0.0.1:9200访问该地址:

表示ElasticSearch安装启动完成

3.2.安装ES的图形化界面插件.

安装ElasticSearch 的 head插件,完成图形化界面的效果,完成索引数据的查看。采用本地安装方式进行head插件的安装。elasticsearch-5-*以上版本安装head需要安装node和 grunt。
1）安装head插件。
将head 压缩包解压到任意目录，但是要和 elasticsearch的安装目录区别开。
2）安装nodejs
3）将grunt安装为全局命令，Grunt是基于Node.js 的项目构建工具
在cmd控制台中输入如下执行命令:

npm install -g grunt-cli

效果如下:

ps:如果安装不成功或者安装速度慢，可以使用淘宝的镜像进行安装:
npm install -g cnpm -registry=https://registry.npm.taobao.org
后续使用的时候，只需要把npm xxx换成cnpm xxx即可
4）修改elasticsearcb配置文件: elasticsearch.yml，增加以下三句命令:

http.cors.enabled: true
http.cors.allow-origin: "*"
network.host: 127.0.0.1

5）进入head目录启动head，在命令提示符下输入命令:
grunt server根据提示访问，效果如下:

PS:如果第5步失败，执行以下命令

npm install grunt

3.3.安装IK分词器

1.lK分词器安装包
2.解压,将解压后的elasticsearch文件夹拷贝到elasticsearch-5.6.8\plugins 下，并重命名文件夹为ik

3.重新启动ElasticSearch，即可加载IK分词器
4.测试
在浏览器发起以下请求
1）最小切分:在浏览器地址栏输入地址
http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=我是程序员
浏览器显示

你可能感兴趣的:(Python,知识小模块,爬虫,elasticsearch,java,python)

chatgpt赋能python：Python创建虚拟环境venv-环境隔离的必备工具 a058046 ChatGpt python chatgpt 人工智能计算机
Python创建虚拟环境venv-环境隔离的必备工具Python是一种非常流行的编程语言，拥有丰富的第三方库和工具。当我们在开发一个项目时，我们可能需要使用多个Python版本或多个第三方库版本来满足项目的需求。这时候，我们就需要一个工具来管理Python的环境隔离。venv就是Python自带的虚拟环境工具，它可以让我们轻松地创建一个Python环境隔离，以便于我们管理我们的Python环境。什
变量，数组，私有仓库的构建小菜刀刀 linux 运维服务器
1.理解函数调用，总结函数普通变量，环境变量和本地变量。关于函数的理解，可以将其比作是模块化编程中的独立组件（或者说是模块）。函数能够自治地完成特定的任务或功能。为了构建一个实现多种功能的程序，开发者可以将不同的功能分别封装成独立的函数模块。这样，在主程序流程中，通过调用这些函数模块，可以实现多个功能的集成与协同工作。本地变量：作用在函数内部，函数结束后被自动销毁（使用local来设置本地变量）普
创建 Python 虚拟环境venv bdawn python python 开发语言虚拟环境 venv pip activate 3.3
创建Python虚拟环境是一个很好的实践，可以帮助我们管理项目的依赖项，避免不同项目之间的冲突。以下是使用venv模块创建Python虚拟环境的详细步骤：使用venv模块创建虚拟环境venv是Python自带的模块，从Python3.3开始可用。以下是具体步骤：1.创建虚拟环境假设你要在当前目录下创建一个名为myenv的虚拟环境，可以使用以下命令：python-mvenvmyenvpython：确
mvc学习笔记 JDS_DIJ 笔记 mvc
mvc设计框架的形成最早是servlet==>缺点:生成html页面太麻烦,所以引入了jsp,jsp本质就是servletjsp==>缺点:阅读起来困难,难维护,于是引入javabean,用来专门和数据打交道;形成jsp的设计框架model1jsp+javabean==>缺点:jsp即要接受请求,又要展示数据,所以又加入servlet;专门用来接受请求;形成jsp的设计框架model2jsp+ja
python网络爬虫selenium(1) 2401_84009529 程序员 python 爬虫 selenium
pipinstallselenium以Chrom浏览器为例，安装相应版本的chromdriver驱动程序，并添加为环境变量安装链接：安装chromdriver2.常用属性和方法===============================================================================fromseleniumimportwebdriverimport
用Python爬虫获取微博热搜词：数据抓取、分析与可视化全流程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
引言微博作为中国最受欢迎的社交平台之一，每时每刻都在更新着海量的内容。其中，微博热搜词反映了用户关注的热点话题、社会事件及潮流趋势。对于数据分析、情感分析以及趋势预测等领域，获取微博热搜数据是一个非常有价值的任务。在本篇博客中，我们将详细介绍如何使用Python爬虫技术获取微博的热搜词，并进行数据分析和可视化。通过全流程的讲解，帮助你了解如何通过爬虫技术抓取并分析微博热搜词数据。一、爬虫技术概述与
【Python】深入探讨Python中的单例模式：元类与装饰器实现方式分析与代码示例蒙娜丽宁 Python杂谈 python 单例模式开发语言
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界单例模式（SingletonPattern）是一种常见的设计模式，它确保一个类只有一个实例，并提供一个全局访问点。在Python中，实现单例模式的方式多种多样，包括基于装饰器、元类和模块级别的单例实现。本文将详细探讨这些实现方式，并通过大量代码示例进行演
微信 PC 版 4.0：新架构，新升级创意锦囊微信架构
探索微信PC版4.0：新架构带来的革命性升级微信在2023年底推出了PC客户端4.0测试版，引入了全新的QT+C++原生跨平台架构。这次架构重构标志着微信在桌面端从传统的WebView技术迈向更现代化、高性能的原生技术基础，带来了显著的功能升级和用户体验优化。从旧到新：架构大变革旧架构：WebView+JavaScript微信旧版PC客户端主要依赖WebView技术，通过HTML、CSS和Java
Python的Tkinter模块 Cc_zhH GUI开发 python
大纲Tkinte组件在Python的Tkinter模块中，有许多组件可用于构建图形用户界面。下面是一些常用的Tkinter组件，并将它们以表格形式展示，同时提供简要的说明。组件名称描述用途Tk主窗口类，用于创建应用程序的主窗口。创建应用程序的主界面。Frame容器组件，用于组织其他组件。组织界面布局，将相关组件组合在一起。Button按钮组件，用于触发事件。创建用户交互的按钮。Label标签组件，
Python编程练习题及解析（49题） Selina .a python教程 python 开发语言算法
1.打印Hello,World!题目：打印字符串"Hello,World!"。解析：print("Hello,World!")2.计算两个数的和题目：计算两个数a和b的和。解析：a=5b=3print(a+b)3.判断奇偶性题目：判断一个数是否为偶数。解析：num=4ifnum%2==0:print(f"{num}是偶数")else:print(f"{num}是奇数")4.列表反转题目：反转一个列
深入探究 Java 异常处理潜意识Java Java知识 java python 开发语言
目录一、异常是什么，为啥要处理它二、Java异常体系概述三、Java异常处理方式1.try-catch-finally块2.throws关键字3.throw关键字四、自定义异常五、异常处理的最佳实践六、总结在Java编程的旅程中，异常处理就像是一位默默守护的卫士，时刻保障着程序的稳健运行。当程序运行过程中出现错误或异常情况时，合理的异常处理机制能够避免程序崩溃，让程序以一种可控的方式继续执行或优雅
python etree模块所有函数详解_09.XML处理之etree模块 weixin_39878401 python etree模块所有函数详解
本主题主要说明python的xml处理标准模块xml.etree的使用。xml.etree模块包含4个子模块，其中cElementTree是ElementTree的别名，已经不推荐使用。本主题主要包含内容：1.ElementInclude模块使用2.ElementPath模块使用3.ElementTree模块使用一、etree模块帮助importxml.etreehelp(xml.etree)He
自动化办公python脚本_Python自动化办公 weixin_39834281 自动化办公python脚本
在公司购买的OA系统上，很多功能都是软件商开发好的，如果有什么自定义的需求，也很难实现。现实情况下需要将一个工单的各类信息汇总整理为一份Excel，看似简单的需求，却需要在OA系统上反复点击多次，人工汇总。本章我们看看如何使用Python爬虫帮同事解决这个问题的。点击工单号之后才可以看到更多信息一、技术路线requests_html二、环境准备fromrequests_htmlimportHTML
分层架构 IM 系统之消息收发功能设计与实现棕生 IM系统分层架构 IM系统分层架构消息收发生产消息阶段推送消息阶段确认消息阶段电话模型
“消息收发”是IM系统最最核心的业务逻辑模块，本篇文章是整个“分层架构IM系统”的核心！IM，即“即时通讯”，要求消息具备“及时性”和“可靠性”：及时性，要求消息的收发需要很低的延时，在线双方通过消息交流时，没有明显的滞后感。可靠性，要求消息不能丢失；对于消息发送方来说，只要消息发送成功了，消息就会一直存在服务端，不会丢失（除非因产品策略，删除久远的历史消息）；对于服务端来说，只要接收方在线，一定
东南大学研究生-数值分析上机题（2023）Python 6 常微分方程数值解法天空的蓝耀 python
常微分方程初值问题数值解6.1题目编制RK4方法的通用程序；编制AB4方法的通用程序（由RK4提供初值）；编制AB4-AM4预测校正方法通用程序（由RK4提供初值）；编制带改进的AB4-AM4预测校正方法通用程序（由RK4提供初值）；对于初值问题{y′=−x2y2,0≤x≤1.5,y(0)=3\begin{cases}y'=-x^{2}y^{2},&0\leqx\leq1.5,\\y(0)=3&\
东南大学研究生-数值分析上机题（2023）Python 1 绪论天空的蓝耀 python
舍入误差与有效数1.1题目设SN=∑j=2N1j2−1S_N=\sum\limits_{j=2}^{N}\displaystyle\frac{1}{j^2-1}SN=j=2∑Nj2−11其精确值为12(23−1N−1N+1)\displaystyle\frac{1}{2}\left(\frac{2}{3}-\frac{1}{N}-\frac{1}{N+1}\right)21(32−N1−N+11)
Docker的原理：如何理解容器技术的力量思维导图-java架构用心去追梦大数据 java storm
要理解Docker的原理以及容器技术的力量，可以通过一个思维导图来帮助整理和展示信息。以下是一个基于文本的思维导图结构，用于说明Docker和容器技术的关键概念，特别关注于Java架构师可能会感兴趣的部分：Docker与容器技术│├───基本概念│├───容器(Container)││└───是一个轻量级、可移植、自包含的软件包│├───镜像(Image)││└───包含应用程序及其所有依赖项的只
Java 驱动大数据流处理：Storm 与 Flink 入门（大数据）用心去追梦大数据 java storm
Java是一种广泛使用的编程语言，特别适用于企业级应用开发。随着数据量的不断增长，处理大数据流成为了现代软件开发中的一个重要领域。ApacheStorm和ApacheFlink是两个用于处理大规模数据流的开源框架，它们都支持用Java编写的应用程序。下面将简要介绍这两个框架，并提供一些入门指导。ApacheStormApacheStorm是一个免费、开源的分布式实时计算系统。Storm让用户能够轻
实现音乐播放器实现:前端HTML，CSS，JavaScript综合大项目（java实战）用心去追梦前端 html css
创建一个音乐播放器项目，使用HTML、CSS和JavaScript作为前端技术栈，并结合Java后端（如果需要），可以是一个很好的实战项目。这个项目不仅能够帮助你掌握前端开发技能，还能让你了解如何与后端交互来获取数据。下面是实现这样一个音乐播放器项目的步骤指南，包括了从规划到部署的各个方面。1.项目规划规划功能基本功能播放/暂停按钮。音量控制。进度条。歌曲列表显示。高级功能随机播放。列表循环。搜索
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
hadoop图书数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设图书数据分析 hadoop spring boot 爬虫
hadoop图书数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示+[手把手视频教程和开发文档]【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.爬虫图书数据1万+5.推荐图书列表展示,推荐图
SpringCloud Alibaba：RocketMQ - 分布式消息中间件的最佳实践 mckim_ 笔记学习 spring cloud rocketmq
引言随着分布式系统和微服务架构的发展，消息队列作为异步通信的关键组件，其重要性日益凸显。RocketMQ作为一款高性能、高可靠的消息中间件，在处理海量消息方面表现卓越。本文将结合实际应用场景，全面介绍RocketMQ的基础知识、配置要点、高级特性以及性能监控的最佳实践。一、RocketMQ基础知识1.概述RocketMQ是由阿里巴巴开源的一款分布式消息中间件，以其高效、可靠、易用的特点著称。它支持
Python正则表达式详解程序员老华正则表达式 python 开发语言深度学习数据分析
正则表达式是一个很强大的字符串处理工具，几乎任何关于字符串的操作都可以使用正则表达式来完成，作为一个爬虫工作者，每天和字符串打交道，正则表达式更是不可或缺的技能，正则表达式的在不同的语言中使用方式可能不一样，不过只要学会了任意一门语言的正则表达式用法，其他语言中大部分也只是换了个函数的名称而已，本质都是一样的。下面，我来介绍一下python中的正则表达式是怎么使用的。首先，python中的正则表达
Python爬虫工具BeautifulSoup使用详解闲人陈二狗 python 爬虫 beautifulsoup
目录一、模块简介二、方法利用1、安装beautifulsoup2、引入模块3、选择解析器解析指定内容三、具体利用1、获取拥有指定属性的标签2、获取标签的属性值3、获取标签中的内容4、stripped_strings四、输出1、格式化输出prettify()2、get_text()一、模块简介BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换
用Python 实现简易多人聊天软件（类似于QQ原型） kouweizhu python
一、设计思路：通过引入socket模块，threading模块，生成服务器端和客户端代码，分别打包成两个EXE文件，将服务器EXE运行于服务器端（可以在阿里云申请试用的云服务器）实现简单的多人聊天室功能。二、客户端：客户端代码思路：主线程：1)连接服务器2）开一个线程，接收消息3）循环给服务器发消息子线程：不断接收消息fromsocketimport*importthreadings=socket
有趣的css - 圆形渐变光晕动效设计师工作日常有趣的css css 前端动效设计 ux/ui 交互设计加载动画
大家好，我是Just，这里是「设计师工作日常」，今天分享的是一个科技感的加载动画效果，适用于科技感网站加载页面。《有趣的css》系列最新实例通过公众号「设计师工作日常」发布。目录整体效果核心代码html代码css部分代码完整代码如下html页面css样式页面渲染效果整体效果知识点：1️⃣background-image过渡属性2️⃣animation动画属性3️⃣box-shadow阴影属性4️⃣
Python·Jupyter Notebook各种使用方法 dujiahei Python基础课程 python jupyter 开发语言
转自：Python·JupyterNotebook各种使用方法-简书一、JupyterNoteBook的安装1.1新版本Anaconda自带Jupyter目前，最新版本的Anaconda是自带JupyterNoteBook的，不需要再单独安装1.2老版本Anacodna需自己安装JupyterJupyterNotebook安装的官方网站安装JupyterNotebook的先决条件：已经安装了pyt
二分查找（Java版）爱学Java Java数据结构与算法 java 算法
二分查找算法Java版算法介绍算法复杂度算法思想算法注意事项算法基础版改进版平衡版最左侧查找最右侧查找总结二分查找算法介绍算法复杂度时间复杂度：O(logn)空间复杂度：O(1)算法思想二分查找（BinarySearch）是一种高效的搜索算法，适用于在有序数组或序列中查找目标元素的位置。其核心思想是利用数组的有序性，将查找范围逐步缩小至目标值所在的子范围。1，确定查找范围：在有序数组中，设定两个指
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他