极客挖掘机

小白学 Python 爬虫（19）：Xpath 基操

人生苦短，我用 Python

前文传送门：

小白学 Python 爬虫（1）：开篇

小白学 Python 爬虫（2）：前置准备（一）基本类库的安装

小白学 Python 爬虫（3）：前置准备（二）Linux基础入门

小白学 Python 爬虫（4）：前置准备（三）Docker基础入门

小白学 Python 爬虫（5）：前置准备（四）数据库基础

小白学 Python 爬虫（6）：前置准备（五）爬虫框架的安装

小白学 Python 爬虫（7）：HTTP 基础

小白学 Python 爬虫（8）：网页基础

小白学 Python 爬虫（9）：爬虫基础

小白学 Python 爬虫（10）：Session 和 Cookies

小白学 Python 爬虫（11）：urllib 基础使用（一）

小白学 Python 爬虫（12）：urllib 基础使用（二）

小白学 Python 爬虫（13）：urllib 基础使用（三）

小白学 Python 爬虫（14）：urllib 基础使用（四）

小白学 Python 爬虫（15）：urllib 基础使用（五）

小白学 Python 爬虫（16）：urllib 实战之爬取妹子图

小白学 Python 爬虫（17）：Requests 基础使用

小白学 Python 爬虫（18）：Requests 进阶操作

引言

前面两篇我们介绍了 Requests 的使用，原本是想再来一个实战的，正准备搞事情的时候想起来上次实战还给自己挖了一个坑， Xpath 还没介绍，还是乖乖的先介绍解析库吧。

简介

XPath ，全称 XML Path Language ，即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。

首先，还是敬上 Xpath 的官方网站：https://www.w3.org/TR/xpath/all/ 。

其次，再敬上两个还不错的学习地址：

w3school：https://www.w3school.com.cn/xpath/index.asp

菜鸟教程：https://www.runoob.com/xpath/xpath-tutorial.html

常用路径表达式

下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

注意，在使用 Xpath 之前，需要先确保安装好 lxml 库，如果没有安装，可以参考前面的前置准备进行安装。

Xpath 演示

首先需要引入 lxml 库的 etree 模块，接着引入 Requests 模块，小编这里直接以自己的博客站用作示例。

from lxml import etree
import requests

response = requests.get('https://www.geekdigging.com/')
html_str = response.content.decode('UTF-8')
html = etree.HTML(html_str)
result = etree.tostring(html, encoding = 'UTF-8').decode('UTF-8')
print(result)

结果如下：

可以看到结果是成功爬取，这里我们首先使用 requests 获取首页的源代码 byte 数据流，接着使用 decode() 进行解码，解码后将字符串传入 etree.HTML() 构建了一个 lxml.etree._Element 对象，接着我们对这个对象做了 tostring() 转换字符串并且进行打印。

注意： 这里使用 tostring() 进行转化字符串的时候，一定需要添加参数 encoding ，否则中文将会显示为 Unicode 编码。

所有节点

我们构建完成了 Element 对象，接着我们就可以开始愉快的 Xpath 学习了。

我们会用 // 开头的 XPath 规则来选取所有符合要求的节点。示例（依然采用上面的 html ）：

result_1 = html.xpath('//*')
print(result_1)

结果如下：

[, , , , ,......

结果太长仅截取部分。

这里使用 * 代表匹配所有节点，也就是整个 HTML 文本中的所有节点都会被获取。可以看到，返回形式是一个列表，每个元素是 Element 类型，其后跟了节点的名称，如 html 、 head 、 meta 等，所有节点都包含在列表中了。

当然，在这里匹配也可以指定节点的名称，例如获取所有的 meta 节点：

result_2 = html.xpath('//meta')
print(result_2)

结果如下：

[, , , , , , , , , , , , , , , , , , , ]

这里要选取所有 meta 节点，可以使用 // ，然后直接加上节点名称即可，调用时直接使用 xpath() 方法即可。由于返回的是一个列表，所有要获取特定的某个 meta 的时候，可以直接在 [] 中加索引，例如 [0] 。

子节点

获取子节点一般可以使用 / 或者 // 来获取子节点或者孙子节点。

比如现在想获取所有的文章内容的块，如下：

红框所标识的内容，可以看到 DOM 结构为

下面的

，那么这个语句可以这么写：

result_3 = html.xpath('//main/article')
print(result_3)

结果如下：

[, , , , , , , , , , , ]

此处的 / 是用于获取子节点，如果想要获取孙子节点，如

下面的

，如下图：

则可以这么写：

result_4 = html.xpath('//main//div')
print(result_4)

结果就不贴了，太长了。

父节点

我们可以通过 / 和 // 来查找子节点，那么肯定有语法可以查找父节点，不然只能向下查询不能向上查询就有点就有点太傻了。

父节点的查找是通过 .. 来实现的，比如我们先找到一篇文章的图片，现在要向上查找它的，如下图：

这里我们通过 alt 属性为 小白学 Python 爬虫（16）：urllib 实战之爬取妹子图 的，然后获取它的父节点，并且打印他的 href 属性，代码如下：

result_5 = html.xpath('//img[@alt="小白学 Python 爬虫（16）：urllib 实战之爬取妹子图"]/../@href')
print(result_5)

结果如下：

['/2019/12/09/1691033431/']

同时我们获取父节点还可以使用 parent:: 。

result_6 = html.xpath('//img[@alt="小白学 Python 爬虫（16）：urllib 实战之爬取妹子图"]/parent::*/@href')
print(result_6)

属性过滤

在选取节点的时候，我们可以使用 @ 符号进行属性过滤。

比如我们在选取

的时候，可以使用 class 为 container 的

。而在首页的

的子节点中， class 为 container 的

只有一个，代码如下：

result_7 = html.xpath('//section/div[@class="container"]')
print(result_7)

运行结果如下：

[]

示例代码

本系列的所有代码小编都会放在代码管理仓库 Github 和 Gitee 上，方便大家取用。

示例代码-Github

示例代码-Gitee

你可能感兴趣的:(小白学 Python 爬虫（19）：Xpath 基操)

新活法训练营第七天2022-03-21 Diana_58d9
破解困惑的根源必修：学完这一课，你有哪些收获和心得，写出至少三点。1、通过张老师对动物假死的讲解，知道了所有的疼痛都是潜意识里的一种自我保护，叫创伤胶囊。对于创伤胶囊里的人或动物，给他足够的时间让他自己恢复是最好的。2、困惑也是启动了心理保护机制，是一种自我保护，面对困惑，首先接纳他，允许他在，第二，慢慢走进它，接受他在我们身上，第三，放下，转身做该做的事。如何突破困惑，首先有足够的意愿度，才能醒
【第17章】亿级电商订单系统架构设计-概要设计 cherry5230 亿级流量架构设计与落地系统架构架构分布式中间件
1-1本章导学课程概述核心内容：从粗到精细化系统架构设计项目案例：年交易额200亿的B2B电商平台订单系统学习路径1.高层架构设计细化阶段分为两个核心部分：概要设计（本章重点）详细设计2.本章学习目标(1)概要设计方法论理解设计阶段的核心任务掌握具体实施方法建立设计思想指导体系(2)项目实践应用项目工程架构搭建环境配置规范组件关系梳理客户端->网关层->业务层->数据层(3)基础框架构建工程结构初
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
1.5万名选手“雨中跑马”，首届深圳盐田山海半程马拉松完美落幕五谷芳
首届深圳盐田山海半程马拉松（简称“盐马”）于3月26日上午7:30在盐田区行政文化中心广场鸣枪开跑。本次赛事设置了半程马拉松和健康跑两个项目，共吸引了来自19个国家和地区的1.5万名选手参赛，其中包括30余名外籍选手和近200名港澳台选手。其中半程马拉松项目1万人，健康跑项目5000人，为全国最高级别A1类赛事。本次赛事起点位于盐田区行政文化中心广场，沿途经过灯塔图书馆、海滨栈道、盐田港、海鲜街、
【C语言编写随机数生成器】-经典C语言程序100例之十二 DevRevolt c语言算法开发语言编程
【C语言编写随机数生成器】-经典C语言程序100例之十二随机数在计算机编程中是非常重要的一种技术，因为它可以用于创建随机序列、密码学、统计分析等多个领域。本文介绍了使用C语言编写随机数生成器的方法。C语言提供了rand()和srand()函数来生成伪随机数。其中，srand()函数用于初始化随机数发生器，而rand()函数则返回0到RAND_MAX（通常为32767）之间的随机整数。这两个函数的使
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
《自由人生》读书笔记 2 西红柿阿达
原文:问题：“人生有何意义？”其实这个问题是容易解答的。人生的意义全是各人自己寻出来，造出来的：高尚、卑劣、清贵、污浊、有用、无用……全靠自己的作为。生命本身不过是一件生物学的事实，有什么意义可说？生一个人与一只猫、一只狗，有什么分别？人生的意义不在于何以有生，而在于自己怎样生活。你若情愿把这六尺之躯葬送在白昼做梦之上，那就是你这一生的意义。你若发愤振作起来，决心去寻求生命的意义，去创造自己的生命
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
重启 bydefault
昨天从家回学校可能坐车坐脑子短路，给忘更了。不过没关系，再来一次就是了。国庆回学校，课表上的课增加了不少。没有太焦虑，只是发觉要学的东西又多了那么那么多。《阿特拉斯耸耸肩》让我觉得书有点难读，加上我本身读书就慢，这样讲可能觉得自己做什么都慢，慢到现在连女朋友都没有。因此暂时转战韩寒的《1988》，了解了韩式幽默的写作。还是明天继续耸耸肩吧。
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
安全重于泰山任娟
为了促进我校班主任团队的专业成长，切实提高班主任管理工作的艺术水平，保障学生在校安全。6月11日下午6:20，我校德育处组织小学部全体班主任在阶梯教室召开会议。这次会议的主题是“班主任工作如何做”。各年级根据学段特点确定研讨主题:一年级研讨内容:学生课间玩耍安全。二年级研讨内容:学生离,返校安全。三年级研讨内容:学生发生安全事故应急处理方法。四年级研讨内容:学生就餐安全。五年级研讨内容:学生楼道玩
使用Meteor构建实时仪表板的完整指南杏花朵朵 Meteor 实时仪表板 Vue组件路由设置集合集成
背景简介随着现代Web应用对实时性和响应性的要求不断提高，开发人员需要使用强大的框架来构建能够满足这些需求的应用程序。Meteor作为一个全栈JavaScript框架，提供了一种快速开发实时Web应用的方法。本文将通过构建一个实时仪表板项目，详细探讨Meteor的特点和使用方法。Meteor简介Meteor是一个全栈JavaScript框架，用于构建Web应用程序。它的主要元素包括Web客户端、基
刀神传说：第87章梁秀篇（1）刀神传说
两个月后。“此身合是诗人未？细雨骑驴入剑门。”剑门关天下奇险，双翼插天，群峰环立，真是“剑阁峥嵘而崔嵬，一夫当关，万夫莫开。”出剑门。梁秀、阮闲、刘零、山滔四人走在古柏夹道上。刘零开口道：“山老爷，刀神李流水据说武功天下第一，我不服！”山滔眼神茫然，抚着稀稀疏疏的白须，有气无力道：“为啥不服？”刘零大声道：“江湖中卧虎藏龙，学武之人千千万万，难道他都比试过？”阮闲附和：“真人不露相，露相不真人。我
Git小白的正确使用姿势与最佳实践 -睡到自然醒~ git elasticsearch 大数据 golang 开发语言后端 python
Git是由Linux之父LinusTorvalds在2005年创造的，目的是为了管理Linux内核的开发。Git的设计目标是实现高效的分支和合并，以及对大型项目的快速处理。1.安装Git要开始使用Git，你需要先安装Git的客户端软件。你可以从官方网站下载适合你的操作系统的安装包，或者使用你的包管理器来安装。例如，在Windows系统上，你可以下载并运行GitforWindows的安装程序。安装完
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
docker /var/lib/docker/overlay2目录把磁盘空间占满问题 laizhenghua Docker docker 容器运维
1、查看服务器磁盘空间df-h果然100%了,docker系统文件把磁盘空间占满了。2、进入overlay2目录，查找那个容器工作目录占用最高cd/var/lib/docker/overlay2du-h--max-depth=1详见下图好家伙占用110G！复制目录名称2c3c48ccac533c5d4a366d45a19bb91ec2270fd13c5c51cc14d0cbae309fba6d，确
火爆全网的条形竞赛图，Python轻松实现统计学家
image这个动图叫条形竞赛图，非常适合制作随时间变动的数据。我已经用streamlit+bar_chart_race实现了，然后白嫖了heroku的服务器，大家通过下面的网址上传csv格式的表格就可以轻松制作条形竞赛图，生成的视频可以保存本地。https://bar-chart-race-app.herokuapp.com/本文我将实现过程介绍一下，白嫖服务器+部署留在下期再讲。纯matplot
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
【无标题】Python --- Day5 函数的位置传参、关键词传参及其可变性和解包操作 AnAn__kang python 前端人工智能
系列文章目录前言今天小伙伴们跟我进入第五天的Python课程学习，主要是关于函数的位置传参，关键传参和可变性和解包传参这其中的具体定义以及它们的使用场景`一、调用传参函数调用时传递参数的方式有多种，包括位置传参、关键词传参、多个参数解包、参数默认值等。1.1位置传参最常见的传参方式，参数按定义的顺序依次传入函数。示例：defgreet(name,age):print(f"Hello,{name}.
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
cuda编程python接口_使用Python写CUDA程序的方法 weixin_39822184 cuda编程python接口
使用Python写CUDA程序有两种方式：*Numba*PyCUDAnumbapro现在已经不推荐使用了，功能被拆分并分别被集成到accelerate和Numba了。例子numbaNumba通过及时编译机制(JIT)优化Python代码，Numba可以针对本机的硬件环境进行优化，同时支持CPU和GPU的优化，并且可以和Numpy集成，使Python代码可以在GPU上运行，只需在函数上方加上相关的指
基于 Python 的网站信息探测工具设计与实现计算机毕业设计指导 python 网络服务器
基于Python的网站信息探测工具设计与实现摘要在渗透测试与网络安全评估中，信息探测是最基础且关键的一步。通过对目标网站的操作系统、服务器、CMS、端口、目录结构等信息进行自动化探测，可为后续攻击路径识别提供基础数据支撑。传统工具如WhatWeb、FOFA等虽功能强大，但在定制化与扩展性方面受限。本文设计并实现了一款基于Python的轻量级网站信息探测工具，支持URL/IP扫描、开放端口探测、CM
扎实开展好第二批主题教育橘子皮5033
9月5日，学习贯彻习近平新时代中国特色社会主义思想主题教育第一批总结暨第二批部署会议在京召开。会议强调，在党中央坚强领导下，第一批主题教育在以学铸魂、以学增智、以学正风、以学促干上取得明显成效。要认真学习领会、贯彻落实习近平总书记重要指示精神，贯彻落实第二批主题教育指导意见，以高度负责的精神把第二批主题教育科学谋划好、精心组织好。在开展主题教育过程中，党员干部要潜心学习，坚持问题导向，以学促干，用
每周一歌‖ 她来听我的演唱会 Leo的防丢绳
写了好几次学友哥了，毕竟我从小学开始就听他的歌，本周理事会翻唱小擂台的翻唱歌曲是，她来听我的演唱会。这是一首我非常喜欢的歌，本想吉他弹唱来着，但这是吉他十级曲目，有一定难度，一个星期我肯定学不下来，暂时先用原版伴奏唱了一遍，有机会还是要自己弹一遍的，真的太经典了。上次看到理事会的评论区，快乐咕噜噜要用吉他弹唱演绎这首歌，我还是比较期待的，他的琴技和唱功都在我之上，喜欢的朋友们可以去关注一下，这哥们
我的这一年老普洱
走走停停，加入007这一年，到底收获了什么？01一份自律加入007之后发现，有太多的比你厉害还比你努力的人。02一份真实人只要一虚假，智慧就会被屏蔽；一真实，智慧就显现。这一年，看过了太多的励志成功学，已经自动免疫。每次应付作业，心里总会些许不安。每次提前交作业，心里总有些许得意。03一点感悟成年人的学习，没有作业，没有考试，这容易导致一个结果，就是所谓“学了”其实跟没学一样。不要幻觉自己在“学习
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他