python爬虫基础

1. 前言

我不是专业爬虫工程师，只是业余爬点数据做做分析和挖掘工作，所以没有使用到复杂的反爬虫和线程池等技术，也没有用到beautifulSoup这样的神库。但是并不影响我轻松爬取网页数据。
这里简单记录下浏览器操作，源码读取，以及数据提取的方法，够用了。

2. selenium操作chrome浏览器

2.1. 安装chrome浏览器和浏览器驱动

首先你需要安装chrome浏览器，以及下载对应的chromedriver.exe驱动，并将chromedriver.exe驱动目录添加至path环境变量，简单的做法是将chromedriver.exe驱动放到python的安装目录即可。
chromedriver驱动和chrome的版本对应关系在每个chromedriver驱动下载目录的notes.txt文件都有说明，chromedriver驱动下载网址是：http://chromedriver.storage.googleapis.com

测试安装情况：
如果能正常打开百度说明安装成功

from selenium.webdriver import Chrome
browser = Chrome()
browser.get('https://www.baidu.com')

3. selenium使用xpath定位元素

3.1. 提取数据

使用xpath定位元素是我看到的最简单也是最快的方法，没有之一，方法是，在chrome浏览器打开某个页面后，将鼠标放到某个元素（文字，链接，图片等），点击鼠标右键，选择检查，即可得到元素所在的html地址。然后我们在右键选择copy xpath即可得到元素的xpath。
得到xpath有什么用呢？太有用了，有了xpath，可以让程序获取xpath的文本信息，图片信息，超链接信息，进一步，模拟鼠标点击。

# 第1步，打开百度网页
from selenium.webdriver import Chrome
browser = Chrome()
browser.get('https://www.baidu.com')

# 第2步，获取xpath地址
# 通过刚才的方法，我们已经得到`新闻`的xpath
xpath='//*[@id="u1"]/a[1]'

# 第3步，获取xpath的内容
browser.find_element_by_xpath(xpath).text
# '新闻'

# 获取超链接
browser.find_element_by_xpath(xpath).get_property('href')
# 'http://news.baidu.com/'

如果你还不明白，请看下面两张图：

3.2. 浏览器交互

好了，接下来演示如何和浏览器交互。还是以刚才打开的百度网页为例，演示如何输入关键字并点击搜索按钮.

# 第1步，打开百度网页
from selenium.webdriver import Chrome
browser = Chrome()
browser.get('https://www.baidu.com')

# 第二步，用前面的方法找到搜索框的xpath，并输入内容
xpath='//*[@id="kw"]'
browser.find_element_by_xpath(xpath).send_keys('这是一个演示')

# 第三步 ，找到`百度一下`按钮，并模拟鼠标点击
xpath='//*[@id="su"]'
browser.find_element_by_xpath(xpath).click()

现在chrome浏览器是不是已经出现搜索结果了呢！是不是很方便呢。
用这种方法在模拟登录是很方便的，完全模拟浏览器，不用做什么浏览器头文件什么的。
当然这里没有用到复杂的session和cookies，如果你有空折腾，selenium也是很简单的。

3.3. 一些常用的浏览器交互

下面说一下一些常用的浏览器交互，除了上面的输入和点击外，还有一些常用的交互方法，比如滚动，在新标签页打开，点击等。

滚动页面
为什么要滚动页面呢，因为有些网页反爬虫很厉害，你不能看着第一行的内容却提取最后一行的内容，特别是在网页很长很长的情况下。

# 打开浏览器
from selenium.webdriver import Chrome
browser = Chrome()

# 第一种，滚动到底部
browser.execute_script(self, 'window.scrollTo(0, document.body.scrollHeight)')

# 第二种，往下滚动50像素
browser.execute_script(self, 'window.scrollTo(0, 50)')

# 第三种，滚动到xpath位置
xpath='xpath you specify'
view = browser.find_element_by_xpath(xpath)
browser.execute_script("arguments[0].scrollIntoView()", view)

在页面上点击
这里说的点击是随机点击，而不是点击具体的某一个xpath指定的元素。

# 打开浏览器
from selenium.webdriver import Chrome
from selenium.webdriver.common.action_chains import ActionChains
browser = Chrome()

# 根据x,y坐标点击页面
ActionChains(browser).move_by_offset(x, y).context_click()

在新标签页打开网页

from selenium.webdriver import Chrome
browser = Chrome()

browser.execute_script(self, 'window.open("' + url + '")')

3.4. 代理

再爬虫中不可避免地会提及代理。在selenium中设置代理也很简单，下面的演示。

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions

# 设置代理参数
chrome_options = ChromeOptions()
chrome_options.add_argument('--proxy-server=http://{proxy_ip}'.format(proxy_ip=proxy_ip))
# 启动浏览器
browser = Chrome()

3.5. headless

headless，简单说就是不打开浏览器指定浏览器的相关操作，因为打开浏览器是很好资源的，如果所有的步骤都已经设置好并部署在服务器上，当然是不需要打开浏览器啊，相当于后台运行的意思。

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions

# chrome参数
chrome_options = ChromeOptions()
chrome_options.add_argument('--headless')
# 启动浏览器
browser = Chrome()

3.6. selenium获取源码

这个操作是，既然已经打开网页了，那能不能将网页的源码保存下来，然后传给其他程序处理呢，比如将网页源码发给beautifulSoup解析？当时是可以的，就一句话的事情。

# 打开网页
from selenium.webdriver import Chrome
browser = Chrome()
browser.get('https://www.baidu.com')

# 获取源码
html = browser.page_source

4. lxml使用xpath提取数据

selenium很棒是不是，可以你知道吗，使用selenium操作chrome是很好资源的，而且经常出现chrome浏览器在等待网站相应，特别是js响应的时候耗费很多时间最后超时的情况，如果我们不需要特别复杂的操作，只是简单讲网页下载下来，或者说，对方网站就很简单，那就没必要用selenium了，只需要用chrome得到xpath地址，然后用lxml解析即可。

基本步骤是：
- 1.先用chrome浏览器获取元素的xpath
- 2.用request下载网页
- 3.用lxml解析xpath的元素

还是以百度为例

from lxml import etree
import requests

# 设置浏览器
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) Chrome/50.0.2661.102'}
# 访问网页
r = requests.get('https://www.baidu.com/', headers=headers)
# 设置网页编码类型，一般不需要，看网站而定
r.encoding = 'utf-8'

# 重点来了，解析网页，获取xpath指定的数据
# 这个xpath是通过chrome浏览器得到的
html = etree.HTML(r.text)
xpath='//*[@id="u1"]/a[1]'

# 获取内容
tag=html.xpath(xpath)[0]
tag.text
# 获取超链接
tag.get('href')

5. 后话

好了，暂时先说到这里，相信你看完这篇文章后也能上手爬虫了，起码能爬取90%类型的互联网网页信息。
当然，爬虫也不是只有这些，反爬机制，动态加载，并发，爬虫池等等，祝你从入门到放弃。

你可能感兴趣的:(Python,数据分析)

专业人工团队在拉票中的策略揭秘口碑信息传播者
在现代的线上投票活动中，专业人工团队的策略起到了决定性的作用。本文将探讨这些团队如何运用精细化策略来有效地拉票，从而影响投票结果。首先，专业人工团队会进行深入的目标受众分析。他们利用数据分析工具来识别潜在的投票者群体，包括性别、年龄、地区、兴趣等多个维度。这些信息帮助团队制定更为针对性的拉票策略。接下来，团队会设计吸引人的宣传材料。这包括各种形式的内容，如图文、视频、音频等，以及通过社交媒体和网络
python工资条教程_python学习笔记--工资条发放软件 weixin_39873191 python工资条教程
1#!/usr/bin/envpython2#-*-coding:UTF-8-*-3importsmtplib4fromemail.mime.textimportMIMEText5mailto_list=['[email protected]']#收件人(列表)6mail_host="smtp.163.com"#使用的邮箱的smtp服务器地址，这里是163的smtp地址7mail_user="[email protected]
Django 学习笔记（一）—— 快速建站 rollingstarky
Django是一个基于MVC（Model-View-Controller）模式的服务器端的Web框架，由Python语言编写。其创建之初主要是用来与关系型数据库进行交互，随着技术的不断革新，Django也逐渐融合了众多更现代的Web开发趋势。作为一个成熟的Web开发框架，Django有着众多企业级的应用，如Instagram、Pinterest、NationalGeographic等。Django
JSON数据的解析与生成：深入Python的实践与应用傻啦嘿哟 python办公自动化 json python 开发语言
目录一、JSON基础1.1JSON简介1.2Python中的JSON处理二、解析JSON字符串到Python字典2.1使用json.loads()函数2.2异常处理三、将Python字典转换为JSON字符串3.1使用json.dumps()函数3.2格式化输出3.3将Python对象写入文件四、将Python对象写入JSON文件4.1使用json.dump()函数4.2读取JSON文件五、进阶应用
pythontcp服务器框架_Python Tornado框架（TCP层） weixin_39724441 pythontcp服务器框架
Tornado在TCP层里的工作机制上一节是关于应用层的协议HTTP，它依赖于传输层协议TCP，例如服务器是如何绑定端口的？HTTP服务器的handle_stream是在什么时候被调用的呢？本节聚焦在TCP层次的实现，以便和上节的程序流程衔接起来。首先是关于TCP协议。这是一个面向连接的可靠交付的协议。由于是面向连接，所以在服务器端需要分配内存来记忆客户端连接，同样客户端也需要记录服务器。由于保证
在 ESP-IDF 环境下，使用标准 C 扩展 Micropython 模块 Mars.CN c语言开发语言 micropython ESP IDF
在ESP-IDF环境下，使用标准C扩展Micropython模块源码地址：https://gitee.com/Mars.CN/micropython_extend_example一、安装ESP-IDF环境在其他课程中讲过，这里不再赘述，有机会再出教程吧，但需要注意的是，截止到2024年1月初，最稳定的micropython开发环境是ESP-IDF_4.4.6，最新的5.x对ESP32-S3不是很友
python把dbc转换成excel 汽车软件工程师001 Python 01_DBC excel python 开发语言 pip
要将DBC文件转换为Excel，你可以使用pandas库来读取DBC文件，然后使用openpyxl库来创建和写入Excel文件。以下是一个简单的例子：首先，安装必要的库（如果尚未安装）：(提示：canmatrix库在1.0版本没有load函数)pipinstallpandascanmatrixopenpyxl然后，使用以下Python代码进行转换：importpandasaspdfromcanma
通过pip安装的第三方库怎样查看使用说明汽车软件工程师001 Python pip python 前端
要查看通过pip安装的第三方库的使用说明，可以使用以下方法：使用pip自带的功能查看库的详细信息：pipshow这将列出库的详细信息，包括其安装位置和文档的URL。2.访问库的官方文档或GitHub页面：大多数库都会在其官方文档或GitHub页面上提供详细的使用说明。3.使用浏览器查找库的官方文档：pipdoc这会自动打开浏览器并导航到库的Python官方文档页面。4.直接在Python中查看库的
单例模式（singleton）- python实现懂一点的陈老师设计模式单例模式 python 开发语言
通俗示例想象一下，一个国家只有一个国王。不管你在哪里，提到这个国家的国王，大家都能知道是指同一个人。在程序设计中，单例模式就像是这样的国王，一个类只有一个实例，无论你多少次请求这个类的实例，它总是返回同一个对象。通俗解释单例模式是一种创建型设计模式，它确保一个类只有一个实例，并提供一个全局访问点来获取这个实例。这个模式通常用于管理共享资源，如数据库连接或文件系统的操作，其中重复的实例化可能会导致问
Python2——Number 伊森要飞飞 python
整型长整型---加L浮点型复数型--a+bj，a、b都是浮点型int(x[,base])将x转换为一个整数long(x[,base])将x转换为一个长整数float(x)将x转换到一个浮点数complex(real[,imag])创建一个复数str(x)将对象x转换为字符串repr(x)将对象x转换为表达式字符串eval(str)用来计算在字符串中的有效Python表达式,并返回一个对象tuple
【numpy1】ipython模块、jupyter模块、Anaconda主要功能、notebook详细功能、数据分析三剑客、numpy实现BMI指数林光虚霁晓数据分析 ipython jupyter 数据分析
1ipython模块2jupyter模块3Anaconda软件3.1Anaconda主要功能3.2notebook详细功能3.3快捷键使用4数据分析三剑客5numpy模块5.1numpy下载5.2numpy实现BMI指数1ipython模块传统的cmd窗口下进入python解释器编写代码的缺点1.代码不会自动缩进2.代码不会自动提示3.代码颜色过于单调并且也没有行数提示ipython模块下载pip
python的图像阈值化处理及算法对比 yava_free 计算机视觉人工智能 python
一.阈值化（注：该部分参考作者的论文《基于苗族服饰的图像锐化和边缘提取技术研究》）图像的二值化或阈值化（Binarization）旨在提取图像中的目标物体，将背景以及噪声区分开来。通常会设定一个阈值T，通过T将图像的像素划分为两类：大于T的像素群和小于T的像素群。灰度转换处理后的图像中，每个像素都只有一个灰度值，其大小表示明暗程度。二值化处理可以将图像中的像素划分为两类颜色，常用的二值化算法如公式
计算机毕业设计之基于Python的旅游景点评论内容分析与研究微信bishe58 课程设计 spring boot python 信息可视化
旅游景点评论内容分析与研究是一个涉及文本挖掘、情感分析和数据可视化等多领域技术的复杂过程。本研究以Python编程语言为基础，首先收集了来自不同旅游平台的用户评论数据。通过运用自然语言处理（NLP）技术，清洗并预处理了这些数据，以便于后续分析。随后，采用情感分析方法来识别和量化评论中的主观态度和情绪倾向，从而判断游客的整体满意度。此外，还运用词云、主题建模等手段来探索游客评论中的关键词汇和讨论主题
1.X Python基础-常用函数 iJaa Python
目录一、内置函数1.1类型比较-isinstance()二、其他函数2.1随机整数-random.randint()一、内置函数1.1类型比较-isinstance()描述用来判断一个对象是否是某个类型语法isinstance(object,classinfo)object：一个实例的对象classinfo：类型名（直接或间接的类名、以及基本类型，或者由类型名组成的元组）返回值：Bool类型（Tr
大数据分析与大数据开发两者的区别是怎样的? 泰迪智能科技01 就业班大数据
大数据主要分为两个就业方向：①大数据开发②大数据分析大数据分析：主要负责现有数据价值提炼与挖掘，包括业务增长点挖掘，产品改进点挖掘，业务分析指标体系构建，业务分析报告出具等大数据开发：主要负责大数据平台与应用开发，包括数据仓库构建，离线计算、实时计算应用开发，大数据应用后端开发，企业数据标准制定等就业岗位薪资（平均月薪如下）大数据的培训目标是什么呢？大数据分析方向：从企业实际数据分析需求出发，满足
布兰德新赛季将担任76人篮球运营事务副总裁 Sandy体育风云
76队官方今天宣布，前NBA球员埃尔顿-布兰德新赛季除了继续担任球队发展联盟附属球队总经理之外，还将担任76人篮球运营事务副总裁一职。除了布兰德之外，76人官方还宣布了多项人事调动。MarcEversley将被提拔为球队人事管理高级副总裁、AlexRucker被提拔为球队数据分析高级副总裁、KevinYoung将加盟教练组。作为1999年的状元秀，布兰德职业生涯曾先后效力于公牛、快船、76人、独行
python爬虫521 PUTAOAO python 爬虫开发语言
爬虫521记录记录最近想学爬虫，尝试爬取自己账号下的文章标题做个词云csdn有反爬机制原理我就不说啦大家都写了看到大家结果是加cookie但是我加了还是521报错尝试再加了referer就成功了(╹▽╹)importmatplotlibimportrequestsfromwordcloudimportWordCloudimportmatplotlib.pyplotaspltimportjieba#
基于yolov8的绝缘子缺陷检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO
【算法介绍】基于YOLOv8的绝缘子缺陷检测系统是一种利用先进深度学习技术的高效解决方案，旨在提升电力行业中输电线路的维护和监控水平。YOLOv8作为YOLO系列算法的最新版本，具备更高的检测速度和精度，特别适用于实时物体检测任务。该系统通过深入分析并标注绝缘子数据集，训练YOLOv8模型以精确识别输电线上的绝缘子及其缺陷状态。利用多尺度检测、FPN结构以及CSPDarknet网络等技术，YOLO
使用 Pandas 进行数据可视化：全面指南（六）小高要坚强 pandas 信息可视化 python 数据分析数据挖掘开发语言
在数据分析的过程中，数据的可视化是一个至关重要的环节。通过图形展示数据，不仅能够帮助我们直观地理解数据，还能够揭示数据背后的规律和趋势。Pandas作为Python生态系统中强大的数据分析库，不仅提供了数据处理和分析的功能，还内置了方便易用的可视化方法。本文将详细介绍Pandas中的数据可视化功能，帮助您充分利用Pandas的图形展示能力。一、数据的图形展示概述在Pandas中，DataFrame
深入解析Pandas的Series与DataFrame索引和切片操作（三）小高要坚强 pandas python 开发语言矩阵 numpy
Pandas库是Python中用于数据处理和分析的强大工具，它的核心数据结构包括Series和DataFrame。掌握Pandas的索引与切片操作是数据分析的基础，因为它们允许我们高效地访问、筛选和操作数据。本文将详细介绍Pandas中的Series和DataFrame的索引与切片方法，帮助你更好地理解和应用这些技巧。一、Series的索引与切片操作Series是一种一维数据结构，它类似于一列数据
Python学习笔记二(布尔值及类型检查) StaticKing Python入门 Python
字符串赋值与布尔值及类型检查布尔值(bool)假：False真：Truea1='a'a2='a'print(a1==a2)print(a1!=a2)TrueFalse布尔值也属于整型，True相当于1False相当于0print(True+
Python分布式任务处理库之dramatiq使用详解 Rocky006 python 开发语言
概要在现代Web应用和数据处理任务中，异步任务处理是一个至关重要的部分。Dramatiq是一个用于分布式任务处理的Python库，旨在提供简单、可靠的任务队列解决方案。与其他任务队列库相比，Dramatiq更加轻量级，且易于上手。它的设计目标是帮助开发者轻松地将耗时的任务放到后台处理，从而提升应用程序的响应速度。本文将详细介绍Dramatiq库，包括其安装方法、主要特性、基本和高级功能，以及实际应
Python数据分析利器之groupby和pivot_table使用详解 Rocky006 python 数据分析开发语言
概要在数据分析的过程中，数据聚合与数据透视是两项非常重要的操作。Python的Pandas库提供了强大的工具——groupby和pivot_table，帮助我们高效地进行数据聚合和透视分析。本文将详细介绍如何使用这两个功能，并结合示例代码展示它们的实际应用，帮助更好地掌握数据分析的技巧。数据聚合groupbygroupby是Pandas中用于对数据进行分组并进行聚合操作的工具。通过groupby，
Pandas库性能优化指南：从基础到进阶（终）小高要坚强 pandas 性能优化 python 数据分析开发语言
Pandas是Python中广泛使用的数据处理库，凭借其强大的功能和易用性，深受数据科学家和开发者的青睐。然而，Pandas在处理大规模数据时可能会遇到性能瓶颈，导致执行效率低下。本文将深入探讨如何通过一系列优化技巧，提升Pandas的性能表现，确保代码既高效又保持可读性。一、需要关注的问题在数据处理的过程中，性能往往是一个不可忽视的因素。虽然Pandas提供了丰富的函数和方法以简化数据操作，但在
Python在神经网络中优化激活函数选择使用详解 Rocky006 python 开发语言
概要在神经网络中，激活函数扮演着至关重要的角色。它的主要作用是引入非线性因素，使得神经网络能够处理复杂的非线性问题。如果没有激活函数，神经网络仅仅是线性模型的堆叠，无法胜任深度学习中的各种任务。本文将深入探讨几种常用的激活函数，包括Sigmoid、Tanh、ReLU及其变种，并通过具体的代码示例展示它们在Python中的实现和应用。激活函数的重要性激活函数将输入信号进行非线性转换，从而增强神经网络
2020-03-24 黑乎乎AI
Datawhale零基础入门数据挖掘-Task2数据分析【代码摘要】赛题：零基础入门数据挖掘-二手车交易价格预测地址：[https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX]EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确
解决关于使用Selenium WebDriver 在Python打开浏览器时出错全洛 Python python selenium chrome pip
错误1：Traceback(mostrecentcalllast):File"E:/codes/python/script.py",line5,indriver.get("http://www.python.org")TypeError:get()missing1requiredpositionalargument:'url'错误2：SessionNotCreatedException:Messa
深入了解 Python 面向对象编程（最终篇）稿子不爱 python python 开发语言
大家好！今天我们将继续探讨Python中的类及其在面向对象编程（OOP）中的应用。面向对象编程是一种编程范式，它使用“对象”来模拟现实世界的事务，使代码更加结构化和易于维护。在上一篇文章中，我们详细了解了类和实例的概念、'self'关键字的作用、魔法函数的定义、构造函数和析构函数以及面向对象编程的三大特性、抽象类、动态添加内容。而今天，我们将会在原有的基础上学习：数据的三种类型、属性封装以及单例类
第八篇：Python集合: 高效的无序集数据结构稿子不爱 python python 数据结构开发语言算法
1.集合的定义Python中的集合(set)是一种高度优化的无序且不重复的数据结构。它在概念上类似于数学中的集合,能够存储多个不同的元素。集合的这种特性使其成为处理唯一性和成员资格检查的理想选择。在Python中,我们可以通过两种主要方式定义集合:a)使用花括号{}:set1={1,2,3,4,5}这种方法直观简洁,但要注意空花括号{}会创建一个字典而不是集合。b)使用set()函数:set2=
第六篇：Python元组：不可变序列的魅力稿子不爱 python python 开发语言算法数据结构运维
一.元组的定义元组是Python中的一种不可变序列类型，用于存储一组有序的元素。元组一旦创建，其中的元素就不能被修改、添加或删除。定义元组有两种主要方式：方式一：使用圆括号()#创建一个包含多个元素的元组a=(10,20,30)#创建只有一个元素的元组，注意逗号不可省略b=(10,)#圆括号可以省略c=10,20,30#多个变量同时赋值x,y=10,20 #这里不是元组，而是将10赋给x，20赋给
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他