当像鸟飞向你的山

scrapy框架的学习使用、XPath的基本用法、爬取新闻数据

文章目录

声明
scrapy 基础
安装 scrapy
scrapy 原理
scrapy 应用示例
- 一爬取新闻
- - 基础信息
  - 1 新建项目
  - 2 创建爬虫
  - 3 君子协议
  - 4 爬虫文件解释
  - 5 分析网站
  - - 5.1 提取数据
    - 5.2 spider/ucas.py
    - 5.3 如果遇到反爬
    - 5.5 运行爬虫
  - 6 爬取多页
  - 7 保存数据
附录
参考

声明

文章所涉及的内容仅为学习交流所用。

scrapy 基础

scrapy 是框架类似于一个工具
采用异步框架实现高效率的网络采集
最强大的数据采集框架

安装 scrapy

pip install scrapy

注：
1 如果遇到 vc++14.0 twisted 错误，则应离线安装。
百度：python whl
下载好后：pip install xxx.whl
2 如果运行 scrapy bench 遇到 win32 错误，安装：pip install pywin32

scrapy 原理

1.引擎（Engine）
– 引擎负责控制数据流在系统所有组件中的流向，并在不同的条件时触发相对应的事件。这个组件相当于爬虫的“大脑”，是整个爬虫的调度中心。
2.调度器（Scheduler）
– 调度器从引擎接受请求并将它们加入队列，以便之后引擎需要它们时提供给引擎。初始爬取的URL和后续在网页中获取的待爬取的URL都将放入调度器中，等待爬取，同时调度器会自动去除重复的URL。如果特定的URL不需要去重也可以通过设置实现，如post请求的URL。
3.下载器（Downloader）
– 下载器的主要功能是获取网页内容，提供给引擎和Spiders。
4.Spiders
– Spiders是Scrapy用户编写用于分析响应，并提取Items或额外跟进的URL的一个类。每个Spider负责处理一个（一些）特定网站。
5.Item Pipelines
– Item Pipelines主要功能是处理被Spiders提取出来的Items。典型的处理有清理、验证及持久化（例如存取到数据库中）。当网页被爬虫解析所需的数据存入Items后，将被发送到
项目管道（Pipelines），并经过几个特定的次序处理数据，最后存入本地文件或数据库
6.下载器中间件（Downloader Middlewares）
– 下载器中间件是一组在引擎及下载器之间的特定钩子（specific hook），主要功能是处理下载器传递给引擎的响应（response）。下载器中间件提供了一个简便的机制，通过插
入自定义代码来扩展Scrapy功能。通过设置下载器中间件可以实现爬虫自动更换useragent、IP等功能
7.Spider中间件（Spider Middlewares）
– Spider中间件是一组在引擎及Spiders之间的特定钩子（specific hook），主要功能是处理Spiders的输入（响应）和输出（Items及请求）。Spider中间件提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。各组件之间的数据流向如图所示。

从初始URL开始，Scheduler会将其交
给Downloader进行下载
• 下载之后会交给Spider进行分析
• Spider分析出来的结果有两种
– 一种是需要进一步抓取的链接，如 “下一
页”的链接，它们会被传回Scheduler；
– 另一种是需要保存的数据，它们被送到
Item Pipeline里，进行后期处理（详细分
析、过滤、存储等）。

scrapy 应用示例

一爬取新闻

基础信息

采集目标：标题链接日期
url

https://www.ucas.ac.cn/site/26

1 新建项目

良好习惯：根据 域名 + Spider 命名项目（爬虫）名称。
在项目文件夹cmd下执行如下代码，我是用的pycharm下面的terminal，感觉很好用（）

scrapy startproject ucasSpider

（一个文件夹中包含__init__.py表示这是一个模块）

2 创建爬虫

根据基础模板创建爬虫文件：
进入项目，项目内有两个文件文件夹和 cfg

cd ucasSpider
ls

genspider 爬虫名域名

scrapy genspider ucas ucas.ac.cn

注意：
第一个参数是爬虫名字不是项目名字；
第二个参数是网站域名，是允许爬虫采集的域名。比如：baidu.com 不限制域名可能爬到 zhihu.com 。后期可以更改，但要先有。

生成了ucas爬虫文件：

很多教程都是自己写这个文件 QAQ

3 君子协议

setting.py 中君子协议

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

一般设置为false，不然爬虫没得干。
比如：https://www.nike.com.cn/
浏览：https://www.nike.com/robots.txt

4 爬虫文件解释

import scrapy

# 创建爬虫类 继承自scrapy.Spider --> 最基础的类
# 另外几个类都是继承自这个
# 查看一共几个基础类：scrapy genspider -l
# 4个 basic crawl csvfeed xmlfeed 但源码中有5个
class UcasSpider(scrapy.Spider):
    name = 'ucas'  # 爬虫名字 必须唯一
    allowed_domains = ['ucas.ac.cn']  # 允许采集的域名
    start_urls = ['https://www.ucas.ac.cn/']  # 开始采集的网址

    # 解析响应数据 提取数据或者网址等
    # response 响应 网页源码
    def parse(self, response):
        pass

5 分析网站

把要采集的网址：https://www.ucas.ac.cn/site/26
放入上面spider/ucas.py中。

start_urls = ['https://www.ucas.ac.cn/site/26']  # 开始采集的网址

5.1 提取数据

方法1 正则表达式
方法2 XPath --> 从HTML中提取数据语法
方法3 CSS --> 从HTML中提取数据语法
函数：

response.xpath('xpath').get()
# get得到一个元素
# getall得到多个元素

下面使用方法2：
教程：百度 w3 xpath
首先打开网址。
右键页面检查；找到关注的元素的源代码。
使用谷歌浏览器插件：xpath helper

然后，根据html代码查找目标内容的位置，得到xpath：

# 文章标题
//body//div[4]//div[3]/p[img]/a/text()
# 文章链接
//body//div[4]//div[3]/p[img]/a/@href
# 文章日期
//body//div[4]//div[3]/p/span/text()

p [img] 选取所有拥有名为 img 的属性的 p 元素，因为 “通知公告” 没有 img。
参考：https://www.w3school.com.cn/xpath/xpath_syntax.asp
（一开始span忘写text了虽然可以提取数据，但是一加get就找不到了，debug一会才发现这个问题，基础不牢地动山摇啊啊啊……）

5.2 spider/ucas.py

import scrapy


# 创建爬虫类 继承自scrapy.Spider --> 最基础的类
# 另外几个类都是继承自这个
# 查看一共几个基础类：scrapy genspider -l
# 4个 basic crawl csvfeed xmlfeed 但源码中有5个
class UcasSpider(scrapy.Spider):
    name = 'ucas'  # 爬虫名字 必须唯一
    allowed_domains = ['ucas.ac.cn']  # 允许采集的域名
    start_urls = ['https://www.ucas.ac.cn/site/26']  # 开始采集的网址

    # 解析响应数据 提取数据或者网址等
    # response 响应 网页源码
    def parse(self, response):
        # 提取数据 selectors选择器
        # 标题 //body//div[4]//div[3]/p/a/text()
        # 链接 //body//div[4]//div[3]/p/a/@href
        # 日期 //body//div[4]//div[3]/p/span
        # 因为新闻标题 链接 日期是一一对应的 所以要先定位到大的 再遍历里面的内容
        selectors = response.xpath('//body//div[4]//div[3]/p[img]')
        # 遍历上面标签的内部标签 --> 3个
        for selector in selectors:
            title = selector.xpath('./a/text()').get()  # .在当前目录下继续选择
            link = selector.xpath('./a/@href').get()
            date = selector.xpath('./span/text()').get()
            print(title, link, date)

执行爬虫，可以看到数据：

 scrapy crawl ucas

5.3 如果遇到反爬

ucas网站没有反爬，如果你的网站遇到了反爬，则需要添加headers。
在setting.py文件中，修改默认请求头。
原始：

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}

添加请求头，user-agent：

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}

5.5 运行爬虫

 scrapy crawl ucas

6 爬取多页

方法一：观察网址变化 start_url 中引入 for 循环

start_urls = [f'https://www.ucas.ac.cn/site/26?pn={page}' for page in range(1, 12)]  # 开始采集的网址

缺点：写死了必须先知道有多少页

方法二：翻页操作
先找到下一页按钮的源代码根据 [@class=“next_page”] 等方法筛选，锁定到需要更改的链接后缀。ucas网址不适用，因为ucas是text下一页。

<a href="/site/26?pn=4">下一页a>

ucas的下一页和上一页没有什么特殊的分别，所以会锁定包括上一页和下一页的四个内容。（或许是我能力问题……）

scrapy.Request(next_ url, callback= self.parse) # 生成器:
Request() 发出请求类似 requests . get()
callback 是将发出去的请求得到的响应还交给自己处理
注意：回调函数不要写（）只写函数名

7 保存数据

上面ucas的spider文件中的print改为抛出数据：

items = {
                'title': title,
                'link': link,
                'date': date
            }
            yield items  # 抛出数据

运行改为：

 scrapy crawl ucas -o ucas_news.json

附录

网址构成
http://：代表超文本传输协议，通知服务器显示Web页，通常不用输入
www：代表一个Web（万维网）服务器
yahoo是域名主体
/.cn/.是属于中国国内域名
.com/.***.org是属于国际域名

参考

[1] https://www.bilibili.com/video/BV1m441157FY/?spm_id_from=333.880.my_history.page.click&vd_source=db82cedead5da076759f8f459895dbd4
[2] https://www.w3school.com.cn/xpath/xpath_nodes.asp
[3] 我们老师的课件

你可能感兴趣的:(数据爬取,scrapy,学习,python)

【零基础学AI】第29讲：BERT模型实战 - 情感分析 1989 0基础学AI bert 人工智能深度学习神经网络 cnn python 自然语言处理
本节课你将学到BERT模型的核心原理与优势HuggingFaceTransformers库的BERT接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU推荐（可加速训练）前置知识第28讲Transformer基础基本PyTorch使用
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
TensorFlow图神经网络(GNN)入门指南 AI天才研究院 AI人工智能与大数据 tensorflow 神经网络人工智能 ai
TensorFlow图神经网络(GNN)入门指南关键词：TensorFlow、图神经网络、GNN、深度学习、图数据、节点嵌入、图卷积网络摘要：本文全面介绍如何使用TensorFlow实现图神经网络(GNN)。我们将从图数据的基本概念开始，深入探讨GNN的核心原理，包括图卷积网络(GCN)、图注意力网络(GAT)等流行架构，并通过TensorFlow代码示例展示如何构建和训练GNN模型。文章还将涵盖
鸿蒙（HarmonyOS）性能优化实战-启动分析工具Launch Profiler 学习指南愿天堂没有996 HarmonyOS 鸿蒙开发移动开发 harmonyos 性能优化 HarmonyOS OpenHarmony 移动开发
LaunchProfiler概述DevEcoStudio内置Profiler分析调优工具。其中Launch主要用于分析应用或服务的启动耗时，分析启动周期各阶段的耗时情况、核心线程的运行情况等，协助开发者识别启动缓慢的原因。此外，Launch任务窗口还集成了Time、CPU、Frame场景分析任务的功能，方便开发者在分析启动耗时的过程中同步对比同一时段的其他资源占用情况。场景示例如下代码在页面绘制之
Python: 如何用Python的迭代器或生成器实现斐波那契数列 KevinShi_BJ python
斐波那契数列（Fibonaccisequence）是指这样一个数列：1，1，2，3，5，8，13，21，34，55，89...这个数列从第3项开始，每一项都等于前两项之和。斐波那契数列的定义者，是意大利数学家莱昂纳多·斐波那契（LeonardoFibonacci）。以兔子繁殖为例子而引入，故又称为”兔子数列“。斐波那契数列又称黄金分割数列，n越大，相邻两值的比越接近黄金分割0.618，非常有趣。百
Python实现布林带策略完整代码程序化交易助手量化软件 Python 程序化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
Python实现布林带策略完整代码布林带是个啥玩意儿？我见过太多新手一上来就问"布林带能不能赚钱"，这问题就跟问"菜刀能不能切菜"一样。布林带就是个工具，关键看你怎么用。简单来说，它就是在均线上下画两条通道线，股价大部分时间都在这个通道里晃悠。记得去年有个客户，拿着布林带当圣杯，结果亏得妈都不认识。后来我给他看了我的Python策略代码，这哥们才明白原来工具要配合仓位管理和止损。现在他账户已经翻倍
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱程序化交易助手量化软件 Python 程序化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱那个让我夜不能寐的亏损账户去年有个客户老张来找我，50万本金半年亏了15万。他红着眼睛问我："为什么我跟着大V买卖还是亏？"我看了他的交易记录就明白了——全是凭感觉操作，涨了追，跌了割，完全被市场情绪牵着鼻子走。这让我想起自己刚入行时，盯着分时图眼睛发酸的日子。直到有天看到营业部老总桌上那本《量化交易入门》，才恍然大悟：原来职业玩家都在用
python分支语句_python入门基础教程10 python的分支语句 weixin_39604280 python分支语句
if分支语句分支语句的作用是在某些条件控制下有选择的执行实现一定功能语句块。if分支语句则是当if后的条件满足时，if下的语句块被执行，语法格式如下所示：if:statements让我们看看代码吧。>>>sex='male'>>>ifsex=='male':print'Man!'#此处有两次回车键Man!>>>ifsex=='female':print'Woman'#此处有两次回车键>>>if_e
Python 分支语句，分支语句嵌套，三目运算龙技术 Python语法 python
1、分支语句单一条件判断if条件：条件成立时执行的代码#格式:'''if条件:条件成立时执行的代码'''age=int(input('请输入你的年龄:'))#上网ifage>=18:print('小帅哥快来玩啊')print('回家睡觉')对立条件判断if条件：条件成立时执行的代码else：条件不成立时执行的代码#if...else...'''if条件:条件成立时执行的代码else:条件不成立时执
十五天Python系统学习教程第十五天
Day15详细学习计划：Python综合项目实战与学习路径规划学习目标✅综合运用前14天知识完成完整项目开发✅掌握生产级项目架构设计与优化技巧✅制定后续学习计划与技能提升方案✅理解Python工程化开发最佳实践一、实战项目：企业级任务管理系统1.1项目需求核心功能：用户认证（JWT令牌）任务CRUD与状态流转（待办/进行中/已完成）任务分类与优先级管理数据统计可视化（任务完成率/耗时分析）邮件通知
Python分支语句注意事项乔代码嘚 python 开发语言 github
一、单分支语句：if语句1.语法:if：语句块2.注意事项:1）if语句首先判断的结果值，如果结果为True，则执行语句块里的语句序列。如果结果为False，语句块里的语句会被跳过；2）语句块是if条件满足后执行的一个或多个语句序列；3）语句块中语句通过与if所在行形成缩进表达包含关系。4）if判断语句还可以简写：iftag:print("True")当x为0、0.0、0j、None或者空的字符串
python函数
四、函数定义P.1函数定义把一段实现某个功能的完整代码，用一个函数封装，后期可以通过调用函数名，实现依次编写，多次调用的目的函数，可以等价于我们初高中学过的f(x)，f是运算法则，也就是代码函数中对应的代码执行块，每有一个x对应经过f运算之后得到一个值，如f(x)对应的是让x乘3加2，每有一个x进入f中便会得到一个值。高中对应的函数三要素是，定义域、运算法则、值域，而编程中的函数也有三要素，分别为
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
OpenHarmony解读之设备认证：Pake协议详解与实战陈乔布斯鸿蒙开发 HarmonyOS OpenHarmony harmonyos 分布式鸿蒙开发软总线 openHarmony 嵌入式硬件
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）①鸿蒙应用开发与鸿蒙系统开发哪个更有前景？②嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~③对于大前端开发来说，转鸿蒙开发究竟是福还是祸？④鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？⑤记录一场鸿蒙开发岗位面试经历~⑥持续更新中……一、概述在设备认证过程中，pake协议用于认证会话密钥协商，基于该会话密钥，双方可以安全地交换各自的
AI LLM架构与原理 - 预训练模型深度解析陈乔布斯 AI 人工智能大模型人工智能架构机器学习深度学习大模型 Python AI
一、引言在人工智能领域，大型语言模型（LLM）的发展日新月异，预训练模型作为LLM的核心技术，为模型的强大性能奠定了基础。预训练模型通过在大规模无标注数据上进行学习，能够捕捉语言的通用模式和语义信息，从而在各种自然语言处理任务中展现出卓越的能力。本文将深入探讨AILLM架构与原理中预训练模型的方法论和技术，结合图解、代码解析和实际案例，为读者呈现一个全面且易懂的预训练模型图景。二、预训练模型的基本
Python程序员如何制定学习计划？提高编写代码的能力
在工作和生活压力之下，如何提升自己的技能和能力？这是许多人都面临的问题。如果你也有这样的问题，那么首先要明确的是，要想提升自己的能力，必须要有一个清晰的计划和方向。这个计划可以是长期的，也可以是短期的，但必须要有一个大的方向性。接下来，我们来看看如何制定一个有效的计划。如果你不知道如何制定计划，其实很简单。你可以闭上眼睛，想一想自己哪些方面比较薄弱，比如多线程锁、Spring的一些核心技术源码、分
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理东临碣石82 人工智能
摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。我们首先通过大规模预训练开发了一个具备显著潜力的高性能视觉基础模型，可以说该模型为最终性能设定了上限。随后，借助课程采样强化学习（ReinforcementLearningwithCurriculumSampling，R
Python: 包
一、Python包基础概念1.1什么是Python包Python包(Package)是一种组织Python模块的方式，它使用目录结构来组织相关的模块。一个包本质上是一个包含__init__.py文件的目录，该文件可以是空的，也可以包含包的初始化代码。my_package/├──__init__.py├──module1.py└──module2.py1.2包与模块的区别模块(Module):单个.
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
python爬虫正则表达式使用说明 yuwinter Python python 爬虫正则表达式
Python爬虫和正则表达式是自动化网络数据提取中常用的两种技术。本文将详细介绍如何使用Python编写爬虫，结合正则表达式提取网页中的数据。一、基础知识点1.安装必要库爬虫通常需要使用库来处理HTTP请求和解析网页，常用库有：requests：用于发送HTTP请求，获取网页内容。re：Python自带的正则表达式库，用于模式匹配和提取数据。BeautifulSoup（可选）：如果你需要更高级的网
python：正则表达式符号初于青丝mc终于白发 python相关正则表达式 python pycharm
本次给大家带来的是python中的正则表达式符号的复习呀，还记得清楚嘛^^？匹配零次或一次前面的分组*匹配零次或多次前面的分组+匹配一次或多次前面的分组{n}匹配n次前面的分组{n，}匹配n次或更多次前面的分组{，m}匹配零次或m次前面的分组{n，m}匹配至少n次，至多m次前面的分组{n，m}？、*？、+？对前面的分组进行非贪心匹配^spam意味着字符串必须以spam开始spam$意味着字符串必须
Python：正则表达式慕婉0307 python基础知识点正则表达式
正则表达式是处理文本数据的强大工具，Python通过re模块提供了完整的正则表达式功能。本文将详细介绍Python正则表达式的使用方法，包括基础语法、高级技巧和re模块API的详细解析。一、正则表达式基础1.1什么是正则表达式正则表达式(RegularExpression)是一种用于匹配字符串中字符组合的模式，可以用于搜索、替换和验证文本数据。1.2Python中的re模块Python通过内置的r
PythonOCC-core项目中的Wayland显示支持探索颜如良
PythonOCC-core项目中的Wayland显示支持探索pythonocc-coretpaviot/pythonocc-core:是一个基于Python的OpenCASCADE(OCCT)几何内核库，提供了三维几何形状的创建、分析和渲染等功能。适合对3D建模、CAD、CAE以及Python有兴趣的开发者。项目地址:https://gitcode.com/gh_mirrors/py/pytho
【Python 算法零基础 4.排序 ⑦ 桶排序】 L_cl Python常见算法排序算法数据结构算法
草木不争高，争的是生生不息——25.5.26选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定最小值：假设
【Python 算法零基础 4.排序 ⑥ 快速排序】 L_cl Python常见算法排序算法算法
既有锦绣前程可奔赴，亦有往日岁月可回首——25.5.25选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定
Python练习--Day1 IT小白成长记 python
1、输入三个整数：判断这三个整数能否组成一个三角形？构成三角形的条件：任意两个数之和大于第三个数首先输入三个数：使用Python内置函数input()从标准输入读入一行文本，默认的标准输入为键盘输入input所读入内容的数据类型为字符串类型，需要使用int、float等转换成我们需要的数据类型使用分支结构判断a=int(input("请输入第一个整数："))b=int(input("请输入第二个整
MySQL 学习之你还在用 TIMESTAMP 吗？ zxguan mysql 学习数据库
目录1.弊端1.1.取值范围1.2.时区依赖1.3.隐式转换2.区别3.解决1.弊端1.1.取值范围TIMESTAMP的取值范围为1970-01-0100:00:01UTC到2038-01-1903:14:07UTC，超出范围的数据会被强制归零或触发异常‌。具体表现为在基金债券等业务中，到期日可能是一个比较晚的未来的时间，很可能就会出现超出TIMESTAMP范围的时间。现在已经2025年了，系统崩
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他