tzr0725

Python爬虫学习笔记-第二十课(Scrapy进阶中)

Scrapy进阶中

1.案例练习——腾讯招聘
- 1.1 思路分析
- 1.2 完整代码
- 1.3 需求升级
- 1.3 完善代码
2. 案例练习——古诗文
- 2.1 思路分析
- 2.2 完整代码
3. Scrapy Shell
4. Settings 配置补充

1.案例练习——腾讯招聘

代码需求：爬取工作岗位(标题)，并进行翻页，点击职位后，获取详情页的数据。
相应链接：https://careers.tencent.com/search.html?index=1

1.1 思路分析

打开开发者选项，确定页数的element，里面并不包含对应页数的url地址。

换一种思路，直接观察页数的url，寻找规律：

https://careers.tencent.com/search.html?index=1  第一页
https://careers.tencent.com/search.html?index=2  第二页
https://careers.tencent.com/search.html?index=3  第三页

现在查看要爬取的数据是否是静态的：

在网页源码中找不到数据，显然网页数据是通过ajax动态加载的。这个时候一般有两种方案，一种是通过selenium，点击页面元素加载想要的数据，另一种是分析数据接口，通常在XHR里寻找，如下图：

这样，我们就找到了真正的数据接口。因此，之前提及的页数url不能够作为起始的url地址。需要的url为：

写成文本格式：

# 第一页
https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1611749603633&countryId=&cityId=&bgIds=&productId=
&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn
# 第二页
https://careers.tencent.com/tencentcareer/api/post/Querytimestamp=1611975215727&countryId=&cityId=&bgIds=&productId=
&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=2&pageSize=10&language=zh-cn&area=cn

只需要动态替换pageIndex的值就可以实现翻页。

整体的思路是：向分析出的url发起请求，获得相应后解析数据，完成单页的操作后，进行翻页处理。

1.2 完整代码

# 爬虫代码
import scrapy
import json
from day20.tencent.tencent.items import TencentItem

class HrSpider(scrapy.Spider):
    name = 'hr'
    allowed_domains = ['tencent.com']
    base_url = 'https://careers.tencent.com/tencentcareer/api/post/Query?countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex={}&pageSize=10&language=zh-cn&area=cn'
    start_urls = [base_url.format(1)]

    def parse(self, response):
        item = TencentItem()
        # 解析数据
        total_data = json.loads(response.text)
        for job in total_data['Data']['Posts']:
            item['job_name'] = job['RecruitPostName']
            print(item)

        # 翻页处理
        for page in range(2, 3):
            next_url = self.base_url.format(page)
            yield scrapy.Request(next_url)

# items代码
import scrapy
class TencentItem(scrapy.Item):
    # define the fields for your item here like:
    job_name = scrapy.Field()

运行结果：

1.3 需求升级

现尝试获取详情页里面的工作职责：

同样地，这个数据在网页源代码中也找不到：

正确的出处如下（与之前一样的查找方法）：

对应的url为：

https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1611989618957&postId=1324215980246704128&language=zh-cn

上述url中的postId来源于之前获取的响应数据：

因为我们要获取每一个工作岗位的详情页里面的工作职责，通过页面分析之后，发现postid就是代表的每一个岗位。
所以，整理一下大致的思路：获取到岗位名字的同时，保存对应的postId；想要获取进一步的详细信息时，将详情页url中的postId动态替换，继续获取响应，解析数据即可。

1.3 完善代码

# 爬虫代码
import scrapy
import json
from day20.tencent.tencent.items import TencentItem

class HrSpider(scrapy.Spider):
    name = 'hr'
    allowed_domains = ['tencent.com']
    base_url = 'https://careers.tencent.com/tencentcareer/api/post/Query?countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex={}&pageSize=10&language=zh-cn&area=cn'
    detial_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?postId={}&language=zh-cn'
    start_urls = [base_url.format(1)]

    def parse(self, response):
        item = TencentItem()
        # 解析数据
        total_data = json.loads(response.text)
        for job in total_data['Data']['Posts']:
            item['job_name'] = job['RecruitPostName']
            # 获取postId, 获得完整的详情页数据url
            postId = job['PostId']
            real_detail_url = self.detial_url.format(postId)
            yield scrapy.Request(
                url=real_detail_url,
                callback=self.detail_content,
                meta={
     'item': item}  # 向回调函数传递数据, 格式为字典
            )

        # 翻页处理
        for page in range(2, 3):
            next_url = self.base_url.format(page)
            yield scrapy.Request(next_url)

    # 处理详情页数据爬取逻辑的回调函数
    def detail_content(self, response):
        # 如何传递数据
        item = response.meta.get('item')  # 字典中取出'item'的值
        result = json.loads(response.text)
        item['job_duty'] = result['Data']['Responsibility']
        print(item)

# items代码
import scrapy
class TencentItem(scrapy.Item):
    # define the fields for your item here like:
    job_name = scrapy.Field()
    job_duty = scrapy.Field()

运行结果：

关于scrapy.Request()：
url——本次循环结束后，继续发起请求的url；
callback——回调函数，其实就是发起请求时需要额外处理的爬虫逻辑；
meta——可以实现不同解析函数之间的数据传递，比如上述例子中可以将item对象传递给回调函数。

2. 案例练习——古诗文

代码需求：笔者之前的博客中，已经爬取了诗歌的标题、作者、朝代以及具体内容。现在增加一项数据，点击诗歌标题，进入相应的详情页后，爬取它的译文。

2.1 思路分析

首先，确认爬取内容是静态数据，其标签分布如下图：

上图的“译文及注释”对应的详情页url来源如下：

它是标签上层a标签中属性href的值。

所以，整体的思路大致为：爬取诗歌标题的同时，也爬取对应详情页的url，yield一个Request对象时，调用回调函数来爬取详情页中的译文及注释。

2.2 完整代码

# 爬虫代码
import scrapy
from day20.gsw.gsw.items import GswItem

class GushuSpider(scrapy.Spider):
    name = 'poem'
    # 增加一个域名
    allowed_domains = ['gushiwen.org', 'gushiwen.cn']
    # 修改起始的url
    start_urls = ['https://www.gushiwen.org/default_1.aspx']

    def parse(self, response):
        poem_divs = response.xpath('//div[@class="cont"]')
        item = GswItem()
        for poem_div in poem_divs:
            # 获取诗歌的标题
            poem_title = poem_div.xpath('./p/a/b/text()').extract_first()
            detail_url = poem_div.xpath('./p/a/@href').extract_first()
            # 标题非空
            if poem_title:
                item['title'] = poem_title
                yield scrapy.Request(
                    url=detail_url,
                    callback=self.getTranslation,
                    meta={
     'item': item}
                )

    def getTranslation(self, response):
        item = response.meta.get('item')
        origin_translation = response.xpath('//div[@class="contyishang"]//p/text()').extract()
        translation = ''.join(origin_translation).strip()
        item['translation'] = translation
        print(item)

运行结果：

3. Scrapy Shell

作用：是一个终端，可以在未启动spider时尝试调试代码。

打开Pycharm命令行终端，输入如下命令：

>>> scrapy shell www.baidu.com

输出了许多内容，其实绝大多数都与运行scrapy程序时输出的log信息类似。

尝试查看网页源代码：

>>> response.text

查看一些其它信息：

>>> response.url
'http://www.baidu.com'
>>> response.encoding
'utf-8'

笔者这里用古诗文网站简单测试一下：

scrapy shell https://www.gushiwen.cn/

对response采用xpath语句获取诗歌的标题：

>>> response.xpath('//div[@class="cont"]//b/text()')

4. Settings 配置补充

存放的是一些配置文件，可以在里面定义一些常量，方便其它模块调用，一般用大写字母来命名。

举个例子，settings.py文件的内容如下：

BOT_NAME = 'gsw'

SPIDER_MODULES = ['gsw.spiders']
NEWSPIDER_MODULE = 'gsw.spiders'
LOG_LEVEL = 'WARNING'
# 添加自定义变量
AUTHOR_NAME = 'Tangzr'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure a delay for requests for the same website (default: 0)
DOWNLOAD_DELAY = 1

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
     
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
}

# Configure item pipelines
ITEM_PIPELINES = {
     
   'gsw.pipelines.GswPipeline': 300,
}

在爬虫文件中引用该变量：

print('spider first method: ', AUTHOR_NAME)
print('spider second method: ', self.settings.get('AUTHOR_NAME'))

在管道中引用该变量：

print('pipline first method: ', AUTHOR_NAME)
print('pipline second method: ', spider.settings.get('AUTHOR_NAME'))

运行结果：

你可能感兴趣的:(python,爬虫)

python第一次作业
1.技术面试题（1）TCP与UDP的区别是什么？**答：1.TCP是面向连接的协议，而UDP是元连接的协议2.TCP协议传输是可靠的，而UDP协议的传输是“尽力而为3.TCP是可以实现流控，而UDP不行4.TCP可以实现分段，而UDP不行5.TCP的传输速率较慢，占用资源较大，UDP传输速率快，占用资源小。TCP/UDP的应用场景不同TCP适合可靠性高的效率要求低的，UDP可靠性低，效率高。（2）
python www_hhhhhhh python java 面试
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程：是操作系统进行资源分配的基本单位，拥有独立的地址空间、进程控制块，每个进程之间相互隔离。例如，打开一个终端窗口会启动一个bash进程。线程：是操作系统调度的基本单位，隶属于进程，共享进程的资源，但有独立的线程控制块和栈。线程切换开销远小于进程。例如，一个Web服务器的单个进程中，多个线程可同时处理不同客户
Python lambda表达式：匿名函数的适用场景与限制梦幻南瓜 python python 服务器 linux
目录1.Lambda表达式概述1.1Lambda表达式的基本语法1.2简单示例2.Lambda表达式的核心特点2.1匿名性2.2简洁性2.3即时性2.4函数式编程特性3.Lambda表达式的适用场景3.1作为高阶函数的参数3.2简单的数据转换3.3条件筛选3.4GUI编程中的回调函数3.5Pandas数据处理4.Lambda表达式的限制4.1只能包含单个表达式4.2没有语句4.3缺乏文档字符串4.
【python】 www_hhhhhhh python 面试职场和发展
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（传输控制协议）和UDP（用户数据报协议）是两种常见的传输层协议，主要区别在于连接方式和可靠性。TCP是面向连接的协议，传输数据前需建立连接，通过三次握手确保连接可靠，传输过程中有确认、重传和顺序控制机制，保证数据完整、按序到达，适用于网页浏览、文件传输等对可靠性要求高的场景。UDP是无连接的协议，无需建立连接即可发送数据，不保证数据可靠传
Python函数的返回值
1.返回值定义及案例：2.返回值与print的区别：print仅仅是打印在控制台，而return则是将return后面的部分作为返回值作为函数的输出，可以用变量接走，继续使用该返回值做其它事。3.保存函数的返回值如果一个函数return返回了一个数据，那么想要用这个数据，那么就需要保存.#定义函数defadd2num(a,b): returna+b#调用函数，顺便保存函数的返回值result=
python怎么把函数返回值_python函数怎么返回值
python函数使用return语句返回“返回值”，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。python函数使用return语句返回"返回值"，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。一个函数可以存在多条return语句，但只有一条
Python星球日记 - 第8天：函数基础 Code_流苏 Python星球日记 python 函数 def关键字函数参数返回值
引言：上一篇：Python星球日记-第7天：字典与集合名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、函数的定义与调用1.什么是函数？2.如何定义函数-`def`关键字3.函数调用方式二、参数与返回值1.函数参数类型2.如何传递参数3.返回值和`return`语句三、局部变量与全局变量1.变量作用域概念2.局部变
华为OD机试2025C卷 - 小明的幸运数 (C++ & Python & JAVA & JS & GO) 无限码力华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
小明的幸运数华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述小明在玩一个游戏，游戏规则如下：在游戏开始前，小明站在坐标轴原点处（坐标值为0）.给定一组指令和一个幸运数，每个指令都是一个整数，小明按照指令前进指定步数或者后退指定步数。前进代表朝坐标轴的正方向走，后退代表朝坐标轴的负方向走。幸运数为一个整数，如果某个
Python 函数返回值落花雨时 Python基础
#返回值，返回值就是函数执行以后返回的结果#可以通过return来指定函数的返回值#可以之间使用函数的返回值，也可以通过一个变量来接收函数的返回值defsum(*nums):#定义一个变量，来保存结果result=0#遍历元组，并将元组中的数进行累加forninnums:result+=nprint(result)#sum(123,456,789)#return后边跟什么值，函数就会返回什么值#r
存档python爬虫、Web学习资料
1python爬虫学习学习Python爬虫是个不错的选择，它能够帮你高效地获取网络数据。下面为你提供系统化的学习路径和建议：1.打好基础首先要掌握Python基础知识，这是学习爬虫的前提。比如：变量、数据类型、条件语句、循环等基础语法。列表、字典等常用数据结构的操作。函数、模块和包的使用方法。文件读写操作。推荐通过阅读《Python编程：从入门到实践》这本书或者在Codecademy、LeetCo
Python爬虫入门到实战（3）-对网页进行操作荼蘼爬虫
一.获取和操作网页元素1.获取网页中的指定元素tag_name()方法：获取元素名称。text()方法：获取元素文本内容。click()方法():点击此元素。submit()方法():提交表单。send_keys()方法：模拟输入信息。size()方法:获取元素的尺寸可进入selenium库文件夹下的webdriver\remote\webelement.py中查看更多的操作方法,2.在元素中输入
华为OD 机试 2025 B卷 - 周末爬山 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
周末爬山华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述周末小明准备去爬山锻炼，0代表平地，山的高度使用1到9来表示，小明每次爬山或下山高度只能相差k及k以内，每次只能上下左右一个方向上移动一格，小明从左上角(0,0)位置出发输入描述第一行输入mnk(空格分隔)。代表m*n的二维山地图，k为小明每次爬山或下山高度
Python,C++,Go开发芯片电路设计APP Geeker-2025 python c++golang
#芯片电路设计APP-Python/C++/Go综合开发方案##系统架构设计```mermaidgraphTDA[Web前端]-->B(Python设计界面)B-->C(GoAPI网关)C-->D[C++核心引擎]D-->E[硬件加速]F[数据库]-->CG[EDA工具链]-->DH[云服务]-->C```##技术栈分工|技术|应用领域|优势||------|----------|------||
红队测试-代理和中间人攻击工具小浪崇礼
BetterCAP-Modular,portableandeasilyextensibleMITMframework.Ettercap-Comprehensive,maturesuiteformachine-in-the-middleattacks.Habu-Pythonutilityimplementingavarietyofnetworkattacks,suchasARPpoisoning,D
pyside6使用1 窗体、信号和槽
一、概要由于作者前期很多年都在使用C++和Qt框架进行项目的开发工作，故可以熟练的使用Qt框架。Qt框架在界面设计以及跨平台运用方面，有着巨大的优势，而界面设计恰恰是python的短板，故使用pyside6实现python和Qt的互补。1.1pyside6安装更新pip工具：pipinstall--upgradepip命令行执行如下指令：pipinstallpyside6-ihttps://pyp
python-读写mysql(操作mysql数据库)
importpymysqlimportpandasaspdimporttimeonly_time=time.localtime(time.time())time_now=time.strftime('%Y-%m-%d%H:%M:%S',only_time)dt=time.strftime('%Y%m%d',only_time)t=time.time()tt=int(t)parentId=''sta
python读写mysql cavin_2017 Python 学习
目前用到的连接数据库，主要实现连个功能：1.根据sql查询2.将dataframe数据通过pandas包写入mysql数据库中1.根据sql查询：通常我们通过sql查询mysql中的表，分三步1.连接数据库2.数据查询3.关闭连接，如果需要查询的步骤较多，将查询封装成函数，通过参数传递sql代码会省事很多。##定义连接数据库函数defmy_db(host,user,passwd,db,sql,po
python+playwright 学习-91 cookies的获取保存删除相关操作上海-悠悠 playwright python
前言playwright可以获取浏览器缓存的cookie信息，可以将这些cookies信息保存到本地，还可以加载本地cookies。获取cookies相关操作在登录前和登录后分别打印cookies信息，对比查看是否获取成功。fromplaywright.sync_apiimportsync_playwrightwithsync_playwright()asp:browser=p.chromium.
Python——登录后获取cookie访问页面尖叫的太阳
importrequestsurl="https://kyfw.12306.cn/otn/view/index.html"#网址首页https://kyfw.12306.cn/otn/view/index.html的cookieheaders={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)','Cookie':'JSESSIONID=3330D
python request 获取cookies value值的方法 dianqianwei8752 python c/c++
importrequestsres=requests.get(url)cookies=requests.utils.dict_from_cookiejar(res.cookies)print(cookies[key])转载于:https://www.cnblogs.com/VseYoung/p/python_cookies.html
python连接达梦数据库方式 water bucket python 数据库 pandas
1、通过jaydebeapi调用jdbcimportpandasaspdimportjaydebeapiif__name__=='__main__':url='jdbc:dm://{IP}:{PORT}/{库名}'username='{username}'password='{password}'jclassname='dm.jdbc.driver.DmDriver'jarFile='{DmJdb
Python一次性批量下载网页内所有链接 Zhy_Tech python 前端开发语言
需要下载一个数据集，该数据集每一张图对应网页内一条链接，如下图所示。一开始尝试使用迅雷，但是迅雷一次性只能下载30条链接。采用Python成功实现一次性批量下载。importosimportrequestsfrombs4importBeautifulSoup#目标网页的URLurl="https://"#请将此处替换为实际的网页URL#指定下载文件的文件夹路径#使用原始字符串download_fo
初探贪心算法 -- 使用最少纸币组成指定金额是小V呀 C++贪心算法算法 c++python
python实现：#对于任意钱数，求最少张数n=int(input("money:"))#输入钱数bills=[100,50,20,10,5,2,1]#纸币面额种类total=0forbinbills:count=n//b#整除面额求用的纸币张数ifcount>0:print(f"{b}纸币张数{count}")n-=count*b#更新剩余金额total+=count#累加纸币数量print(f
【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
Python 虚拟环境完全指南 wsj__WSJ python python 开发语言
为何离不开虚拟环境？在Python开发领域，虚拟环境堪称管理项目依赖的不二利器，其重要性体现在多个关键层面：项目隔离独立运行环境构建：为每一个项目量身打造专属的Python运行环境，使各个项目之间相互隔离，互不干扰。化解依赖版本冲突：有效解决不同项目对同一依赖包的版本需求不一致的难题。例如，项目A基于Django3.2进行开发，而项目B需要Django4.0才能正常运作，通过虚拟环境，两者可并行不
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
Python 进阶学习之全栈开发学习路线 Microi风闲【胶水语言】Python python 学习开发语言
文章目录前言一、Python全栈开发技术栈1.前端技术选型2.后端框架选择3.数据库访问二、开发环境配置1.工具链推荐2.VSCode终极配置3.项目依赖管理三、现代Python工程实践1.项目结构规范2.自动化测试策略3.CI/CD流水线四、部署策略大全1.传统服务器部署2.容器化部署3.无服务器部署五、性能优化技巧1.数据库优化2.异步处理3.静态资源优化结语前言Python作为当今最流行的编
Pycharm下载链接 Aderic 杂陈
人生苦短，我用python3.4https://download.jetbrains.8686c.com/python/pycharm-community-2018.1.1.tar.gz后续更新可能就是后面版本号码稍微差异，mark！
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他