Python爬虫入门教程01之爬取豆瓣Top电影

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理

基本开发环境

Python 3.6
Pycharm

爬虫基本思路

一、明确需求

爬取豆瓣Top250排行电影信息

电影名字
导演、主演
年份、国家、类型
评分、评价人数
电影简介

二、发送请求

Python中的大量开源的模块使得编码变的特别简单，我们写爬虫第一个要了解的模块就是requests。

请求url地址，使用get请求，添加headers请求头，模拟浏览器请求，网页会给你返回response对象

# 模拟浏览器发送请求
import requests
url = 'https://movie.douban.com/top250'
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response)

200是状态码，表示请求成功

2xx （成功）
3xx （重定向）
4xx（请求错误）
5xx（服务器错误）

常见状态码

200 - 服务器成功返回网页，客户端请求已成功。
302 - 对象临时移动。服务器目前从不同位置的网页响应请求，但请求者应继续使用原有位置来进行以后的请求。
304 - 属于重定向。自上次请求后，请求的网页未修改过。服务器返回此响应时，不会返回网页内容。
401 - 未授权。请求要求身份验证。对于需要登录的网页，服务器可能返回此响应。
404 - 未找到。服务器找不到请求的网页。
503 （服务不可用）服务器目前无法使用（由于超载或停机维护）。

通常，这只是暂时状态。

三、获取数据

import requests
url = 'https://movie.douban.com/top250'
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response.text)

requests.get(url=url, headers=headers) 请求网页返回的是response对象

response.text： 获取网页文本数据

response.json： 获取网页json数据

这两个是用的最多的，当然还有其他的

apparent_encoding cookies  	history
iter_lines  ok						close   
elapsed  is_permanent_redirect 	json   
raise_for_status	 connection  	encoding  
is_redirect  links   	raw   
content  headers  	iter_content  
next   reason					url

四、解析数据

常用解析数据方法：正则表达式、css选择器、xpath、lxml…

常用解析模块：bs4、parsel…

我们使用的是 parsel 无论是在之前的文章，还是说之后的爬虫系列文章，我都会使用 parsel 这个解析库，无它就是觉得它比bs4香。

parsel 是第三方模块，pip install parsel 安装即可

parsel 可以使用 css、xpath、re解析方法

所有的电影信息都包含在 li 标签当中。

# 把 response.text 文本数据转换成 selector 对象
selector = parsel.Selector(response.text)
# 获取所有li标签
lis = selector.css('.grid_view li')
# 遍历出每个li标签内容
for li in lis:
 # 获取电影标题 hd 类属性 下面的 a 标签下面的 第一个span标签里面的文本数据 get()输出形式是 字符串获取一个 getall() 输出形式是列表获取所有
 title = li.css('.hd a span:nth-child(1)::text').get() # get()输出形式是 字符串
 movie_list = li.css('.bd p:nth-child(1)::text').getall() # getall() 输出形式是列表
 star = movie_list[0].strip().replace('\xa0\xa0\xa0', '').replace('/...', '')
 movie_info = movie_list[1].strip().split('\xa0/\xa0') # ['1994', '美国', '犯罪 剧情']
 movie_time = movie_info[0] # 电影上映时间
 movie_country = movie_info[1] # 哪个国家的电影
 movie_type = movie_info[2] # 什么类型的电影
 rating_num = li.css('.rating_num::text').get() # 电影评分
 people = li.css('.star span:nth-child(4)::text').get() # 评价人数
 summary = li.css('.inq::text').get() # 一句话概述
 dit = {
 '电影名字': title,
 '参演人员': star,
 '上映时间': movie_time,
 '拍摄国家': movie_country,
 '电影类型': movie_type,
 '电影评分': rating_num,
 '评价人数': people,
 '电影概述': summary,
 }
 # pprint 格式化输出模块
 pprint.pprint(dit)

以上的知识点使用到了

parsel 解析模块的方法
for 循环
css 选择器
字典的创建
列表取值
字符串的方法：分割、替换等
pprint 格式化输出模块

所以扎实基础是很有必要的。不然你连代码都不知道为什么要这样写。

五、保存数据（数据持久化）

常用的保存数据方法 with open

像豆瓣电影信息这样的数据，保存到Excel表格里面会更好。

所以需要使用到 csv 模块

# csv模块保存数据到Excel
f = open('豆瓣电影数据.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['电影名字', '参演人员', '上映时间', '拍摄国家', '电影类型',
      '电影评分', '评价人数', '电影概述'])

csv_writer.writeheader() # 写入表头

这就是爬取了数据保存到本地了。这只是一页的数据，爬取数据肯定不只是爬取一页数据。想要实现多页数据爬取，就要分析网页数据的url地址变化规律。

可以清楚看到每页url地址是 25 递增的，使用for循环实现翻页操作

for page in range(0, 251, 25):
 url = f'https://movie.douban.com/top250?start={page}&filter='

完整实现代码

""""""
import pprint
import requests
import parsel
import csv
'''
1、明确需求:
 爬取豆瓣Top250排行电影信息
 电影名字
 导演、主演
 年份、国家、类型
 评分、评价人数
 电影简介
'''
# csv模块保存数据到Excel
f = open('豆瓣电影数据.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['电影名字', '参演人员', '上映时间', '拍摄国家', '电影类型',
      '电影评分', '评价人数', '电影概述'])

csv_writer.writeheader() # 写入表头

# 模拟浏览器发送请求
for page in range(0, 251, 25):
 url = f'https://movie.douban.com/top250?start={page}&filter='
 headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
 }
 response = requests.get(url=url, headers=headers)
 # 把 response.text 文本数据转换成 selector 对象
 selector = parsel.Selector(response.text)
 # 获取所有li标签
 lis = selector.css('.grid_view li')
 # 遍历出每个li标签内容
 for li in lis:
 # 获取电影标题 hd 类属性 下面的 a 标签下面的 第一个span标签里面的文本数据 get()输出形式是 字符串获取一个 getall() 输出形式是列表获取所有
 title = li.css('.hd a span:nth-child(1)::text').get() # get()输出形式是 字符串
 movie_list = li.css('.bd p:nth-child(1)::text').getall() # getall() 输出形式是列表
 star = movie_list[0].strip().replace('\xa0\xa0\xa0', '').replace('/...', '')
 movie_info = movie_list[1].strip().split('\xa0/\xa0') # ['1994', '美国', '犯罪 剧情']
 movie_time = movie_info[0] # 电影上映时间
 movie_country = movie_info[1] # 哪个国家的电影
 movie_type = movie_info[2] # 什么类型的电影
 rating_num = li.css('.rating_num::text').get() # 电影评分
 people = li.css('.star span:nth-child(4)::text').get() # 评价人数
 summary = li.css('.inq::text').get() # 一句话概述
 dit = {
  '电影名字': title,
  '参演人员': star,
  '上映时间': movie_time,
  '拍摄国家': movie_country,
  '电影类型': movie_type,
  '电影评分': rating_num,
  '评价人数': people,
  '电影概述': summary,
 }
 pprint.pprint(dit)
 csv_writer.writerow(dit)

实现效果

到此这篇关于Python爬虫入门教程01之爬取豆瓣Top电影的文章就介绍到这了,更多相关Python爬取豆瓣Top电影内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

spring boot源码解析之SpringApplication启动流程 crayon-shin-chan #spring-boot surprise spring java spring boot linux python
1.启动入口我们一般的启动SpringBoot应用方式为：@SpringBootApplicationpublicclassMyApplication{publicstaticvoidmain(String[]args){SpringApplication.run(MyApplication.class,args);}}这里使用静态方法启动，传入参数为启动类、命令行参数实际此处使用的是以下方法：p
传输层协议UDP/TCP中的那些端口村中少年网络攻防协议实战分析 tcp udp tcp/ip
本节将介绍一些端口的一些知识点，作为我的专栏《计算机网络协议快速入门教程》中的一节。前面的文章对于UDP以及TCP协议做了较为详尽的阐述，其中端口作为传输层的地址能够有效的标识应用程序。其实不仅仅是UDP协议，对于TCP协议也会使用端口作为应用程序通信的表示。端口概念不难理解，但是对于端口约定俗成的使用方式，在服务端以及客户端的使用上存在着一定的差异，本节将详细的阐述。端口范围无论在UDP协议还是
学习记录：OpenMV 摄像头的一个简单示例，主要实现了对摄像头的基本设置和图像采集，并计算和显示采集图像的帧率。 DIY机器人工房 openmv学习笔记学习 opencv python
代码解释：整体功能：此代码是使用OpenMV摄像头的一个简单示例，主要实现了对摄像头的基本设置和图像采集，并计算和显示采集图像的帧率。首先，对摄像头进行初始化，包括重置、设置像素格式和帧大小，并等待设置生效。然后创建一个时间对象用于计算帧率。最后在一个无限循环中不断采集图像并打印出每秒采集的帧数。#此作品遵循MIT许可证授权。#版权所有(c)2013-2023OpenMVLLC。保留所有权利。#h
WordPress Hunk Companion插件节点逻辑缺陷导致Rce漏洞复现（CVE-2024-9707）（附脚本） iSee857 漏洞复现安全 web安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：WordPressHunkCompanion是一款专为ThemeHunk开发的WordPress主题设计的插件，旨在增强主题功能并提
十六进制文本码流转pcap(text2pcap) wang.wenchao css 前端
HextoPCAPConverterbody{font-family:Arial,sans-serif;margin:0;padding:0;padding-top:0;min-height:100vh;background:rgb(251,250,250);display:flex;justify-content:center;align-items:flex-start;}.container
OpenCompass评测大模型辣条少年人工智能
OpenCompass简介上海人工智能实验室科学家团队于2024.01.30正式发布了大模型开源开放评测体系“司南”(OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。OpenCompass平台广泛支持超过100种HuggingFace和API模型，融合了100多个数据集，包含约40万个问题，用以从八个维度评估模型。其高效的分布式评估系统能够快速且全面地评估十亿级规
搭建k8s集群 zhen24 kubernetes 容器云原生
一、准备工作（所有节点）在开始部署之前，我们需要对所有节点进行以下准备工作。1.1、关闭防火墙#关闭防火墙systemctlstopfirewalld#禁止防火墙开机自启systemctldisablefirewalld1.2、关闭SELinux#永久关闭SELinuxsed-i's/enforcing/disabled/'/etc/selinux/config#重启系统使更改生效reboot#临
hvie SQL优化之where子句过滤模式三生暮雨渡瀟瀟 hive调优 hive
本篇文章来源于《Hive性能调优实现》。在HiveSQL里面经常用到的过滤方法就是使用where子句，例如：explainselect*fromstudent_tb_seqwheres_age=19ands_namelike'%红%'ands_scorein(100,50,22);where子句在执行计划中以filter操作表示，代码如下：STAGEPLANS:Stage:Stage-1MapRe
Presto 时间、日期及计算相关日期三生暮雨渡瀟瀟 presto big data presto
由于工作中在数据迁移，大数据平台数据查询引擎使用Presto，和传统的数据库时间函数有区别，整理一版，供大家参考，一起学习，有错误欢迎指正。1、查询当前日期selectcurrent_date;2、查询当前时间selectcurrent_timestamp;_col0---------------------------------------2022-01-0220:45:58.551Asia/
世界人口钟实时数据_全球人口将达80亿 2019年世界人口总数统计数据一曲歌长安世界人口钟实时数据
近日，德国全球人口基金会发布统计数据：至2019年底，全球人口总数将达77.5亿，至2023年全球人口将达80亿。联合国人口预期报告估算称，2050年世界一半人口将聚集在印度及非洲等国，2027年印度人口或超中国(中国人口数量全国总人口各省人口排名)。联合国经济和社会事务部在纽约总部发布了2019年《世界人口展望》报告。根据报告，全球人口预计在未来30年将再增加20亿人，从2019年的77亿增加至
wps2019数据分析加载项_《07版office办公软件中的excle中，为什么在加载项里选择了分析工具库，数据分析还是显示不出来？》 wps数据分析加载项... 孙伟莲 wps2019数据分析加载项
如何利用excle做数据分析excel完全可以解决！可以通过数据透视表，筛选出你的各种需求，但是要求操作要熟练，没办法在这里描述清楚的07版office办公软件中的excle中，为什么在加载项里选择了分析工具库，数据分析还是显示不出来？当你有某一个表格需要导出数据时，点击页面上方的输出，出现一个另存为的对话框，先选择保存的位置，然后输入文件名，在保存类型中选excel点保存！这样你的表格就在你的存
wps2019数据分析加载项_wps单因素分析数据 wps2019单因素方差分析战斗力旺盛的伯爵 wps2019数据分析加载项
请问wpsexcel如何进行单因素方差分析？在“数据”选项下的“分析”“分析工具”中，选择“方差分析-单因素方差分析”，并进行相应的设置，即可。在WPS里面excel算显著性差异应该找哪里？1、如图，比较两组数据之间的差异性。2、首先需要为Excel添加分析工具的加载项插件，点击office按钮-excel选项-加载项-转到-勾选分析工具库。3、接下来需要选择数据区域，数据-分析-数据分析；选择单
wps2019数据分析加载项_wpsexcel数据分析工具在哪里延静斋孙 wps2019数据分析加载项
WPS中Excel表格的功能非常强大，不仅仅能够统计数据，而且还可以分析数据，这也是我们处理大量数据的最快捷的方法，感兴趣的小伙伴可以来看看哦。WPS中如何将表格中的数据在表格中以柱状图显示运用条件格式中数据条即可达到效果如何调出wps的excel“数据”中“数据透视表和数据透视图”选项？1，选中图标，注意图表要，然后点击“插入”--“数据透视表”。2，选择数据区域，点击“确定”。3，然后把字段拖
代码随想录算法训练营day28（0121） Lazy.land 算法
1.买卖股票的最佳时机II想到思路其实代码非常简单，其实也跟之前做的那一题摆动序列有一点关联，只不过更加地简单这题的代码，思路很巧妙！题目122.买卖股票的最佳时机II给你一个整数数组prices，其中prices[i]表示某支股票第i天的价格。在每一天，你可以决定是否购买和/或出售股票。你在任何时候最多只能持有一股股票。你也可以先购买，然后在同一天出售。返回你能获得的最大利润。示例1：输入：pr
RocketMQ源码之消息刷盘分析小虾米 ~ RocketMQ rocketmq
前言刷盘是将内存中的消息写入磁盘，分为同步刷盘和异步刷盘。同步刷盘指一条消息写入磁盘才返回成功，异步刷盘指写入内存就返回成功，稍后异步线程刷盘。在创建CommitLog对象的时候，会初始化刷盘服务：//代码位置：org.apache.rocketmq.store.CommitLogpublicCommitLog(finalDefaultMessageStoredefaultMessageStore
无人设备遥控器之指令加密篇 SKYDROID云卓小助手人工智能网络计算机视觉目标检测嵌入式硬件
一、加密背景与必要性随着无人机技术的飞速发展，无人机在军事、民用等领域的应用日益广泛。然而，无人机遥控指令的传输过程中存在着被截获、分析、伪造和篡改的风险，这对无人机的安全飞行构成了严重威胁。因此，对遥控指令进行加密处理，以提高其安全性和可靠性，显得尤为重要。二、加密方法与技术序列密码加密：采用一次一密的序列密码加密方案，确保每次传输的遥控指令都是唯一的，从而大大增加了截获者破解的难度。结合加解密
Python 最最最使用的动态规划入门教程 + 10道经典例题我是阿核 Python 动态规划算法 python leetcode
不多废话，直接开讲动态规划三大步骤动态规划是一种将问题分解为若干个子问题，并存储这些子问题的解（通常使用数组或矩阵等数据结构），以便在后续计算中重复使用，从而避免了重复计算，提高了算法的效率。需要注意的是，动态规划并非一种特定的算法，而是一种解决问题的思想和方法。在实际应用中，需要根据具体问题的特点来设计合适的动态规划算法。动态规划的根本在于用已知项的求出未知项，并再次调用已经求出的未知项来解决更
LeetCode100之搜索旋转排序数组(33)--Java xiao--xin Leetcode 算法 leetcode 数据结构 java 二分查找
1.问题描述整数数组nums按升序排列，数组中的值互不相同。在传递给函数之前，nums在预先未知的某个下标k（0nums[nums.length-1]&&targetnums[nums.length-1]){left=mid+1;continue;}......}如果我们已经完全在我们确定的二分查找范围之内了，就按照正常的二分判断进行查找即可。while(leftnums[nums.length-
MarsCode算法题之简单四则运算解析器 xiao--xin 豆包MarsCode算法题 java 开发语言 MarsCode 算法数据结构
1.问题描述小F面临一个编程挑战：实现一个基本的计算器来计算简单的字符串表达式的值。该字符串表达式有效，并可能包含数字（0-9）、运算符+、-及括号()。注意，字符串中不包含空格。除法运算应只保留整数结果。请实现一个解析器计算这些表达式的值，且不使用任何内置的eval函数。示例1输入：expression="1+1"输出：2示例2输入：expression="3+4*5/(3+2)"输出：7示例3
LeetCode100之找到字符串中所有字母异位词(438)--Java xiao--xin Leetcode java 算法数据结构 hash leetcode
1.问题描述给定两个字符串s和p，找到s中所有p的异位词的子串，返回这些子串的起始索引。不考虑答案输出的顺序。示例1输入:s="cbaebabacd",p="abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的异位词。起始索引等于6的子串是"bac",它是"abc"的异位词。示例2输入:s="abab",p="ab"输出:[0,1,2]解释:起始索引等于0的子串是"ab
选课（贪心） pta wzx_Eleven 算法
小明是个好学的程序猿，他想在一天内尽可能多的选择课程进行学习。在下列课程中，他能选择的最多课程是几门？输入格式:第一行为一个整数n，表示课程总数。接下来每行为x，y，z表示课程名，开始时间，结束时间。输出格式:输出一个整数，表示小明最多可选的课程数。输入样例:5Art910English9.310.3Math1011Computer10.311.3Music1112输出样例:在这里给出相应的输出。
随机数程序兢兢业业的打野单片机嵌入式硬件
#include"rng.h"#include"delay.h"u8RNG_Init(void){u16retry=0;RCC->AHB2ENR=1CR|=1SR&0X01)==0&&retry=10000)return1;//随机数产生器工作不正常return0;}//得到随机数//返回值:获取到的随机数u32RNG_Get_RandomNum(void){while((RNG->SR&0X01
数据管理之数据存储剑客狼心数据库管理员数据库数据挖掘
一、数据存储如何操作1.1数据存储与操作的目标：1）在整个数据生命周期中管理数据的可用性：说白了就是数据保存了，别人需要用的时候能找到。2）确保数据资产的完整性：录入的数据不能乱，比如年龄录成负数这种错误。数据被修改时必须有规则，不能随便乱改。3）管理数据交易事务的性能：意思是当系统对数据进行操作（比如存、取、改、删）时，要保证这些操作能快速完成，不卡顿、不失败。简单总结：第一条是保证数据“随时能
笔记：qt窗体界面激活显示在最前 Czx.¹²³ qt 开发语言
1、利用Qt带有显示窗口在最前的方式this->setWindowFlags(pMainForm->windowFlags()&~Qt::WindowStaysOnTopHint);this->showNormal();该代码会导致该窗体霸道的总是在最前，无法切换到诸如浏览器等其他应用，不能取消“总在最前”的状态。2、如下代码即可解决以上问题，将窗口显示到最前的效果，且无其他副作用：if(this
编写五子棋的完整python代码_Python 大作业之五子棋游戏(附代码) weixin_39656513
Python大作业——五子棋游戏姓名：吴欣学号：姓名：张雨清学号：一游戏介绍：我们设计的是五子棋游戏，支持两人一个鼠标对下，黑方用左键单击，白方用右键单击，谁先下均可，落子无悔，下过的棋子对方点击后不会变色，程序可自行判断输赢并在五子连珠时弹出结果对话框，游戏双方需遵守不在空地点击和一次下一子的规则。二游戏代码设计：代码均为原创，没有借鉴和抄袭，首先是用户GUI界面设计，点击start进入游戏界面
Elasticsearch Date类型使用技巧 weixin_30886233 大数据 json java
elasticsearch原生支持date类型。这里简单记录下使用的方法。使用date类型可以用如下两种方式：使用毫秒的时间戳，直接将毫秒值传入即可。传入格式化的字符串，默认是ISO8601标准，例如2015-02-27T00:07Z(零时区)、2015-02-27T08:07+08:00(东八区),这两个时间实际是同一个，只是时区不同。另外还可以自定义时间格式，参见es的文档。但个人不建议使用自
Multisim的2.8.x的实验报告 weibangwen123 笔记 fpga开发
视频链接:视频太长，分成两个。https://v.youku.com/v_show/id_XNTkxNjQ5NDA5Ng==.html?x&sharefrom=android&sharekey=d65d67ad2de5017146fc3cd3db4585644https://v.youku.com/v_show/id_XNTkxNjQ4NzY4MA==.html?x&sharefrom=andro
蓝桥杯day5刷题日记-分巧克力-天干地支-求和 _yukinoshita_yukino 蓝桥杯蓝桥杯算法数据结构刷题笔记
P8647[蓝桥杯2017省AB]分巧克力思路：二分查找#includeusingnamespacestd;intn,k;inth[100010],w[100010];boolcheck(intx){intsum=0;for(inti=0;i=k)returntrue;}returnfalse;}intmain(){cin>>n>>k;for(inti=0;i>h[i]>>w[i];}intl=1
JNI Android Bitmap 和 cv::Mat 互相转换安卓手机运行Opencv动态库或普通c++函数配置指南 chezabo6116 android
JNIAndroidBitmap和cv::Mat互相转换https://blog.csdn.net/tyfwin/article/details/140714946安卓手机运行Opencv动态库或普通c++函数配置指南https://blog.csdn.net/snjs000111/article/details/135067493
创建非模态对话框后，点击主窗口无发置顶的解决方法 afreetboy VS2012
创建非模态对话框就不用说了，主要问题在于这一行：m_testdlg->Create(IDD_DIALOG1,this);将this改为GetDesktopWindow()，即可实现子窗口和父窗口点击置顶MFC设置对话框窗口位于所有窗口的最顶层SetWindowPos(&wndTopMost,0,0,0,0,SWP_NOSIZE|SWP_NOMOVE);切换置顶时候，需要把之前置顶的改为&wndBo
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他