45度看我

python 数据分析之 HTML文件解析

一：Html
- 1. Html 理解
- 2. Html 介绍
- 3. Html 构成
- 4. HTML结构介绍
- - 1> HTML文件结构
  - - A: 文档类型声明
    - B: 根标签
    - C: 头部 -head 元素
    - D: title 标签
    - E: meta 标签
    - F: 主体-body 标签
  - 2> 各部分详解
  - - A: 标题
    - B: 段落
    - C: 链接
    - D: 图像
    - E: 表格
  - 3> 列表速查
  - - A: 基本文档
    - B: 基本标签
    - C: 文本格式化
    - D: 链接
    - E: 图片
    - F: 样式/区块
    - G: 列表
    - H: 定义列表
    - I: 表格
    - J: 框架
    - K: 实体
    - M: 文本修饰
  - 5> HTML语法基本规则
  - 6> Htlm特点
二: python 对Html 文件分析
- 1. BeautifulSoup
- 2. BeautifulSoup应用
- - 1> 常用参数
  - 2> 遍历文档树
  - 3> 文档的搜索
  - 4> BeautifulSoup解析器
  - 5> BeautifulSoup 高阶
  - - A： find_all 参数举例
三：urllib.requests
- 1. urllib库的作用-解析网页
- 2. urllib子模块
- 3. 使用流程
- 4. urllib.request 发送请求
- - 1> demo
  - 2> 函数
- 5. urllib.request.urlopen()
- - 1> data
  - 2> timeout
  - 3> Request
  - - 1. Request 详解
    - 2. 传入多个参数构建一个 Request
  - 6. urllib.request高级特性
  - - 1> urllib.request.BaseHandler
  - 2> Cookie设置
四： python 数据分析之 xlsxwriter文件解析

一：Html

1. Html 理解

HTML 是用来描述网页的一种语言。HTML 是一种在 Web 上使用的通用标记语言。HTML 允许你格式化文本，添加图片，创建链接、输入表单、框架和表格等等，并可将之存为文本文件，浏览器即可读取和显示。

HTML 指的是超文本标记语言: HyperText Markup Language
HTML 不是一种编程语言，而是一种标记语言
标记语言是一套标记标签 (markup tag)
HTML 使用标记标签来描述网页
HTML 文档包含了HTML 标签及文本内容
HTML文档也叫做 web 页面

2. Html 介绍

HTML：是 Hypertext Marked Language，即超文本标记语言，是一种用来制作超文本文档的简单标记语言；
HTTP超文本传输协议规定了浏览器在运行 HTML 文档时所遵循的规则和进行的操作。HTTP协议的制定使浏览器在运行超文本时有了统一的规则和标准。
HTML文件本质上是文本文件，而普通的文本文件只能显示字符。但是HTML技术则通过HTML标签把其他网页、图片、音频、视频等各种多媒体资源引入到当前网页中，让网页有了非常丰富的呈现方式，这就是超文本的含义——本身是文本，但是呈现出来的最终效果超越了文本。

3. Html 构成

html开发，本质上就是编写一个.html格式的文档，最终通过浏览器执行该文档，一个html文档中包含三部分:HTML部分、HTML部分、JS部分

Html组成	含义
HTML部分	HTML：hyper text markup language；hyper text：超文本，是指写在html文档中，并在网络上传输的文字、图片、视频、音频；markup language：标记语言。所谓标记：就是指由一对尖括号扩起来，当中具有特定英文单词的标识。标记的其他叫法：标签元素 element。
CSS部分	CSS：cascading style sheet 层叠样式表；用来对文档中的标签设置样式，从而改变超文本在浏览器上的渲染效果
JS部分	JS：javaScript；运行在浏览器端的脚本语言。平时我们看到网页，除了可以看以外，还可以处理一些用户的交互行为，例如：鼠标的点击，键盘的控制等等。这些功能需要通过JS来完成

html文档中只有两种类型的标记

html文档标记类型	含义
单标记	不能存放内容，多是一些功能性的标记
双标记	有开始有结束，主要功能是存放内容，可以是超文本，也可以是其他标记

4. HTML结构介绍

1> HTML文件结构

A: 文档类型声明

写在html文档的第一行是文档中唯一个非标签字符，起文档说明作用，用来告知浏览器，当前文档是一个支持html5标准的文档，不可省略，其中最重要的就是当前HTML文档遵循的语法标准。

HTML4版本的文档类型声明是：

HTML5版本的文档类型声明是：

B: 根标签

html标签是整个文档的根标签，所有其他标签都必须放在html标签里面。上面的文档类型不能当做普通标签看待。该标签包含两个子标签：head 和 body

C: 头部 -head 元素

head标签用于定义文档的头部，其他头部元素都放在head标签里。头部元素包括title标签、script标签、style标签、link标签、meta标签等等。

D: title 标签

作用：设置文档的标题或者名称。浏览器通常将该标签的内容显示在窗口顶部或者标签页上。每个 HTML 文档只能有一个，必须有一个 title 标签。

E: meta 标签

声明字符的编码格式为 utf-8

F: 主体-body 标签

body标签定义网页的主体内容，在浏览器窗口内显示的内容都定义到body标签内;也就是我们的主要内容（比如文本、超链接、图像、表格和列表等）
E: 注释
描述当前代码功能，代码信息、编写日期、作者、维护日期、维护者

HTML注释的写法是：

F: demo





Html test


 
我的第一个标题
我的第一个段落。
 


===================================
 声明为 HTML5 文档
 元素是 HTML 页面的根元素
 元素包含了文档的元（meta）数据，如  定义网页编码格式为 utf-8（由于在大部分浏览器中直接输出中文会出现乱码，所以要在头部将字符声明为UTF-8）
 元素描述了文档的标题
<body> 元素包含了可见的页面内容
<h1> 元素定义一个大标题
<p> 元素定义一个段落

</code></pre> 
  <h3>2> 各部分详解</h3> 
  <h4>A: 标题</h4> 
  <p>HTML 标题（Heading）是通过<h1> - <h6> 标签来定义的</p> 
  <pre><code><!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>Html test


 
我的第一个标题
我的第二个标题
我的第三个标题

B: 段落

HTML 段落是通过标签

来定义的





Html test


 
这是一个段落。
这是一个段落。
这是一个段落。

C: 链接

HTML 链接是通过标签来定义的


 
这是一个链接使用了 href 属性

D: 图像

HTML 图像是通过标签来定义的。注意：图像的名称和尺寸是以属性的形式提供的。

E: 表格

表格由

标签来定义。每个表格均有若干行（由标签定义），每行被分割为若干单元格（由

标签定义）。字母 td 指表格数据（table data），即数据单元格的内容。数据单元格可以包含文本、图片、列表、段落、表单、水平线、表格等等。表格的表头使用

标签进行定义。如果不定义边框属性，表格将不显示边框。有时这很有用，但是大多数时候，我们希望显示边框。使用边框属性来显示一个带有边框的表格：


    
        Header 1
        Header 2
    
    
        row 1, cell 1
        row 1, cell 2
    
    
        row 2, cell 1
        row 2, cell 2

3> 列表速查

A: 基本文档




文档标题


可见文本...

B: 基本标签

h1-h6 块元素独立成行行间距
属性：
align
对齐方式 left center right

color
不存在如果需要设置样式要嵌套font标签

最大的标题
 . . . 
 . . . 
 . . . 
 . . . 
 我是标题1
 
这是一个段落。

 （换行）
 （水平线）

C: 文本格式化

粗体文本
计算机代码
强调文本
斜体文本
键盘输入 
预格式化文本
更小的文本
重要的文本
 
 （缩写）
 （联系信息）
 （文字方向）
 （从另一个源引用的部分）
 （工作的名称）
 （删除的文本）
 （插入的文本）
_{（下标文本）
^{（上标文本）}}

D: 链接

普通的链接：链接文本
图像链接： 
邮件链接： 发送e-mail
书签：
提示部分
跳到提示部分

E: 图片

F: 样式/区块


文档中的块级元素
文档中的内联元素

G: 列表

无序列表


    项目
    项目

有序列表


    第一项
    第二项

H: 定义列表


  项目 1
    描述项目 1
  项目 2
    描述项目 2

I: 表格

``
    
  









 
表格标题
    表格标题
  
  
    表格数据
    表格数据

J: 框架

K: 实体

< 等同于 <
> 等同于 >
© 等同于 ©

M: 文本修饰

font 行内标签
属性：
size
字体大小最大值是7

color
颜色值颜色单词 red green blue 颜色的RGB rgb(0,0,255)
十六进制表示 #0000ff

face
字体族黑体楷体宋体华文彩云必须浏览器支持




    
    Title



     主题内容。
    我还是主体内容

5> HTML语法基本规则

序列	规则内容
1	根标签有且只能有一个
2	标签可以嵌套但不能交叉嵌套
3	注释不能嵌套
4	属性必须有值，值必须加引号，单引号或双引号均可
5	标签名不区分大小写但建议使用小写

6> Htlm特点

序列	内容
1	使用是一对一对的标签组成;双标签可以嵌套其他标签
2	标签之间可以相互嵌套，但是不可以交叉嵌套;;;
3	使用属性去区分标签不同; ;

二: python 对Html 文件分析

1. BeautifulSoup

在使用BeautiSoup对其进行解析，解析的时候要使用相应类型的解析器html.parser

from bs4 import BeautifulSoup

file = open(r'C:/Users/CHH_PC/Desktop/test.html','rb')
html = file.read()
bs = BeautifulSoup(html,'html.parser')

BeautifulSoup 将复杂的HTML文档转换成一个复杂的树形结构，每个结点都是一个Python对象，所有对象可以分为四种：

对象	含义
Tag	标签及其内容：拿到它所找到的第一个内容；
NavigableString	这个内容就是NavigableString（标签里的内容，string）
BeautifulSoup	表示对整个文档的访问
Comment	是一个特殊的NavigableString，输出内容不包括注释符号

2. BeautifulSoup应用

1> 常用参数

用法	解释
bs.title	Tag 标签及其内容：拿到它所找到的第一个内容
bs.title.string	只获得标签的内容，不要标签
bs.a.attrs	快速拿到标签里面的所有属性
bs.NavigableString	NavigableString用.string获取标签内部的文字。
bs…head	获取head标签的所有内容
bs.head.contents	head文档的遍历
bs.body.contents	body文档的遍历
bs.body.contents[1]	body中第一个文档的遍历；content可遍历的内容有很多，获取Tag所有的子节点，返回一个list;contents[1] 用列表索引获取它的某一个元素
bs…prettify()	获取HTML的缩进格式
bs…title	获取title标签的所有内容
bs.title.name	获取title标签的名称
bs.title.string	获取title的文本内容
bs.div	获取第一个div标签中的所有内容
bs.div[‘id’]	获取第一个div标签的id的值
bs.a	获取第一个a标签中的所有内容
bs.find_all(‘a’)	获取所有的a标签中的所有内容

2> 遍历文档树

其他参数	demo
children	for child in bs.body.contents[9].children: print(child);hildren 获取 Tag 所有的子节点，返回一个生成器
.descsndants	获取 Tag 所有的子孙节点
.strings	如果Tag包含多个字符串，即在子孙节点中，可以用此获取，再进行遍历；
.striped_strings	与strings 用法一致，清除多余的空白字符串；for child in bs.body.contents[9].stripped_strings: print(child)
.parent	获取Tag 父节点
.parents	递归得到父辈元素的所有节点，返回一个生成器；
.previous_sibling	获取当前Tag上一个节点，属性通常是字符串或者空白，真实结果其实是当前标签与上一个标签之间的顿号与换行符；
.next_sibling	获取当前Tag下一个节点，属性通常是字符串或者空白，真实结果其实是当前标签与下一个标签之间的顿号与换行符;
.previous_siblings	获取当前Tag上面所有的兄弟节点，返回一个生成器；
.next_siblings	获取当前Tag下面所有的兄弟节点，返回一个生成器；
.previous_element	获取解析过程中上一个被解析的对象，可能与previous_sibling相同，但通常都不同，
.next_element	获取解析过程中下一个被解析的对象，可能与previous_sibling相同，但通常都不同；
.previous_elements	返回一个生成器，可以向前访问文档的解析内容；
.next_elements	返回一个生成器，可以向后访问文档的解析内容；

3> 文档的搜索

参数	含义
find_all()	divs_bs = bs.find_all(‘div’) print(divs_bs)找到所有的列标签，统一放到divs_bs ;也可以编译一个find_all(re.compile(‘a’)）对象，然后find_all其中的内容
kwargs（参数）	divs_bs = bs.find_all( id=“wp”)或者 divs_bs = bs.find_all(‘div’, id=“wp”) 再进行遍历
text	divs_bs = bs.find_all( text=“请输入搜索内容”);其他属性divs_bs = bs.find_all( value=“请输入搜索内容”)
limit	divs_bs = bs.find_all(‘div’, limit=1) print(divs_bs);输出一个div信息

css选择器	含义
titlehead\body	divs_bs = bs.select(‘title’) 通过title查询；
#	divs_bs = bs.select(“#toptb”) 加# 通过ID查找
.	divs_bs = bs.select(“.pg_index”) 加 . 通过类名查找
head > title	divs_bs = bs.select(‘head > title’) 通过子标签查询；
a	ivs_bs = bs.select(“a[class=‘sister’]”) 按照属性查找

4> BeautifulSoup解析器

解析器	语法	优势	劣势
Python标准库	BeautifulSoup(html, ‘html.parser’)	Python的内置标准、执行速度适中、文档容错能力强	Python2.7.3及Python3.2.2之前的版本文档容错能力差
lxml HTML解析库	BeautifulSoup(html, ‘lxml’)	速度快、文档容错能力强	需要安装C语言库
lxml XML解析库	BeautifulSoup(html, ‘xml’)	速度快、唯一支持XML的解析器	速度快、唯一支持XML的解析器
html5lib解析库	BeautifulSoup(html, ‘html5lib’)	最好的容错性、以浏览器的方式解析文档，生成HTMLS格式的文档	速度慢、不依赖外部扩展

例如：
soup = BeautifulSoup(html, ‘lxml’)创建对象
soup = BeautifulSoup(open(‘test.html’),‘lxml’)读取HTML文件

5> BeautifulSoup 高阶

A： find_all 参数举例

举例	含义
soup.find_all(‘a’)	查找与字符串完整匹配的内容，用于查找文档中所有的标签
soup.find_all(re.compile(‘^b’))	传入正则表达式，BeautifulSoup会通过正则表达式的match()来匹配内容。返回所有表示和标签。
soup.find_all([‘p’,‘a’])	传入列表参数，BeautifulSoup会与列表中任一元素匹配的内容返回。返回所有的和标签
soup.find_all(text=re.compile(‘^b’))	匹配正则表达式
soup.find_all(传方法)	soup.find_all(test_def);def test_def: return tag.has_attr(“class”) 此处传参方法，判断标签是否含有class信息

三：urllib.requests

1. urllib库的作用-解析网页

作用：urllib 模块是一个高级的 web 交流库，其核心功能就是模仿web浏览器等客户端，去请求相应的资源，并返回一个类文件对象。可以使用代码模拟浏览器发起请求
urllib 是python3 的内置库，urllib库最大的作用就是可以去设定相关的头部信息然后和网站建立请求连接，请求连接建立完成后就能够去获取到网页的整体数据，这也是python爬虫脚本实现的核心

2. urllib子模块

urllib模块包括：urllib.request, urllib.error, urllib.parse,urllib.robotparser

子模块	解释
urllib.request	请求模块-可以用来发送request和获取request的结果
urllib.error	异常处理模块-包含了urllib.request产生的异常
urllib.parse	url解析模块-用来解析和处理URL
urllib.robotparser	robots.txt解析模块-用来解析页面的robots.txt文件

模拟请求使用的最主要的库便是urllib.request，异常处理用urllib.error库

3. 使用流程

序列	步骤
1	指定url
2	发起请求：针对指定的url发起一个请求
3	获取页面数据：获取服务器响应回来的页面数据
4	持久化存储

4. urllib.request 发送请求

urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理 authenticaton （授权验证）， redirections （重定向)， cookies (浏览器Cookies）以及其它内容
demo

1> demo

import urllib.request
response = urllib.request.urlopen("https://www.baidu.com")
print(response)
====================

返回一个一个 HTTPResposne 类型的对象，它包含方法有 read() 、 readinto() 、getheader(name) 、 getheaders() 、 fileno() 等函数和 msg 、 version 、 status 、 reason 、 debuglevel 、 closed 等属性，所以可以通过response 调用这些方法和属性

2> 函数

函数	含义
response.status	返回结果的状态码，如200代表请求成功，404代表网页未找到等
response.getheaders()	返回list 格式head 信息
response.getheader(“Server”)	查询具体信息
response.read()	读取返回信息

5. urllib.request.urlopen()

def urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,
            *, cafile=None, capath=None, cadefault=False, context=None)

属性	理解
data	参数是可选的；如果要添加 data ，它要是字节流编码格式的内容，即 bytes 类型，通过 bytes() 函数可以进行转化，另外如果你传递了这个 data 参数，它的请求方式就不再是 GET 方式请求，而是 POST
timeout	timeout 参数可以设置超时时间，单位为秒，意思就是如果请求超出了设置的这个时间还没有得到响应，就会抛出异常，如果不指定，就会使用全局默认时间。它支持 HTTP 、 HTTPS 、 FTP 请求
cafile 和 capath	两个参数是指定CA证书和它的路径，这个在请求 HTTPS 链接时会有用
cadefault	参数现在已经弃用了，默认为 False

1> data

import urllib.parse
import urllib.request
data = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding=
'utf8')
response = urllib.request.urlopen('http://httpbin.org/post', data=data)
print(response.read().decode()) # 把bety转换为字典形式数据
========================
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "word": "hello"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "10", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.7", 
    "X-Amzn-Trace-Id": "Root=1-63f61236-4616d33d219931e3332ba8b5"
  }, 
  "json": null, 
  "origin": "117.143.152.208", 
  "url": "http://httpbin.org/post"
}

POST 请求:
这里我们传递了一个参数 word ，值是 hello 。它需要被转码成 bytes （字节流）类型。其中转字节流采用了 bytes() 方法；
第一个参数需要是 str (字符串)类型，需要用 urllib.parse.urlencode() 方法来将参数字典转化为字符串。
第二个参数指定编码格式，在这里指定为 utf8

2> timeout

import urllib.request
response = urllib.request.urlopen("https://www.baidu.com/?tn=65081411_1_oem_dg",timeout=1)
print(response.read().decode())

设置了超时时间是1秒，程序1秒过后服务器依然没有响应，于是抛出了 urllib.error.URLError: 异常，错误原因是 timed out;因此我们可以通过设置这个超时时间来控制一个网页如果长时间未响应就跳过它的抓取，利用 try,except 语句就可以实现这样的操作

import urllib.request
import  socket
import urllib.error
try:
    response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error.URLError as e:
    if  isinstance(e.reason, socket.timeout):
            print("Time out!")

3> Request

1. Request 详解

import urllib.request
request = urllib.request.Request("https://www.baidu.com")
response = urllib.request.urlopen(request)
print(response.read().decode("utf-8"))

依然是用 urlopen() 方法来发送这个请求，只不过这次 urlopen() 方法的参数不再是一个URL，而是一个 Request ，通过构造这个这个数据结构，一方面我们可以将请求独立成一个对象，另一方面可配置参数更加
丰富和灵活

def __init__(self, url, data=None, headers={},
                 origin_req_host=None, unverifiable=False,
                 method=None):

参数	含义
url	参数是请求链接，这个是必传参数，其他的都是可选参数
data	参数如果要传必须传 bytes （字节流）类型的，如果是一个字典，可以先用 urllib.parse.urlencode() 编码。
headers	参数是一个字典，你可以在构造 Request 时通过 headers 参数传递，也可以通过调用 Request 对象的 add_header() 方法来添加请求头。请求头最常用的用法就是通过修改 User-Agent 来伪装浏览器，默认的 User-Agent 是 Python-urllib ，你可以通过修改它来伪装浏览器，比如要伪装火狐浏览器，你可以把它设置为 Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11
origin_req_host	指的是请求方的 host 名称或者 IP 地址
unverifiable	指的是这个请求是否是无法验证的，默认是 False 。意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个HTML文档中的图片，但是我们没有自动抓取图像的权限，这时 unverifiable 的值就是 True
method	是一个字符串，它用来指示请求使用的方法，比如 GET ， POST ， PUT 等等

2. 传入多个参数构建一个 Request

通过四个参数构造了一个 Request ， url 即请求链接，在 headers 中指定了 User-Agent 和 Host ，传递的参数 data 用了 urlencode() 和 bytes() 方法来转成字节流，另外指定了请求方式为 POST

from urllib import request,parse
url = "http://httpbin.org/post"
headers = {
    #伪装一个火狐浏览器
    "User-Agent":'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
    "host":'httpbin.org'
}
dict = {
    "name":"Germey"
}
data = bytes(parse.urlencode(dict),encoding="utf8")
req = request.Request(url=url,data=data,headers=headers,method="POST")
response = request.urlopen(req)
print(response.read().decode("utf-8"))
==========================

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "Germey"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "11", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)", 
    "X-Amzn-Trace-Id": "Root=1-63f61795-1ff741e6101a79d9442e056c"
  }, 
  "json": null, 
  "origin": "117.143.152.208", 
  "url": "http://httpbin.org/post"
}


Process finished with exit code 0

headers 也可以用 add_header() 方法来添加。

req = request.Request(url=url, data=data, method=‘POST’)
req.add_header(‘User-Agent’, ‘Mozilla/4.0 (compatible; MSIE 5.5;Windows NT)’)

如此一来，我们就可以更加方便地构造一个 Request ，实现请求的发送

6. urllib.request高级特性

虽然可以构造 Request ，但是一些更高级的操作，比如 Cookies 处理，代理该怎样来设置？需要更强大的工具 Handler ;
简而言之你可以把它理解为各种处理器，有专门处理登录验证的，有处理 Cookies 的，有处理代理设置的，利用它们我们几乎可以做到任何 HTTP 请求中所有的事情

1> urllib.request.BaseHandler

它是所有其他 Handler 的父类，它提供了最基本的 Handler 的方法，例
如 default_open() 、 protocol_request() 等

BaseHandler 子类	含义
HTTPDefaultErrorHandler	用于处理HTTP响应错误，错误都会抛出 HTTPError 类型的异常
HTTPRedirectHandler	用于处理重定向
HTTPCookieProcessor	用于处理 Cookie
ProxyHandler	用于设置代理，默认代理为空
HTTPPasswordMgr	用于管理密码，它维护了用户名密码的表
HTTPBasicAuthHandler	用于管理认证，如果一个链接打开时需要认证，那么可以用它来解决认证问题

实例代码1

import urllib.request
auth_handler = urllib.request.HTTPBasicAuthHandler()
auth_handler.add_password(realm='PDQ Application',
                          uri='https://mahler:8092/site-updates.py',
                          user='klem',
                          passwd='kadidd!ehopper')
opener = urllib.request.build_opener(auth_handler)
urllib.request.install_opener(opener)
urllib.request.urlopen('http://www.example.com/login.html'
=============================
说明 Handler 和 Opener 的使用方法。在这里，首先实例化了一个 HTTPBasicAuthHandler 对象，利用 add_password() 添加进去用户名和密码，相当于建立了一个处理认证的处理器；接下来利用 urllib.request.build_opener() 方法来利用这个处理器构建一个 Opener ，那么这个 Opener 在发送请求的时候就具备了认证功能了。接下来利用 Opener 的 open() 方法打开链接，就可以完成认证了

实例代码2
代理

import urllib.request
proxy_handler = urllib.request.ProxyHandler({
'http': 'http://218.202.111.10:80',
'https': 'https://180.250.163.34:8888'
})
opener = urllib.request.build_opener(proxy_handler)
response = opener.open('https://www.baidu.com')
print(response.read())
=============================
用于说明代理的设置方法，代理可能已经失效。

在这里使用了 ProxyHandler ， ProxyHandler 的参数是一个字典，key是协议类型，比如 http 还是 https 等，value是代理链接，可以添加多个代理。
然后利用 build_opener() 方法利用这个 Handler 构造一个 Opener ，然后发送请求即可

2> Cookie设置

获取网站的 Cookie

import http.cookiejar, urllib.request
cookie = http.cookiejar.CookieJar() 或则cookie = http.cookiejar.LWPCookieJar(filename)# LWPCookieJar ，同样可以读取和保存 Cookie ，但是保存的格式和 MozillaCookieJar 的不一样，它会保存成与libwww-perl的Set-Cookie3文件格式的 Cookie
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
for item in cookie:
   print(item.name+"="+item.value)
========================
打印
BAIDUID=8D12919D30F39DFDD8FC36AC5F965BD4:FG=1
BIDUPSID=8D12919D30F39DFDD1ED7D576F0628B2
H_PS_PSSID=36561_38129_37906_37861_38264_38173_38289_38243_38034_38263_37928_38285_26350_22157_37881
PSTM=1678009542
BDSVRTM=0
BD_HOME=1
===============================================
首先必须声明一个 CookieJar 对象，接下来我们就需要利用 HTTPCookieProcessor 来构建一个 handler ，最后利用 build_opener 方法构建出 opener ，执行 open() 即可

Cookie 实际也是以文本形式保存

filename = 'cookie.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)
===================
这时的 CookieJar 就需要换成 MozillaCookieJar ，生成文件时需要用到它，它是 CookieJar 的子类，可以用来处理 Cookie 和文件相关的事件，读取和保存 Cookie ，它可以将 Cookie 保存成 Mozilla 型的格式；运行之后可以发现生成了一个 cookie.txt 文件

从文件读取并利用Cookie 信息

cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
print(response.read().decode('utf-8'))
===========================
利用上面的方式生成了 LWPCookieJar 格式的 Cookie ，然后利用 load() 方法，传入文件名称，后面同样的方法构建 handler 和 opener 即可

四： python 数据分析之 xlsxwriter文件解析

python 数据分析之 xlsxwriter文件解析
https://blog.csdn.net/weixin_42914706/article/details/129116587

你可能感兴趣的:(python,数据分析,html,python,数据分析)

大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
Conda 常用命令全解析 melck conda
在Windows系统中，Conda是一款功能强大的包管理和环境管理工具，尤其对于数据分析、科学计算等场景有着重要的作用。本文将详细介绍Conda在Windows系统中的常用命令，帮助你高效地管理虚拟环境和软件包。一、环境管理命令1.1查看Conda版本conda--version该命令用于确认Conda是否成功安装以及查看其版本号。这对于确保Conda的兼容性和功能性非常重要。1.2创建新环境co
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
【vue】Mammoth.js的使用：将.docx转换成HTML 暴富暴富暴富啦啦啦 1024程序员节
mammoth.convertToHtml(input,options）：把源文档转换为HTML文档mammoth.convertToMarkdown(input,options)：把源文档转换为Markdown文档。mammoth.extractRawText(input)：提取文档的原始文本。这将忽略文档中的所有格式。每个段落后跟两个换行符。npminstallelement-uimammot
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
单细胞轨迹分析-monocle包的使用探序基因 r语言
探序基因肿瘤研究院整理安装：monocle源码下载：https://www.bioconductor.org/packages/release/bioc/html/monocle.htmlR版本，4.2.0BiocManager::install("monocle")不过在安装过程中还是报错了：Warning:无法在https://bioconductor.org/packages/3.15/bi
TCP 握手数据包分析 inquisiter tcp/ip 网络 linux
一、客户端数据分析：spu@spu:~/code/pcap$tcpdump-rclient_all.pcap-Xreadingfromfileclient_all.pcap,link-typeEN10MB(Ethernet)17:58:56.346748IP192.168.1.178.55814>192.168.1.117.socks:Flags[S],seq2615205588,win64240
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
前端导出word文件—包含canvas(echarts图表) Liuer_Qin js canvas echarts echarts 前端 javascript
一、使用的插件html-docx-js二、整体思路因为canvas是运行在内存中的，所以不能简单的通过dom获取canvas图片，需要手动的先将canvas转为image。三、实现先克隆要下载的DOM的副本。因为canvas是运行在内存中的，所以也不能通过cloneNode方法克隆下来（克隆下来是空的）。我们这里将原DOM中的canvas转成图片，然后插入到副本的对应位置，这样操作不会影响原DOM
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
2025年2月9日（数据分析_2） Mason Lin Python学习数据分析数据挖掘
散点图frommatplotlibimportpyplotaspltfrommatplotlibimportfont_manager#字体相关#字体font_path=r"C:\Windows\Fonts\msyh.ttc"my_font=font_manager.FontProperties(fname=font_path)x=list(range(31))x2=list(range(31,62
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
动态蛇形卷积（DySnakeConv）在YOLOv8检测头中的应用与优化-分割性能的提升【YOLOv8】步入烟尘 YOLO 动态蛇形卷积 DySnakeConv
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录动态蛇形卷积（DySnakeConv）在YOLOv8检测头中的应用与优化-分割性能的提升【YOLOv
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
毕业论文如何降低AIGC率？ kexiaoya2013 AIGC 论文笔记论文阅读
在Deepseek爆火的当下，AI生成内容已经渗透到各个领域，包括论文写作。如果你的论文使用了AI工具辅助写作，那么，如何降低AIGC率呢？一、控制使用比例将AI工具用于辅助性任务，如文献检索、语法检查、词汇替换等，而非核心内容的生成。论文的研究方法、数据分析、结论等核心部分应尽量手动完成。完全依赖AI生成论文会导致AI率过高，而将AI用于辅助性任务则能有效降低AI率。二、采用不同模型不同AI模型
微信支付-扫码支付全流程自娱自乐22 thinkphp php 微信扫码支付
微信支付官方文档：`https://pay.weixin.qq.com/wiki/doc/api/index.html`微信支付分为2种模式：【模式一】：商户后台系统根据微信支付规则链接生成二维码，链接中带固定参数productid（可定义为产品标识或订单号）。用户扫码后，微信支付系统将productid和用户唯一标识(openid)回调商户后台系统(需要设置支付回调URL)，商户后台系统根据pr
mac+php5.3的docker-compose.yml分享自娱自乐22 docker
version:'3'services:nginx:image:nginx:latestcontainer_name:nginx-composevolumes:-./wwwroot:/usr/share/nginx/html:rw-./nginx/nginx/:/etc/nginx/:rw-./log/nginx:/var/log/nginx:rwrestart:alwayslinks:-phpp
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

python 数据分析之 HTML文件解析