卖山楂啦prss

爬虫学习

爬虫知识学习笔记

文章目录

一、爬虫的分类
二、爬虫的准备工作
三、http协议
四、requests模块

1、使用步骤
2、requests get方法

response对象

例子1：获取百度产品页面
例子2：获取新浪新闻页面

分页如何实现？

例子3：爬取贴吧中前十页的内容保存到本地

3.requests post请求

例子4：破解百度翻译，做到可以查询任意单词效果

五、数据的分类

1、分类

（1）结构化数据：能用关系型数据库描述的数据
（2）半结构化数据：拥有字描述结构数据
（3）非结构化数据

2、json 数据

（1）json 与 js 关系
（2）json 数据的处理（重点）

六、cookie和session

1、什么是cookie和session？
2、cookie和session产生的原因：
3、cookie原理：
4、session原理：
5、常见误区：打开浏览器中的一个网页，浏览器关闭，这个网页的session会不会失效？
6、cookie的字段
7、会话cookie和持久cookie
8、用requests登录页面

例子5：人人网登录

七、代理使用方法

1、代理基本原理
2、代理的作用
3、在requests模块中如何设置代理

例子6：高德地图（获取所有城市的天气信息）

一、爬虫的分类

爬虫可以分为通用爬虫和聚焦爬虫

1、通用爬虫：就是将互联网上的数据整体爬取下来保存到本地的一个爬虫程序，是搜索引擎的重要组成部分。
（1）搜索引擎：就是运用特定的算法和策略，从服务器上获取页面信息，并将信息保存到本地为用户提供检索服务的系统。
（2）搜索引擎的工作步骤：

第一步：抓取网页
第二步：数据存储
第三步：预处理
提取文字
中文分词
消除噪音(比如版权声明文字、导航条、广告等……)
除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。
第四步：提供检索服务，网站排名

2、聚焦爬虫：在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

二、爬虫的准备工作

（1）robots协议
定义：网络爬虫排除标准
作用：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
写爬虫程序要规避robots协议即可。

（2）网站地图sitemap
sitemap 就是网站地图，它通过可视化的形式， 展示网站的主要结构。比如：列表页、分类页、tag页，以及内容页面。
网上有很多sitemap生成网站：https://help.bj.cn/

（3）估算网站的大小
可以使用搜索引擎来做，比如在百度中使用site：www.zhihu.com

三、http协议

http协议：超文本传输协议
作用：是一种收发html的【一种规范】。
http端口号：80

https : 安全版的http协议
https端口号：443

SSL（安全套接层）用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全。

数字签证

http协议的特点：
（1）应用层协议。（最顶层也是和用户交互的层。）
（2）无连接：http协议每次发送请求都是独立的。http 1.1以后有请求头：connection：keep_alive.
（3）无状态：http协议不记录状态，进而产生了两种记录http状态的技术：cookie 和 session。

url：统一资源定位符

主要作用：用来定位互联网上的任意资源的位置
url 组成：https://www.baidu.com/index.html?username=123&password=abc#top
（1）scheme：协议—https
（2）netloc : 网络地址：ip:port—www.baidu.com
　　　　通过ip定位电脑（网卡）
　　　　通过port定位应用。例如mysql（3306）、mogono
（3）path：资源路径
（4）query：请求参数：？后面的内容username=123&password=abc
（5）fragment：锚点----top
url 中特殊符号：
？：get请求的参数在？后面
& : get请求的多个参数用&连接
# : 锚点，用来定位到页面中任意位置----如果url中有锚点，在爬虫程序中尽量去除。
python中用来解析 url 的模块。

from urllib import parse
url = https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baidutop10&wd=python&oq=%25E7%25BA%25BD%25E7%25BA%25A6%25E5%25B7%259E%25E6%2596%25B0%25E5%25A2%259E7917%25E4%25BE%258B&rsv_pq=bf1978c40001323b&rsv_t=734dvlMHLeNpQvWiTURFFV%2BQ3xwarh7lmTJlBpNmlPeoioFYCukHcZwgQwbuDBaVvg&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_sug3=6&rsv_sug1=3&rsv_sug7=100&rsv_sug2=0&inputT=1193&rsv_sug4=1193
result = parse.urlparse(url)

print(result.scheme)
print(result.netloc)

http工作过程:
（1）地址解析
（2）封装HTTP请求数据包
（3）封装成TCP包，建立TCP连接（TCP的三次握手）
（4）客户机发送请求命令
（5）服务器响应
（6）服务器关闭TCP连接
客户端请求
（1）组成：请求行、请求头、空行、请求数据（实体）四个部分组成
请求行：协议，url，请求方法
请求头：主要的作用就是来限定这个请求的详细信息。
请求数据：post请求的数据是放到这里面的。
（2）重要请求头
user-agent：客户端标识（身份）
cookie:请求的状态信息
referer：表示产生请求的网页来源于哪里（防盗链）
accept：允许传入的文件类型
x-requested-with：ajax请求必须要封装的头
（3）请求方法：
get/post/put（推送——delete（删除）——trace（诊断）——options（性能）——connect（连接，预留字段）
get方法：get获取–从服务器获取资源–条件（请求参数）—请求参数是拼接到url里面的？后面–不安全（容易被别人获取：用户名和密码）—大小受限。
post方法：post传递–向服务器传递数据–请求数据是放在实体里面。----安全—大小不受限
服务器响应
（1）组成：状态行：状态码、消息报头、空行、响应正文（html）
（2）响应头
Content-Type: text/html;charset=utf-8：响应的类型
（3）状态码（状态码）
1xx：表示服务器成功接收部分请求，要求客户端继续提交其余请求才能完成整个处理过程。
2xx：表示服务器成功接收请求并已完成整个处理过程。常用200(OK 请求成功)。
3xx：为完成请求，客户需进一步细化请求。
4xx：客户端的请求有错误，常用404(服务器无法找到被请求的页面)、403(服务器拒绝访）
5xx：服务器端出现错误，常用500(请求未完成。服务器遇到不可预知的情况)。
当我们在客户端输入一个url，客户端是如何请求加载出整个页面的？
（1）客户端解析url，封装数据包，发送请求给服务器。
（2）服务器从请求中解析出客户端想要内容，比如 index.html，然后把该页面封装成响应数据包，发送给客户端。
（3）客户端检查该 index.html 中是否有静态资源需要继续请求，比如 js，css，图片，如果有继续请求获取静态资源。
（4）客户端按照html的语法结合静态资源将页面完美的显示出来。

四、requests模块

1、使用步骤

# 导包
import requests
# 确定待爬取的url
base_url = 'https://www.baidu.com/more/'
# 发送请求，获取响应
response = requests.get(base_url)
# 处理响应内容
print(response)

2、requests get方法

requests.get(
 　　　url=请求url，
　　　　headers =请求头字典，
　　　　params = 请求参数字典。
　　　　timeout = 超时时长，
　　　　)——>response对象

response对象

服务器响应包含：状态行（协议，状态码）、响应头，空行，响应正文
（1）响应正文：

字符串格式：response.text
bytes类型：response.content

例子1：获取百度产品页面

import requests
# 确定待爬取的url
base_url = 'https://www.baidu.com/more/'
# 发送请求，获取响应
response = requests.get(base_url)
# 处理响应内容
print(response.text) #会出现乱码

#乱码产生的原因：编码和解码的编码格式不一致造成的
#str.encode('编码')---将字符串按指定编码解码成bytes类型
#bytes.decode('编码')---将bytes类型按指定编码编码成字符串。

# 响应正文的乱码问题解决
#第一种方法
response_str = response.content.decode('utf-8')
print(response_str)

#第二种方法
print(response.encoding)   #ISO-8859-1
#如果response.text乱码了，可以先给response.encoding设置正确编码，在通过response.text就可以获取正确的页面内容。
response.encoding = 'utf-8'
response_str = response.text
print(response_str)


#保存
with open('index.html','w',encoding='utf-8') as fp:
    fp.write(response_str)

例子2：获取新浪新闻页面

问号之前的（包括问号）为基础url

请求头：user-agent

完整的 url ,问号之后的就是 params

import requests
'''
模仿网页中的搜索功能，可以查看任意搜索内容的页面进行保存
'''
def main(kw):
    # 1.确定待爬取的url
    base_url = 'https://search.sina.com.cn/?'
    # 2.发送请求，获取响应
        # 准备参数
    # 2.1 headers字典
    headers = {
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36',
        }
    # 2.2 params字典
    # 问号之后的
    params = {
        'range':'all',
        'c':'news',
        'q': kw,
        'from': 'home',
        'ie':'utf-8',
        }
    response = requests.get(base_url,headers=headers,params=params)    
    # print(response.encoding)    
    response_str = response.text    
    with open('sina_news6.html','w',encoding='GB18030') as fp:
        fp.write(response_str)
if __name__ == '__main__':
    kw = input("输入搜索关键词：")    
    main(kw)
    print()
    print("搜索完成！")

也可以使用parse拼接，url中出现中文，必须将中文用url编码进行转码才可以

import requests
# 用parse对 url 转码
from urllib import parse
'''
对于get请求，我们直接也可以将参数完全拼接到url里面，直接请求url
url中出现中文，必须将中文用url编码进行转码才可以.
'''
def main(kw):
    # 1、确定基础url
    base_url = 'https://search.sina.com.cn/?'
    # 2、发送请求，获取响应
    # 准备参数
    # 2.1 headers字典
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36',
    }
    # 2.2 params字典
    params = {
        'q': kw,
        'c': 'news',
        'from': 'channel',
        'ie': 'utf-8',
    }
    
    # 通过拼接url的形式来进行请求
    url_extend = parse.urlencode(params)
    # print(url_extend)

    # 完整的 url =  基础 url  + 转码后的params
    full_url = base_url+url_extend  
    
    response = requests.get(full_url,headers=headers)

    response_str = response.text
    
    with open('aaa.html','w',encoding='GB18030') as fp:
        fp.write(response_str)

if __name__ == '__main__':
    kw = input("输入搜索关键词：")    
    main(kw)
    print()
    print("搜索完成！")

（2）状态码：response.status_code
（3）响应头：response.headers

分页如何实现？

分页的请求的每一页url基本上都是通过get请求的一个请求参数决定的，所以分页主要是查看每页中，请求参数页码字段的变化，找到变化规律，用for循环就可以做到分页。

例子3：爬取贴吧中前十页的内容保存到本地

百度贴吧中第一页参数：pn=0
百度贴吧中第二页参数：pn=50
百度贴吧中第三页参数：pn=100
…

import requests
import os
def main():
    # 确定基础url
    base_url = 'http://tieba.baidu.com/f?'
    #准备参数
    headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36',
    }
    filename = './tieba/'+kw
    # 实现页面保存到每个贴吧名称对应的文件夹中。
    if not os.path.exists(filename):
        #不存在创建文件夹
        os.mkdir(filename)

    for i in range(10):
        # 页码值
        pn = i*50
        params = {
            'kw': kw,
            'ie': 'utf-8',
            'tab': 'corearea',
            'pn': pn,
        }
        # 发送请求，获取响应
        response = requests.get(base_url,headers= headers,params=params)
        with open(filename+'/'+str(i+1)+'.html','w',encoding='utf-8') as fp:
            fp.write(response.text)
if __name__ == '__main__':
    kw = '武汉'
    main()

3.requests post请求

post请求一般返回数据都是json数据。
post请求与get请求又相似的地方

response = requests.post(
			url = 请求url地址，
			headers = 请求头字典，
			data=请求数据字典，
			timeout=超时时长，
		)---response对象。

例子4：破解百度翻译，做到可以查询任意单词效果

url

headers字典中需要放入的

data

import requests
import json

# 1、确定基础url
base_url = 'https://fanyi.baidu.com/sug'
# 2、发送请求，获取响应
# 准备参数
# 2.1 headers字典
headers = {
    'content-length': '9',#POST请求数据的长度（字符的个数）
    'content-type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'referer': 'https://fanyi.baidu.com/',
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36',
    'x-requested-with': 'XMLHttpRequest'
}
# 2.2 data
data = {
    'kw': 'python'
}
response = requests.post(base_url, headers=headers, data=data)
# 得到返回的json数据
print(response.text)
# {"errno":0,"data":[{"k":"python","v":"n. \u87d2; \u86ba\u86c7;"},{"k":"pythons","v":"n. \u87d2; \u86ba\u86c7;  python\u7684\u590d\u6570;"}]}

json_data = json.loads(response.text)
print(json_data)
# {'errno': 0, 'data': [{'k': 'python', 'v': 'n. 蟒; 蚺蛇;'}, {'k': 'pythons', 'v': 'n. 蟒; 蚺蛇;  python的复数;'}]}

result = ''
for data in json_data['data']:
    result += data['v'] + '\n'
print(result)
# n. 蟒; 蚺蛇;
# n. 蟒; 蚺蛇;  python的复数;

封装为函数

import requests
import json
def main(kw):
    # 1、确定基础url
    base_url = 'https://fanyi.baidu.com/sug'

    data = {
        'kw': kw
    }
    
    data_len = len(str(data))
    
    headers = {
        'content-length': str(data_len),
        'content-type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'referer': 'https://fanyi.baidu.com/',
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36',
        'x-requested-with': 'XMLHttpRequest'
    }
    
    # 发送请求，获取响应
    response = requests.post(base_url, headers=headers, data=data)    # 得到返回的json数据
    # print(response.text)  
    json_data = json.loads(response.text)
    # print(json_data)
    result = ''
    for data in json_data['data']:
        result += data['v'] + '\n'
    return(result)
if __name__ == '__main__':
    kw = input("请输入要翻译的内容：")
    result = main(kw)
    print(result)

五、数据的分类

1、分类

（1）结构化数据：能用关系型数据库描述的数据

特点：数据以行为单位，一行数据表示一个实体的信息，每一行的数据的属性是相同的。
举例：关系数据库中存储的表
处理方法：sql—结构化查询语言—语言—可以在关系型数据库中对数据的操作。

（2）半结构化数据：拥有字描述结构数据

特点：包含相关标记，用来分隔语义元素以及对记录和字段进行分层----也别成为自描述结构
举例：html，xml，json。
处理方法：正则，xpath（xml，html）

（3）非结构化数据

特点：没有固定结构的数据。
举例：文档，图片，视频，音频等等，都是通过整体存储二进制格式来保存的。
如果下载视频，音频。
处理：

response = requests.get(url='视频的地址')

保存response.content即可，文件名称后要注意。

2、json 数据

json（JavaScript Object Notation，JS对象标记）

json是一种数据【交换】的格式。

（1）json 与 js 关系

json是Js对象的字符串表达式，他使用文本形式表示一个Js对象的信息，本质是一个字符串（用来保存对象=字典和数组=列表）

js中的对象：var obj = {name:'zhangsan',age:'10'}----在python中这个可以当成：字典
js中的数组：var arr = ['a','b','c','d']----在python中这个可以当成：list

（2）json 数据的处理（重点）

1. 使用json模块处理

json_str 表示 json数据
json.loads(json_str)--->变成--->python的list或者字典
json.dumps(python的list或者字典)--->变成--->json_str

2. requests模块
在requests模块中，response对象有个json方法，可以直接得到相应json字符串解析后的内容

response.json()--->变为--->python的list或者字典

import requests
import json

json_data = {'abc':'0','cc':[1,2,3,4,5]}
# json.dumps(python的list或者字典)--->变成--->json_str
json_str = json.dumps(json_data)
print(json_str)
print(type(json_str))

# {"abc": "0", "cc": [1, 2, 3, 4, 5]}
# 
# json数据本质是字符串
------------------------------------------------------

fp = open('豆瓣电影json.txt','r',encoding='utf-8')
json_str = fp.read()
# print(json_str)
# json.loads(json_str)--->变成--->python的list或者字典
json_data = json.loads(json_str)
#这里取大列表中第一个字典中键为title的值
print(json_data[0]['title'])

六、cookie和session

1、什么是cookie和session？

cookie是网站用来辨别用户身份，进行会话跟踪，存储在本地终端上的数据。

session（会话）指有始有终的一系列动作和消息。在web中，session主要用来在服务器端存储特定用户对象会话所需要的信息。

2、cookie和session产生的原因：

http协议是一个无状态协议，在特定操作的时候，需要保存信息，进而产生了cookie和session。

3、cookie原理：

由服务器来产生，浏览器第一次请求，服务器发送给客户端进而保存。
浏览器继续访问时，就会在请求头的cookie字段上附带cookie信息，这样服务器就可以识别是谁在访问了。
但是cookie存在缺陷：
1、不安全–本地保存，容易被篡改。
2、大小受限，本身最大4kb。

cookie虽然在一定程度上解决了‘保持状态’的需求，但是我们希望有一种新的技术可以克服cookie缺陷，这种技术就是session。

4、session原理：

session在服务器保存。----解决安全问题。

问题来了：服务器上的session，但是客户端请求发送过来，服务器如何知道session_a,session_b,到底和那个请求对应。

所以为了解决这个问题：cookie就作为这个桥梁。在cookie有一个sessionid字段，可以用来表示这个请求对应服务器中的哪一个session。

禁用cookie，一般情况下，session也无法使用。特殊情况下可以使用url重写技术来使用session。
url重写技术：将sessionid拼接到url里面。

session的生命周期：服务器创建开始，有效期结束（一般网站设定都是大约30分钟左右），就删除。

cookie和session 配合使用既解决安全问题，又解决大小受限问题

5、常见误区：打开浏览器中的一个网页，浏览器关闭，这个网页的session会不会失效？

不会，服务器到底删除不删除session，由session的生命周期。有效期结束，就会被删除。

6、cookie的字段

（1）Name ：该的名称。一旦创建，该名称便不可更改。

（2）value ：该cookie 的值。如果值为Unicode 字符，需要为字符编码。如果值为二进制数据，则需要使用BASE64 编码。

（3）Domain ：可以访问该cookle 的域名。例如，如果设置为.zhihu.com ，则所有以zhihu.com 结尾的域名都可以访问该cookie。

（4）MaxAge ：该cookie 失效的时间，单位为秒，也常和Expires一起使用，通过它可以计算出其有效时间。Max Age 如果为正数，则该cookie 在Max Age 秒之后失效。如果为负数，则关闭浏览器时cookie 即失效，浏览器也不会以任何形式保存该cookie 。

（5）Path ：该cookie 的使用路径。如果设置为/path/ ，则只有路径为/ path / 的页面可以访问该cookie 。如果设置为/ ，则本域名下的所有页面都可以访问该cookie

（6）Size 字段：此Cookie 的大小。

（7）HTTP 字段： cookie 的httponly 属性。若此属性为true ，则只有在HTTP 头中会带有此Cookie 的信息，而不能通过document.cookie 来访问此Cookie。

（8）Secure ：该cookie 是否仅被使用安全协议传输。安全协议有H TTP s 和SSL 等，在网络上传输数据之前先将数据加密。默认为false。

7、会话cookie和持久cookie

会话cookie:Max Age 为负数,则关闭浏览器时cookie 即失效，保存在内存中的cookie。
持久cookie：Max Age 如果为正数，则该cookie 在Max Age 秒之后失效。保存在硬盘上的cookie

持久化：将内存中数据持久化到硬盘上。其实就是数据保存到文件或者数据库中。

序列化：将对象持久化到硬盘中。

8、用requests登录页面

（1）将登录后的cookie封装到请求头字典中，这样就可以了。

例子5：人人网登录

用封装cookie的形式来登录

import requests
def login():
    # 确定基础url
    base_url = 'http://www.renren.com/974218040'

    # 准备参数

    headers = {
        'Cookie':'anonymid=k8xszu0s-5ik8xk; depovince=GW; _r01_=1; JSESSIONID=abcRZOfYkkmHK7rg8kXfx; ick_login=0d09651c-348b-49e2-b0e9-0ec7da7b9519; taihe_bi_sdk_uid=25abb1a4702d8272022665825c7541a9; taihe_bi_sdk_session=ee72f75a798f54e62d43c3ed5b61e08a; ick=2b261181-d2e4-4e59-8054-581a5854ad0a; t=72a375841ab0d1cf31d882427e80fe930; societyguester=72a375841ab0d1cf31d882427e80fe930; id=974218040; xnsid=8ed2ef70; XNESSESSIONID=f8db7fe06bf4; WebOnLineNotice_974218040=1; jebecookies=af052275-8990-44b5-99fb-439ae01d98d6|||||; ver=7.0; loginfrom=null; wp_fold=0',
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36',

    }
   # 发送请求，获取响应
    response = requests.get(base_url, headers=headers)
    if '小谭' in response.text:
        return True
    else:
        return False
    

if __name__ == '__main__':
    result = login()
    if result:
        print('登陆成功')
    else:
        print('登录失败！')

用requests模块的session对象，使用用户名和密码登录

import requests
'''
用requests模块的session对象，使用用户名和密码登录
'''
def login():
    #确定url
    #from 标签中action
    login_url = 'http://www.renren.com/PLogin.do'
    
    # 创建一个session（会话）对象：可以记录登录后的状态。
    session = requests.session()
    
    #用session对象来进行登录操作，这个对象就会记录登录的状态。
    
    #准备登录请求的参数
    data = {
        'email':'1********8',
        'password':'123456789',
    }
    
    #登录
    session.post(login_url,headers=headers,data=data)
    return session

if __name__ == '__main__':
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537',
    }
    
    session = login()
    index_url = 'http://www.renren.com/974218040'
    response = session.get(index_url,headers = headers)
    
    if '小谭' in response.text:
        print('登录成功！')
    else:
        print('登录失败！')

七、代理使用方法

1、代理基本原理

代理可以说是网络信息中转站（中间人）。实际上就是在本机和服务器之间架了一座桥。

2、代理的作用

（1）突破自身ip访问现实，可以访问一些平时访问不到网站。
（2）访问一些单位或者团体的资源。
（3）提高访问速度。代理的服务器主要作用就是中转，所以一般代理服务里面都是用内存来进行数据存储的。
（4）隐藏ip。

3、在requests模块中如何设置代理

proxies = {
　　　　'代理服务器的类型':'代理ip'
　　　　　　　　}
response = requests.get(proxies = proxies)

代理服务器的类型:http,https,ftp
代理ip:http://ip:port

例子6：高德地图（获取所有城市的天气信息）

下一步获取全国城市的adcode

发现并没有
可以先清空缓存，在重新请求刷新页面。

获取城市

获取天气

import requests

#获取城市以及对应的adcode
def get_city():
    
    #确定url
    base_url = 'https://www.amap.com/service/cityList?'
    # 发送请求
    response = requests.get(base_url,headers=headers)
    # print(response.text)  
    
    #解析json数据
    json_data = response.json()
    # print(json_data) 得到的json数据放到在线json解析网站中，方便分析结构
    
    #获取adcode
    #热门城市
    city_adcode = []
    for data in json_data['data']['cityData']['hotCitys']:
        city_adcode.append((data['adcode'],data['name']))
    #其他城市
    for data in json_data['data']['cityData']['otherCitys']:
        city_adcode.append((data['adcode'],data['name'])) 
    return city_adcode

def get_weather(adcode,city_name):
    '''
    获取城市天气
    Query String Parameters
    adcode:500000
    '''
    #基础url
    base_url = 'https://www.amap.com/service/weather?adcode={}'.format(adcode)
    response = requests.get(base_url, headers=headers)  #发送请求，获取响应
    json_data = response.json()  #获取json数据
    #通过得到的json数据，在在线解析网站中解析后，分析其结构，找到要获取的在哪一个字典或者列表列表
    #分层的取出来即可
    if json_data['data']['result']=='true':
        weather = json_data['data']['data'][0]['forecast_data'][0]['weather_name']  #当前天气
        #最大温度
        max_temp = json_data['data']['data'][0]['forecast_data'][0]['max_temp']
        #最小温度
        min_temp = json_data['data']['data'][0]['forecast_data'][0]['min_temp']
        # print(weather, max_temp, min_temp)
        dic = {}
        dic['城市'] = city_name
        dic['天气'] = weather
        dic['温度'] = '{}/{}℃'.format(min_temp,max_temp)
        print(dic)
        
        

def main():
    city_adcode = get_city()
    # print(city_adcode)
    #将每个城市的adcode传给get_weather
    #city_adcode有城市和adcode
    for i in city_adcode:
        adcode = i[0]
        city_name = i[1]
        get_weather(adcode,city_name)


    
if __name__ == '__main__': 
    
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537',
        'X-Requested-With': 'XMLHttpRequest',
    }
    main()

你可能感兴趣的:(Python)

FOKS-TROT: 一个高效、易用的全功能开源知识图谱生成工具柳旖岭
FOKS-TROT:一个高效、易用的全功能开源知识图谱生成工具项目简介FOKS-TROT是一个基于Python的全功能开源知识图谱生成工具，旨在帮助研究人员和开发者快速构建具有丰富信息的知识图谱。该项目由hkx3upper在GitCode上开发并维护。通过FOKS-TROT，您可以轻松地将各种数据源（如文本文件、数据库、API）转换为结构化的知识图谱，并对其进行可视化分析和机器学习任务。此外，该工
python实现word文档合并 v2.0 task138 python自动化 python 自动化运维开发
目录前言要求运行效果脚本下载链接前言之前发表了一个小工具，python用于合并word文档以完成特定的工作任务，现在领导给出了新需求，适当的调整了一下word文档的合并情况。同时，各位同事反馈说，环境部署太难了，脚本的使用成本比较高，难度大，所以我这次把脚本打包成一个EXE可执行文件，直接双击即可使用。要求由于脚本的具体逻辑发生了变化，因此，exe文件的同级目录下，一定要存在一个txt文件，否则无
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 安全 web安全网络网络安全 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 网络安全 web安全 linux 密码学 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
python 快速实现链接转 word 文档嘿嘿潶黑黑 python word
python快速实现链接转word文档演示代码展示最后演示代码展示fromnewspaperimportArticlefromdocximportDocumentfromdocx.sharedimportPt,RGBColorfromdocx.enum.styleimportWD_STYLE_TYPEfromdocx.oxml.nsimportqn#tkinterGUIimporttkintera
Python入门笔记「已注销」计算机
文章目录第0周课程导学第1周Python基本语法元素保留字数据类型语句与函数输入函数第2周Python基本图形绘制turtle库绝对坐标海龟坐标turtle角度坐标体系RGB色彩体系画笔控制函数运动控制函数方向控制函数循环语句第3周基本数据类型整型浮点数科学计数法复数类型数值运算操作符二元操作符有对应的增强赋值操作符数值运算函数字符串类型的表示字符串切片字符串类型及操作字符串类型格式化time库时
pythonxml模块高级用法_Python minidom模块用法示例【DOM写入和解析XML】 Lucy-露西娅 pythonxml模块高级用法
本文实例讲述了Pythonminidom模块用法。分享给大家供大家参考，具体如下：一、DOM写XML文件#-*-coding:utf-8-*-#!python3#导入minidomfromxml.domimportminidom#1.创建DOM树对象dom=minidom.Document()#2.创建根节点。每次都要用DOM对象来创建任何节点。root_node=dom.createElemen
React 渲染 Flash 接口数据 ox0080 #北漂+滴滴出行 VIP 激励 Web react.js 前端前端框架
1.后端Python代码使用Flask创建多个接口，每个接口返回不同的数据，并使用自定义装饰器来绑定路由。代码：#app.pyfromflaskimportFlask,jsonifyapp=Flask(__name__)defapi_route(route,methods=['GET']):"""自定义装饰器，用于将函数与HTTP路由绑定"""defdecorator(func):app.rout
LQB---基础练习---十六进制转八进制「已注销」 #LQB LQB
试题基础练习十六进制转八进制资源限制内存限制：512.0MBC/C++时间限制：1.0sJava时间限制：3.0sPython时间限制：5.0s问题描述给定n个十六进制正整数，输出它们对应的八进制数。输入格式输入的第一行为一个正整数n（1<=n<=10）。接下来n行，每行一个由09、大写字母AF组成的字符串，表示要转换的十六进制正整数，每个十六进制数长度不超过100000。输出格式输出n行，每行为
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！网安詹姆斯 web安全 CTF 网络安全大赛 python linux
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、S
机器学习·文本数据读写处理 AAA顶置摸鱼 python 深度学习机器学习人工智能数据处理
前言在自然语言处理的第一步，需要面对的是各种各样以不同形式表现的文本数据，比如，txt、Excel中的表格数据，还有无法直接打开的pkl文件等。针对这些不同类型的数据，可以基于Python中的基本功能函数或者调用某些库进行读写以及作一些基本的处理。一、文本数据读写方法1.读写TXT文件读取方法：read()：读取整个文件，返回字符串。readline()：逐行读取，返回字符串。readlines(
LQB（4）-python-DFS搜索 AAA顶置摸鱼蓝桥杯python组深度优先算法 python 蓝桥杯
前言DFS即深度优先搜索（Depth-FirstSearch），是一种用于遍历或搜索树或图的算法，有三种核心的应用场景（基础遍历、回溯、剪枝）。一、DFS-基础遍历1.核心原理深度优先搜索（DFS）是一种遍历或搜索树/图的算法，优先沿着一条路径尽可能深入，直到无法继续再回溯。实现方式：递归：隐式利用系统调用栈。栈模拟：显式使用栈数据结构。2.代码实现(1)递归实现（树结构）classTreeNod
Python中LLM的知识图谱构建：动态更新与推理二进制独立开发 GenAI与Python 非纯粹GenAI python 知识图谱开发语言自然语言处理人工智能分布式机器学习
文章目录引言1.知识图谱的基本概念1.1知识图谱的定义1.2知识图谱的构建流程2.利用LLM进行知识抽取2.1实体识别2.2关系抽取2.3属性抽取3.知识融合3.1实体对齐3.2冲突消解4.知识存储5.知识推理5.1规则推理5.2基于LLM的推理6.动态更新6.1增量更新6.2实时更新7.结论引言随着人工智能技术的飞速发展，知识图谱（KnowledgeGraph,KG）作为一种结构化的知识表示方法
Python's SQLAlchemy and Object-Relational Mapping zhanglizhuo Python
Acommontaskwhenprogramminganywebserviceistheconstructionofasoliddatabasebackend.Inthepast,programmerswouldwriterawSQLstatements,passthemtothedatabaseengineandparsethereturnedresultsasanormalarrayofrec
Jira，一个强大灵活的项目和任务管理工具 Python 库图灵学者 python精华 jira python 开发语言
目录01初识Jira为什么选择Jira？02安装与配置安装jira库配置Jira访问获取APItoken：配置Python环境：03基本操作创建项目创建任务查询任务更新任务删除任务04高级操作处理子任务搜索任务添加附件评论任务05实战案例自动化创建与分配任务自动生成项目报告06结语01初识JiraJira是Atlassian公司开发的一款项目和任务管理工具。它广泛应用于软件开发、IT支持、营销等各
使用LlamaIndex查询 MongoDB 数据库，并获取 OSS (对象存储服务) 上的 PDF 文件，最终用Langchain搭建应用朴拙Python交易猿数据库 mongodb pdf
使用LlamaIndex查询MongoDB数据库，并获取OSS(对象存储服务)上的PDF文件，然后利用Langchain搭建应用，涉及多个步骤。下面我们将详细介绍如何将这些步骤结合起来，构建一个系统：1.环境准备首先，确保你已经安装了以下Python库：pipinstallllama_indexpymongolangchainopenaiboto3pdfplumberpymongo：MongoDB
python 连接 jira 我就是我是好孩子啊 python jira 开发语言
Python连接到Jira实例、登录、查询、修改和创建bug首先，你需要安装jiraPython库pip3installjira连接到Jira并登录fromjiraimportJIRAfromjira.exceptionsimportJIRAError#Jira服务器地址，用户名和密码jira_server='https://your-jira-server.com'jira_user='your
python调用接口返回401,带有Python的Jira API在有效凭据上返回错误401 weixin_39743369 python调用接口返回401
IamtryingtousetheJirapythonlibrarytodosomequitebasicthings.Evenbeforedoinganything,theconstructorfails.address='https://myaddress.atlassian.net'options={'server':address}un='[email protected]'#un='my'#alsod
python邮件发送哪个好_(原创)python发送邮件加勒比考斯 python邮件发送哪个好
这段时间一直在学习flask框架，看到flask扩展中有一个mail插件，所以今天就给大家演示如果发邮件。首先我注册了一个163邮箱，需要开启smtp功能,(网易的电子邮件服务器)。注册好163邮箱，然后开启smtp功能，如下图所示:开启的过程中需要绑定手机。我最终实现的样子是这样的:使用flask搭建了一个web服务器，然后做了一个网页，将收件人，主题，正文填好之后，点击发送，上面会显示发送结果
如何用 python 获取实时的股票数据？_python efinance(2) 元点三 2024年程序员学习 python java linux
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
如何用 python 获取实时的股票数据？_python efinance，2024年最新pdf面试简历元点三 2024年程序员学习 python pdf 面试
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
python中enumerate()函数的用法 neu_张康
python中enumerate()函数的用法enumerate是翻译过来是枚举的意思，看下它的方法原型：enumerate(sequence,start=0)，返回一个枚举对象。sequence必须是序列或迭代器iterator，或者支持迭代的对象。enumerate()返回对象的每个元素都是一个元组，每个元组包括两个值，一个是计数，一个是sequence的值，计数是从start开始的，star
【python】懒人福利，通过Python的JIRA库操作JIRA，自动批量提交关闭bug，提高效率 bulabula2022 #CI持续集成 Python jira
简介：Jira是目前比较流行的基于Java架构的管理系统（Atlassian公司支持），有开源代码，方便做二次开发（可扩展性）。Jira是一款功能非常强大的管理工具，广泛的用来缺陷跟踪、用例管理、需求收集、任务跟踪、工时管理、项目计划管理等工作领域。python有支持操作Jira的第三方包，方便自定义一些自动化操作。需要安装jira库：pipinstalljiraJira认证fromjiraimp
使用Python获取在线股票交易网站的实时交易数据嵌入式开发项目 2025年爬虫精通专栏 python 开发语言爬虫
目录步骤1：选择股票交易网站步骤2：使用requests库发送HTTP请求步骤3：解析HTML内容步骤4：提取实时交易数据步骤5：存储和使用数据在金融市场中，实时交易数据对于投资者来说具有重要的价值。实时的股票价格、交易量和其他市场指标可以帮助投资者做出更准确的决策，同时也是进行金融分析和建模的重要数据源。在本篇博客中，我们将学习如何使用Python获取在线股票交易网站的实时交易数据。在开始之前，
【python】连接Jira获取token以及jira对象唐古乌梁海 python jira
此脚本可以连接Jira，通过Jira的token，Jira对象可以实现与Jira的交互，从而完成jira与pytest的交互，或者其他自动化测试框架也行，例如：将pytest运行结果推送jira；将jira用例与自动化测试用例建立映射关系，将功能用例对应的自动化测试用例脚本路径推送到功能用例的描述栏，或者自动化栏里面#!/usr/bin/envpython#-*-coding:utf-8-*-#@
Python 基础-循环赔罪 Python 系统学习 python windows 服务器
目录简介breakcontinue小结简介要计算1+2+3，我们可以直接写表达式：>>>1+2+36要计算1+2+3+...+10，勉强也能写出来。但是，要计算1+2+3+...+10000，直接写表达式就不可能了。为了让计算机能计算成千上万次的重复运算，我们就需要循环语句。Python的循环有两种，一种是for...in循环，依次把list或tuple中的每个元素迭代出来，看例子：names=[
【FastAPI 】FastAPI 模板：提供静态文件 iFakeCoder Flask fastapi python 开发语言
FastAPI是一个现代、快速（高性能）的Web框架，用于基于标准Python类型提示使用Python3.7+构建API。虽然它的主要用例是构建API，但FastAPI还可以轻松提供静态文件和HTML模板，从而让您可以构建全栈Web应用程序。在此博客中，我们将探讨如何使用FastAPI提供静态文件。我们将介绍基础知识并提供演示以帮助您入门。为什么要提供静态文件？静态文件是不经常更改的资产，并按原样
深度学习在医疗影像分析中的革命性应用 Echo_Wish 人工智能前沿技术深度学习人工智能
深度学习在医疗影像分析中的革命性应用引言医疗影像分析是现代医学中不可或缺的一部分，特别是在疾病诊断和治疗过程中发挥了至关重要的作用。随着深度学习技术的发展，医疗影像分析的效率和准确性得到了显著提升。本文将探讨如何利用深度学习技术，特别是Python编程语言，来优化医疗影像分析，展示具体的代码实例，并举例说明其实际应用效果。深度学习与医疗影像分析深度学习（DeepLearning）是一种基于人工神经
DeepSeek使用中的问题及解决方案（部分） WeiLai1112 DeepSeek 人工智能
1.模型部署与配置问题问题1：环境依赖冲突现象：安装模型依赖库时出现版本不兼容（如Python、PyTorch版本冲突）。解决方案：使用虚拟环境（如conda或venv）隔离依赖。严格按照官方文档的版本要求安装依赖，例如：condacreate-ndeepseekpython=3.9condaactivatedeepseekpipinstalltorch==2.0.1transformers==4
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟