无敌路路帅气

Python零基础速成班-第12讲-Python获取网络数据Socket，API接口，网络爬虫Crawler(制作弹幕词云)

学习目标

获取网络数据Socket
API接口
网络爬虫Crawler(制作弹幕词云)
课后作业（2必做）

友情提示：将下文中代码拷贝到JupyterNotebook中直接执行即可，部分代码需要连续执行。

1、Python获取网络数据

了解通过Python完成Socket通信的简单实例。

Socket定义：

Socket又称"套接字"，应用程序通常通过"套接字"向网络发出请求或者应答网络请求，使主机间或者一台计算机上的进程间可以通讯。
Socket 是对 TCP/IP 协议族的一种封装，是应用层与TCP/IP协议族通信的中间软件抽象层。
Socket把复杂的TCP/IP协议族隐藏在Socket接口后面，对用户来说，一组简单的接口就是全部，让Socket去组织数据，以符合指定的协议。

Socket获取网络数据的四个步骤：

创建Socket
连接服务器
发送数据
关闭连接

1.1 创建Socket

socket.socket函数的前两个参数的默认值是socket.AF_INET和socket.SOCK_STREAM，创建TCP socket时可以直接写成socket.socket()。

import socket
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

1.2 连接服务器

注意没有前缀http或https

s.connect(('www.baidu.com', 80))

1.3 发送数据

发送数据有两个方法send和sendall

send() 发送TCP数据，返回发送的字节大小。这个字节长度可能少于实际要发送的数据的长度。换句话说，这个函数执行一次，并不一定能发送完给定的数据，可能需要重复多次才能发送完成。
sendall() 发送完整的TCP数据，成功返回None，失败抛出异常

data = "something you want to send"
s.sendall(data)

1.4 关闭连接

当连接不再需要时可以使用close关闭socket连接，关闭后的连接不能再进行任何操作。

s.close()

1.5 完整代码示例：获取百度网首页的数据

进阶提示：urllib库parse模块的urlparse可以帮我们实现URL地址各部分的抽取、合并以及链接转换。
如 https://www.baidu.com/s?wd=百度热搜
url.netloc转化为路径-> www.baidu.com
url.path转化为地址-> s?wd=百度热搜

import socket
from urllib.parse import urlparse
def get_url(url):
    url = urlparse(url)
    host = url.netloc
    path = url.path
    if path == "":
        path = "/"
        
    #创建socket连接并发送请求数据
    client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    client.connect((host, 80))
    client.send("GET {} HTTP/1.1\r\nHost:{}\r\nConnection:close\r\n\r\n".format(path, host).encode("utf-8"))
    #返回数据，设置为Byte格式，采用分步接收
    response = b""
    while True:
        data = client.recv(4096) #分步接收，每次4096字节
        if data:
            response += data
        else:
            break            
    response = response.decode("utf-8")
    #返回数组第一项为响应文本，第二项为响应内容即网页内容
    html_data = response.split("\r\n\r\n")[1]
    print(html_data)
    #关闭连接
    client.close()
#获取百度网首页的数据
if __name__ == '__main__':
    get_url("https://www.baidu.com")

2、API接口

在实际应用中，我们推荐使用Requests包来获取网络数据，包括API接口和爬虫。

Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，Requests它会比urllib更加方便，可以节约我们大量的工作。

首先我们需要安装Requests包：pip install requests
大部分response.text返回的是Unicode格式，通常需要转换为utf-8格式，否则就是乱码。这时我们可以通过以下两种方式转码：
1. 直接将内容转码：response.content.decode(“utf-8”)
2. 设置编码格式后再输出内容：response.encoding = “utf-8” 再执行response.text
请求方式包括多种，GET请求、POST请求、PUT请求、DELETE请求等，可以理解为：一个URL地址，它用于描述一个网络上的资源，而HTTP中的GET，POST，PUT，DELETE就对应着对这个资源的查，增，改，删4个操作。

请求类型	请求类型的说明文档
GET请求	GET请求用来查询数据，不会修改、增加数据，不会影响资源内容。
POST请求	POST请求一般是对服务器的数据做改变，常用于数据的提交、新增操作。
PUT请求	PUT请求的侧重点在于对于数据的修改操作。
DELETE请求	DELETE请求一般用来删除某一个资源的。

2.1 通过实例学习Requests使用

例1，我们使用requests包来获取百度首页的数据，仅需三行代码，这里我们发送的是GET请求。

import requests
response = requests.get(url="https://www.baidu.com")
response.content.decode("utf-8")

'\r\n 百度一下，你就知道         
        
 
 
  新闻 hao123 地图 视频 贴吧   更多产品 
 
 
    关于百度 About Baidu 
 ©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号   
 
 
   \r\n'

例2，我们通过post把数据提交到url地址，等同于以字典的形式提交form表单里面的数据。

进阶提示：
请求头中(http请求中的header部分)的编码方式content-type一般包括：

application/x-www-form-urlencoded，当请求为GET时候，浏览器用该方式把form数据转换成一个字串（name1=value1&name2=value2…），然后把这个字串加到url后面，用?分割，加载这个新的url。如：https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1
multipart/form-data，当请求为POST时候，浏览器把form数据封装到http body中，然后发送到服务器，一般适用于文件传输。
text/plain，以纯文本形式进行编码，其中不含任何控件或格式字符。
application/json，一般用于POST请求，将json数据封装到http body中，然后发送到服务器，适用于数据交互。

import requests
url = 'http://httpbin.org/post'
mydata = {'name':'Jack','age':'28'}
myheaders = {"Content-Type":"application/json;charset=UTF-8"}
response = requests.post(url,data=mydata,headers=myheaders)
print(response.content.decode("utf-8"))

{
  "args": {}, 
  "data": "name=Jack&age=28", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "16", 
    "Content-Type": "application/json;charset=UTF-8", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.26.0", 
    "X-Amzn-Trace-Id": "Root=1-629827a5-57a465dd45bdeef31a0951bc"
  }, 
  "json": null, 
  "origin": "61.139.91.108", 
  "url": "http://httpbin.org/post"
}

例3，文件上传，我们在D盘根目录创建一个test.txt，将其上传至服务器。

文件会转为Byte格式，放入files字段中进行传输。

import requests
url = "http://httpbin.org/post"
files= {"files":open("D://test.txt","rb")}
response = requests.post(url,files=files)
print(response.content.decode("utf-8"))

{
  "args": {}, 
  "data": "", 
  "files": {
    "files": "data:application/octet-stream;base64,MjAyMi0wNS0zMSAxMToxNTo0NSwzMjIgLSAgV0FSTklORyAtICBFcnJvcjogw7vT0NXStb3OxLz+u/K2wcihzsS8/sqnsNwNCg=="
  }, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "218", 
    "Content-Type": "multipart/form-data; boundary=e3e837dec7b537789994f8e32e739be0", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.26.0", 
    "X-Amzn-Trace-Id": "Root=1-62982b13-1dd468c06ce969d056a88985"
  }, 
  "json": null, 
  "origin": "61.139.91.108", 
  "url": "http://httpbin.org/post"
}

例4，超时设置，通过timeout参数可以设置超时的时间，并通过requests.exceptions抛出报错。

设置必须在100ms内收到响应，不然或抛出ReadTimeout异常。

import requests
from requests.exceptions import ReadTimeout
try:
    response = requests.get("http://httpbin.org/get", timeout=0.1)
    print(response.status_code)
except Exception as ex:
    print("请求超时，文本为：",repr(ex))

请求超时，文本为： ConnectTimeout(MaxRetryError("HTTPConnectionPool(host='httpbin.org', port=80): Max retries exceeded with url: /get (Caused by ConnectTimeoutError(, 'Connection to httpbin.org timed out. (connect timeout=0.1)'))"))

例5，获取cookie，会话session维持

Cookie 能够保存有关访问者的信息。更概括地说,Cookie 是一种保持 Web 应用程序连续性的方法。因此 Cookie 的作用就类似于名片，它提供了相关的标识信息，可以帮助应用程序确定如何继续执行。例如一些要求用户登录的站点则可以通过 Cookie 来确定您是否已经登录过，这样您就不必每次都输入账号密码。

cookie和session区别：

cookie数据存放在客户的浏览器上，session数据放在服务器上。
cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗。
session会在一定时间内保存在服务器上。当访问增多，会比较占用你服务器的性能。
单个cookie保存的数据不能超过4K，很多浏览器都限制一个站点最多保存20个cookie。

import requests
response = requests.get('https://www.baidu.com')
print(response.cookies)
for key,value in response.cookies.items():
    print(key,'==',value)

]>
BDORZ == 27315

cookie的一个作用就是可以用于模拟登陆，做会话维持。如下例，我们给服务器上的会话设置cookie，接下来获取会话的cookie。

import requests
session = requests.session()
session.get('http://httpbin.org/cookies/set/number/654321')
response = session.get('http://httpbin.org/cookies')
print(response.text)

{
  "cookies": {
    "number": "654321"
  }
}

2.2 通过API接口获取数据

API（Application Programming Interface，应用程序接口）是一些预先定义的接口（如函数、HTTP接口），或指软件系统不同组成部分衔接的约定。用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程，而又无需访问源码，或理解内部工作机制的细节。

例1，不带任何参数的API接口，历史上的今天API接口，请求类型GET

import requests
import json
response = requests.get("https://api.oioweb.cn/api/common/history")
r = json.loads(response.text)
for index,info in enumerate(r["result"],1):
    print("{}:{}-{}".format(index,info["year"],info["title"]))

1:290-西晋开国皇帝晋武帝司马炎逝世
2:762-唐朝皇帝唐肃宗李亨逝世
3:1375-明朝政治家刘伯温逝世
4:1787-德国物理学家乔治·欧姆诞生于德国巴伐利亚埃尔朗根城
5:1940-中华民国国军将军张自忠在与日军战斗中壮烈殉国
6:1941-《解放日报》在延安创刊
7:1947-第二次国共内战孟良崮战役结束
8:1951-日本声优石冢运升出生
9:1953-美国男演员皮尔斯·布鲁斯南出生
10:1958-美国第二通讯社合众国际社建成
11:1958-中国“大跃进”运动全面展开
12:1960-梅曼在休斯研究实验室首次产生光学雷射
13:1969-苏联宇宙飞船到达金星
14:1997-中国当代散文家汪曾祺逝世
15:2013-英格兰著名球星贝克汉姆通过英足总官网宣布退役

例2，带参数的API接口，新华字典查字，参数text为要查的汉字

import requests
r = requests.get(url="https://api.oioweb.cn/api/txt/dict?text=躺")
r.encoding="utf-8"
print(r.text)

{“code”:200,“result”:{“hanzi”:“躺”,“pinyin”:“tǎng”,“bihua”:“15”,“bushou”:“身”,“wubi”:“”,“basic_explain”:[“躺”,“tǎng”,“笔画数：15”,“部首：身”,“笔顺编号：325111324325251”],“detail_explain”:[“详细字义”,“◎ 躺 tǎng”,“〈动〉”,“同本义 [lie;recline]”,“这无耻的畜生想必是躺尸了。——清· 忧患余生《邻女语》”,“又如:躺在床上;躺着歇歇;躺尸;躺桥”,“停止劳动或努力 [rest]。如:不要躺在过去的成绩上睡大觉”,“引伸指物体平放或倒伏在地 [lie flat]。如:荒草躺倒在烂泥里”,“死的婉辞 [die]”,“先母躺了下来，还是很热闹的。——《二十年目睹之怪现状》”],“words”:"躺倒躺卧躺椅 "},“msg”:“success”}

例3，返回JSON格式的API接口，随机输出毒鸡汤

我们通过JSON包来处理JSON格式的数据

import requests
import json
r = requests.get("http://api.btstu.cn/yan/api.php?charset=utf-8&encode=json")
r.content.decode("utf-8")
print("API状态码:",r.status_code)
print(r.text)
joke = json.loads(r.text)
print(joke["text"])

API状态码: 200
{"text":"钱买不到快乐是假的，你那点钱买不到快乐是真的。"}
钱买不到快乐是假的，你那点钱买不到快乐是真的。

例4，返回JSON格式(多值)的API接口，查询域名示范已被注册，参数domain为要查询的域名

我们通过pprint包来格式化打印JSON格式的结果，width=10表示超过10个字节即按照pprint定义的格式打印

import requests
import pprint
r = requests.get("http://api.btstu.cn/dmreg/api.php?domain=www.baidu.com")
r.content.decode("utf-8")
result = json.loads(r.text)
pprint.pprint(result,width=10)

{'code': '202',
 'domain': 'www.baidu.com',
 'msg': '域名已被注册'}

2.3 通过API接口获取天气预报小型项目开发实例

2.3.1 项目目标：实现某个城市近三天天气预报：日出日落、月升月落、最高最低温度、天气白天和夜间状况、风力、风速、风向、相对湿度、大气压强、降水量、降水概率、露点温度、紫外线强度、能见度等。(本次项目只取最高气温、最低气温、天气概览、湿度四个字段)

2.3.2 前期准备：

1. 天气预报服务商：和风天气 https://www.qweather.com
2. API接口文档：https://dev.qweather.com/docs/api/weather
3. API接口开发KEY申请：需要注册登录并申请免费的开发KEY https://id.qweather.com
4. 项目所需要的Package包：
    ① Requests包，用来调用API接口
    ② JSON包，用来处理JSON格式数据
    ③ Pandas包，用来快速处理数据

2.3.3 程序第一步：首先获取天气预报的城市的id(我们以都江堰市为例)，Key为我自己申请的开发Key，后期建议自行申请。

城市API接口为 https://geoapi.qweather.com/v2/city/lookup
传入参数location为城市中文或英文名字
传入参数key为我们申请的开发KEY

import json
import numpy as np
import pandas as pd
import requests
key = "3746c837ff16452b90b5ef2c7533b758"#这里是我们申请的开发KEY，后期建议自行申请
city = requests.get("https://geoapi.qweather.com/v2/city/lookup?location={}&key={}".format("都江堰",key))
print(city.text)
#获取id
cityjson = json.loads(city.text)
print("城市id是：",cityjson["location"][0]["id"])

{"code":"200","location":[{"name":"都江堰","id":"101270111","lat":"30.99114","lon":"103.62789","adm2":"成都","adm1":"四川省","country":"中国","tz":"Asia/Shanghai","utcOffset":"+08:00","isDst":"0","type":"city","rank":"33","fxLink":"http://hfx.link/3tu1"}],"refer":{"sources":["QWeather"],"license":["commercial license"]}}
城市id是： 101270111

2.3.4 程序第二步：获取都江堰市最近三天天气预报数据。

近三天天气预报接口为 "https://devapi.qweather.com/v7/weather/3d
传入参数location为城市id
传入参数key为我们申请的开发KEY

wether = requests.get("https://devapi.qweather.com/v7/weather/3d?location={}&key={}".format("101270111",key))
weatherjson = json.loads(wether.text)
print(weatherjson)

{'code': '200', 'updateTime': '2022-06-06T12:35+08:00', 'fxLink': 'http://hfx.link/3tu1', 'daily': [{'fxDate': '2022-06-06', 'sunrise': '06:02', 'sunset': '20:07', 'moonrise': '11:37', 'moonset': '01:17', 'moonPhase': '峨眉月', 'moonPhaseIcon': '801', 'tempMax': '29', 'tempMin': '19', 'iconDay': '104', 'textDay': '阴', 'iconNight': '104', 'textNight': '阴', 'wind360Day': '0', 'windDirDay': '北风', 'windScaleDay': '1-2', 'windSpeedDay': '3', 'wind360Night': '0', 'windDirNight': '北风', 'windScaleNight': '1-2', 'windSpeedNight': '3', 'humidity': '64', 'precip': '0.0', 'pressure': '890', 'vis': '25', 'cloud': '25', 'uvIndex': '11'}, {'fxDate': '2022-06-07', 'sunrise': '06:02', 'sunset': '20:07', 'moonrise': '12:34', 'moonset': '01:47', 'moonPhase': '上弦月', 'moonPhaseIcon': '802', 'tempMax': '29', 'tempMin': '18', 'iconDay': '300', 'textDay': '阵雨', 'iconNight': '350', 'textNight': '阵雨', 'wind360Day': '0', 'windDirDay': '北风', 'windScaleDay': '1-2', 'windSpeedDay': '3', 'wind360Night': '0', 'windDirNight': '北风', 'windScaleNight': '1-2', 'windSpeedNight': '3', 'humidity': '69', 'precip': '1.0', 'pressure': '890', 'vis': '23', 'cloud': '60', 'uvIndex': '8'}, {'fxDate': '2022-06-08', 'sunrise': '06:02', 'sunset': '20:07', 'moonrise': '13:33', 'moonset': '02:16', 'moonPhase': '盈凸月', 'moonPhaseIcon': '803', 'tempMax': '26', 'tempMin': '17', 'iconDay': '300', 'textDay': '阵雨', 'iconNight': '350', 'textNight': '阵雨', 'wind360Day': '0', 'windDirDay': '北风', 'windScaleDay': '1-2', 'windSpeedDay': '3', 'wind360Night': '0', 'windDirNight': '北风', 'windScaleNight': '1-2', 'windSpeedNight': '3', 'humidity': '81', 'precip': '1.0', 'pressure': '889', 'vis': '16', 'cloud': '55', 'uvIndex': '4'}], 'refer': {'sources': ['QWeather', 'NMC', 'ECMWF'], 'license': ['no commercial use']}}

获取第一天的天气

print("最低气温：",weatherjson['daily'][0]['tempMin'])
print("最高气温：",weatherjson['daily'][0]['tempMax'])
print("天气情况：",weatherjson.get('daily')[0].get('textDay'))
print("湿度：",weatherjson.get('daily')[0].get('humidity'))

最低气温： 19
最高气温： 29
天气情况： 阴
湿度： 64

2.3.5 程序第三步：整理数据，形成以下数据结构，并通过Pandas展示。

{
"tempMin":[day1,day2,day3]
"tempMax":[day1,day2,day3]
"textDay":[day1,day2,day3]
"humidity":[day1,day2,day3]
}

needs = ["tempMin","tempMax","textDay","humidity"]#需要取值的字段
weatherdict={need:[] for need in needs}#初始化数据结构{'tempMin': [], 'tempMax': [], 'textDay': [], 'humidity': []}
for daily in weatherjson["daily"]:#循环近三天天气
    for need in needs:#将需要取值的字段添加到对应数组中
        weatherdict[need].append(daily[need])
weatherdict

{'tempMin': ['19', '18', '17'],
 'tempMax': ['29', '29', '26'],
 'textDay': ['阴', '阵雨', '阵雨'],
 'humidity': ['64', '69', '81']}

Pandas展示

index=[i for i in range(1,4)]
index

[1, 2, 3]

w =pd.DataFrame(weatherdict,index=["第一天","第二天","第三天"])
w

	tempMin	tempMax	textDay	humidity
第一天	19	29	阴	64
第二天	18	29	阵雨	69
第三天	17	26	阵雨	81

3、网络爬虫Crawler(制作弹幕词云)

网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以自动化浏览网络中的信息，当然浏览信息的时候需要按照我们制定的规则进行，这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序，进行互联网信息的自动化检索。

3.1 通过网络爬虫制作弹幕词云小型项目开发实例

3.1.1 项目目标：通过网络爬虫获取某站番剧弹幕，进行数据整理、分词、生成弹幕词云。

3.1.2 前期准备：(网址中的毕里毕里请大家自行替换)

1. 网络爬虫获取弹幕网页地址： 番剧鲁邦三世 https://www.毕里毕里.com/bangumi/play/ss39468
2. 项目所需要的Package包：
    ① Requests包，用来爬取网页数据
    ② bs4.BeautifulSoup包，HTML/XML解析器，用来处理网页数据
    ③ jieba包，用来分词
    ④ wordcloud包，用来生成词云
    ⑤ matplotlib.pyplot包，用来展示弹幕词云
3.上述包如果不包含在Anacoda3中，则需要通过"pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名"进行安装。(重要)
    ① pip install -i https://pypi.tuna.tsinghua.edu.cn/simple BeautifulSoup
    ② pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
    ③ pip install -i https://pypi.tuna.tsinghua.edu.cn/simple wordcloud  #手动安装地址https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

3.1.3 程序第一步：获取弹幕网址并进行爬取。

获取弹幕网址操作顺序如下：

首先点进一个视频网页如https://www.毕里毕里.com/bangumi/play/ss39468 ，点击F12，进入Network获取监测页面，然后一定要点击播放视频，我们选择Fetch/XHR，在资源过滤Filter中输入cid，然后任意点击一个进入即可。
cid就是该剧弹幕的id号，这个id是唯一的，获取弹幕网址固定xml格式是：https://comment.毕里毕里.com/视频的cid.xml 。
以番剧鲁邦三世为例，我们最终获取到弹幕的网址是：https://comment.毕里毕里.com/430717173.xml 。

接下来，根据弹幕网址，爬取弹幕数据。

import requests
crawler = requests.get("https://comment.毕里毕里.com/430717173.xml")
crawler.encoding='utf-8'
crawler.text

3.1.3 程序第二步：数据整理、分词。

我们发现爬取下来的弹幕XML均有规律，即都是以标签"d"开头，所以我们只需用Beautifulsuop来选取所有标签为"d"的就可以。
我们将d标签数据转化为弹幕数组list格式。
数据清洗：统一英文大小写，去掉空格，去掉重复及一些不必要的字符等。
分词并去掉单字节的内容。

from bs4 import BeautifulSoup #HTML/XML解析器，处理网页数据
import jieba #分词
soup = BeautifulSoup(crawler.text,"lxml")
results = soup.find_all("d")#找出所有"d"
comments = [comment.text for comment in results]#转化为弹幕list，注意，b站弹幕提取上线是1000条，大于则会随机选取1000条
comments = [comment.upper() for comment in comments]#统一英文大小写
comments = [comment.replace(' ','') for comment in comments]#去掉空格
comments = [comment for comment in set(comments) if comment not in ["！！","？？","，。"]]#去掉重复及一些不必要的字符
danmu = ''.join(comment for comment in comments)#合成一个字符串
ciyun = list(jieba.cut(danmu))#分词
ciyun = [word for word in ciyun if len(word)>1]#去掉单字节的内容
ciyun[0:10]#因为数据量大，我们取前十个

['回忆', '可能', '别说', '什么', '绝对', '没死', '哈德森', '太太', '我姐', '区区']

3.1.4 程序第三步：生成弹幕词云并展示。

import wordcloud #生成词云
from matplotlib import pyplot as plt #展示弹幕词云
wc = wordcloud.WordCloud(width=1000, font_path='simfang.ttf',height=800)#设定词云画的大小字体，一定要设定字体，否则中文显示不出来
wc.generate(' '.join(ciyun)) #合成一个字符串后放入词云画布中
plt.imshow(wc) #展示词云

3.2 接下来将上述程序打包为一个函数，再生成名侦探柯南的弹幕词云

我们先补充一下wordcloud包，词云图片输出的常用参数有：

width 词云图片宽度，默认400像素
height 词云图片高度默认200像素
background_color 词云图片的背景颜色，默认为黑色background_color=‘white’
font_step 字号增大的步进间隔默认1号
font_path 指定字体路径默认None，对于中文可用font_path=‘msyh.ttc’
mini_font_size 最小字号默认4号
max_font_size 最大字号根据高度自动调节
max_words 最大词数默认200
stop_words 不显示的单词 stop_words={“python”,“java”}
scale 默认值1。值越大，图像密度越大越清晰
prefer_horizontal：默认值0.90，浮点数类型。表示在水平如果不合适，就旋转为垂直方向
relative_scaling：默认值0.5，浮点型。设定按词频倒序排列，上一个词相对下一位词的大小倍数。有如下取值：“0”表示大小标准只参考频率排名，“1”如果词频是2倍，大小也是2倍
mask 指定词云形状图片，默认为矩形

import requests
from bs4 import BeautifulSoup
import jieba
import wordcloud
from matplotlib import pyplot as plt
def danmu(url:"弹幕XML地址")->"输出弹幕云":
    #爬取弹幕数据
    crawler = requests.get(url)
    crawler.encoding='utf-8'
    #数据整理、分词
    soup = BeautifulSoup(crawler.text,"lxml")
    results = soup.find_all("d")
    comments = [comment.text for comment in results]
    comments = [comment.upper() for comment in comments]
    comments = [comment.replace(' ','') for comment in comments]
    comments = [comment for comment in set(comments) if comment not in ["！！","？？","，。"]]
    danmu = ''.join(comment for comment in comments)
    ciyun = list(jieba.cut(danmu))
    ciyun = [word for word in ciyun if len(word)>1]
    #生成弹幕词云并展示，font_path指定字体路径，scale指定图像清晰度，数值越大越清晰，程序耗时越久
    wc = wordcloud.WordCloud(width=1200, font_path='simfang.ttf',height=800,scale=5)
    wc.generate(' '.join(ciyun))
    plt.imshow(wc)
danmu("https://comment.毕里毕里.com/483236581.xml")#名侦探柯南

4、课后作业，答案在下一讲

1、编程实践项目：利用百度智能云API服务制作一个手机号码归属地查询API接口。

目标要求：输入手机号，查询手机号码归属地信息、包含省市区、运营商、区号等信息。
API接口地址：https://api.oioweb.cn/api/common/teladress
请求方式：GET/POST
请求示例GET：https://api.oioweb.cn/api/common/teladress?mobile=13988888888

您的代码：

2、编程实践项目：利用网络爬虫，爬取文件信息，生成文件的词云图片。

目标要求：从 http://www.gov.cn/zhengce/2021-02/21/content_5588098.htm 中获取《关于全面推进乡村振兴加快农业农村现代化的意见》网页源码，进行数据整理、分词、生成词云图片并展示。
提示：
1. 爬取文件网页源码，转化为utf-8格式。
2. 寻找文件规律，使用BeautifulSoup查询转化，输出数组，文件信息是以段落标签"p"开头的，不需要去除空格和重复。
3. 分词，去掉单字符和内容为"\r\n"的单词。
4. 生成词云图片并展示(图片长度1200，高度800，清晰度3，背景底色白色，字体"msyh.ttc")。
5. 需要使用requests、BeautifulSoup、jieba、wordcloud、matplotlib包，需要自行安装。

您的代码：

5、上一讲Python零基础速成班-第11讲-Python日志Logging，小游戏设计game of life 课后作业及答案

1、写一个计算程序，计算一个list列表[3,5,0,4.5,0.8,7,14]的第i项元素与第j项元素相除的结果，使用try/catch，对可能遇到除数为0，i，j超出数组界限等错误进行输出。不断完善你的程序，使其可以正常执行不报错。i，j通过input()输入。

list = [3,5,0,4.5,0.8,7,14]
try:
    i=int(input("请输入第i项：\n"))
    j=int(input("请输入第j项：\n"))
    if j ==0:
        raise ZeroDivisionError("除数不能为0")
    if i > len(list) or j > len(list):
        raise IndexError("输入超出数组范围")
    print(list[i]/list[j])
except Exception as ex:
    print("异常："+repr(ex))

请输入第i项：
3
请输入第j项：
2
异常：ZeroDivisionError('float division by zero')

2、设计一个函数，统计并输出0至n相加之和，n由input输入。在函数执行前输出INFO日志(“日期时间—日志级别—统计0至n相加之和程序开始！”)当n > 100万时，输出ERROR日志(“日期时间—日志级别—n大于100万！”)，仅输出日志不影响程序。

import logging
logging.basicConfig(level=logging.INFO,encoding='utf-8',format='%(asctime)s -  %(levelname)s -  %(message)s')
def sums(n):
    logging.info("统计0至%s相加之和程序开始！" %n)
    if n >1000000:
        logging.error("%s大于100万！" %n)
    total = 0
    for i in range(n+1):
        total+=i
    return total
n = int(input("请输入n的值\n："))
print(sums(n))

请输入n的值
：1000001


2022-06-07 14:41:14,306 -  INFO -  统计0至1000001相加之和程序开始！
2022-06-07 14:41:14,307 -  ERROR -  1000001大于100万！


500001500001

你可能感兴趣的:(Python,python,网络,爬虫,oneapi,websocket)

初学python100例-案例4 计算一年第几天多种不同解法少儿编程案例讲解小兔子编程初学python100例 python学习 python100例 python计算天数 python算法 python案例
题目输入某年某月某日，判断这一天是这一年的第几天？解法1程序分析1、以5月2日为例，应该先把前四个月的加起来，2、然后再加上2天即本年的第几天，3、特殊情况，闰年且输入月份大于2时需考虑多加一天：4、闰年1、年份能被4整除；2、年份若是100的整数倍的话需被400整除，否则是平年。程序源代码：year=int(input('year:\n'))month=int(input('month:\n')
Python 的类中，self 是一个特殊的参数可可乐不加冰知识学习专栏 python 开发语言
在Python的类中，self是一个特殊的参数，它代表类的实例本身。self是方法的第一个参数，用于访问实例的属性和方法。下面我将从多个角度解释self的含义、作用以及如何使用它。1.self表示类的实例本身在Python中，当你创建一个类的实例时，实际上是在内存中创建了一个对象。self参数代表的就是这个对象本身。通过self，你可以在类的方法中访问和修改实例的属性。2.为什么需要self？se
Trae AI 上新 SSHremote：服务器 Python 接口日志排查实战指南芯作者 DD：日记人工智能深度学习机器学习
在当今的软件开发中，服务器端的稳定性和可靠性至关重要。然而，生产环境中的问题往往难以预测，尤其是接口返回502错误却无日志记录的情况，更是让开发者头疼不已。幸运的是，字节跳动推出的AI原生IDE——Trae，近期上线的SSHremote功能，为远程服务器日志排查提供了全新的解决方案。本文将结合实战案例，深入探讨如何利用TraeAI的SSHremote功能高效排查Python接口日志问题，并分享创新
Python入门程序练习004：输入某年某月某日，判断这一天是这一年的第几天？若北辰 Python实战练习
【程序4】题目：输入某年某月某日，判断这一天是这一年的第几天？1.程序分析：其实这一题的难度不在于编程，而在于对闰年有没有一些基本的认识，相信很多人都知道闰年，但是又不太清楚具体怎么判断闰年。在下面两个条件中只要满足一个即是闰年：1、能被4整除但是不能被一百整除2、能被四百整除。为了方便记忆，总结为：四年一闰,百年不闰,四百年再闰那么判断出闰年和平年（除了闰年其他都是平年）之后呢，其实只要记住：闰
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等） DoYangTan python 学习分布式
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等）前言随着业务规模的不断扩大以及对系统性能、可扩展性的更高要求，后端应用往往会朝着分布式系统的方向发展。然而，分布式系统带来诸多优势的同时，也面临着如数据一致性等复杂的挑战。本期我们就聚焦于分布式系统中的关键问题——数据一致性，深入探讨分布式锁、分布式事务等相关知识以及保障数据一致性的策略与实践，让我们一起深入学习
python进阶，类的继承，封装，多态，super 胡萝卜糊了 python 开发语言
#单继承#子类只继承一个父类classPerson:defsay(self,value):print('say:',value)defwalk(self,value):print('walk:',value,'km')#Student类继承PersonclassStudent(Person):defstudy(self,value):print('study:',value)#Teacher类继承
python进阶，迭代器和生成器，函数式编程，闭包，装饰器胡萝卜糊了 python 开发语言
l=[1,2,3,4]it=iter(l)print(next(it))print(next(it))print(next(it))print(next(it))#while循环l=[1,2,3,4]len=len(l)i=0it=iter(l)whilei=self.end:raiseStopIterationself.current+=1returnself.current-1it=MyIte
Day6：python面向对象编程——构建可扩展的订单管理系统 weixin_44650422 python 开发语言
目标：掌握类与对象的核心概念，实现模块化的订单业务逻辑一、类与对象：订单管理系统核心1.基础订单类classOrder:"""订单基类"""def__init__(self,order_id,customer):self.order_id=order_id#订单号self.customer=customer#客户名self.items=[]#商品列表self.total=0.0#总金额defadd
python assert()函数欢天喜地小姐姐 python编程学习 python
1.断言函数作用断言函数是对表达式布尔值的判断，要求表达式计算值必须为真。可用于自动调试。如果表达式为假，触发异常；如果表达式为真，不会报错。2.使用assert判断数组是否相等np.array.any()和numpy.array.all()np.array.any()是或操作，任意一个元素为True，输出为True。np.array.all()是与操作，所有元素为True，输出为True。当我们
【LeetCode 热题100】 23. 合并 K 个升序链表的算法思路及python代码 pljnb LeetCode热题100 算法 leetcode 链表
23.合并K个升序链表给你一个链表数组，每个链表都已经按升序排列。请你将所有链表合并到一个升序链表中，返回合并后的链表。示例1：输入：lists=[[1,4,5],[1,3,4],[2,6]]输出：[1,1,2,3,4,4,5,6]解释：链表数组如下：[1->4->5,1->3->4,2->6]将它们合并到一个有序链表中得到。1->1->2->3->4->4->5->6示例2：输入：lists=[
人生重开模拟器 -deepseek版 Cccc吃吃吃 python 开发语言
人生重开模拟器是一个有趣的文字类游戏，玩家可以通过选择不同的选项来体验不同的人生轨迹。下面是一个简单的Python实现，模拟了人生重开的过程。玩家可以通过输入数字来选择不同的选项，游戏会根据选择生成不同的人生结局。```pythonimportrandomdefprint_intro():print("欢迎来到人生重开模拟器！")print("你将重新开始你的人生，通过不同的选择体验不同的人生轨迹
PTA天梯赛Python7-52 古风排版胡同Alley python
中国的古人写文字，是从右向左竖向排版的。本题就请你编写程序，把一段文字按古风排版。输入格式：输入在第一行给出一个正整数N（<100），是每一列的字符数。第二行给出一个长度不超过1000的非空字符串，以回车结束。输出格式：按古风格式排版给定的字符串，每列N个字符（除了最后一列可能不足N个）。输入样例：4Thisisatestcase输出样例：asaTstihetsices代码长度限制16KB时间限制
详细介绍 Jupyter nbconvert 工具及其用法：如何将 Notebook 转换为 Python 脚本源代码杀手 python使用技巧 python jupyter ide
nbconvert是Jupyter提供的一个非常强大的工具，允许用户将JupyterNotebook文件（.ipynb）转换成多种格式，包括Python脚本（.py）、HTML、PDF、LaTeX等。你可以通过命令行来运行nbconvert，也可以在JupyterNotebook中通过一些自定义的设置来实现转换。安装nbconvert通常情况下，nbconvert会随Jupyter一起安装，因此不
python -- assert函数我不是程序员‍ python知识 python
一、assert函数在Python中，assert语句用于调试和测试代码。它用于检查某个条件是否为真。如果条件为假，assert语句会抛出一个AssertionError异常，并可以选择性地附加一条错误消息。assert语句的基本语法是：assertcondition,optional_messagecondition:一个布尔表达式。如果结果为True，程序继续执行。如果为False，会触发As
PCDN如何优化移动设备的网络体验 yczykjyxgs pcdn 服务器
在移动互联网时代，用户对网络体验的要求不断提升，PCDN（P2PCDN）技术为优化移动设备网络体验提供了创新解决方案。这项技术通过重构传统内容分发模式，有效解决了移动网络环境下的带宽瓶颈和传输延迟问题。PCDN技术的核心在于构建了一个去中心化的内容分发网络。移动设备不再仅仅作为内容消费者，而是同时承担了内容分发节点的角色。这种设计充分利用了移动设备的闲置带宽和存储资源，形成了一个动态的内容共享网络
## PCDN中的网络拥塞控制技术探讨 yczykjyxgs pcdn 网络智能路由器
随着互联网视频流量的爆发式增长，传统CDN面临着成本高、扩展性差等挑战。P2PCDN（PCDN）作为一种新兴的内容分发网络架构，通过利用边缘节点的闲置带宽和存储资源，有效降低了内容分发成本，并提升了网络扩展性。然而，PCDN中节点动态性强、网络环境复杂，传统的网络拥塞控制技术难以直接适用，因此需要针对PCDN的特点设计新的拥塞控制机制。PCDN网络拥塞控制面临的挑战1.节点异构性:PCDN节点性能
CTF杂项挑战：使用已知字典破解ZIP文件密码 0dayNu1L Web安全 CTF web安全网络安全
在CTF比赛中，杂项挑战通常包含一些非传统的题目，其中破解ZIP文件密码是一个常见的任务。本文将介绍两种在已知密码字典文件的情况下，破解ZIP文件密码的方法：一种是使用Python脚本进行暴力破解，另一种是通过zip2john和john命令结合进行破解。0dayNu1L-CSDN博客请一键三连吧！！！❤❤❤目录方法一：使用Python脚本进行暴力破解步骤方法二：使用zip2john和john命令结
文本转语音的Python库（pyttsx3）数产第一混子 python库 python
一、pyttsx3的概述pyttsx3isatext-to-speechconversionlibraryinPython.pyttsx3是Python中的文本到语音转换库。二、pyttsx3的安装pipinstallpyttsx3三、小试牛刀importpyttsx3engine=pyttsx3.init()engine.say("Iwillspeakthistextrightnow")engi
区块链赋能：用Python开发去中心化投票系统 Echo_Wish Python！实战！区块链 python 去中心化
区块链赋能：用Python开发去中心化投票系统在这个互联网迅猛发展的时代，投票系统不仅仅停留在政务领域，它已成为社区治理、企业决策甚至区块链DAO（去中心化自治组织）中重要的机制。然而，传统投票系统往往集中化，存在信任和数据安全问题。区块链技术以其不可篡改性和透明性为去中心化投票提供了理想的解决方案。在这篇文章中，我将通过Python语言，结合区块链智能合约，教你如何从零开发一个去中心化的投票系统
Python助力区块链互通——跨链桥接的实现与实践 Echo_Wish Python！实战！区块链 python 开发语言
Python助力区块链互通——跨链桥接的实现与实践区块链技术的繁荣发展带来了巨大的生态创新，但也因各链之间的割裂局面限制了它们的潜力。例如，你或许想在以太坊上使用来自比特币的资产，却因两条链不互通而不得不求助于中心化交易所。要打破“链间壁垒”，跨链桥接（Cross-chainBridge）应运而生。今天，我以Echo_Wish的视角，通过Python代码实践，带你深入了解跨链桥接的工作原理，技术实
python pyttsx3文本转语音_python 利用pyttsx3文字转语音木大木大本太 python pyttsx3文本转语音
#-*-coding:utf-8-*-importpyttsx3f=open("all.txt",'r')line=f.readline()engine=pyttsx3.init()whileline:line=f.readline()print(line,end='')engine.say(line)engine.runAndWait()f.close()importwin32com.clien
技术沙龙 | 从高并发架构到企业级区块链探索零售创新 weixin_33984032 区块链 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>伴随消费新理念的不断升级和技术创新发展，零售业逐渐被推到风口浪尖，对此京东曾表示，推动“无界零售”时代的到来理念，倡导实现成本、效率、体验的升级才是终极目标。此概念一出，零售行业的侧重点开始由销售端向技术端倾斜，趁着一年一度618来临之际，京东云特别在上海举办了主题为"从高并发架构到企业级区块链，探索无界零售的数字化创新"的技术沙龙活动。本次活
某智慧医养服务平台Uploads存在任意文件上传漏洞(DVB-2025-8968) Byp0ss403 漏洞复现集合文件上传 web安全
免责声明本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品介绍广西金中软件集团有限公司前身成立于1999年，隶属于广西电信下的三产公司金中信息产业有限公司，是一家集软件开发、网站建设、网络工程、系统
Python Pyttsx3模块墨水云烟 Python python 开发语言
大家有没有让电脑“说话”的欲望，如果我说可以帮大家实现这个愿望的话，大家肯定会说我又要用print函数，但是今天我们就可以真的让电脑说话。让电脑说话其实很简单，使用python第三方库pyttsx3模块就行了。使用之前还需要安装pyttsx3模块，安装方法：python终端或cmd输入：pipinstallpyttsx3然后就是导入pyttsx3模块：importpyttsx3后面就是使用这个模块
谷歌准备斥资 230 亿收购网络安全初创公司 Wiz 网络研究观网络研究观谷歌
Alphabet正在就收购Wiz进行深入谈判，这将显著增强其安全能力。这将是谷歌母公司有史以来最大规模的收购。这是路透社根据匿名消息来源撰写的内容。目标收购金额为230亿美元，即211亿欧元。Wiz拥有实时检测和响应网络威胁的技术。通过实施人工智能，Wiz能够在短时间内吸引许多公司作为客户。Alphabet的收购目标定于2020年初。到2023年，Wiz的收入将达到3.5亿美元。当时，全球40%的
使用python seaborn创建配对图：从核心概念到实战案例梦想画家数据分析工程 #python 人工智能 python 机器学习
Seaborn的配对图（Pairplot）是一种用于探索多变量数据关系的可视化工具，尤其适合分析数据集中多个特征之间的相关性、分布模式或异常值。本文介绍如何生成数据集数值变量之间的配对图，并通过参数设置色系。配对图的核心作用矩阵式可视化生成一个N×N的网格图（N为特征数），每个单元格展示两列特征之间的关系。默认对角线显示单变量分布（直方图或KDE曲线），非对角线显示散点图或其他关系图。快速发现模式
如何用Python和Selenium实现表单的自动填充与提交？字节王德发 python python selenium 开发语言
在今天的数字化时代，自动化工具可以极大地提高工作效率。很多人可能会觉得填表单是个繁琐的任务，不过你知道吗？用Python和Selenium可以轻松解决这一问题！本文将带你走进如何利用这两个强大的工具，实现表单的自动填充和提交，让你省去不少时间。什么是Selenium？Selenium是一个广泛使用的自动化测试工具，它能够模拟用户在浏览器中的操作。通过它，我们可以自动化执行诸如点击按钮、输入文本、选
使用 Python 的 pyttsx3 库进行文本转语音 Bingjia_Hu python 开发语言 pyttsx3
1.什么是pyttsx3？1.1pyttsx3是一个Python库，它可以将文本转换为语音。与其他文本转语音库（如gTTS）不同，pyttsx3不依赖于网络服务，它使用本地的TTS（Text-to-Speech）引擎，这使得它在离线状态下也能正常工作1.2pyttsx3支持多平台（Windows、Linux和macOS），且可以对语音的音量、语速以及语音类型等进行控制2.安装pyttsx3要使用p
【从零开始学习计算机科学】信息安全（十三）区块链贫苦游商学习区块链 hash 公有链私有链信息安全网络安全
【从零开始学习计算机科学】信息安全（十三）区块链区块链区块链概述区块链的主要特性开放，共识交易透明，双方匿名不可篡改，可追溯区块链的主要类别公有链私有链联盟链区块链核心技术Hash指针Merkle（梅根）树SPV交易验证过程区块链网络分叉解决机制51%攻击问题基于比特币的区块链的优势与不足常用的区块链区块链区块链概述能否在互联网环境（开放环境）下，创造一种技术，使得在无法保证人们相互信任的前提下，
谷歌母公司Alphabet拟斥资230亿美元收购网络安全公司Wiz leijianping_ce
雷递网乐天7月15日据知情人士透露，谷歌母公司Alphabet正在就收购网络安全初创公司Wiz进行谈判。此次交易总额可能高达230亿美元。这将使其成为Alphabet迄今为止最大的一笔收购。双方尚未达成协议，谈判仍有可能以失败告终。近期，Alphabet搁置收购客户关系管理公司HubSpotInc.的努力，随后进行此次谈判。与HubSpot交易一样，对于像Alphabet这样的大型科技公司来说，收
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

Python零基础速成班-第12讲-Python获取网络数据Socket，API接口，网络爬虫Crawler(制作弹幕词云)