开局签到Python基础

1. 爬虫之Beautifulsoup解析库&在线解析图片验证码

1. 解析库beautifulsoup

1.1 介绍

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.
官方文档: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

1.2 解析库

Python2.7.3之前的版本和Python3中3.2.2之前的版本, 必须安装lxml或html5lib, 
因为那些Python版本的标准库中内置的HTML解析方法不够稳定.

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”])``BeautifulSoup(markup, “xml”)	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部

安装BeautifulSoup4与解析器:
pip install BeautifulSoup4
pip install lxml
pip install html5lib

生成节点 Tag对象:
from bs4 import BeautifulSoup
soup = BeautifulSoup(需要解析的字符串, 使用的解析器)

1.3 容错处理

文档的容错能力: 指的是在html代码不完整的情况下, 使用该模块可以识别该错误。
使用BeautifulSoup解析上述代码, 能够得到一个 BeautifulSoup 的对象, 并能按照标准的缩进格式的结构输出.

from bs4 import BeautifulSoup

# html字符串
html_doc = """
页面标题

标题

开始,
A
B 中间
C
结束.

...
"""

soup = BeautifulSoup(html_doc, 'lxml')  # 具有容错功能
res = soup.prettify()  # 处理好缩进, 结构化显示
print(res)

1.4 遍历文档树

遍历文档树: 即直接通过标签名字选择, 特点是选择速度快, 但如果存在多个相同的标签则只返回第一个.
* 多个相同标签只返回第一个, 第一个算遍历, 其他的都不算!

1. 获取标签对象

soup = BeautifulSoup(html_doc, 'lxml')
# 与.find()方法速度一致
print(soup.p)  # 标题
# 值是提供Tag对象

# 推荐方法(速度快)
print(soup.body.p)  # 标题

2. 获取标签名称

soup = BeautifulSoup(html_doc, 'lxml')  
print(soup.body.p.name)  # p

3. 获取标签的属性

soup = BeautifulSoup(html_doc, 'lxml')  
print(soup.body.p.attrs)  # {'class': ['title']}  值是一个列表
print(soup.body.p.attrs['class'])  # ['title']
print(soup.body.p['class'])  # ['title']

4. 获取标签的内容

* 1. 文本内容

soup = BeautifulSoup(html_doc, 'lxml')
print(soup.body.p.text)  # 标题
print(soup.body.p.get_text())

soup = BeautifulSoup(html_doc, 'lxml')
# 获取第二个p标签, next_sibling下一个兄弟标签, 空行算一个next_sibling
print(soup.body.p.next_sibling.next_sibling.text)
"""
开始,
A
B 中间
C
结束.
"""

如果tag包含了多个子节点, tag就无法确定 
.string 方法应该调用哪个子节点的内容, .string 的输出结果是 None.
如果只有一个子节点那么就输出该子节点的文本，比如下面的这种结构, .string 返回为None,
但.strings就可以找到所有文本, 值是一个生成器.

soup = BeautifulSoup(html_doc, 'lxml')

# 第一个p标签
print(soup.body.p.string)
# 第二个p标签, 标签下文本只有一个, 没有其他标签时, 可以取到值, 否则为None
print(soup.body.p.next_sibling.next_sibling.string)

# 第一个p标签
print(soup.body.p.strings)  # 
print(list(soup.body.p.strings))  # ['标题']
# 第二个p标签
print(list(soup.body.p.next_sibling.next_sibling.strings))  # ['开始,\n', 'A', '\n', 'B', ' 中 间\n', 'C', '\n结束.']

soup = BeautifulSoup(html_doc, 'lxml')

for line in soup.body.p.next_sibling.next_sibling.stripped_strings:  # 去掉空白
    print(line)
"""
开始,
A
B
中 间
C
结束.
"""

5. 嵌套选择

soup = BeautifulSoup(html_doc, 'lxml')

print(soup.head.title.text)  
print(soup.body.a.text)

6. 子节点&子孙节点

soup = BeautifulSoup(html_doc, 'lxml')

print(soup.body.p.contents)  # p下所有子节点
print(soup.body.p.children)  # 得到一个迭代器,包含p下所有子节点

for i, child in enumerate(soup.p.children):
    print(i, child)

print(soup.p.descendants)  # 获取子孙节点, p下所有的标签都会选择出来

for i, child in enumerate(soup.p.descendants):
    print(i, child)

7. 父节点&祖先节点

soup = BeautifulSoup(html_doc, 'lxml')

print(soup.a.parent)  # 获取a标签的父节点
print(soup.a.parents)  # 找到a标签所有的祖先节点，父亲的父亲，父亲的父亲的父亲...
for a in soup.a.parents:
    print(a, '\n')  # 会有两个html标签

8. 兄弟节点

* 空行被算成一个兄弟.

soup = BeautifulSoup(html_doc, 'lxml')

print(soup.body.a.next_sibling)  # 下一个兄弟
print(soup.body.a.previous_sibling)  # 上一个兄弟

print(list(soup.body.a.next_siblings))  # 下面的兄弟们=>生成器对象
print(soup.body.a.previous_siblings)  # 上面的兄弟们=>生成器对象

1.5 搜索文档树

1. 五种过滤器

五种过滤器: 字符串, 正则表达式, 列表, True/False, 函数方法

* 1. 字符串过滤()
     find(): 找到一个就放回
     find_all(): 找多个
     ...

soup = BeautifulSoup(html_doc, 'lxml')


print(soup.find('p'))  # 标签查找
print(soup.find(name='p'))  # 结果是一个Tag对象

print(soup.find(class_='title'))  # 类查找
print(soup.find(attrs={'class': 'title'}))

print(soup.find(id="link1"))  # id查找
print(soup.find(attrs={'id': 'link1'}))
print(soup.find(href="https://www.baidu.com"))  # 属性查找

# 条件可以有多个 为 and关系
print(soup.find(id="link1", class_='sister'))



print(soup.find_all(name='p'))  # 结果是一个列表, 存放Tag对象

* 2. 正则表达式

import re

soup = BeautifulSoup(html_doc, 'lxml')
re_t = re.compile('^t')
print(soup.find(class_=re_t))  # 标题

* 3. 列表

soup = BeautifulSoup(html_doc, 'lxml')
print(soup.find_all(class_=['title', 'sister']))

* 4. True/False

soup = BeautifulSoup(html_doc, 'lxml')
# 存在或不存在否个属性
print(soup.find(id=True))
print(soup.p.find(id=False))
print(soup.find(href=True))

* 5. 自定义函数

soup = BeautifulSoup(html_doc, 'lxml')


# 定义函数
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

print(soup.body.find_all(has_class_but_no_id))

* 6. limit 参数与 recursive参数
   limit: 限制条数
   recursive: 当前层级查询不到, 递归查询(默认开启)

soup = BeautifulSoup(html_doc, 'lxml')

print(soup.body.find_all(name='p', limit=1))

soup = BeautifulSoup(html_doc, 'lxml')

print(soup.body.find_all(name='b', recursive=False))

2. css选择器

select 返回的是列表形式.

soup = BeautifulSoup(html_doc, 'lxml')

print(soup.select('#link1'))

print(soup.select('body>p>b'))  

print(soup.select('body p b'))

1.6 修改文档树

* 1. 修改标签名称

soup = BeautifulSoup(html_doc, 'lxml')

soup.body.p.name = 'h3'
print(soup.body.h3.name)  # 将第一个p标签改为h3标签, html中没有h3会报错

* 2. 修改属性值

soup = BeautifulSoup(html_doc, 'lxml')

soup.body.p['class'] = 'c1'
print(soup.body.p.attrs)  # {'class': 'c1'}

* 3. 修改值

soup = BeautifulSoup(html_doc, 'lxml')

print(soup.body.p.string)  # 标题
soup.body.p.string = 'xxx'
print(soup.body.p.string)  # xxx

* 4. 添加值

soup = BeautifulSoup(html_doc, 'lxml')

print(soup.body.p.string)  # 标题
soup.body.p.string = 'xxx'
soup.body.p.append('abcd')  # 添加值
print(soup.body.p.string)  # None
print(soup.body.p.text)  # xxxabcd

* 5. 删除标签

soup = BeautifulSoup(html_doc, 'lxml')
print(soup.body.p)  # 展示第一个标签
soup.body.p.decompose()   # 删除第一个p标签
print(soup.body.p)  # 展示原第二标签

2. 宝塔面板与JumpServer堡垒机

2.1 宝塔面板

宝塔: 宝塔面板是一款支持windows和linux系统的服务器管理软件, 可通过Web端管理服务器, 提升运维效率. 
使用宝塔前： 手工输入命令安装各类软件, 操作起来费时费力并且容易出错.
而且需要记住很多Linux的命令，非常复杂.

使用宝塔后： 2分钟装好面板, 一键管理服务器, 鼠标点几下就能替代以前的复杂繁多命令,
操作简单, 看一眼就会使用. (图形化替代命令行操作)

2.2 JumpServer堡垒机

JumpServer跳板机/堡垒机: 是一类可作为跳板批量操作远程设备的网络设备,
提供了认证、授权、审计和自动化运维等功能...

jumpserver组件说明
jumpserver堡垒机由以下三个部分组成：
* 1.jumpserver
jumpserver是jumpserver的核心组件, 是一个使用Python的django开发的管理后台, 支持restful API.
* 2.coco
coco是SSH Server和Web Terminal Server的组件，提供SSH和WebSocket接口, 使用paramiko和flask开发.
* 3.luna
luna是Web Terminal Server的前端, 前端页面均由该项目提供, 主要负责页面后台的渲染.

3. 使用bs4库爬虫实例

网站: https://www.autohome.com.cn/news/2/#liststart
需要获取: 标题, 图片, 简介, 链接
使用BeautifulSoup,从HTML文件中提取数据.

* 1. 分析网站

import requests
res = requests.get('https://www.autohome.com.cn/news/1/#liststart')
print(res.text)

得到的ul信息中有文章也有广告.
有h3标签的是文字, 没有h3标签的广告获取是空li标签.

广告

空标签

文章链接与封面路由

* 2. 使用BeautifulSoup获取html的ul数据.

import requests
from bs4 import BeautifulSoup
# 获取相应对象
res = requests.get('https://www.autohome.com.cn/news/1/#liststart')
# 生成文档对象 (html文件, 解析器)
soup = BeautifulSoup(res.text, 'html.parser')
# 查找ul的数据 查找class为article的标签数据, class是关键字, 加后缀_使用class_
# 得到一个Tag标签对象
ul = soup.find(class_='article')
print(ul)

* 3. 查询ul标签下所有的li标签

import requests
from bs4 import BeautifulSoup

# 获取相应对象
res = requests.get('https://www.autohome.com.cn/news/1/#liststart')
# 生成文档对象 (html文件, 解析器)
soup = BeautifulSoup(res.text, 'html.parser')
# 查找ul的数据 查找class为article的标签数据, class是关键字, 加后缀_使用class_
ul = soup.find(class_='article')
# 查找ul下的所有li标签, 得到一个列表
li_list = ul.find_all(name='li')
print(li_list)

* 4. 获取标题, 图片, 简介, 链接的信息.

import requests
from bs4 import BeautifulSoup

# 获取相应对象
res = requests.get('https://www.autohome.com.cn/news/1/#liststart')
# 生成文档对象 (html文件, 解析器)
soup = BeautifulSoup(res.text, 'html.parser')
# 查找ul的数据 查找class为article的标签数据, class是关键字, 加后缀_使用class_
ul = soup.find(class_='article')
# 查找ul下的所有li标签, 得到一个列表
li_list = ul.find_all(name='li')
for li in li_list:
    # 剔除非文章的li标签, 获取不到h3的都不是文字
    title = li.find(name='h3')  # 得到h3标签对象
    if title:
        # 获取标题
        title = title.text
        # 获取文章链接(链接缺少https:)
        article_url = 'https:' + li.find('a').attrs.get('href')
        # 获取封面, 查找img标签, .attrs获取标签的所有的属性, 值是一个字典. 通过get获取到值
        img_url = li.find(name='img').attrs.get('src')
        # 判断封面链接字符串是否是https开头(有一部分是, 有一部分不是)
        img_url = img_url if img_url.startswith('https:') else 'https:' + img_url
        # 获取文章简介
        desc = li.find('p').text
        print(
            f"""
标题: {title},
文章链接: {article_url},
封面: {img_url},
简介: {desc}
"""
        )

4. 创建代理池

* 1. 分析免费代理网站
    地址: http://www.66ip.cn/1.html

import requests

url = 'http://www.66ip.cn/1.html'

res = requests.get(url)
res.encoding = res.apparent_encoding
print(res.text)

* 2. 获取ip表单

import requests
from bs4 import BeautifulSoup

url = 'http://www.66ip.cn/1.html'

res = requests.get(url)
res.encoding = res.apparent_encoding

soup = BeautifulSoup(res.text, 'lxml')

# 获取表单的节点(页面中有多个表单标签, 需要的ip表单在最后一个)
print(soup.find_all(name='table')[-1])

<table width='100%' border="2px" cellspacing="0px" bordercolor="#6699ff">
    <tr>
        <td>iptd>
        <td>端口号td>
        <td>代理位置td>
        <td>代理类型td>
        <td>验证时间td>
    tr>
    <tr>
        <td>165.225.20.14td>
        <td>10605td>
        <td>宁夏回族自治区中卫市td>
        <td>高匿代理td>
        <td>2022年06月17日06时 验证td>
    tr>
    <tr>
        <td>8.215.27.71td>
        <td>3128td>
        <td>吉林省辽源市td>
        <td>高匿代理td>
        <td>2022年06月17日04时 验证td>
    tr>
    <tr>
        <td>103.155.54.245td>
        <td>84td>
        <td>广西壮族自治区桂林市td>
        <td>高匿代理td>
        <td>2022年06月17日02时 验证td>
    tr>
    <tr>
        <td>183.245.6.120td>
        <td>8080td>
        <td>云南省保山市td>
        <td>高匿代理td>
        <td>2022年06月17日00时 验证td>
    tr>
table>

* 3. 获取表单中tr的标签信息

import requests
from bs4 import BeautifulSoup

url = 'http://www.66ip.cn/1.html'

res = requests.get(url)
res.encoding = res.apparent_encoding

soup = BeautifulSoup(res.text, 'lxml')

# 获取表单的节点(页面中有多个表单标签, 需要的ip表单在最后一个)
table = soup.find_all(name='table')[-1]

# 获取表单中的子节点, 遍历tr标签
for tr in table.children:
    print(tr)

* table.children 获取table下说有的子标签, 行号算一个标签!!!
正常的标签: <!--<class 'bs4.element.Tag'>-->
空的标签: <!--<class 'bs4.element.NavigableString'>-->


<tr>
    <td>iptd>
    <td>端口号td>
    <td>代理位置td>
    <td>代理类型td>
    <td>验证时间td>
tr>



<tr>
    <td>165.225.20.14td>
    <td>10605td>
    <td>宁夏回族自治区中卫市td>
    <td>高匿代理td>
    <td>2022年06月17日06时 验证td>
tr>

<tr>
    <td>8.215.27.71td>
    <td>3128td>
    <td>吉林省辽源市td>
    <td>高匿代理td>
    <td>2022年06月17日04时 验证td>
tr>

<tr>
    <td>103.155.54.245td>
    <td>84td>
    <td>广西壮族自治区桂林市td>
    <td>高匿代理td>
    <td>2022年06月17日02时 验证td>
tr>

<tr>
    <td>183.245.6.120td>
    <td>8080td>
    <td>云南省保山市td>
    <td>高匿代理td>
    <td>2022年06月17日00时 验证td>
tr>

* 4. 获取表单中tr的标签信息(剔除空行标签)

import requests
import bs4
from bs4 import BeautifulSoup

url = 'http://www.66ip.cn/1.html'

res = requests.get(url)
res.encoding = res.apparent_encoding

soup = BeautifulSoup(res.text, 'lxml')

# 获取表单的节点(页面中有多个表单标签, 需要的ip表单在最后一个)
table = soup.find_all(name='table')[-1]

# 获取表单中的子节点, 遍历tr标签
for tr in table.children:
    if isinstance(tr, bs4.element.Tag):
        print(tr)

* 5. 获取表单中的td标签

...

# 获取表单中的子节点, 遍历tr标签
for tr in table.children:
    if isinstance(tr, bs4.element.Tag):
        # 遍历tr下的td标签
        for td in tr.children:
            print(td)
        print('----')

<td>iptd>
<td>端口号td>
<td>代理位置td>
<td>代理类型td>
<td>验证时间td>
----
<td>165.225.20.14td>
<td>10605td>
<td>宁夏回族自治区中卫市td>
<td>高匿代理td>
<td>2022年06月17日06时 验证td>

* 6. 正则匹配获取ip与端口

import requests
import bs4
from bs4 import BeautifulSoup
import re

url = 'http://www.66ip.cn/1.html'

res = requests.get(url)
res.encoding = res.apparent_encoding

soup = BeautifulSoup(res.text, 'lxml')

# 获取表单的节点(页面中有多个表单标签, 需要的ip表单在最后一个)
table = soup.find_all(name='table')[-1]

# 获取表单中的子节点, 遍历tr标签
# 定义一个列表(链接池)
ip_port_list = []
for tr in table.children:
    if isinstance(tr, bs4.element.Tag):

        # tr.text会展示所有td的内容
        # ip正则
        re_ip = re.compile(r'^\d+.\d+.\d+.\d+$')
        ip = tr.find(text=re_ip)  # 匹配成功拿到值, 匹配不成功为None

        # port正则
        re_port = re.compile(r'^\d+$')
        port = tr.find(text=re_port)

        # 将ip与port放到列表中
        if ip and port:
            # 协议类型
            http_type_list = ['http', 'https']
            # 代理ip端口
            ip_port = ip + ":" + port

            for http_type in http_type_list:
                try:
                    # 测试是否可以正常使用成功在将ip与port存到链接值中(使用代理失败会报错)
                    res = requests.get('https://www.baidu.com/', proxies={http_type: ip_port}, timeout=10)

                    if res.status_code == 200:
                        ip_port_list.append((http_type, ip_port))
                        print('ok')
                # 网页中没有提示代理是http还是https
                except Exception as e:
                    pass
print(ip_port_list)
"""
[('http', '52.236.90.60:3128'), 
('http', '165.225.20.14:10605'),
('http', '8.215.27.71:3128'),
('http', '103.155.54.245:84'),
('http', '183.245.6.120:8080')]
"""

5. 第三链接池项目

* 1. 下载项目
     项目地址: https://github.com/jhao104/proxy_pool

* 2. 解压并打来项目

* 3. 安装依赖: pip install -r requirements.txt

# 安装不上就换成国内源
APScheduler==3.2.0  # 定时任务框架
werkzeug==0.15.5  # Python的WSGI规范的实用函数库
Flask==1.0
requests==2.20.0 
click==7.0  # 用于快速创建命令行
gunicorn==19.9.0  # Python WSGI UNIX的HTTP服务器
lxml  # lxml是XML和HTML的解析器
redis

* 4. 更新配置(配置好redis库即可)

# setting.py 为项目配置文件

# 配置API服务

HOST = "0.0.0.0"               # IP
PORT = 5010                    # 监听端口


# 配置数据库

DB_CONN = 'redis://:127.0.0.1:6379/0'


# 配置 ProxyFetcher

PROXY_FETCHER = [
    "freeProxy01",      # 这里是启用的代理抓取方法名，所有fetch方法位于fetcher/proxyFetcher.py
    "freeProxy02",
    # ....
]

* 5. 启动项目
       如果已经具备运行条件, 可用通过proxyPool.py启动
       程序分为: schedule 调度程序 和 server Api服务

# 都在Terminal 中输入命令
# 1. 启动调度程序(获取免费代理)
python proxyPool.py schedule

# 2. 启动webApi服务
python proxyPool.py server
启动报错:(更新 Flask Jinja2)
pip uninstall  Flask Jinja2
pip install Flask Jinja2

启动调度后获取免费代理

* 6. 测试

* 7. 随机获取一个请求

* 8. 请求api介绍
  启动web服务后, 默认配置下会开启 http://127.0.0.1:5010 的api接口服务:

api	method	Description	params
/	GET	api介绍	None
/get	GET	随机获取一个代理	可选参数: `?type=https` 过滤支持https的代理
/pop	GET	获取并删除一个代理	可选参数: `?type=https` 过滤支持https的代理
/all	GET	获取所有代理	可选参数: `?type=https` 过滤支持https的代理
/count	GET	查看代理数量	None
/delete	GET	删除代理	`?proxy=host:ip`

* 删除代理  ?proxy=host:ip  ==> 官方文旦写的不好理解了,应该是 ?proxy=ip:port

* 9. 新建一个项目, 在项目中使用

import requests


# 获取代理
def get_proxy():
    # 后端发送的是json格式数据, 转为字段
    return requests.get("http://127.0.0.1:5010/get/").json()


# 删除代理
def delete_proxy(proxy):
    # 删除代理请求, 请求中携带删除的代理ip
    # http://127.0.0.1:5010/delete/?proxy=211.139.26.16:80
    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))


# 使用代理获取网页
def getHtml():
    # 重试次数
    retry_count = 5
    # 从字典中获取代理
    proxy = get_proxy().get("proxy")
    # print(proxy)  # 194.233.77.110:1111
    while retry_count > 0:
        # 代理使用出错会抛出异常
        try:
            html = requests.get('http://www.baidu.com', proxies={"http": "http://{}".format(proxy)})
            # 使用代理访问
            
            return html
        except Exception:
            retry_count -= 1
    # 5次删除代理池中代理
    delete_proxy(proxy)
    return None


# 执行函数
html = getHtml()
print(html.status_code)  # 200

6. 打码平台使用

只演示图片验证码: 
* 1. 将验证码下载到本地
* 2. 将验证码上传到打码平台(将图片验证码给别人识别, 全国有几十台服务器, 有六千多工人, 24小时轮班...)
* 3. 打码平台放回验证码
验证码识别平台: http://www.chaojiying.com/

* 1. 注册一个账户

* 2. 下载Demo实例代码包

* 3. 解压代码包
    Chaojiying_Python
     |-a.jpg   验证码图片
     |-chaojiying.py 实例代码

* 4. 生成软件id

* 5. 获取积分

* 6. 打开项目测试

#!/usr/bin/env python
# coding:utf-8

import requests
from hashlib import md5


# 定义类
class Chaojiying_Client(object):
    # 实例化生成用户信息与请求头信息
    def __init__(self, username, password, soft_id):
        # 用户
        self.username = username
        # 密码解码
        password = password.encode('utf8')
        # 加密密码
        self.password = md5(password).hexdigest()
        # 应用id
        self.soft_id = soft_id
        # 基本参数
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        # 请求头信息
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    # 将验证码图片发送到打码平台识别
    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        # 图片的类型
        params = {
            'codetype': codetype,
        }
        # 将用户基本信息与请求头信息写入字典中
        params.update(self.base_params)
        # 读取图片
        files = {'userfile': ('ccc.jpg', im)}
        # 发送请求到打码平台
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
                          headers=self.headers)
        # 返回一个json格式字典数据, 解码
        return r.json()

    # 将验证码图片发送到打码平台识别 base64格式数据
    def PostPic_base64(self, base64_str, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
            'file_base64': base64_str
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, headers=self.headers)
        return r.json()

    # 异常信息
    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()


if __name__ == '__main__':
    # 生成对象
    chaojiying = Chaojiying_Client('q18177', 'q18177', '93518')
    # 用户中心>>软件ID 生成一个id替换
    im = open('a.jpg', 'rb').read()  
    # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
    print(chaojiying.PostPic(im, 1902))  
    # 1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()
    # print chaojiying.PostPic(base64_str, 1902)  #此处为传入 base64代码

* 7. 查看结果pic_str是验证码

7. 打码平台使用案例

* 1. 分析登入(输入一个错误的密码, 不然看不到请求就跳转了)
登入地址: http://www.aa7a.cn/user.php?&ref=http%3A%2F%2Fwww.aa7a.cn%2F
获取验证码图片
* 这个网站的验证码就是不检验的,一下找不到合适的网站测试

import requests
from bs4 import BeautifulSoup

res = requests.get('http://www.aa7a.cn/user.php?&ref=http%3A%2F%2Fwww.aa7a.cn%2F')
soup = BeautifulSoup(res.text, 'lxml')

# 获取图片地址
url = soup.find(id='login_img_checkcode')['src']
code_url = 'http://www.aa7a.cn/' + url
print(code_url)

* 2. 登入触发事件
    数据提交地址: http://www.aa7a.cn/user.php
    提交数据:
    username: 1360012768@qq.com
    password: zxc12dasdasd
    captcha: asda
    remember: 1
    ref: http://www.aa7a.cn
    act: act_login

import requests
from bs4 import BeautifulSoup
# 导入打码平台
from chaojiying import Chaojiying_Client

res = requests.get('http://www.aa7a.cn/user.php?&ref=http%3A%2F%2Fwww.aa7a.cn%2F')
soup = BeautifulSoup(res.text, 'lxml')

# 获取图片地址
url = soup.find(id='login_img_checkcode')['src']
code_url = 'http://www.aa7a.cn/' + url

# 获取验证码码
chaojiying = Chaojiying_Client('q18177354117', 'q18177354117', '935180')  # 用户中心>>软件ID 生成一个替换 96001
# 保存图片
res = requests.get(code_url)
code_dict = chaojiying.PostPic(res.content, 1902)
print(code_dict.get('pic_str'))

# data数据
data = {
    'username': '[email protected]',
    'password': 'zxc123456',
    'captcha': code_dict.get('pic_str'),
    'remember': 1,
    'ref': 'http://www.aa7a.cn/',
    'act': 'act_login',
}

# 登入
res = requests.post('http://www.aa7a.cn/user.php', data=data)
print(res.text)
# 登入成功显示: {"error":0,"ref":"http: // www.aa7a.cn"}
# 登入失败显示: {"error":5}

8. bs4爬虫小说

* 1. 分析小说章节名称
    地址: https://www.au26.com/shu/3414/
    分析小说章节名称, 文章内容.

末尾还有两种广告!

* 2. 爬虫程序

import requests
from bs4 import BeautifulSoup
import re

# 获取小说章节
res = requests.get('https://www.au26.com/shu/3414/')
soup = BeautifulSoup(res.text, 'lxml')

# 获取小说名称
name = soup.h1.text

# 获取到id为list的节点
id_list = soup.find(id='list')

# 排查广告标签 留下 第326章 完本感言 这样的标签
chapter_re_href = re.compile(r'(.*?).html')
chapter_re_text = re.compile(r'第\d+章.*')

# 获取list下所有的a标签
list_a = id_list.find_all(href=chapter_re_href, text=chapter_re_text)

# 去重并排序 [3, 2, 1, 2, 3, 4] -> [1, 2, 3, 4]
chapter_list = []
for chapter in list_a:
    # 存在则更新 chapter 是Tag对象 不是字符串!!!
    if chapter in chapter_list:
        # 获取存在值的索引
        index = chapter_list.index(chapter)
        # pop掉
        chapter_list.pop(index)
        # 重新把值写在后面
        chapter_list.append(chapter)

    chapter_list.append(chapter)

print(chapter_list)

# 写入txt
with open(f'{name}.txt', mode='wt', encoding='utf-8') as wf:
    # chapter 是Tag对象 不是字符串!!!
    for chapter in chapter_list:
        # 章节名称
        chapter_name = chapter.text
        # 章节地址
        chapter_url = 'https://www.au26.com/' + chapter.get('href')

        # 章节内容
        res = requests.get(chapter_url)
        soup = BeautifulSoup(res.text, 'lxml')
        # 获取content下的所有文本内容
        content = soup.find(id='content').text
        # 剔除广告
        str1 = '喜欢大明王侯请大家收藏：(www.au26.com)大明王侯笔趣阁备用站更新速度最快。 '
        str2 = '&&ahref=http:www.&&;起点中文网www.欢迎广大书友光临阅读，最新、最快、最火的连载作品尽在起点原创！'
        pure_content = content.strip(str1).strip(str2)

        # 写入到txt中
        wf.write(chapter_name + '\n')
        wf.write(pure_content + '\n')

你可能感兴趣的:(9.,爬虫,爬虫,beautifulsoup,python)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本