biggirler

python爬虫-----网络数据分析_正则表达式，xpath库，BeautifulSoup库

文章目录

python爬虫-----网络数据分析

一、正则表达式

1.为什么要学正则表达式
2.什么是正则表达式
3.re 模块一般使用步骤

Pattern 对象
正则表达式实现步骤

4.正则split和sub
5.常用的正则常量
项目案例：基于requests和正则的猫眼电影TOP100定向爬虫
报错

二、xpath库

1.XPath如何实现文档解析?
2.xpath用法
项目案例：基于requerts和Xpath的猫眼电影TOP100定向爬虫
3.csv文件读写操作
项目案例：基于requerts和Xpath的TIOBE编程语言排行榜定向爬虫

三、BeautifulSoup库

1.bs4的基本用法
2.bs4的节点选择器
3.bs4的方法选择器
项目案例：基于requests和bs4的三国演义定向爬虫

python爬虫-----网络数据分析

一、正则表达式

1.为什么要学正则表达式

爬虫一共四个主要步骤：

明确目标 (要知道你准备在哪个范围或者网站去搜索)
爬 (将所有的网站的内容全部爬下来)
取 (去掉对我们没用处的数据)
处理数据（按照我们想要的方式存储和使用）

2.什么是正则表达式

正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。

3.re 模块一般使用步骤

使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象
注意: re对特殊字符进行转义，如果使用原始字符串，只需加一个 r 前缀
通过 Pattern 对象对文本进行匹配查找，获得匹配结果，一个 Match 对象。
使用 Match 对象提供的属性和方法获得信息，根据需要进行其他的操作

Pattern 对象

正则表达式编译成 Pattern 对象，可以利用 pattern 的一系列方法对文本进行匹配查找了。
Pattern 对象的一些常用方法主要有：
match 方法：从起始位置开始查找，一次匹配
search 方法：从任何位置开始查找，一次匹配
findall 方法：全部匹配，返回列表
finditer 方法：全部匹配，返回迭代器
split 方法：分割字符串，返回列表
sub 方法：替换

正则表达式实现步骤

import re

text = """
2020-10-10
2020-11-11
2030/12/12
"""

# 1. 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象
# 注意: re对特殊字符进行转义，如果使用原始字符串，只需加一个 r 前缀
pattern = re.compile(r'\d{4}-\d{1,2}-\d{1,2}')    # 2020-4-11, 无分组的规则
pattern = re.compile(r'(\d{4})-(\d{1,2})-(\d{1,2})')    # 2020-4-11， 有分组的规则
pattern = re.compile(r'(?P\d{4})-(?P\d{1,2})-(?P\d{1,2})')  # 2020-4-11， 有命名分组的规则
#  2. 通过 Pattern 对象对文本进行匹配查找，获得匹配结果，一个 Match 对象。
# search从给定的字符串中寻找一个符合规则的字符串， 只返回一个
result = re.search(pattern, text)
print(result)
# 3. 使用 Match 对象提供的属性和方法获得信息，根据需要进行其他的操作
print("匹配到的信息:", result.group())  # 返回的是匹配到的文本信息
print("匹配到的信息:", result.groups())  # 返回的是位置分组， ('2020', '10', '10')
print("匹配到的信息:", result.groupdict())  # 返回的是关键字分组.{'year': '2020', 'month': '10', 'day': '10'}


#运行结果：
<re.Match object; span=(1, 11), match='2020-10-10'>
匹配到的信息: 2020-10-10
匹配到的信息: ('2020', '10', '10')
匹配到的信息: {'year': '2020', 'month': '10', 'day': '10'}

4.正则split和sub

repl 可以是字符串也可以是一个函数：
1). 如果 repl 是字符串，则会使用 repl 去替换字符串每一个匹配的子串，并返回替换后的字符串，另外，repl 还可以使用 id 的形式来引用分组，但不能使用编号 0；
2). 如果 repl 是函数，这个方法应当只接受一个参数（Match 对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。
count 用于指定最多替换次数，不指定时全部替换。

正则匹配中文
在某些情况下，我们想匹配文本中的汉字，有一点需要注意的是，中文的 unicode 编码范围主要在 [u4e00- u9fa5]，这里说主要是因为这个范围并不完整，比如没有包括全角（中文）标点，不过，在大部分情况下，应该是够用的。


import  re

# ****************************split***************************
# text = '1+2*4+8-9/10'
# # 字符串方法: '172.25.254.250'.split('.')   => ['172', '25', '254', '250']
# pattern = re.compile(r'\+|-|\*|/')
# # 将字符串根据+或者-或者*或者/进行切割.
# result = re.split(pattern, text)
# print(result) #['1', '2', '4', '8', '9', '10']


# #***********************sub**************************************
def repl_string(matchObj):
    # matchObj方法: group, groups, groupdict
    items = matchObj.groups()
    # print("匹配到的分组内容: ", items)   # ('2019', '10', '10')
    return  "-".join(items)


# 2019/10/10 ====> 2019-10-10
text = "2019/10/10 2020/12/12 2019-12-10  2020-11-10"
pattern = re.compile(r'(\d{4})/(\d{1,2})/(\d{1,2})')  # 注意: 正则规则里面不要随意空格
# 将所有符合条件的信息替换成'2019-10-10'
# result = re.sub(pattern, '2019-10-10', text)
# 将所有符合条件的信息替换成'year-month-day'
result = re.sub(pattern, repl_string, text)
print(result) #2019-10-10 2020-12-12 2019-12-10  2020-11-10

5.常用的正则常量

正则表达式在线测试
https://c.runoob.com/front-end/854

"""
常用的正则常量:
    "ASCII": 'A'
    "IGNORECASE": 'I'
    "MULTILINE":'M'
    "DOTALL":'S'
"""


import  re

# ********************************   1. re.ASCII *****************************
text = "正则表达式re模块是python中的内置modelue."
# 匹配所有的\w+(字母数字下划线, 默认也匹配中文), 不想匹配中文时，指定flags=re.A
result = re.findall(r'\w+', string=text, flags=re.A)
print(result) #['re', 'python', 'modelue']


# ********************************   2. re.IGNORECASE *****************************
text = 'hello world heLLo westos Hello python'
# 匹配所有he\w+o， 忽略大小写， re.I
result = re.findall(r'he\w+o', text, re.I)
print(result)           # ['hello', 'heLLo', 'Hello']


# # ********************************   3. re.S *****************************
text = 'hello \n world'
result = re.findall(r'^he.*?ld$', text, re.S)
print(result)  #['hello \n world']


# # ************************匹配中文**********************
pattern = r'[\u4e00-\u9fa5]'
text = "正则表达式re模块是python中的内置modelue."
result = re.findall(pattern, text)
print(result)  #['正', '则', '表', '达', '式', '模', '块', '是', '中', '的', '内', '置']

项目案例：基于requests和正则的猫眼电影TOP100定向爬虫

import codecs
import json
import re
import time

import requests
from colorama import Fore
from fake_useragent import UserAgent
from requests import HTTPError


def download_page(url, parmas=None):
    """
    根据url地址下载html页面
    :param url:
    :param parmas:
    :return: str
    """
    try:
        ua = UserAgent()
        headers = {
            'User-Agent': ua.random,
            'Host': 'maoyan.com',
            'Cookie': '__mta=244103482.1586583849431.1586591578863.1586591596622.7; uuid_n_v=v1; uuid=70A8E5507BB711EA904101D407E7401D56771E011B5248CCB28F41E623827FA2; _csrf=911258e83ffafda305001ded783784bef80e9113d1d47c8f8b4940dc934b9acd; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1586583838; mojo-uuid=1bf14bca5d2a510f6e85c2857cc8d257; _lxsdk_cuid=17167c43f33c8-07022459d688ce-4313f6a-144000-17167c43f33c8; _lxsdk=70A8E5507BB711EA904101D407E7401D56771E011B5248CCB28F41E623827FA2; mojo-session-id={"id":"83a8b6a56c45ba34bd30bd7e6d5c46b9","time":1586591446957}; __mta=244103482.1586583849431.1586583890672.1586591526586.6; mojo-trace-id=6; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1586591597; _lxsdk_s=171683837b1-2a5-86f-f4e%7C%7C10'
        }
        # 请求https协议的时候， 回遇到报错: SSLError
        # verify=Flase不验证证书
        response = requests.get(url, params=parmas, headers=headers)
    except  HTTPError as e:
        print(Fore.RED + '[-] 爬取网站%s失败: %s' % (url, str(e)))
        return None
    else:
        # content返回的是bytes类型, text返回字符串类型
        return response.text


def parse_html(html):
    """
    通过正则表达式对html解析获取电影名称、时间、评分、图片等信息。
    :param html:
    :return:
    """
    pattern = re.compile(
        ''
        + '.*?(\d+)'  # 获取电影的排名1
        + '.*?  # 获取图片网址和图片名称
        + '.*?(.*?)
'  # 获取电影的主演: 主演：黄渤,张译,韩昊霖
        + '.*?(.*?)
'  # 获取电影的上映时间: 上映时间：2019-09-30
         
          '.*?
',
        re.S
    )
    # findall返回列表， finditer返回的是迭代器
    items = re.finditer(pattern, html)
    for item in items:
        yield {
            'index': item.groups()[0],
            'image': item.groups()[1],
            'title': item.groups()[2],
            'star': item.groups()[3].strip().lstrip('主演：'),
            'releasetime': item.groups()[4].lstrip('上映时间：')
        }


def save_to_json(data, filename):
    """将爬取的数据信息写入json文件中"""
    # r, r+, w, w+, a, a+
    # 解决的问题:
    #       1. python数据类型如何存储到文件中? json将python数据类型序列化为json字符串
    #       2. json中中文不能存储如何解决?     ensure_ascii=False
    #       3. 存储到文件中的数据不是utf-8格式的，怎么解决?   ''.encode('utf-8')
    # with open(filename, 'ab')  as f:
    #     f.write(json.dumps(data, ensure_ascii=False,indent=4).encode('utf-8'))
    #     print(Fore.GREEN + '[+] 保存电影 %s 的信息成功' %(data['title']))

    with codecs.open(filename, 'a', 'utf-8') as f:
        # f.write(json.dumps(data, ensure_ascii=False) + '\n')
        f.write(json.dumps(data, ensure_ascii=False, indent=4))
        print(Fore.GREEN + '[+] 保存电影 %s 的信息成功' % (data['title']))


def get_one_page(page=1):
    # url = 'https://maoyan.com/board/'   # 采集热映口碑榜， 只有一页。
    # 采集电影TOP100, 总共10页. url的规则: https://maoyan.com/board/4?offset=(page-1)*10
    url = 'https://maoyan.com/board/4?offset=%s' % ((page - 1) * 10)
    html = download_page(url)
    # print(html)
    items = parse_html(html)
    # item是字典
    for item in items:
        save_to_json(item, 'maoyan.json')

def no_use_thread():
    for page in range(1, 11):
        get_one_page(page)
        print(Fore.GREEN + '[+] 采集第[%s]页数据' % (page))
        # 反爬虫策略: 方式爬虫速度太快被限速， 在采集数据的过程中，休眠一段时间
        time.sleep(0.5)


def use_multi_thread():
    # 使用多线程实现的代码
    from threading import Thread
    for page in range(1, 11):
        thread = Thread(target=get_one_page, args=(page,)) #给每一页分配一个线程
        thread.start()
        print(Fore.GREEN + '[+] 采集第[%s]页数据' % (page))


def use_thread_pool():
    from concurrent.futures import ThreadPoolExecutor
    # 实例化线程池并指定线程池线程个数
    pool = ThreadPoolExecutor(100)
    pool.map(get_one_page, range(1, 11))
    print("采集结束")


if __name__ == '__main__':
    no_use_thread()



#运行结果  ，这里因为反爬原因，部分数据为能爬取
F:\python\Anaconda3\python.exe F:/ziliao/python_kaifa/my_code/13_Spider/SpiderProject/10_基于requests和正则的猫眼电影TOP100定向爬虫(1).py
F:\python\Anaconda3\lib\site-packages\urllib3\connectionpool.py:847: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
  InsecureRequestWarning)
[+] 保存电影 霸王别姬 的信息成功
[+] 保存电影 肖申克的救赎 的信息成功
[+] 保存电影 这个杀手不太冷 的信息成功
[+] 保存电影 罗马假日 的信息成功
[+] 保存电影 泰坦尼克号 的信息成功
[+] 保存电影 乱世佳人 的信息成功
[+] 保存电影 唐伯虎点秋香 的信息成功
[+] 保存电影 魂断蓝桥 的信息成功
[+] 保存电影 辛德勒的名单 的信息成功
[+] 保存电影 喜剧之王 的信息成功
[+] 采集第[1]页数据
F:\python\Anaconda3\lib\site-packages\urllib3\connectionpool.py:847: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
  InsecureRequestWarning)
[+] 保存电影 天空之城 的信息成功
[+] 保存电影 大闹天宫 的信息成功
[+] 保存电影 春光乍泄 的信息成功
[+] 保存电影 音乐之声 的信息成功
[+] 保存电影 剪刀手爱德华 的信息成功
[+] 保存电影 黑客帝国 的信息成功
[+] 保存电影 指环王3：王者无敌 的信息成功
[+] 保存电影 加勒比海盗 的信息成功
[+] 保存电影 教父2 的信息成功
[+] 保存电影 楚门的世界 的信息成功
[+] 采集第[2]页数据
F:\python\Anaconda3\lib\site-packages\urllib3\connectionpool.py:847: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
  InsecureRequestWarning)
[+] 保存电影 无间道 的信息成功
[+] 保存电影 蝙蝠侠：黑暗骑士 的信息成功
[+] 保存电影 射雕英雄传之东成西就 的信息成功
[+] 保存电影 指环王1：护戒使者 的信息成功
[+] 保存电影 天堂电影院 的信息成功
[+] 保存电影 指环王2：双塔奇兵 的信息成功
[+] 保存电影 机器人总动员 的信息成功
[+] 保存电影 活着 的信息成功
[+] 保存电影 狮子王 的信息成功
[+] 保存电影 拯救大兵瑞恩 的信息成功
[+] 采集第[3]页数据
。。。。。。

报错

1.报错：requests.exceptions.SSLError: HTTPSConnectionPool(host=‘verify.meituan.com’, port=443): Max retries exceeded with url: /v2/web/general_page?action
原因及解决：当使用https请求时，可能会遇到SSLError的报错，这是证书有问题，简单的觉得方法就是获取url的时候，设置verify=False。
response = requests.get(url, params=parmas, headers=headers，verify=False)
2.反爬策略
（1）在头部加上Host和Cookie信息
cookie 位置：右击审查元素–>网络–>Headers

headers = {
            'User-Agent': ua.random,
            'Host': 'maoyan.com',
            'Cookie': '__mta=244103482.1586583849431.1586591578863.1586591596622.7; uuid_n_v=v1; uuid=70A8E5507BB711EA904101D407E7401D56771E011B5248CCB28F41E623827FA2; _csrf=911258e83ffafda305001ded783784bef80e9113d1d47c8f8b4940dc934b9acd; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1586583838; mojo-uuid=1bf14bca5d2a510f6e85c2857cc8d257; _lxsdk_cuid=17167c43f33c8-07022459d688ce-4313f6a-144000-17167c43f33c8; _lxsdk=70A8E5507BB711EA904101D407E7401D56771E011B5248CCB28F41E623827FA2; mojo-session-id={"id":"83a8b6a56c45ba34bd30bd7e6d5c46b9","time":1586591446957}; __mta=244103482.1586583849431.1586583890672.1586591526586.6; mojo-trace-id=6; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1586591597; _lxsdk_s=171683837b1-2a5-86f-f4e%7C%7C10'}

        }

（2）加休眠

 # 反爬虫策略: 方式爬虫速度太快被限速， 在采集数据的过程中，休眠一段时间
time.sleep(0.5)

二、xpath库

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。
XPath (XML Path Language) 是一门在 xml文档中查找信息的语言，可用来在 xml /html文档中对元素和属性进行遍历。
查询更多XPath的用法: https://www.w3school.com.cn/xpath/xpath_syntax.asp

1.XPath如何实现文档解析?

etree库把HTML文档中的字符串解析为Element对象
from lxml import etree
html=etree.HTML(text)
result=etree.tostring(html)
etree库把HTML文档解析为Element对象
html=etree.parse(‘xxx.html’)
result=etree.tostring(html,pretty_print=True)

2.xpath用法

获取子节点与属性匹配
//li、 //li/a、//a[@href=“xxx”]/…/@class、//li[@class=“item-1”]
//li[contains(@class,“aaa”)]/a/text()
文本获取
//li[@class=“item-1”]/a/text()、//li[@class=“item-1”]//text()
属性获取
//li/a/@href、//li//@href

项目案例：基于requerts和Xpath的猫眼电影TOP100定向爬虫

import codecs
import json

import requests
from colorama import Fore
from fake_useragent import UserAgent
from requests import HTTPError
from lxml import  etree


def download_page(url, parmas=None):
    """
    根据url地址下载html页面
    :param url:
    :param parmas:
    :return: str
    """
    try:
        ua = UserAgent()
        headers = {
            'User-Agent': ua.random,
            'Host': 'maoyan.com',
            'Cookie': '__mta=244103482.1586583849431.1586591578863.1586591596622.7; uuid_n_v=v1; uuid=70A8E5507BB711EA904101D407E7401D56771E011B5248CCB28F41E623827FA2; _csrf=911258e83ffafda305001ded783784bef80e9113d1d47c8f8b4940dc934b9acd; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1586583838; mojo-uuid=1bf14bca5d2a510f6e85c2857cc8d257; _lxsdk_cuid=17167c43f33c8-07022459d688ce-4313f6a-144000-17167c43f33c8; _lxsdk=70A8E5507BB711EA904101D407E7401D56771E011B5248CCB28F41E623827FA2; mojo-session-id={"id":"83a8b6a56c45ba34bd30bd7e6d5c46b9","time":1586591446957}; __mta=244103482.1586583849431.1586583890672.1586591526586.6; mojo-trace-id=6; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1586591597; _lxsdk_s=171683837b1-2a5-86f-f4e%7C%7C10'
        }
        # 请求https协议的时候， 回遇到报错: SSLError
        # verify=Flase不验证证书
        response = requests.get(url, params=parmas, headers=headers)
    except  HTTPError as e:
        print(Fore.RED + '[-] 爬取网站%s失败: %s' % (url, str(e)))
        return None
    else:
        # content返回的是bytes类型, text返回字符串类型
        return response.text


def parse_html(html):
    """
    通过Xpath对html解析获取电影名称、时间、评分、图片等信息。
    :param html:
    :return:
    """
    # 通过lxml对文档进行解析
    
    # 1). 将传入的html文档内容通过lxml解析器进行解析，lxml中有个etree库把HTML文档中的字符串解析为Element对象
    html = etree.HTML(html)
    # 2). 通过Xpath语法获取电影的信息
    # //dl[@class="board-wrapper"]/dd, 从当前节点寻找class属性名等于board-wrapper的dl标签， 拿出里面的所有dd标签
    movies = html.xpath('//dl[@class="board-wrapper"]/dd')
    for movie in movies:
        # 从当前dd节点寻找i标签里面的文本内容
        index = movie.xpath('./i/text()')[0]
        # .//从当前标签寻找img标签(class='border-img')， 获取标签的data-src和alt属性
        # /不深入寻找， // 深入寻找
        image = movie.xpath('./a/img[@class="board-img"]/@data-src')[0]
        title = movie.xpath('./a/img[@class="board-img"]/@alt')[0]
        star = movie.xpath('.//p[@class="star"]/text()')[0]
        releasetime = movie.xpath('.//p[@class="releasetime"]/text()')[0]
        yield {
            'index': index,
            'image': image,
            'title': title,
            'star': star.strip().lstrip('主演：'),
            'releasetime': releasetime.lstrip('上映时间：')
        }


def save_to_json(data, filename):
    """将爬取的数据信息写入json文件中"""
    # r, r+, w, w+, a, a+
    # 解决的问题:
    #       1. python数据类型如何存储到文件中? json将python数据类型序列化为json字符串
    #       2. json中中文不能存储如何解决?     ensure_ascii=False
    #       3. 存储到文件中的数据不是utf-8格式的，怎么解决?   ''.encode('utf-8')
    # with open(filename, 'ab')  as f:
    #     f.write(json.dumps(data, ensure_ascii=False,indent=4).encode('utf-8'))
    #     print(Fore.GREEN + '[+] 保存电影 %s 的信息成功' %(data['title']))

    with codecs.open(filename, 'a', 'utf-8') as f:
        # f.write(json.dumps(data, ensure_ascii=False) + '\n')
        f.write(json.dumps(data, ensure_ascii=False, indent=4))
        print(Fore.GREEN + '[+] 保存电影 %s 的信息成功' % (data['title']))


def get_one_page(page=1):
    url = 'https://maoyan.com/board/'  # 采集热映口碑榜， 只有一页。
    html = download_page(url)
    # print(html)
    items = parse_html(html)
    # item是字典
    for item in items:
        save_to_json(item, 'maoyan.json')


if __name__ == '__main__':
    get_one_page()

运行结果：

3.csv文件读写操作

"""
逗号分隔值（Comma-Separated Values，CSV）以纯文本形式存储表格数据（数字和文本）。
csv文件读取有两种方法:  reader()和DictReader()
csv文件的写入有两种方法:  writer()和DictWriter()
"""

import  csv

# 1). 通过reader方式读取文件内容，每行的内容是一个列表
# with open('hello.csv') as f:
#     csv_reader = csv.reader(f)
#     for row in csv_reader:
#         # ['fentiao', '10']
#         print(row)

# # 2). 通过Dictreader方式读取文件内容，每行的内容是一个字典
# with open('hello.csv') as f:
#     csv_reader = csv.DictReader(f)
#     for row in csv_reader:
#         # OrderedDict([('name', 'xiaoli'), ('age', '20')])
#         print(row)
#         print("名称: ", row['name'])
#         print("年龄: ", row['age'])


# # 3). 通过writer方式写入文件， 传入一个列表
# info = [
#     ('fentiao', 10),
#     ('fensi', 9)
# ]
# with open('writer.csv', 'w', encoding='utf-8') as f:
#     csv_writer = csv.writer(f)
#     # 一次写入多行内容
#     csv_writer.writerows(info)
#
#     # for循环，每次写入一行内容
#     # for row in  info:
#     #     csv_writer.writerow(row)


# 4). 通过DictWriter方式写入文件， 传入一个字典

data = [
    {'name':'name1', 'password':'password1'},
    {'name':'name2', 'password':'password2'},
    {'name':'name3', 'password':'password3'},
]

with open('writer.csv', 'w', encoding='utf-8') as f:
    # ['name', 'password']是csv文件的表头
    csv_writer = csv.DictWriter(f, ['name', 'password'])
    # 依次遍历列表中的每一个字典并写入文件
    for row in data:
        csv_writer.writerow(row)

项目案例：基于requerts和Xpath的TIOBE编程语言排行榜定向爬虫

import csv

import requests
from colorama import Fore
from fake_useragent import UserAgent
from lxml import etree
from requests import HTTPError


def download_page(url, parmas=None):
    """
    根据url地址下载html页面
    :param url:
    :param parmas:
    :return: str
    """
    try:
        ua = UserAgent()
        headers = {
            'User-Agent': ua.random,
        }
        # 请求https协议的时候， 回遇到报错: SSLError
        # verify=Flase不验证证书
        response = requests.get(url, params=parmas, headers=headers)
    except  HTTPError as e:
        print(Fore.RED + '[-] 爬取网站%s失败: %s' % (url, str(e)))
        return None
    else:
        # content返回的是bytes类型, text返回字符串类型
        return response.text


def parse_html(html):
    """
    编程语言的去年名次、今年名次、编程语言名称、评级Rating和变化率Change等信息。
    :param html:
    :return:
    """
    # 1). 通过lxml解析器解析页面信息， 返回Element对象
    html = etree.HTML(html)
    # 2). 根据Xpath路径寻找语法获取编程语言相关信息
    # 获取每一个编程语言的Element对象
    # 
    languages = html.xpath('//table[@id="top20"]/tbody/tr')# 依次获取每个语言的去年名次、今年名次、编程语言名称、评级Rating和变化率Change等信息。for language in languages:# 注意: Xpath里面进行索引时，从1开始
        now_rank = language.xpath('./td[1]/text()')[0]
        last_rank = language.xpath('./td[2]/text()')[0]
        name = language.xpath('./td[4]/text()')[0]
        rating = language.xpath('./td[5]/text()')[0]
        change = language.xpath('./td[6]/text()')[0]yield{'now_rank': now_rank,'last_rank': last_rank,'name': name,'rating': rating,'change': change
        }defsave_to_csv(data, filename):# 1). data是yield返回的字典对象# 2). 以追加的方式打开文件并写入# 3). 文件的编码格式是utf-8# 4). 默认csv文件写入会有空行， newline=''withopen(filename,'a', encoding='utf-8', newline='')as f:
        csv_writer = csv.DictWriter(f,['now_rank','last_rank','name','rating','change'])# 写入csv文件的表头# csv_writer.writeheader()
        csv_writer.writerow(data)defget_one_page(page=1):
    url ='https://www.tiobe.com/tiobe-index/'
    filename ='tiobe.csv'
    html = download_page(url)
    items = parse_html(html)for item in items:
        save_to_csv(item, filename)print(Fore.GREEN +'[+] 写入文件%s成功'%(filename))if __name__ =='__main__':
    get_one_page()
三、BeautifulSoup库
Beautiful Soup就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。Beautiful Soup在解析时实际上依赖解析器， 可以选择的解析器如下表所示：
 
1.bs4的基本用法
# 1. 从bs4模块中导入BeautifulSoup类
from bs4 import  BeautifulSoup


# 2. 实例化BeautifulSoup对象， 并通过指定的解析器(4种)解析html字符串的内容
html = """
 BS4 
"""
soup = BeautifulSoup(html, 'lxml')

# 3. 把要解析的字符串以标准的缩进格式输出
string = soup.prettify()
print(string)

2.bs4的节点选择器
html = """



    beautifulsoup





    
    
        
         
            
            
            
            
            


 
    
    
    
    
            
        
        


   
    
      


 

 
   
   
   
   
   
   
   
  

    
        姓名
        年龄
    
    
        张三
        10
    
    
        李四
        20
    




    





"""

# 1. 从bs4模块中导入BeautifulSoup类
from bs4 import  BeautifulSoup

# 2. 实例化BeautifulSoup对象， 并通过指定的解析器(4种)解析html字符串的内容
soup = BeautifulSoup(html, 'lxml')

# 3. 节点选择器
# 3-1). 元素选择: 只返回在html里面查询符合条件的第一个标签内容
# print(soup.title)
# print(soup.img)
# print(soup.tr)  #只返回第一个tr标签

# 3-2). 嵌套选择器
# print(soup.html.head.title) #打印出title的标签
# print(soup.body.table.tr.td)

# 3-3). 属性选择
# # 3-3-1). 获取标签名称: 当爬虫过程中， 标签对象赋值给一个变量传递进函数时， 想获取变量对应的标签， name属性就很有用。
# print(soup.img.name)
# movieimg = soup.img
# print(movieimg.name)
# #  3-3-2). 获取标签的属性
# print(soup.table.attrs)             # 返回标签所有的属性信息{'class': ['table'], 'id': 'userinfo'}
# print(soup.table.attrs['class'])    # 获取class属性对应的值
# print(soup.table['class'])          # 获取class属性对应的值推荐版
# print(soup.table['id'])             # 获取id属性对应的值推荐版

# # 3-3-3). 获取文本内容
# print(soup.title.string)
# print(soup.title.get_text())

# 3-4). 关联选择

# 3-4-1). 父节点和祖父节点
# first_tr_tags = soup.table.tr
# print(first_tr_tags.parent)      # 父节点
# parents = first_tr_tags.parents    # 祖父节点generator object PageElement.parents
# for parent in parents:
#     print("*******************")   # tr标签的父标签是table， table的父标签是body， body父标签是html
#     print(parent)

#
# # 3-4-2). 子节点和子孙节点
# table_tag = soup.table
# for children in table_tag.children:
#     print('**********')
#     print(children)
#

# 3-4-3). 兄弟节点
# tr_tag = soup.table.tr
# print(tr_tag)
# print(tr_tag.next_sibling)

 
  3.bs4的方法选择器 
   
  """
- findall
- find
"""
import re

html = """



    beautifulsoup




    
        姓名
        年龄
    
    
        张三
        10
    
    
        李四
        20
    




    





"""


# 1. 从bs4模块中导入BeautifulSoup类
from bs4 import  BeautifulSoup


# 2. 实例化BeautifulSoup对象， 并通过指定的解析器(4种)解析html字符串的内容
soup = BeautifulSoup(html, 'lxml')

# 3. 使用方法选择器灵活的查找标签元素
# # 3-1). 根据标签名进行寻找
# print(soup.find_all('title'))
# print(soup.find('title').string)
# 3-2). 根据标签名和属性信息attrs进行寻找
# print(soup.find_all('table', attrs={'class':'table', 'id':'userinfo'}))
# print(soup.find('table', attrs={'class':'table', 'id':'userinfo'}))
# print(soup.find('table', attrs={'class':'table', 'id':'userinfo'}, recursive=True))

# 3-3). 根据标签名和属性信息class_='xxx', id='xxx'进行寻找
# print(soup.find_all('table', id='userinfo'))
# print(soup.find_all('table', class_='table'))

# # ******规则可以和正则表达式结合
# print(soup.find_all('tr', class_=re.compile('item-\d+')))
# print(soup.find_all('tr', class_=re.compile('item-\d+'), limit=2))

# 3-4). 根据标签的文本信息进行寻找
# 需求: 将td标签中文本信息是一位数字或者两位数字的值拿出来
# print(soup.find_all('td', text=re.compile(r'\d{1,2}')))

 
  项目案例：基于requests和bs4的三国演义定向爬虫 
  思路分析： 
   
   根据网址http://www.shicimingju.com/book/sanguoyanyi.html获取三国演义主页的章节信息. 
   分析章节信息的特点， 提取章节的详情页链接和章节的名称。
 ，li的详情信息如下:
 
第一回·宴桃园豪杰三结义 斩黄巾英雄首立功 
   根据章节的详情页链接访问章节内容  
   提取到的章节内容包含特殊的标签, eg: 
 ==> '\n' , 
 => '' 
   将章节信息存储到文件中 
   
  

import csv
import os
import re

import requests
from colorama import Fore
from fake_useragent import UserAgent
from lxml import etree
from requests import HTTPError
from bs4 import  BeautifulSoup


def download_page(url, parmas=None):
    """
    根据url地址下载html页面
    :param url:
    :param parmas:
    :return: str
    """
    try:
        ua = UserAgent()
        headers = {
            'User-Agent': ua.random,
        }
        # 请求https协议的时候， 回遇到报错: SSLError
        # verify=Flase不验证证书
        response = requests.get(url, params=parmas, headers=headers)
    except  HTTPError as e:
        print(Fore.RED + '[-] 爬取网站%s失败: %s' % (url, str(e)))
        return None
    else:
        # content返回的是bytes类型, text返回字符串类型
        return response.text


def parse_html(html):
    # 实例化BeautifulSoup对象， 并通过指定的解析器(4种)解析html字符串的内容
    soup = BeautifulSoup(html, 'lxml')
    # 根据bs4的选择器获取章节的详情页链接和章节的名称
    book = soup.find('div', class_='book-mulu') # 获取该书籍对象
    chapters = book.find_all('li')              # 获取该数据的所有章节对应的li标签， 返回的是列表
    # 依次遍历每一个章节的内容
    for chapter in chapters:
        detail_url  = chapter.a['href']
        chapter_name = chapter.a.string
        #这里返回一个生成器，不是把找到的章节一次性以列表方式返回(占用内存)，而是返回生成器，需要的时候一边生成一边进一步处理
        yield  {
            'detail_url': detail_url,
            'chapter_name': chapter_name
        }


def parse_detail_html(html):
    # 实例化BeautifulSoup对象， 并通过指定的解析器(4种)解析html字符串的内容
    soup = BeautifulSoup(html, 'lxml')
    # 根据章节的详情页链接访问章节内容, string只拿出当前标签的文本信息， get_text返回当前标签和子孙标签的所有文本信息
    #     
    chapter_content = soup.find('div', class_='chapter_content').get_text()
    return  chapter_content.replace(' ', '')



def get_one_page():
    base_url = 'http://www.shicimingju.com'
    url = 'http://www.shicimingju.com/book/sanguoyanyi.html'
    dirname = "三国演义"
    if not os.path.exists(dirname):
        os.mkdir(dirname)
        print(Fore.GREEN + "创建书籍目录%s成功" %(dirname))

    html = download_page(url)
    items = parse_html(html)
    for item in items:
        # 访问详情页链接
        detail_url = base_url + item['detail_url']
        # 生成文件存储的路径: 三国演义/第一回.xxxxx.txt
        chapter_name = os.path.join(dirname, item['chapter_name'] + '.txt')
        chapter_html = download_page(detail_url)
        chapter_content = parse_detail_html(chapter_html)

        # 写入文件
        with open(chapter_name, 'w', encoding='utf-8') as f:
            f.write(chapter_content)
            print(Fore.GREEN + "写入文件%s成功" %(chapter_name))


if __name__ == '__main__':
    get_one_page()

Python 解析 PDF 文件的基础方法电脑维修员xy python pdf 前端
```htmlPython解析PDF文件的基础方法Python解析PDF文件的基础方法在现代数据处理和信息提取任务中，PDF文件是一种常见的文档格式。然而，PDF文件的结构复杂且难以直接解析，尤其是当需要从中提取文本或数据时。幸运的是，Python提供了多种强大的库来帮助我们轻松地解析PDF文件。1.PyPDF2库PyPDF2是一个功能强大的Python库，用于处理PDF文件。它可以读取、分割、合
面试挂在阿里，庆幸拿到网易offer，一位三年Java岗面试总，细节如下小迁不秃头
前言15年毕业到现在有三年多了，最近去面试了阿里集团（菜鸟网络，蚂蚁金服），网易，滴滴，点我达，最终收到点我达，网易offer，蚂蚁金服二面挂掉，菜鸟网络一个月了还在流程中...最终有幸去了网易。但是要特别感谢点我达的领导及HR，真的非常非常好，很感谢他们一直的关照和指导。面试整体事项1.简历要准备好，联系方式一定要正确清晰醒目，项目经历按照时间倒序阐述，注意描述自己在项目中承担的职责，简历的模板
socket网络通信TCP与UDP原理及代码实现（c++、python）
目录Socket原理通信协议原理TCPUDP代码实现TCPC++pythonUDPC++pythonSocket原理Socket（套接字）是计算机网络中用于实现进程间通信的一种机制，特别是在不同主机之间通过网络进行数据传输时。它是网络编程的核心概念之一，为应用程序提供了统一的接口，使得开发者可以通过网络发送和接收数据。可以将Socket类比为电话系统中的“电话机”。两台设备通过Socket建立连接
如何区分Bug是前端问题还是后端问题？海姐软件测试缺陷管理 bug 前端
在软件测试中，精准定位Bug的归属（前端or后端）是高效协作的关键。以下是系统化的排查方法，结合技术细节和实战技巧：1.核心判断逻辑「数据vs展示」二分法：后端问题：数据本身错误（API返回错误数据/逻辑错误/数据库问题）前端问题：数据正确但展示异常（UI渲染错误/交互逻辑问题）2.四步定位法第一步：抓包分析（必做）工具：ChromeDevTools>Network/Fiddler/Charles
UE5 Rider报错Microsoft.MakeFile.Targets(44,5): Error MSB3073 谁在敲打我的窗丶 UE5 C++ue5
报错内容：Microsoft.MakeFile.Targets(44,5):ErrorMSB3073最直接的方法是直接删除.git文件或者可以试试看能不能提交文件到本地库，我后面提交了一次本地库，报错又莫名其妙的消失了。
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
第六届研究所操盘群老姜（姜新宁）算力3.0云端算个靠谱吗？别再被洗脑了赶紧止损！昌龙律法
这年头，你不理财，财不理你。理财方式有很多，不能投资的只有一种：骗人的。近期，我们接到多起网络投资理财被骗的案情，而每一宗案情都有相似之处，那就是：事主都是加入了某个理财投资微信群，然后通过群里的“投资理财专家”的“指点”，到某个投资平台进行投资理财，随后再用技术手段让所有的投资的钱有去无回。商小信第六届研究所操盘群老姜（姜新宁）算力3.0，第六届【研究所】圆梦反击战（分仓方案）数字经济算力大赛骗
工具篇：（二）MacOS 下载 MySQL 并进行配置连接，使用 VSCode 创建 Node 项目-亲测有效全栈探索者chen mysql macos 工具 macos mysql vscode
MacOS下载MySQL并进行配置连接，使用VSCode创建Node项目我们将介绍如何在macOS上下载和配置MySQL数据库，并使用VSCode创建一个Node.js项目进行测试。通过这些步骤，您将能够顺利地设置开发环境并进行基本的数据操作。一、删除之前的MySQL配置和软件在macOS系统中，下载并配置MySQL客户端之前，清理掉之前的MySQL配置和相关软件是一个关键步骤。以下是详细的操作流
详解C语言函数——一篇看完彻底学会使用自定义函数秋刀鱼的滋味@ C语言语法详解 c语言开发语言 c++
目录1.函数前言1.1函数的概念：1.2为什么要使用函数：2.标准库函数2.1什么是标准库：2.2库函数有哪些：3.自定义函数3.1函数的定义：3.2函数的声明：3.4函数的调用：4.实参和形参4.1实参：4.2形参：4.3实参和形参的关系5.数组传参6.return语句6.1return语句作用：6.2常见的return问题：7.嵌套函数和链式访问7.1嵌套函数：7.2链式访问（例-printf
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
iOS 抓包工具有哪些？2025实用指南与场景推荐
在iOS平台调试网络请求，你可能会遇到无法代理、HTTPS加密、Pin验证、双向认证等诸多拦截。本文将围绕当下实用的iOS抓包工具进行全面介绍，从功能对比到典型场景帮助你找到最佳调试方案。工具分类及主要功能一览我们先从功能维度来看这些工具：工具名称HTTPS解密绕过Pin/双向认证App指定抓包拦截&修改网络层分析Charles✅❌❌✅❌Sniffmaster✅✅✅✅✅✅✅✅✅mitmproxy✅
SmartETL中数据库操作与流程解耦的设计与应用
正如ETL这个概念本身所指示的，数据库读写访问是ETL的最常用甚至是最主要的操作。现代信息系统的设计与运行基本都是围绕数据库展开的，很多应用的核心功能都是对数据库的CRUD（创建、检索、更新、删除）操作。SmartETL框架设计之初就考虑到了这个情况，在早期就根据团队的技术栈，实现了对MongoDB、MySQL、ElasticSearch、ClickHouse等数据库的Extract操作（即Loa
IPv6的创新与演进：从IP地址耗尽到下一代网络协议
IPv6的创新与演进：从IP地址耗尽到下一代网络协议背景简介随着计算机网络技术的飞速发展，互联网连接的设备数量呈指数级增长。在1984年，主机数量首次突破1000台大关，此时使用的IPv4协议凭借32位地址空间，还能应对网络的需求。然而，随着互联网的普及，越来越多的设备接入网络，IP地址耗尽成为了一个迫在眉睫的问题。为了解决这一危机，业界开始寻求新的解决方案，最终促成了IPv6（下一代互联网协议）
python爬大学生就业信息报告_Python语言爬虫——Python 岗位分析报告 weixin_39578457
本文主要向大家介绍了Python语言爬虫——Python岗位分析报告，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。前两篇我们分别爬取了糗事百科和妹子图网站，学习了Requests,BeautifulSoup的基本使用。不过前两篇都是从静态HTML页面中来筛选出我们需要的信息。这一篇我们来学习下如何来获取Ajax请求返回的结果。本篇以拉勾网为例来说明一下如何获取Ajax请求内容
tp5 model 使用
在thinkphp3.X的时候我们经常使用M，D方法实例化一个model，然后通过model对数据进行增删改查操作。在tp5的时候，如果再想用上面的方法，必须先定义model，刚开始的时候怎么定义都说找不到类，后来不知道怎么回事就好了，例如数据库中有表user，在application\index\model目录下建立文件User.php,然后里面这样写几个关键点：一定要写usethink\Mod
Apache Ignite 的 SQL 功能和分布式查询机制
这段内容讲的是ApacheIgnite的SQL功能和分布式查询机制。我们可以从几个关键点来理解：一、Ignite是一个分布式SQL数据库✅特点：符合ANSI-99SQL标准水平扩展（可扩展到多个节点）容错（fault-tolerant）支持两种数据分布方式：分区（Partitioned）：数据分布在多个节点上复制（Replicated）：每个节点都有完整数据副本二、SQL功能支持✅DML语句：Ig
京东返利app哪个佣金高？淘宝返利的软件有哪些桃朵APP
顶级互联网营销大牛东方微信号：26688专注互联网副业20年。强！（联系我可以开营销号）也就是桃朵APP（直接应用市场搜索：桃朵邀请码：123456）也就是乖淘APP（直接应用市场搜索：乖淘邀请码：123456）桃朵APP&乖淘APP创始人-东方微信号：（26688）专注网络引流20年。带过百万团队，徒弟年入百万者有30人。独立开发桃朵APP：对接首席，佣金全网最高，团队收入最高，模式最好，有引流
IPv4 详解：从报头结构到数据传输全解析
一、引言IPv4（InternetProtocolversion4）是互联网协议族中的核心协议，也是目前全球使用最广泛的网络层协议。作为互联网的"交通规则"，IPv4定义了数据包在网络中的传输方式，负责将数据从源主机路由到目的主机，无论中间经过多少网络设备。IPv4于1981年在RFC791中正式定义，虽然已经存在超过40年，但仍然是现代互联网的基础。随着IPv6的逐渐普及，IPv4依然占据主导地
Python关于pandas的基础知识 WeiJingYu. python pandas 开发语言
一.扫盲（一）、pandas是什么pandas是Python的一个第三方数据处理库，它提供了高效、灵活的数据结构（如Series和DataFrame），能方便地对结构化数据进行清洗、转换、分析和处理。（二）、pandas与NumPy的关系NumPy是Python中用于科学计算的基础库，主要用于存储和处理数值型数组。但它有一个局限，就是不能直接存储和处理字符串等非数值类型的数据。而pandas是在N
Python 爬虫——Pyppeteer
Python爬虫——PyppeteerPythonSpider——Pyppeteer一、爬虫的两种方式二、Pyppeteer三、爬虫实现PythonSpider——Pyppeteer爬虫具有时效性，该文产生于2023年末一、爬虫的两种方式爬虫大致可以分为两类方式：直接请求直接请求的方式一般是使用python的HTTP请求库发起HTTP请求，然后接收返回的数据再进行解析，这种方式存在很大的局限性。当
Python关于numpy的基础知识数组的升维 WeiJingYu. python numpy 开发语言
在Python数据处理中，numpy是常用的科学计算库，数组操作是其核心内容之一。下面通过代码示例，展示如何从Python自带列表构建numpy一维数组，再进一步升维构建二维数组。\importnumpyasnp#一维数组构建：从Python列表到numpy一维数组list1=[1,2,3,4,5]#Python自带的列表数据类型print("Python列表list1:",list1)v=np.
中原焦点网络中级班第32期，讲师第16期呼坚持分享第533天，2023年5月4日简单_8c47
心理学证明这7个迹象说明您把孩子抚养得很好：1、孩子能够在您面前表现出各种各样的情绪2、孩子受伤或者遇到问题时，首先找您3、孩子会和您谈自己的想法，不担心您会有什么反应4、您对孩子的反馈不评判，也不贴标签5、您鼓励孩子做自己喜欢做的事6、您会给孩子设置恰当规则，不担心孩子反抗7、会对孩子道歉，并且弥补过错
政务云,私有云,还有移动云的区别到底是什么？
1.政务云（GovernmentCloud）定位：面向政府机构（如委办局、事业单位）提供的专属云平台。核心特点：强合规性与安全性：必须符合国家信息安全等级保护（如等保三级）、数据本地化要求，并通过严格的安全审计（如《网络安全法》《数据安全法》）。独立资源池：物理或逻辑隔离的计算/存储资源，确保政府数据与其他行业数据分离。专属服务目录：提供适配政府业务的标准化服务（如电子政务、协同办公、数据共享交换
linux shell watchdog,使用shell编写的极简WatchDog weixin_39743603 linux shell watchdog
WatchDog-看门狗程序用于自动监测进程的运行状态，并按照需要重启进程。对于嵌入式系统的存储服务、网络服务程序经常因为各种错误出现中断，可以使用WatchDog来自动保持服务的可用。WatchDog可以使用shell来进行编写，这里给出一个极简的实现。1、基本逻辑检查进程是否存在。如果进程不存在，则启动之。如果进程存在，则跳过，休眠给定时间。再次检查进程，重复上面的步骤。2、极简版本编写脚本，
YAML基础使用教程（单引号和双引号的区别）奔跑吧邓邓子工具使用 YAML 单引号双引号
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
整理了六个比较容易的网络兼职项目，用电脑就能做的兼职副业平台氧惠_飞智666999
今日要为大家力荐六个正规且靠谱的线上兼职副业平台。现今，线上兼职已然成为众多人达成财富增长的全新途径。这些平台所提供的工作任务丰富多样，涵盖了调查、写作、设计、数据录入等诸多领域。这些工作都能够在家中顺利完成，为那些追求自由工作模式和灵活时间安排的人给予了极佳的契机。毕竟，每个人都能够依据自身的意愿去选择工作，而无需被迫去适应固定的工作时间与地点。部分平台还有助于个人技能与专业知识的提升。通过在平
推荐一个免费高速图床imgos.cn 爱睡觉的猪猪网络
imgos.cn图床推荐：重新定义高效图片托管体验在数字化内容创作中，图片管理的高效性直接影响创作体验。作为深耕行业多年的技术团队，我们推出的imgos.cn图床，以极致的稳定性、便捷性和功能性，成为内容创作的最佳拍档。以下从核心优势、场景适配、用户权益等维度展开解析，助您快速了解为何imgos.cn值得成为首选图床。一、核心优势：重新定义图片托管体验1.极速稳定，全球畅享CDN加速网络：采用分布
蓝空图床WordPress插件爱睡觉的猪猪 wordpress Wordpress php
LskyProForWordPress是一个专为WordPress设计的图床插件，可以自动将WordPress上传的图片同步到LskyPro图床。通过使用此插件，您可以有效减轻服务器存储压力，提高图片加载速度，并且更好地管理您的媒体资源。✨自动同步上传到WordPress的图片会自动同步到LskyPro图床远程图片处理可以自动将文章中的远程图片上传到图床批量处理支持批量处理媒体库和文章中的图片自定
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
达梦数据库监控观测最佳实践
概述达梦企业管理器简称DEM，架构如下：概略来说，每个数据库主机安装代理程序DMAgent，在监控方面，它将指标发送至DEM服务端，用户可访问DEM控制台查看数据主机和实例的监控指标，在DEM进行配置后可通过http://:8080/dem/metrics端点暴露主机和数据库的Prometheus指标，观测云DataKit可从此端点采集指标完成达梦数据库集成。前提条件监控目标可通过DMAgent上
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在