TCP404

Python【Crawler】2-聚焦爬虫

文章目录

- 正则表达式爬取
- 示例网页
- bs4爬取
- - 安装
  - 导入
  - 使用
  - - 定位数据
    - - bs.tagName
      - bs.find()
      - bs.select()
    - 解析数据
    - - 获取文本
      - 获取属性
  - 案例
- xpath爬取
- - 解析步骤
  - 安装
  - 导入
  - 使用
  - 案例

聚焦爬虫：爬取页面中指定的页面内容

编码流程
1. 指定url
2. 发起请求
3. 获取响应数据
4. 数据解析
5. 持久化存储
数据解析分类
1. 正则表达式
2. bs4
3. xpath (*)

数据解析原理
- 解析的局部文本内容都会在标签之间或标签的属性中存储
- 1. 进行标签的定位
- 2. 标签或者标签对应的属性中存储的数据值进行提取（即解析~~~~）

正则表达式爬取

import os
import requests
import re

# UA伪装
UA = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 Edg/84.0.522.44'
header = {'User-Agent': UA}

# 存储目录
folder = './qiushi'
if not os.path.exists(folder):
    os.mkdir(folder)


def main():
    # 分页处理
    for i in range(1, 3):
        url = f"https://www.qiushibaike.com/imgrank/page/{i}/"
        # 1. 爬取整张页面
        page_text = requests.get(url=url, headers=header).text
        # 2. 使用聚焦爬虫进行数据解析
        images = data_parse(page_text)

        length = len(images)  # 进度条所需

        for index, image in enumerate(images):
            # 3. 发起请求并获得数据
            image_content = requests.get(url=image, headers=header).content
            # 4. 持久化存储
            image_name = image.split('/')[-1]
            image_path = os.path.join(folder, image_name)
            with open(image_path, 'wb') as f:
                f.write(image_content)
                # 进度打印
                print(image_name + ' 下载成功！')
                print(f'{index} / {length}', end='\r')

        print(str(i) + "/ 2 page")


def data_parse(page_text):
    """ 解析出每张图片的url """

    # 分析网页后整理出正则表达式
    ex = r'.*?
'
    images = re.findall(ex, page_text, re.S)
    images = ['https:' + x for x in images]  # 解析出来没有协议头，给增加上

    return images


if __name__ == "__main__":
    main()

--------------------------------------------------

# Output:

K7EUFEUIV3QY37P1.jpg 下载成功！
DFIAAL32X5J35JP2.jpg 下载成功！
...
NXUA4X1CMQP22UPP.jpg 下载成功！
FQILIKXCVMUIRXL8.jpg 下载成功！
1/ 2 page
95GRCYEUZANQ361J.jpg 下载成功！
2SXBFKSSK3JD3G2M.jpg 下载成功！
...
5YTNS4JH0PLZAO58.jpg 下载成功！
59CN77YAL198SM6M.jpg 下载成功！
2/ 2 page

示例网页


<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>测试bs4title>
head>
<body>
    <div>
        <p>百里守约p>
    div>
    <div class="song">
        <p>李清照p>
        <p>王安石p>
        <p>苏轼p>
        <p>柳宗元p>
        <a href="https://www.song.com" title="赵匡胤" target="_self">
            <span>this is spanspan>
            宋朝是最强大的王朝，不是军队的强大，而是经济很强大，国民都很有钱
        a>
        <a href="" class="du">总为浮云能避日，长安不见使人愁a>
        <img src="https://www.baidu.com/meinv.jpg" alt="">
    div>
    <div class="tang">
        <ul>
            <li><a href="https://www.baidu.com" title="qing">清明时节雨纷纷，路上行人欲断魂。借问酒家何处有，牧童遥指杏花村。a>li>
            <li><a href="https://www.163.com" title="qin">秦时明月汉时光，万里长征人未还。但使龙城飞将在，不教胡马度阴山。a>li>
            <li><a href="https://www.126.com" alt="qi">岐王宅里寻常见，崔久堂前几度闻。正是江南好风景，落花时节又逢君。a>li>
            <li><a href="https://www.sina.com" class="du">杜甫a>li>
            <li><a href="https://www.dudu.com" class="du">杜牧a>li>
            <li><b>杜小月b>li>
            <li><i>度蜜月i>li>
            <li><a href="https://www.haha.com" id="feng">凤凰台上凤凰游，凤去台空江自流。吴宫花草埋幽径，晋代衣冠成古丘。a>li>
        ul>
    div>


body>
html>

以下爬虫示例均以此网页示例为基础
有点丑，将就一下。

bs4爬取

安装

win 下：
>_ pip install bs4
>_ pip install lxml

Linux 下：
>_ pip install Beautifulsoup4

导入

from bs4 import BeautifulSoup

使用

创建bs对象并传入待解析对象

传入待解析对象为本地文件

from bs4 import BeautifulSoup

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')    # 创建bs对象

传入待解析对象为网络请求

from bs4 import BeautifulSoup
import requests

url = "https://www.baidu.com"
page_text = requests.get(url=url).text
bs = BeautifulSoup(page_text, 'lxml')    # 创建bs对象

定位数据

方法	用	返值
tagName	返回首tagName标签	bs4.element.Tag
find(‘tagName’)	返回首tagName标签	bs4.element.Tag
find(‘tagName’, class_/id/attrName=‘value’)	返回首属性为value的tagName标签	bs4.element.Tag
find_all(‘tagName’)	返回所符合要求的标签	bs4.element.ResultSet
select([‘selector’ + ]‘tagName’)	通过CS选择器+标签名定位标签,返回多个	bs4.element.ResultSet
select_one([‘selector’ + ]‘tagName’)	通过CS选择器+标签名定位标签,返回一个	bs4.element.Tag

bs.tagName

bs.tagName：返回文档中第一次出现tagName对应的标签

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')    # 创建bs对象
    
    tag_a = bs.a        # 定位数据
    
    print(tag_a)
    print(type(tag_a))  # 
--------------------------------------------------
# Output:
<a href="https://www.song.com" target="_self" title="赵匡胤">
<span>this is span</span>
    宋朝是最强大的王朝，不是军队的强大，而是经济很强大，国民都很有钱
</a>
<class 'bs4.element.Tag'>

bs.find()

bs.find()：

find('tagName')：等同于 bs.tagName

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')    # 创建bs对象
    
    tag_div = bs.find('div')         # 定位数据
    
    print(tag_div)
    print(type(tag_div))  # 
--------------------------------------------------
# Output:
<div>
<p>百里守约</p>
</div>
<class 'bs4.element.Tag'>

find('tagName', class_/is/attrName='value')：通过限定属性来定位标签

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')                  # 创建bs对象
    
    tag_a = bs.find('a', class_='du')        # 定位数据
    
    print(tag_a)
    print(type(tag_a))  # 
--------------------------------------------------
# Output:
<a class="du" href="">总为浮云能避日，长安不见使人愁</a>
<class 'bs4.element.Tag'>

bs.find_all('tagName')：返回复合要求的所有标签（集合）

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')       # 创建bs对象
    
    tag_p = bs.find_all('p')        # 定位数据
    
    print(tag_p)
    print(type(tag_p))  # 
--------------------------------------------------
# Output:
[<p>百里守约</p>, <p>李清照</p>, <p>王安石</p>, <p>苏轼</p>, <p>柳宗元</p>]

bs.select()

bs.select('selector' + 'tagName')：可以通过CSS择器+标签名定位，包括层级选择器、标签选择器等

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')       # 创建bs对象
    
    tag_div = bs.select('#feng')        # 定位数据
    
    print(tag_div)
    print(type(tag_div))  # 
--------------------------------------------------
# Output:
[<a href="https://www.haha.com" id="feng">凤凰台上凤凰游，凤去台空江自流。吴宫花草埋幽径，晋代衣冠成古丘。</a>]
<class 'bs4.element.ResultSet'>

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')               # 创建bs对象
    
    tag1_a = bs.select('.tang > ul > li > a')  # 定位数据
    tag2_a = bs.select('.tang >ul a')          # 定位数据
    
    print(tag1_a)
    print(tag2_a)
    print(type(tag1_a))  # 

--------------------------------------------------
# Output:
[<a href="https://www.baidu.com" title="qing">清明时节雨纷纷，路上行人欲断魂。借问酒家何处有，牧童遥指杏花村。</a>, <a href="https://www.163.com" title="qin">秦时明月汉时光，万里长征人未还。但使龙城飞将在，不教胡马度阴山。</a>, <a alt="qi" href="https://www.126.com">岐王宅里寻常见，崔久堂前几度闻。正是江南好风景，落花时节又逢君。</a>, <a class="du" href="https://www.sina.com">杜甫</a>, <a class="du" href="https://www.dudu.com">杜牧</a>, <a href="https://www.haha.com" id="feng">凤凰台上凤凰游，凤去台空江自流。吴宫花草埋幽径，晋代衣冠成古丘。</a>]
[<a href="https://www.baidu.com" title="qing">清明时节雨纷纷，路上行人欲断魂。借问酒家何处有，牧童遥指杏花村。</a>, <a href="https://www.163.com" title="qin">秦时明月汉时光，万里长征人未还。但使龙城飞将在，不教胡马度阴山。</a>, <a alt="qi" href="https://www.126.com">岐王宅里寻常见，崔久堂前几度闻。正是江南好风景，落花时节又逢君。</a>, <a class="du" href="https://www.sina.com">杜甫</a>, <a class="du" href="https://www.dudu.com">杜牧</a>, <a href="https://www.haha.com" id="feng">凤凰台上凤凰游，凤去台空江自流。吴宫花草埋幽径，晋代衣冠成古丘。</a>]
<class 'bs4.element.ResultSet'>

 with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')       # 创建bs对象
    
    tag_div = bs.select_one('.du')    # 定位数据
    
    print(tag_div)
    print(type(tag_div))  # 
    
--------------------------------------------------
# Output:
<a class="du" href="">总为浮云能避日，长安不见使人愁</a>
<class 'bs4.element.Tag'>

解析数据

方法	用	返值
.text	返回标签下所有直系和非直系标签的所有本	str
.get_text()	返回标签下所有直系和非直系标签的所有本	str
.string	返回标签下所有直系标签的所有本	bs4.element.NavigableString

获取文本

bs.tagName.text/string/get_text()：获取标签之间的*所有文本**

text/get_text()：可以获取标签下直系和非直系的所有文本

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')       # 创建bs对象
    
    txt_li = bs.find('li').text
    
    print(txt_li)
    print(type(txt_li))    # 
    
--------------------------------------------------
# Output:
清明时节雨纷纷，路上行人欲断魂。借问酒家何处有，牧童遥指杏花村。
<class 'str'>

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')       # 创建bs对象
    
    txt_li = bs.find('li').get_text()
    
    print(txt_li)
    print(type(txt_li))    # 
    
--------------------------------------------------
# Output:
清明时节雨纷纷，路上行人欲断魂。借问酒家何处有，牧童遥指杏花村。
<class 'str'>

string：只能获取标签下直系的文本，没有返回 None

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')       # 创建bs对象
    
    txt_li = bs.find('li').string
    
    print(txt_li)
    print(type(txt_li))    # 
    
--------------------------------------------------
# Output:
清明时节雨纷纷，路上行人欲断魂。借问酒家何处有，牧童遥指杏花村。
<class 'bs4.element.NavigableString'>

获取属性

bs.tagName['attrName']：获取标签中的属性内容

with open('./bs_test.html', 'r', encoding='utf-8') as f:
    bs = BeautifulSoup(f, 'lxml')       # 创建bs对象
    
    txt_href = bs.find('a')['href']
    
    print(txt_href)
    print(type(txt_href))    # 
    
--------------------------------------------------
# Output:
https://www.song.com
<class 'str'>

案例

从诗词名句网下载一整部《论语》

import time
import requests
import os
from bs4 import BeautifulSoup

UA = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 Edg/84.0.522.44'
header = {'User-Agent': UA}

folder = '.\\爬虫\\论语'
if not os.path.exists(folder):
    os.mkdir(folder)


def req_catalog(url):
    """ 请求目录列表 """
    return requests.get(url=url, headers=header).text


def catalog_parse(res_text):
    """ 解析目录列表 """
    bs = BeautifulSoup(res_text, 'lxml')
    links = bs.select('.book-mulu > ul > li > a')
    catalog_list = [[x.string, x['href']] for x in links]

    return catalog_list


def download_content(catalog_list):
    """ 请求内容页 """
    url = 'https://www.shicimingju.com'
    length = len(catalog_list)

    for index, elem in enumerate(catalog_list):
        # 请求数据
        content_text = requests.get(url=url + elem[1], headers=header).text
        # 解析数据
        content = contents_parse(content_text)
        # 持久化存储
        filename = str(index + 1) + '-' + elem[0] + '.txt'
        filepath = os.path.join(folder, filename)
        with open(filepath, 'w', encoding='utf-8') as f:
            f.write(content)
            print("已下载：" + str(index + 1) + " / " + str(length), end="\r")
    return 1


def contents_parse(page_text):
    """ 解析内容 """
    bs = BeautifulSoup(page_text, 'lxml')
    contents = bs.select('.chapter_content > p')  # 取出所有p标签
    texts = [x.string for x in contents]          # 取出内容，过滤掉P标签
    content = ''
    for i in texts:
        content += str(i)
    return content


def main():
    url = "https://www.shicimingju.com/book/lunyu.html"

    catalog_list = list()
    try:
        catalog_text = req_catalog(url)
        catalog_list = catalog_parse(catalog_text)
        print("下载成功！") if download_content(catalog_list) else print("下载失败")
    except TimeoutError:
        print("TimeoutError\n")
        time.sleep(2)
        print("下载成功！") if download_content(catalog_list) else print("下载失败")
    except Exception:
        print("Exception\n")


if __name__ == '__main__':
    main()

xpath爬取

最常用、通用性最强的，最便捷高效的一种解析方式。

解析步骤

实例化一个etree对象，并且需要将被解析的页面源码数据加载到该对象中。
通过调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获
xpath定位到数据后返回的不是数据的内容，而已一个列表，里面放置了解析出来的Element对象

安装

>_: pip install lxml

导入

from lxml import etree

使用

创建etree对象并传入待解析对象
1. 传入待解析对象为本地文件 tree = etree.parse(filePath)
2. 传入待解析对象为网络请求 tree = etree.HTML('page_text')

定位数据：tree.xpath(xpath表达式)
在XPath中有7种节点：元素、属性、文本、文档、命名空间、处理指令、注释。
元素、属性、文本为常用节点。

<html> 为文档节点
<li>小米li> 为元素节点
class='blank' 为属性节点
 为注释节点

expression	description
nodeName	选择nodeName节点的所有子节点
/	从根节点或/前的节点开始，不跨层级匹配
//	从//前的节点开始，跨层级匹配
.	选择当前节点
…	选择当前节点的父节点
@	匹配元素属性
*	匹配所有节点
@*	匹配节点所有属性
[]	按索引定位

/：表示从根节点开始定位

/ 放在最前面的时候表示根节点，不是放在最前面的时候表示

from lxml import etree

with open('./test.html', 'r', encoding='utf-8') as f:
    f_content = f.read()
    tree = etree.HTML(f_content)
    r = tree.xpath('/html/body/div/p')
    print(r)
    print(type(r))

--------------------------------------------------
xpath 在匹配的时候是贪婪的，示例中有两个 div 下都有 p，所以匹配到了5个
# Output:
[<Element p at 0x252e2de8780>,
 <Element p at 0x252e2de87c0>,
 <Element p at 0x252e2de8800>,
 <Element p at 0x252e2de8840>,
 <Element p at 0x252e2de8880>]
<class 'list'>

//：表示匹配多级

/a/b//c，就表示匹配 a 标签下的 b 标签下所有c标签

from lxml import etree

with open('./test.html', 'r', encoding='utf-8') as f:
    f_content = f.read()
    tree = etree.HTML(f_content)
    r = tree.xpath('/html//a')        # 等价于 r = tree.xpath('//a')
    print(r)
    print(type(r))

--------------------------------------------------
html节点下总共有8个a标签，所以匹配到8个element对象
# Output:
[<Element a at 0x1e5f55e9680>,
 <Element a at 0x1e5f55e96c0>,
 <Element a at 0x1e5f55e9700>,
 <Element a at 0x1e5f55e9740>,
 <Element a at 0x1e5f55e9780>,
 <Element a at 0x1e5f55e9800>,
 <Element a at 0x1e5f55e9840>,
 <Element a at 0x1e5f55e9880>]
<class 'list'>

@：表示通过属性定位

tag[@attrName="attrValue"]
@后面加上属性名，比如class、id、href、src等等

from lxml import etree

with open('./test.html', 'r', encoding='utf-8') as f:
    f_content = f.read()
    tree = etree.HTML(f_content)
    r = tree.xpath('/html//div[@class="song"]')
    print(r)
    print(type(r))

--------------------------------------------------
html节点下总共有8个a标签，所以匹配到8个element对象
# Output:
[<Element div at 0x24d64839640>]
<class 'list'>

[]：表示通过索引定位

tag[index]
这里是索引是从1开始的

from lxml import etree

with open('./test.html', 'r', encoding='utf-8') as f:
    f_content = f.read()
    tree = etree.HTML(f_content)

    print(tree.xpath('/html//div[@class="song"]/p[1]'))
    print(tree.xpath('/html//div[@class="song"]/p[1]/text()'))
    print(tree.xpath('/html//div[@class="song"]/p[2]'))
    print(tree.xpath('/html//div[@class="song"]/p[3]'))

--------------------------------------------------
这里的下标是从1开始的
# Output:
[<Element p at 0x1df3d4395c0>]
['李清照']
[<Element p at 0x1df3d439580>]
[<Element p at 0x1df3d439600>]
<class 'list'>

/text()：返回标签之间的文本，取文本

tag/text()：获取tag下直系的文本
tag//text()：获取tag下直系和非直系的文本

from lxml import etree

with open('./test.html', 'r', encoding='utf-8') as f:
    f_content = f.read()
    tree = etree.HTML(f_content)
    r1 = tree.xpath('/html//div[@class="song"]/p[3]')
    r2 = tree.xpath('/html//div[@class="song"]/p[3]/text()')
    r3 = tree.xpath('/html//div[@class="song"]/p[3]/text()')[0]
    print(r1)
    print(r2)
    print(r3)

--------------------------------------------------

# Output:
[<Element p at 0x1d4e4c29540>]
['苏轼']
苏轼
<class 'list'>

/@attrName：返回标签的attrName属性的值

tag/@attrName：获取tag标签中的attrName属性的值

from lxml import etree

with open('./test.html', 'r', encoding='utf-8') as f:
    f_content = f.read()
    tree = etree.HTML(f_content)
    r1 = tree.xpath('//div[@class="song"]/a/@href')
    print(r1)

    r2 = tree.xpath('//div[@class="song"]/img/@src')
    print(r2)

--------------------------------------------------

# Output:
['https://www.song.com', '']
['https://www.baidu.com/meinv.jpg']
<class 'list'>

/@*：返回标签的所有属性的值

tag/@*：获取tag标签中的所有属性的值

from lxml import etree

with open('./test.html', 'r', encoding='utf-8') as f:
    f_content = f.read()
    tree = etree.HTML(f_content)
    r1 = tree.xpath('//div[@class="song"]/a[@target="_self"]/@*')
    print(r1)

--------------------------------------------------

# Output:
['https://www.song.com', '赵匡胤', '_self']
<class 'list'>

案例

从彼岸图网下载4K图保存至本地

import os
from lxml import etree
import requests

UA = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 Edg/84.0.522.44'
header = {'User-Agent': UA}

path = './爬虫/4k'
if not os.path.exists(path):
    os.mkdir(path)


def get_url():
    """ 获取所有图片地址 """
    url = 'http://pic.netbian.com/4kmeinv/'
    index_text = requests.get(url=url, headers=header).text

    tree = etree.HTML(index_text)
    a_list = tree.xpath('//div[@id="main"]/div[3]/ul/li/a')
    # response.encoding = 'utf-8'   # 处理中文乱码方式1，不一定有效

    img_list = list()
    for a in a_list:
        src: str = 'http://pic.netbian.com' + a.xpath('./@href')[0]
        title: str = a.xpath('./b/text()')[0] + '.jpg'
        title = title.encode('iso-8859-1').decode('gbk')  # 处理中文乱码方式2
        img_list.append((title, src))

    return img_list


def download_img(img_info):
    """ 下载图片 """

    img_content = requests.get(url=img_info[1], headers=header).content
    filepath = os.path.join(path, img_info[0])
    with open(filepath, 'wb') as f:
        f.write(img_content)


def main():
    img_list = get_url()
    for img_info in img_list:
        download_img(img_info)


if __name__ == '__main__':
    main()

你可能感兴趣的:(Python-note,学习笔记,python,爬虫)

PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
侯捷 C++ 课程学习笔记：C++ 面向对象开发的艺术孤寂大仙v c++c++学习笔记
在侯捷老师的C++系列课程中，《C++面向对象开发》这门课程让我对面向对象编程有了更深入的理解。面向对象编程（OOP）是现代软件开发中最重要的编程范式之一，而C++作为支持OOP的语言，提供了强大的工具和特性。侯捷老师通过系统的讲解和实战案例，帮助我掌握了如何在C++中高效地使用面向对象技术。以下是我对这门课程的学习笔记和心得体会。一、课程核心内容：C++面向对象开发的关键特性![侯捷老师的课程详
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
使用python计算等比数列求和的方法 HAMYHF windows
在python中，计算Sum=m+mm+mmm+mmmm+.....+mmmmm.....,输入两个数m,n。m的位数累加到n的值，列出算式并计算出结果：#为了打印出算式，并计算出结果，将m,mm这些放入到列表中#定义列表中的m初始值为0,用Ele来代表m,mm....Ele=0#定义总和为0Sum=0#定义一个空列表List=[]#输入两个值n=int(input("inputadigit：")
Python+Playwright常用元素定位方法 HAMYHF python 功能测试
CSSselector选择器在CSS中，定位元素主要通过选择器完成，以下是几种常见的CSS选择器定位方法：标签选择器(element):直接使用HTML元素名称来定位，例如p会选择所有段落元素。属性选择器(attribute):选择所有具有指定属性的元素，无论该属性的值是什么。例如，[title]会选择所有包含title属性的元素。选择具有指定属性，并且该属性值完全等于给定值的元素。例如，[typ
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
【Python 学习 / 7】模块与文件操作卜及中 Python基础 python 学习数据库
文章目录前言一、导入模块1.导入整个模块2.导入模块中的特定函数3.给模块或函数起别名二、常用模块1.`math`模块2.`random`模块3.`os`模块4.`sys`模块三、文件处理1.打开文件2.读取文件3.写入文件4.关闭文件5.使用`with`语句管理文件四、日期时间1.`datetime`模块获取当前日期和时间创建日期和时间对象格式化日期和时间解析字符串为日期对象2.`time`模块
【学习笔记】Elasticsearch之环境搭建聪明马的博客 elasticsearch 学习笔记 elasticsearch
Elasticsearch官网本文是自己在学习Elasticsearch的过程中，记下的觉得非常有用的笔记，希望对大家认识Elasticsearch有一点点帮助。1.什么是Elasticsearch官网上是这么介绍的：Elasticsearchisadistributeddocumentstore.Insteadofstoringinformationasrowsofcolumnardata,El
经销商管理系统架构设计方案（附 Java版本和Python版本源代码详解） AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
经销商管理系统架构设计方案（Java实现源代码详解）关键词：经销商管理系统，Java，SpringBoot，MyBatis，MySQL，架构设计，源代码1.背景介绍随着市场竞争的日益激烈，企业对经销商的管理越来越重视。传统的经销商管理方式效率低下，信息滞后，难以适应现代企业的发展需求。为了提高经销商管理效率，降低运营成本，越来越多的企业开始采用信息化的手段来管理经销商，而经销商管理系统应运而生。经
Python:数据从Excel表格链接到Word文档更新Excel即可自动更新Word 一个花生米生花 python excel word
要使用Python来创建或更新一个Word文档，并将数据从Excel表格链接到Word文档中，你可以使用python-docx库来操作Word文档和openpyxl或pandas库来读取Excel文件。不过，需要注意的是，python-docx库并不支持将外部文件链接到Word文档的功能。你可以在Word文档中插入Excel数据的快照，但它们不会自动更新。如果你想要在Word文档中插入Excel数
使用Odoo Shell卸载模块 odoo中国 odoo odoo 开源软件 erp
使用OdooShell卸载模块我们在Odoo使用过程中，因为模块安装错误或者前端错误等导致odoo无法通过界面登录，这时候你可以使用OdooShell来卸载模块。OdooShell是一个交互式Pythonshell，允许你直接与Odoo数据库和模型进行交互。以下是使用OdooShell卸载模块的详细步骤：步骤1：启动OdooShell要启动OdooShell，你需要在终端中运行以下命令。确保你已经
NumPy的基本使用 Mo思编程学习 numpy python 开发语言 pip
在Python的数据科学与数值计算领域，NumPy无疑是一颗耀眼的明星。作为Python中用于科学计算的基础库，NumPy提供了高效的多维数组对象以及处理这些数组的各种工具。本文将带您深入了解NumPy的基本使用，感受它的强大魅力。一、安装与导入在使用NumPy之前，首先要确保它已经安装在您的Python环境中。如果您使用的是Anaconda发行版，NumPy通常已经预装。若未安装，可以使用如下命
React学习笔记（组件通信）_千峰教育 react m0_54846402 程序员 react.js 学习笔记
reduxprinciple-+//定义一个dispatch的方法，接收到动作之后，自动调用constdispatch=(action)=>{changeState(action)renderCount(countState)}```创建createStore方法Reduxprinciple02reduxprinciple-+//定义一个方法，用于集中管理state和dispatchconstcr
FOKS-TROT: 一个高效、易用的全功能开源知识图谱生成工具柳旖岭
FOKS-TROT:一个高效、易用的全功能开源知识图谱生成工具项目简介FOKS-TROT是一个基于Python的全功能开源知识图谱生成工具，旨在帮助研究人员和开发者快速构建具有丰富信息的知识图谱。该项目由hkx3upper在GitCode上开发并维护。通过FOKS-TROT，您可以轻松地将各种数据源（如文本文件、数据库、API）转换为结构化的知识图谱，并对其进行可视化分析和机器学习任务。此外，该工
python实现word文档合并 v2.0 task138 python自动化 python 自动化运维开发
目录前言要求运行效果脚本下载链接前言之前发表了一个小工具，python用于合并word文档以完成特定的工作任务，现在领导给出了新需求，适当的调整了一下word文档的合并情况。同时，各位同事反馈说，环境部署太难了，脚本的使用成本比较高，难度大，所以我这次把脚本打包成一个EXE可执行文件，直接双击即可使用。要求由于脚本的具体逻辑发生了变化，因此，exe文件的同级目录下，一定要存在一个txt文件，否则无
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http