Miracle8070

Python爬虫快速入门

1. 写在前面

前面相继写了Python数据分析快速入门系列之Numpy快速入门, Pandas快速入门, 为什么我们需要快速入门，这其实这其实涉及到学习方式的问题（在人工智能时代，如何快速学习一项技能？），今天是快速入门第三篇爬虫快速入门，这是第一次学习Python爬虫，虽然不知道后面能不能用的到，但是还是学学吧，万一以后能用到呢？至少知道点爬虫的原理啥的，借助这个偶然的机会吧，就用了一天的时间学习了一下，希望通过今天，可以做到Python的基本入门。并且把今天的成果记录一下。
下面分为几个方面展开：

Python爬虫的基本知识（包括什么是网络爬虫，爬虫能干什么，网络爬虫的定义）

开发爬虫的步骤

了解XPath定位， JSON对象解析

如何使用lxml库，进行XPath的提取

如何在Python中使用Selenium库来帮助你模拟浏览器，获取完整的HTML

最后做几个实战小程序脚本

2. Python爬虫的基本知识：

什么是网络爬虫：简单的说，爬虫就是一段程序或者说一个脚本

爬虫能干什么：自动的批量采集我们需要的资源

所以总结一下网络爬虫的的定义：网络爬虫是一段脚本或者一个程序，这个程序或者脚本能够模拟浏览器自动的浏览网页，自动的批量的采集我们需要的资源

3. 开发爬虫的流程：

目标数据（网站地址，页面）
分析数据加载流程（重点）
先看一下下面这个图，把握一下请求，响应等内部的逻辑。

首先是给出目标数据所在的url，然后浏览器根据url向相应的服务器发出请求，服务器做出响应把结果返回给浏览器，浏览器做出解析，得到数据返回给用户。
（如果自己写爬虫的爬虫的话，解析这一块也需要自己来写，因为服务器返回给浏览器的是网页源码，我们得想办法取出我们想要的数据，然后进行下载。）

下载数据
清洗，处理数据
数据持久化（写入文件）

上面这就是开发爬虫的一个基本流程，第二步最重要，上面只是列出了逻辑，下面还有一些具体的细节

比如我们发出请求的时候我们有两种方式post和get方式，使用的Python中的requests包访问的页面。
再比如，服务器返回给浏览器的数据是HTML页面或者是JSON数据，如果是JSON数据，就需要我们通过json包解析成Python
那么如果是HTML页面的话，我们如何提取到我们想要的数据呢，这时候需要定位，XPath定位可以帮助我们定位位置，而只有位置还不行，得提取相应的标签，这时候还会用到一个Python解析库lxml进行解析数据，这样才能找到我们目标数据，第二种方式就是直接可以使用正则表达式直接匹配提取目标数据。
还有一个问题就是如果我们用Requests获取HTML之后，发现想要的XPath并不存在，因为可能HTML还没有加载完，因此这时候还需要一个工具进行网页的加载模拟，直到加载完整个HTML，这个工具就是Python的Selenium库。

上面这些都是可能会遇到的问题，所以下面会一一先进行具体细节的简要介绍，然后通过几个实战简单的看看。

3.1 Requests 访问页面

Requests 是 Python HTTP 的客户端库，编写爬虫的时候都会用到，编写起来也很简单。它有两种访问方式：Get 和 Post。这两者最直观的区别就是：Get 把参数包含在 url 中，而 Post 通过 request body 来传递参数。

假设我们想访问豆瓣

用Get的话，可以这样写：

r = requests.get(‘http://www.douban.com’)

这里的“r”就是 Get 请求后的访问结果，然后我们可以使用 r.text 或 r.content 来获取 HTML 的正文。

用post的话，可以这样写

r = requests.post(‘http://www.douban.com’, data={‘key’:‘value’})
这里 data 就是传递的表单参数，data 的数据类型是个字典的结构，采用 key 和 value 的方式进行存储。

3.2 XPath定位

XPath 是 XML 的路径语言，实际上是通过元素和属性进行导航，帮我们定位位置。它有几种常用的路径表达方式。下面是写简单的例子：

xpath(‘node’) 选取了 node 节点的所有子节点；

xpath(’/div’) 从根节点上选取 div 节点；

xpath(’//div’) 选取所有的 div 节点；

xpath(’./div’) 选取当前节点下的 div 节点；

xpath(’…’) 回到上一个节点；

xpath(’//@id’) 选取所有的 id 属性；

xpath(’//book[@id]’) 选取所有拥有名为 id 的属性的 book 元素；

xpath(’//book[@id=“abc”]’) 选取所有 book 元素，且这些 book 元素拥有 id= "abc"的属性；

xpath(’//book/title | //book/price’) 选取 book 元素的所有 title 和 price 元素。

使用 XPath 定位，你会用到 Python 的一个解析库 lxml。这个库的解析效率非常高，使用起来也很简便，只需要调用 HTML 解析命令即可，然后再对 HTML 进行 XPath 函数的调用。

"""比如我们想要定位到 HTML 中的所有列表项目，可以采用下面这段代码。"""
from lxml import etree
html = etree.HTML(html)
result = html.xpath('//li')

3.3 JSON对象解析

JSON 是一种轻量级的交互方式，在 Python 中有 JSON 库，可以让我们将 Python 对象和 JSON 对象进行转换

import  json

jsondata = '{"a":1, "b":2, "c":3, "d":4, "e":5}';
input = json.loads(jsondata)
print(input)

4. 小项目实战

下面给出几个小项目的实战，能够快速上手Python爬虫，项目和介绍如下：

如何使用JSON数据自动下载王祖贤的海报（这里面会用到JSON数据的解析）
如何使用XPath自动下载王祖贤的海报（这里应用XPath和lxml等）
使用Python去爬取一部小说（这里会用到正则表达式）
使用爬虫去爬取一个表格数据（这里会用到bs4）

4.1 如何使用JSON数据自动下载王祖贤的海报

需求：假设我想去豆瓣自动下载王祖贤的海报，我们先梳理一下日常操作的步骤，毕竟爬虫也是模拟我们的浏览：

打开网页

输入关键词“王祖贤”

在搜索结果中选择图片

下载图片

保存到文件中

针对上面的五部，我们来看看爬虫应该怎么写才能进行上面的模拟：

我们先锁定目标数据：王祖贤的图片

有了数据，我们得有一个统一资源定位符：url，也就是我们要访问服务器的哪？即先给出url（这里你需要注意的是，如果爬取的页面是动态页面，就需要关注 XHR 数据。因为动态页面的原理就是通过原生的 XHR 数据对象发出 HTTP 请求，得到服务器返回的数据后，再进行处理）,这里的url直接是：（https://www.douban.com/j/search_photo?q= 王祖贤 &limit=20&start=0）这是个XHR数据请求

通过requests发出请求，得到响应，并解析这个响应得到HTML页面（这里我们获取到的是JSON格式的对象，因为是通过原生的XHR数据对象发出的HTTP请求），JSON数据长下面这样：

从这个 JSON 对象中，我们能看到，王祖贤的图片一共有 22471 张，其中一次只返回了 20 张，还有更多的数据可以请求。数据被放到了 images 对象里，它是个数组的结构，每个数组的元素是个字典的类型，分别告诉了 src、author、url、id、title、width 和 height 字段，这些字段代表的含义分别是原图片的地址、作者、发布地址、图片 ID、标题、图片宽度、图片高度等信息。
有了JSON信息，就可以很容易的把图片下载下来了。

下载数据，并保存文件

下面根据上面的描述进行操作

"""导入包"""
import requests
import json

"""下载图片函数"""
def downloadpic(src, id):
    """
        src -- 图片的位置
        id -- 表示图片的序号， 为图片命名使用
    """
    downloadpath = './webspider/posters/'
    
    if not os.path.exists(downloadpath):
        os.mkdir(downloadpath)
    # 定义图片的保存路径
    dir = downloadpath + str(id) + '.jpg'
    try:
        pic = requests.get(src, timeout=10)
        fp = open(dir, 'wb')
        fp.write(pic.content)
        fp.close()
    
    except requests.exceptions.ConnectionError:
            print('图片无法下载')

"""基于JSON对象自动下载明星图片的Python爬虫"""
def photowebspider(photonums=10, query='王祖贤'):
    """
        photonums -- 需要的图片数量
        query -- 表示明星名
    """
    
    # 这是一个请求配置选项， 如果没有这个配置，下面get的时候，可能返回空
    # Python使用xpath爬取数据返回空列表解决方案积累：https://blog.csdn.net/SL_World/article/details/84893957
    headers = {
    'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
                 ' (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }
    
    # 下面这个循环是根据网页的特点进行写的，因为观察XHR请求的地址会发现，这是个动态网页，并且20张图片一加载，所以start
    # 开始是0， 然后是20， 然后40， 这样一共22471张
    for i in range(0, 22471, 20):   
        
        # 确定url
        url = 'https://www.douban.com/j/search_photo?q= %s &limit=20&start= %s' %(query, str(i))
        
        # 有了url，就发出requests请求,获取JSON对象
        html = requests.get(url, headers=headers).text   
        
        # 讲JSON对象转成Python
        response = json.loads(html, encoding='utf-8')  
        
        # 这样reponse就是上面的那种字典的形式了，从这里面，再取出src，就可以进行每一张图片下载
        for image in response['images']:
            print(image['src'])       # 查看当前下载的图片地址
            downloadpic(image['src'], image['id'])  # 下载图片
            photonums -= 1
            if photonums == 0:
                return

"""测试爬虫"""
photowebspider(20, '胡歌')      # 第一个参数代表多少张， 第二个参数代表人物名

4.2 如何使用XPath自动下载王祖贤的海报（这里应用XPath和lxml等）

如果你遇到 JSON 的数据格式，那么恭喜你，数据结构很清爽，通过 Python 的 JSON 库就可以解析。但有时候，网页会用 JS 请求数据，那么只有 JS 都加载完之后，我们才能获取完整的 HTML 文件。XPath 可以不受加载的限制，帮我们定位想要的元素。
比如，我们想从豆瓣电影上下载王祖贤的电影封面，同样的先梳理人工操作流程

打开网页movie.douban.com

输入关键词 “王祖贤”

下载图片页中的所有电影封面

同样，针对上面的步骤，梳理一下应该通过XPath和lxml进行下载图片

编写下载图片的函数，这个函数负责给定地址之后，下载一张图片存入文件

关于海报爬虫函数的编写思路：

给定资源所在网页的网址url

通过Selenium库中的WebDriver来模拟浏览器的访问，获取到完整的HTML(注意：这里需要安装响应浏览器的WebDriver，我安装的谷歌的，具体安装方法见最后的那个链接)

然后对HTML中的XPath地址进行提取，得到海报的真实地址和电影的名称

然后调用下载函数进行下载

注意：需要自己先去目标数据所在的地方调用XPathHelper插件谷歌浏览器插件xpath helper 的安装和使用进行海报和电影名称XPath的获取, 下面开始实践：

"""导入包"""
import os
import requests
from lxml import etree
from selenium import webdriver

"""编写下载单张海报的函数"""
def downloadposter(src, id):
    """
        src -- 图片的地址
        id -- 图片的标题
    """
    downloadpath = './webspider/posters/'
    if not os.path.exists(downloadpath):
        os.mkdir(downloadpath)
    
    dir = downloadpath + str(id) + '.webp'
    
    try:
        pic = requests.get(src, timeout=30)   # 获取图片
        fp = open(dir, 'wb')
        fp.write(pic.content)
        fp.close()
    except requests.exceptions.ConnectionError:
        print("图片无法下载")

"""下载海报函数"""
def posterwebspider(postersnums=10, query='王祖贤'):
    """
        postersnums -- 海报数
        query -- 人
    """
    
    # 这个循环为了循环翻页时用
    for i in range(0, 150, 15):
        # 创建url 
        url =  'https://search.douban.com/movie/subject_search?search_text= %s &cat=1002&start=%s' %(query, str(i))

        # 通过WebDriver创建一个谷歌浏览器的drive, 并且通过drive获取访问页面的完整HTML
        driver = webdriver.Chrome('C:/Users/ZhongqiangWu/AppData/Local/Google/Chrome/Application/chromedriver')
        driver.get(url)
        html = etree.HTML(driver.page_source)

        # 获取海报和电影标题的XPath
        # 使用xpath helper, ctrl+shit+x 选中元素，如果要匹配全部，则需要修改query 表达式
        src_xpath = "//div[@class='item-root']/a[@class='cover-link']/img[@class='cover']/@src"
        title_xpath = "//div[@class='item-root']/div[@class='detail']/div[@class='title']/a[@class='title-text']"

        # 从获取的HTML页面中解析出XPath
        srcs = html.xpath(src_xpath)
        titles = html.xpath(title_xpath)

        # 开始下载海报
        for src, title in zip(srcs, titles):
            print('\t'.join([str(src), str(title.text)]))
            downloadposter(src, title.text)
            postersnums -= 1
            if postersnums == 0:
                return

"""测试爬虫"""
posterwebspider(20, '宫崎骏')     # # 第一个参数代表多少张， 第二个参数代表人物名

4.3 使用Python去爬取一部小说（这里会用到正则表达式）

比如，我想去一个小说网站利用Python自动下载一部小说，应该怎么办呢？

建立一个url，也就是目标小说所在的网页

使用request.get().text获取到相应的HTML

从这个HTML上面获取到响应的章节链接(这里使用正则表达式匹配)

根据每一个链接，去下载小说内容

把小说的内容存入.txt文件

"""导入包"""
import re
import os
import requests

"""下载每一章的函数"""
def downloadnovel(title, chapter_url, chapter_title):
    """
        title -- 小说名
        chapter_url -- 每一章的地址
        chapter_titlehar -- 每一章的名字
    """
    
    filename = './webspider/'+ '%s.txt' %(title)
    fp = open(filename, 'a')
    
    # 获取每一章的小说
    chapter_request = requests.get(chapter_url)
    chapter_request.encoding = 'gbk'
    chapter_html = chapter_request.text
    
    # 获取小说内容
    chapter_content = re.findall(r'(.*?)
', chapter_html, re.S)[0]
    
    # 清洗内容
    chapter_content = chapter_content.replace(' ', '')
    chapter_content = chapter_content.replace('
', '')
    chapter_content = chapter_content.replace('\n', '')
    chapter_content = "".join([s for s in chapter_content.splitlines(True) if s.strip()])  # 去除字符串中的空行

    # 写入文件
    fp.write(chapter_title)
    fp.write('\n')
    fp.write(chapter_content)
    fp.write('\n\n')

"""下载小说爬虫"""
def novelwebspider(chapternum):
    
    # 这是一个请求配置选项， 如果没有这个配置，下面get的时候，可能返回空
    headers = {
    'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
                 ' (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }
    
    
    # 获取一个网页
    url = "http://www.zzjdkj.cn/book/0/944/"
    
    # 模拟浏览器发送HTTP请求
    response = requests.get(url, headers=headers)
    
    # 编码方式
    """ 
        这里的编码先说一个问题，首先，先输出一下编码方式，如果这里的编码方式使用的ISO-8859-1, 直接转成utf-8依然会出现乱码
        此时，应该用开发者工具去查看原网页的HTML页面中的heard里面的编码。这个网页采用的gbk。 
        不会查看？ F12->network->刷新-> 点开第一个 -> 看head部分的编码
    
    """
    #print(response.encoding)     #  查看一下编码方式，不一定都是utf-8编码
    response.encoding = 'gbk'
    
    # 目标小说主页的网页源码
    html = response.text
    
    # 获取每一章的信息（章节， url）， 这里用正则表达式匹配
    dl = re.findall(r'.*?
', html, re.S)[0]    # re.S很重要，匹配任何字符， 要不然会是空列表
    chapter_info_list = re.findall(r'href="(.*?)">(.*?)<', dl)  # 获取到每一章的信息（地址+章节名）
    #print(chapter_info_list)
    
    
    # 获取小说的名字
    title = re.findall(r'', html)[0]

    #建立文件保存小说
    downloadpath = './webspider/'
    if not os.path.exists(downloadpath):
        os.mkdir(downloadpath)
    
    dir = downloadpath + '%s.txt' %(title)
    fp = open(dir, 'w', encoding='gbk')
    
    # 接下来去循环访问每一章，去访问，然后一章章的下载
    for chapter_info in chapter_info_list:
        
        # 获取章节地址和章节名
        chapter_url, chapter_title = chapter_info
        chapter_url = 'http://www.zzjdkj.cn/book/0/944/%s' %chapter_url
        
        # 下面就是下载每一章
        print(chapter_url, chapter_title)
        downloadnovel(title, chapter_url, chapter_title)
        chapternum -= 1
        if chapternum == 0:
            return

"""测试爬虫"""
chapternum = input('您需要下载个多少章节的内容： ')  # 数字
novelwebspider(int(chapternum))

看看编码的查看方式：

4.4 使用爬虫去爬取一个表格数据（这里用到bs4）

去https://baike.so.com/doc/24368318-25185095.html 网站去爬取中国百强城市排行榜名单, 简单分析一下步骤

根据网址获取网页

根据返回的网页想办法提取出表格(上面用了JSON，XPath，正则，看看表格应该用啥能提取出来:bs4)
爬虫—bs4语法

"""导入包"""
import requests
import bs4
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://baike.so.com/doc/24368318-25185095.html '

headers = {
    'Cookie':'OCSSID=4df0bjva6j7ejussu8al3eqo03',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
                 '(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}

response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
html = response.text

data =[]
# 根据正则匹配tbody
soup = BeautifulSoup(html, "html.parser")
for tr in soup.find('tbody').children:
    if isinstance(tr, bs4.element.Tag):
        tds = tr('td')
        data.append([tds[0].string, tds[1].string, tds[2].string])
        #print([tds[0].string, tds[1].string, tds[2].string])

new_data = pd.DataFrame(data[1:], columns=['排名', '城市', '综合分值'])
new_data

5. 总结

花费了一天的时间进行Python爬虫的基本入门，了解了XPath定位， JSON对象解析如何使用lxml库，进行XPath的提取
如何在Python中使用Selenium库来帮助你模拟浏览器，获取完整的HTML等知识，并且学会了正则表达式的皮毛和bs4的皮毛，下面在整个过程中参考的博客

Python使用xpath爬取数据返回空列表解决方案积累
爬虫—bs4语法
Python 去除字符串中的空行
Python+requests 爬取网站遇到中文乱码怎么办？
Python 用 ChromeDriver 实现登录和签到
学会Python正则表达式，就看这20个例子

你可能感兴趣的:(数据分析和挖掘技术系列)

C语言学习记录——BC61 牛牛的二三七整除曾浩轩 C语言学习记录学习 c语言
牛牛的二三七整除_牛客题霸_牛客网(nowcoder.com)#includeintmain(){inta;//定义我们要输入的整数scanf("%d",&a);//输入整数if(a%2==0)//a%2==0说明a能被2整除{printf("2");//输出2空，因为a有可能还会被3和7整除，但输出中格式显示每个数字是间隔的}//并且要升序输出，所以先判断能否被2整除，再判断能否被3整除，最后是
DeepSeek 赋能工业软件之全流程方案爱吃青菜的大力水手人工智能自动化持续部署语言模型开源
deepseek赋能工业软件之全流程方案之侧重半导体FABdeepseek在工业软件中的应用场景“deepseek”大模型在工业软件领域拥有广泛的应用场景，包括以下几个方面：智能调度：利用深度学习和优化算法，根据实时数据动态调整生产计划和资源分配。它可以综合考虑订单需求、设备状态和产能限制，智能生成最优的生产排程方案，减少等待时间和切换成本。例如在汽车制造工厂，deepseek可根据订单需求和设备
IIS3DWBTR参数和电路参考设计鹿屿二向箔嵌入式硬件
以下是IIS3DWBTR（STMicroelectronics3轴数字振动传感器）的核心参数总结：1.基本特性类型：3轴数字振动传感器（加速度计），支持超宽带宽和低噪声特性。量程范围：用户可选±2g、±4g、±8g、±16g，适应不同振动检测需求。灵敏度：根据量程不同，灵敏度范围为2049LSB/g（±16g）至16393LSB/g（±2g）。带宽：平坦频率响应范围达DC至6kHz（±3dB点），
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
ArcGIS Runtime SDK for iOS 开发之地图范围（map extent） hlj184 ArcGIS for IOS arcgis ios开发 map extent
注：本篇文章翻译自：https://developers.arcgis.com/ios/objective-c/guide/iphonesdk-mapnavigation.htm；地图视图包含了地图范围被定义和改变的选项。值得注意的是，底图（加载到地图中的第一层图层）定义了下列地图属性：初始化范围全部范围空间参考系其中，初始范围可以被改变，而空间参考不可以改变。本篇文章主要讨论针对开发者和最终用户
探索单片机世界的音乐之旅 —— 51单片机简易电子琴项目解析蔡松宽
探索单片机世界的音乐之旅——51单片机简易电子琴项目解析电子琴.rar项目地址:https://gitcode.com/open-source-toolkit/67c65项目概况：旋律与科技的融合在浩瀚的电子海洋里，51单片机始终是那座引领初学者进入嵌入式开发殿堂的桥梁。51单片机实战之简易电子琴项目，正是专为此而生的一盏明灯。它不仅是技术实践的绝佳示例，更是每一位电子爱好者发掘硬件音乐潜能的钥匙
萌新的51之旅——串口通信（3） codoger 单片机
一，过程特性过程特性规定了信号之间的时序关系，以便正确的接收和发送数据采用RS-232c接口存在的问题一，传输距离短，传输速率低该总线标准受电容允许值的约束，使用时传输距离一般不要超过15米，最高传输速率为20K二，有电平偏移该总线标准要求收发双方共地通信，距离较大时，收发双方的地电位差别较大，在信号地上将有比较大的地电流，并产生压降三，抗干扰能力差该接口的电瓶转换时采用单端输入输出，在传输过程中
2020-12-24 CH340使用注意事项 billgodark 笔记
留存谨记！，CH340绑定封装RS232接口芯片的功耗较大，TX和RX电流可能拉低电平，在实际使用时需要在Tx和Rx上串行470Ω左右的电阻，绑定版CH340的USB转RS232电平串行口建议使用这种方式
P1027 [NOIP 2001 提高组] Car 的旅行路线稳兽龙 c++算法 spfa
题目描述又到暑假了，住在城市A的Car想和朋友一起去城市旅游。她知道每个城市都有4个飞机场，分别位于一个矩形的4个顶点上，同一个城市中两个机场之间有一条笔直的高速铁路，第i个城市中高速铁路的单位里程价格为Ti，任意两个不同城市的机场之间均有航线，所有航线单位里程的价格均为t。注意：图中并没有标出所有的铁路与航线。那么Car应如何安排到城市B的路线才能尽可能的节省花费呢？她发现这并不是一个简单的问题
同步盘怎么选？2025年这三款网盘的功能和优缺点全在这！ SJ_HP 经验分享远程工作安全百度云
在数字时代，文件存储、多设备同步和团队协作已经成为我们生活和工作中不可或缺的一部分。无论是个人用户还是企业团队，都面临着文件存储空间不足、设备间同步困难以及团队合作效率低下的痛点。同步盘和企业云盘的出现，正是为了解决这些问题。它们不仅提供了便捷的文件存储和管理功能，还通过多设备同步和团队协作功能，极大地提升了工作效率。今天，我们将对比几款热门的同步盘产品，帮助你找到最适合自己的解决方案。亿方云：企
数据挖掘十大经典算法详解（附原理解析与代码示例） IT程序媛-桃子华为认证数据挖掘算法经验分享华为
1.PageRank（链接分析）应用场景：搜索引擎排名、社交网络分析核心原理PageRank通过网页之间的链接关系计算网页的重要性，影响力大的网页排名更高。网页影响力=所有入链页面的加权影响力之和阻尼因子D（通常设为0.85）用于模拟用户随机访问网页的行为代码示例importnetworkxasnxG=nx.DiGraph()G.add_edges_from([("A","B"),("A","C"
车载音频开发（三）：对wav音频做定浮点转换（采样深度转换） Mr Chris_LI wav音频开发心得音视频
对于wav的采样格式讨论较多的是定浮点采样基于上一节我们对采样点的理解车载音频开发（二）：对音频数据作音量调节_音频数据的音量控制代码-CSDN博客定点常见的有16bit，24bit，和32bit浮点一般用float(32bit)IEEE754浮点数不同位深度的取值范围：16bit定点数:-32,768~32,76724bit定点数:-8,388,608~8,388,60732bit定点数:-2,
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
UDP通信开发 Charary udp 网络
开发流程：UDP本身不考虑链接，不存在客户和服务器的概念，UDP开发只有三步：创建UDP的套接字socket(AF_INET,SOCK_DGRAM,0)绑定自己的属性bindUDP随意的发送和接收数据sendto/recvfromUDP接口函数：sendto()函数功能：UDP专用的发送函数函数原型：ssize_tsendto(intsockfd,//套接字constvoid*buf,//待发送的
USB转串口芯片CH9102替代CP2102注意事项 Chery1140 单片机嵌入式硬件
CH9102与CP2102可实现pin2pin兼容，可以在不更改硬件设计的前提下实现不同型号间快速切换与产品应用。CH9102系列型号包括：CH9102F（QFN24）和CH9102X（QFN28），CP2102系列型号包括：CP2102、CP2102N-GQFN24、CP2102N-GQFN28。1.应用差异说明1）驱动说明：CH9102芯片为CDC类串口芯片，用户可以选择使用操作系统内置的CD
【计算机毕设任务书】基于微信小程序的宠物寄养平台的设计与实现 Eastonzhang888 计算机毕设任务书参考案例课程设计微信小程序宠物数据库 intellij-idea 计算机毕业设计小程序
一、设计的主要内容、技术参数及工作要求研究目的现在宠物寄养管理中已有一些商家使用了基本的管理软件，这些软件都是依靠客户端，只可以特定人员使用，不能实现信息的共享。虽然可以帮助工作人员减少工作量，但从根本上还是无法满足用户的需求。这些软件都还是基于网络发展之初的要求，没有利用现代网络的技术，体现不了更为实用的功能。依靠客户端的系统开发时没有考虑园际化的问题，所以也满足不了国际化的要求。最近几年来，我
【练习】【二分】力扣热题100 34. 在排序数组中查找元素的第一个和最后一个位置柠石榴输入输出力扣 hot100 leetcode 算法 c++二分
题目给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。示例1：输入：nums=[5,7,7,8,8,10],target=8输出：[3,4]示例2：输入：nums=[5,7,7,8,8,10],target=6输出
嵌入式音视频开发（二）ffmpeg音视频同步云雨歇音视频 ffmpeg
系列文章目录嵌入式音视频开发（零）移植ffmpeg及推流测试嵌入式音视频开发（一）ffmpeg框架及内核解析嵌入式音视频开发（二）ffmpeg音视频同步嵌入式音视频开发（三）直播协议及编码器文章目录系列文章目录前言一、音视频同步1.1基础概念1.2三种同步方法二、音视频同步的实现2.1时间基的转换问题2.2音频为基准2.2.1实现思路2.2.2代码大纲2.3外部时钟同步2.3.1实现思路2.3.2
Conda 常用命令全解析 melck conda
在Windows系统中，Conda是一款功能强大的包管理和环境管理工具，尤其对于数据分析、科学计算等场景有着重要的作用。本文将详细介绍Conda在Windows系统中的常用命令，帮助你高效地管理虚拟环境和软件包。一、环境管理命令1.1查看Conda版本conda--version该命令用于确认Conda是否成功安装以及查看其版本号。这对于确保Conda的兼容性和功能性非常重要。1.2创建新环境co
CH340N的使用注意事项鹿屿二向箔单片机嵌入式硬件
使用CH340N将MCU的串口（UART）转换为USB输出是一种常见的方案，适用于需要将嵌入式设备连接到电脑的场景。以下是详细的连接方法和步骤：1.CH340N简介功能：CH340N是一款USB转串口芯片，支持USB2.0协议，可将UART信号转换为USB信号。特点：内置晶振，无需外部晶振。支持5V和3.3V电源电压。封装为SOP-8，体积小，适合紧凑设计。2.硬件连接以下是CH340N与MCU（
动态规划之背包问题于冬恋动态规划算法
动态规划是一个重要的算法范式，它将一个问题分解为一系列更小的子问题，并通过存储子问题的解来避免重复计算，从而大幅提升时间效率。目录01背包问题完全背包问题多重背包问题二维费用背包问题（1）01背包问题给定n个物体，和一个容量为c的背包，物品i的重量为wi，其价值为应该如何选择装入背包的物品使其获得的总价值最大。可以用贪心算法，但是不一定能达到最优解，所以用动态规划解决创建一个数组dp[i][j]i
欧*雅WCS项目总结十五001 项目归档后端 java 程序人生
项目介绍使用系统APRISO下发任务与wcs交互，wcs包含与海康agv对接，以及APRISO不纳入管理的库位（包括线边库位、码头库位、暂存区库位、空栈板库位）。wcs的主要定位就是高度定制化贴合生产业务，可以说wcs成为了agv和APRISO之间的桥梁。APRISO下发任务时候，通过生成xml文件实现的，这时候wcs会监听该文件目录新建的xml文件来生成任务。刚开始部署后不到一周出现了监听失效问
JMM(Java内存模型)讲解十五001 基础 java jvm
JMM（JavaMemoryModel，Java内存模型）是Java并发编程中的一个非常重要的概念，它帮助我们理解Java程序在多线程环境下内存操作的行为。别担心，我会用简单易懂的方式来讲解，让你轻松掌握它的核心内容。1.什么是JMM？定义JMM是Java内存模型的简称，它定义了Java程序中内存操作的规则和规范。简单来说，JMM规定了Java程序中的变量存储在内存中的方式，以及线程如何读取和写入
JavaScript 闭包与作用域的深度解析小钟H呀 JS知识手册 javascript 开发语言 ecmascript
引言在JavaScript世界里，闭包和作用域是两个核心概念，理解它们对于编写高效、可维护的代码至关重要。本文将深入探讨JavaScript闭包与作用域的原理、应用及注意事项。一、作用域的概念（一）什么是作用域作用域是指变量和函数的可访问范围。在JavaScript中，主要有全局作用域和局部作用域。全局作用域：在代码的任何地方都可以访问到的变量和函数，通常在脚本的最外层或通过全局对象（如windo
如何快速定位并解决 Linux 系统性能瓶颈：终极全攻略 BitTalk 性能优化 linux 服务器 java
在现代IT环境中，Linux系统被广泛应用于服务器、嵌入式设备和超级计算机等各类场景。随着系统负载的增加，性能瓶颈不可避免地会影响系统的可靠性和效率。因此，了解如何有效地诊断和解决Linux系统中的性能问题至关重要。本篇博客将深入探讨Linux性能瓶颈的可能来源，介绍各种性能评估方法和概念，并最终提供使用Linux命令查找性能瓶颈的实用指南。性能瓶颈的可能来源在Linux系统中，性能瓶颈可能出现在
【人工智能时代】- AI 聚合平台 xiaoli8748_软件开发人工智能时代人工智能
最近听朋友介绍，国内有个团队开发了一个全功能的AI聚合平台，包含主流的GPT和绘画功能，以及一些其他的衍生功能，几乎应有尽有。于是，对AI很感兴趣的我，便也来瞧瞧这是个什么样的存在，以下便是我的真实使用感受。除此以外，作为一个程序员，我还使用了该平台提供的API接口，开发了一个简单的小程序。文章的末尾，我将提供免费的AI机器人，以及小程序体验地址，记得查收哦~官方网站：https://302.ai
在瑞芯微RK3588平台上使用RKNN部署YOLOv8Pose模型的C++实战指南机＿长 YOLO系列模型有效涨点改进深度学习落地实战 YOLO c++开发语言
在人工智能和计算机视觉领域，人体姿态估计是一项极具挑战性的任务，它对于理解人类行为、增强人机交互等方面具有重要意义。YOLOv8Pose作为YOLO系列中的新成员，以其高效和准确性在人体姿态估计任务中脱颖而出。本文将详细介绍如何在瑞芯微RK3588平台上，使用RKNN（RockchipNeuralNetworkToolkit）框架部署YOLOv8Pose模型，并进行C++代码的编译和运行。注本文全
国内大厂面试一般流程——扫盲 weixin_49526058 面试职场和发展
中国大型互联网企业的面试流程通常分为若干轮，具体轮数和考察内容可能因公司、岗位及招聘需求有所不同，但一般来说，大致可以分为以下几轮：1.简历筛选考察内容：主要看简历是否符合岗位要求，关注工作经历、项目经验、技术栈、学历背景等。如果简历突出，通常会进入下一轮面试。2.电话/视频初面（HR面）考察内容：HR面试主要是了解你的基本情况、动机和软技能。一般会问一些关于简历的问题，了解你对公司的了解、为什么
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清... 雪停时偶遇一叶春流程图
合集-人工智能(5)1.如何改进AI模型在特定环境中的知识检索2024-09-242.深度学习与统计学中的时间序列预测2024-10-033.《使用coze搭建一个会搜索、写ppt、思维导图的Agent》2024-10-294.深入浅出：Agent如何调用工具——从OpenAIFunctionCall到CrewAI框架01-145.DeepSeek-R1技术全景解析：从原理到实践的“炼金术配方”—
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他