灰黑桑

Python & 笔记 - Python 网络爬虫权威指南 - 第 1 部分创建爬虫

第 1 部分创建爬虫
第 2 部分高级网页抓取

第 1 章初见网络爬虫

用虚拟环境保存库文件

# 创建虚拟环境 scrapingEnv
$ sudo virtualenv --no-site-packages -p /usr/bin/python3 scrapingEnv

# 激活并使用
$ cd scrapingEnv/
$ source bin/activate

# 安装 BeautifulSoup
$ which python
$ sudo [/home/jax/Documents/virtualenvProject/scrapingEnv/bin/python] -m pip install beautifulsoup4

# 退出环境
$ deactivate

BeautifulSoup4

$ sudo pip3 install -i http://mirrors.aliyun.com/pypi/simple beautifulsoup4 --trusted-host mirrors.aliyun.com

解析器

html.parser
lxml
html5lib

bs = BeautifulSoup(html.read(), 'lxml')

BeautifulSoup 对象

BeautifulSoup 对象：bs = BeautifulSoup(html.read(), 'lxml')
标签 Tag 对象
- 通过 find 和 find_all 或直接调用子标签获取的一列对象或单个对象
- bs.div.h1
NavigableString 对象：用来表示标签里的文字，而不是标签本身
Comment 对象：用来查找 HTML 文档的注释标签

子标签和其他后代标签

子标签 children()
- 父标签的下一级
后代标签 descendants()
- 父标签下面所有级别的标签

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'lxml')

for child in bs.find('table', {'id': 'giftList'}).children:
    print(child)

兄弟标签

next_siblings()：调用对象后面的兄弟标签
previous_siblings()
next_sibling
previous_sibling

from urllib.requeseet import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'lxml')

for sibling in bs.find('tables', {'id': 'giftList'}).tr.next_siblings:
    print(sibling)

父标签

parent
parents

from urllib.requeseet import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'lxml')
print(bs.find('img',
             {'src': '../img/gifts/img1.jpg'})
     .parent.previous_sibling.get_text())

第 2 章复杂 HTML 解析

.get_text() 使用时机

.get_text() 会清楚正在处理的 HTML 文档中的所有标签
然后返回一个只包含文字的 Unicode 字符串
用 BeautifulSoup 对象查找对象更方便
应尽可能地保留 HTML 文档的标签结构，知道最后才使用 .get_text()

BeautifulSoup 的 find() 和 find_all()

	find_all(tag, attributes, recursive, text, limit, keywords)
    find(tag, attributes, recursive, text, keywords)

标签参数 tag：可以传递一个标签的名称或多个标签名称组成的列表做标签参数

.find_all(['h1', 'h2', 'h3'])
属性参数 attributes：用一个字典封装一个标签的 若干属性 和 对应的属性值

.find_all('span', {'class': {'green', 'red'}})
递归参数 recursive：布尔变量（默认为 True）
- False：find_all 只查找文档的一级标签
- True：find_all 根据要求去查找标签参数的所有子标签，以及子标签的子标签
文本参数 text：用标签的文本内容去匹配，而不是用标签的属性

.find_all(text='the prince')
范围限制参数 limit：获取网页中的前 x 项结果
关键参数 key：可以让你选择那些具有指定属性的标签

title = bs.find_all(id='title', class_='text')
- 关键参数 keyword 是一个冗余的 BeautifulSoup 功能
- 可以用 属性参数、正则表达式、Lambda 表达式 来进行替代

正则表达式和 BeautifulSoup

from urllib.requeseet import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'lxml')
images = bs.find_all('img',
                    {'src': re.compile('\.\.\/img\/gifts\/img.*\.jpg')})
for image in images:
    print(image['src'])

获取属性

对于一个标签对象，可以用以下的代码获取它的全部属性（返回的为 字典对象）

myTag.attrs

myImgTag.attrs['src']

Lambda 表达式

Lambda 表达式 本质上是一个函数，可以作为变量传入另一个函数
BeautifulSoup 允许把特定类型的函数作为参数传入 find_all()
- 函数必须把一个 标签对象 作为参数，并返回 布尔类型 的结果
bs.find_all(lambda tag: len(tag.attrs) == 2)

bs.find_all(lambda tag: tag.get_text() == 'Or may be he\'s only resting?')

第 3 章编写网络爬虫

遍历单个域名

字符串格式化（format）

通过 {} 和 : 来替代传统 % 方式

P30：html = urlopen('http://en.wikipedia.org{}'.format(articleUrl))

使用 {} 来对需要插入的位置进行标记，并且默认首个为 0，依次递增

print("This is {}, and it's price is {}".format('apple', 2))
print("This is {1}, and it's price is {0}".format(2, 'apple'))
print("This is {1}, and {1}'s price is {0}".format(2, 'apple'))

使用列表：*列表 或者 索引：[]

goods_list = ['apple', 2]

print("This is {0}, and it's price is {1}".format(*goods_list))
print("This is {0[0]}, and it's price is {0[1]}".format(goods_list))

使用字典：**字典

goods_dic = {'goods': 'apple', 'price': 2}

print("This is {goods}, and it's price is {price}".format(goods='apple', price=2))
print("This is {goods}, and it's price is {price}".format(**goods_dic))

使用 f"xxxx" 来格式化字符串

goods = 'apple'
price = 2

print(f"This is {goods}, and it's price is {price}")

: 实现 填充字符、格式化、进制和精度

填充与格式化

text = "test"

print(f"{text:*>10}")	// ******test
print(f"{text:*<10}")	// test******
print(f"{text:*^10}")	// ***test***

精度与进制

num1 = 1/3
num2 = 10
num3 = 1342143215432

print(f"{num1:.3f}")	// 0.333
print(f"{num2:b}")		// 1010
print(f"{num2:o}")		// 12
print(f"{num2:x}")		// a
print(f"{num3:,}")		// 1,342,143,215,432

伪随机数和随机数种子

Python 的伪随机数生成器用的是 梅森旋转（Mersenne Twister）算法
random.seed(datetime.datetime.now())
random.randint(0, len(links) - 1)

抓取整个网站

作用
- 生成网站地图
- 收集数据
方法
1. 从一个 顶级页面 开始，搜索该页面上的所有内链，形成列表
2. 抓取这些链接跳转到的每一个页面，再把每个页面上找到的链接形成新的列表，接着执行下一轮抓取

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

pages = set()

def getLinks(pageUrl):
    global pages
    html = urlopen('http://en.wikipedia.org{}'.format(pageUrl))
    bs = BeautifulSoup(html, 'html.parser')
    
    try:
        print(bs.h1.get_text())
        print(bs.find(id='mw-content-text').find_all('p')[0])
        print(bs.find(id='ca-edit').find('span')
             .find('a').attrs['href'])
    except AttributeError:
        print("页面缺少一些属性")

    for link in bs.find_all('a', href=re.compile('^(/wiki/)')):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                newPage = link.attrs['href']
                print("-" * 20)
                print(newPage)
                pages.add(newPage)
                getLinks(newPage)
                
getLinks('')

深网和暗网

深网（deep Web）
- 与 浅网（surface Web） 对立，浅网是互联网上搜索引擎可以抓到的那部分网络
暗网（dark Web、darknet）
- 同样建立在已有的网络硬件基础上
- 但使用 Tor 或者另一个客户端，带有运行在 HTTP 之上的应用协议，提供了一个信息交换的安全渠道
隐藏网络（hidden Web）

处理重定向

重定向使得 Web 服务器可以将一个域名或者 URL 指向不同位置的内容

服务器端重定向，在页面加载之前 URL 就会发生改变
- Python 3.x 的 urllib 库 会自动处理重定向问题
- requests 库 需要将允许重定向的标志设置为 Ture
  - r = requests.get('http://github.com', allow_redirects=True)
客户端重定向，如 “页面将在 10 秒钟内跳转” 这类信息，页面在跳转到新页面之前已经加载

在互联网上抓取

运行失效

from urllib.request import urlopen
from urllib.parse import urlparse
from bs4 import BeautifulSoup
import re
import datetime
import random

pages = set()
allExtLinks = set()
allIntLinks = set()
random.seed(datetime.datetime.now())


# 获取页面中所有内链的列表
def getInternalLinks(bs, includeUrl):
    includeUrl = '{}://{}'.format(urlparse(includeUrl).scheme,
                                  urlparse(includeUrl).netloc)
    internalLinks = []

    # 找出所有以"/"开头的链接
    for link in bs.find_all('a',
                            href=re.compile('^(/|.*' + includeUrl + ')')):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in internalLinks:
                if(link.attrs['href'].startswith('/')):
                    internalLinks.append(includeUrl + link.attrs['href'])
                else:
                    internalLinks.append(link.attrs['href'])

    return internalLinks


# 获取页面中所有外联的列表
def getExternalLinks(bs, excludeUrl):
    externalLinks = []

    # 找出所有以"http"或"www"开头且不包含当前 URL 的链接
    for link in bs.find_all('a',
                            href=re.compile('^(http|www)((?!' + excludeUrl + ').)*$')):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in externalLinks:
                externalLinks.append(link.attrs['href'])

    return externalLinks


def getRandomExternalLink(startingPage):
    html = urlopen(startingPage)
    bs = BeautifulSoup(html, 'html.parser')
    externalLinks = getExternalLinks(bs,
                                     urlparse(startingPage).netloc)

    if len(externalLinks) == 0:
        print('No external links, looking around the site for one')
        domain = '{}://{}'.format(urlparse(startingPage).scheme,
                                  urlparse(startingPage).netloc)
        internalLinks = getInternalLinks(bs, domain)
        return getRandomExternalLink(internalLinks[random.randint(0,
                                                                  len(internalLinks) - 1)])
    else:
        return externalLinks[random.randint(0, len(externalLinks) - 1)]


def followExternalOnly(startingSite):
    externalLink = getRandomExternalLink(startingSite)
    print('Random external link is: {}'.format(externalLink))
    followExternalOnly(externalLink)


def getAllExternalLinks(siteUrl):
    html = urlopen(siteUrl)
    domain = '{}://{}'.format(urlparse(siteUrl).scheme,
                              urlparse(siteUrl).netloc)
    bs = BeautifulSoup(html, 'html.parse')
    internalLinks = getInternalLinks(bs, domain)
    externalLinks = getExternalLinks(bs, domain)

    for link in externalLinks:
        if link not in allExtLinks:
            allExtLinks.add(link)
            print(link)

    for link in internalLinks:
        if link not in allIntLinks:
            allIntLinks.add(link)
            getAllExternalLinks(link)


allIntLinks.add('http://orilly.com')
getAllExternalLinks('http://oreilly.com')

第 4 章网络爬虫模型（等具体写了再说）

结构化爬虫

通过搜索抓取王炸

通过连接抓取网站

抓取多种类型的页面

第 5 章 Scrapy（跳过，后续直接去看爬虫框架 Scrapy）

安装 Scrapy

# 安装 Scrapy
$ pip3 install -i http://mirrors.aliyun.com/pypi/simple Scrapy --trusted-host mirrors.aliyun.com

# 初始化
$ scrapy startproject [projectName]

# 创建蜘蛛
$ vim [projectName]/spiders/[spider].py

# 运行蜘蛛
$ cd [projectName]/spiders
$ scrapy runspider [spider].py

Scrapy 部分规则

start_requests 函数 是 Scrapy 定义的 程序入口，用于生成 Scrapy 用来抓取网站的 Request 对象
parse 函数 是一个用户自定义的 回调函数，通过 callback=self.parse 传递给 Request 对象
CrawlSpider 类

第 6 章存储数据

媒体文件

只获取文件 URL 链接
- 数据放进数据库，并且再也不会被打开

直接把源文件下载下来

使用 urllib.request.urlretrieve 从远程 URL 下载

from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com')
bs = BeautifulSoup(html, 'html.parser')
imageLocation = bs.find('a', {'id': 'logo'}).find('img')['src']
urlretrieve(imageLocation, 'log.jpg')

具体代码：P72

把数据存储到 CSV

CSV（comma-separated values，逗号分隔值）

import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://en.wikipedia.org/wiki/'
               'Comparison_of_text_editors')
bs = BeautifulSoup(html, 'html.parser')
# 主对比表格是当前页面上的第一个表格
table = bs.findAll('table', {'class': 'wikitable'})[0]
rows = table.findAll('tr')

csvFile = open('editors.csv', 'wt+')
writer = csv.writer(csvFile)
try:
    for row in rows:
        csvRow = []
        for cell in row.findAll(['td', 'th']):
            csvRow.append(cell.get_text())
        writer.writerow(csvRow)
finally:
    csvFile.close()

MySQL

随便写，建议用 MongoDB 等 文件型数据库

# 安装 MySQL
$ sudo apt-get install mysql-server

# 与 Python 整合
$ pip3 install PyMySQL

Email

对计网的知识的运用

邮件通过 SMTP（Simple Mail Transfer Protocol，简单邮件传输协议）传输
Python 需要连接到一台运行 SMTP 协议的服务器
Python 有两个重要的包可以发送邮件：smtplib 和 email
- email 模块 包含了许多实用的邮件格式设置函数，可以用来创建邮件“包裹”
  - 如示例中，使用 MIMEText 对象为底层的 MIME（Multipurpose Internet Mail Extensions，多用途互联网邮件扩展）协议传输创建一封空邮件
  - 最后通过高层的 SMTP 协议发送出去
  - MIMEText 对象 msg 包括收发邮件地址、邮件正文和主体，Python 通过它就可以创建一封格式正确的邮件
- smtplib 模块 用来设置服务器连接的相关信息
  - 必须在用完之后及时关闭，以避免同时创建太多连接而浪费资源

import smtplib
from email.mime.text import MIMEText
from bs4 import BeautifulSoup
from urllib.request import urlopen
import time


def sendMail(subject, body):
    msg = MIMEText(body)
    msg['Subject'] = subject
    msg['From'] = '[email protected]'
    msg['To'] = '[email protected]'

    s = smtplib.SMTP('localhost')
    s.send_message(msg)
    s.quit()


bs = BeautifulSoup(urlopen('https://isitchristmas.com/'), 'html.parser')
while bs.find('a', {'id': 'answer'}).attrs['title'] == 'NO':
    print('It si not Christmas yet.')
    time.sleep(3600)
    bs = BeautifulSoup(urlopen('https://isitchristmas.com/'), 'html.parser')

sendMail('It\'s Christmas!',
         'According to https://isitchristmas.com, it is Christmas!')

轻松开发AI应用：Dify、Langchain与Coza全方位对比分析 AI Agent首席体验官人工智能 langchain
1.Dify与Langchain区别Dify和Langchain都是用于开发AI应用的平台，但在设计理念、功能特点及适用场景等方面存在明显差异。以下是两者的详细对比：总体概述Dify：一个开源低代码平台，旨在简化AI应用的开发，提供完整的UI解决方案和无缝的集成能力，适合技术背景不强的用户，帮助他们快速开发和部署AI应用。Langchain：一个灵活的Python开发库，为开发者提供精细控制，适合
python 函数的定义 SFH-松风寒 python 开发语言后端
#函数的定义#定义一个函数#def表示定义函数的关键字#msg表示函数的名称#()里面放置参数可以为空#：函数的固定格式defmsg():#函数体函数里面的代码用于实现函数的特定功能print('Helloworld')#msg（）函数的调用调用函数之后函数中的代码就会被执行#msg是函数本身msg()#函数的简单用法#打印ATM机的提示defselect_func():print('-----请
python——异常程丞Q香 python python 开发语言 pycharm 异常 raise try except
1、定义异常是在代码执行过程中发生的，它会影响到程序的正常运行。python程序不会自动来进行异常处理。python中常见异常父类：Exception。2、常见异常TypeError：类型错误异常。ValueError：值的异常。KeyError：键的异常。IndexError：索引异常。SyntaxError：语法异常。FileNotFoundError：读取文件内容，如果这个文件不存在，就会报
Python爬虫代理IP 巴里巴气 Python爬虫知识记录 python 爬虫 tcp/ip
前言在Python爬虫中,代理IP基本是必备的,因为基本上网站都会有反爬措施,对请求频繁和异常的IP进行自动封锁,拉入黑名单,所以我们需要有代理IP来实现动态IP的效果,保证请求的IP会变化,是动态的,这样网站就不会把我们的IP当作爬虫IP了目录国内代理IP和海外代理IP的现状代理IP最常用最实用的作用使用方法国内代理IP和海外代理IP的现状市面上的代理IP分为国内代理IP和海外代理IP国内代理I
脑机新手指南（十七）EEG-ExPy 新手入门教程（上篇）：基础概念与环境搭建 Brduino脑机接口技术答疑脑机新手指南新手入门算法脑机接口
一、EEG-ExPy是什么？EEG-ExPy是一个基于Python的开源工具包，专为脑电（EEG）实验设计、数据采集和实时分析而开发。它的核心优势在于低门槛易用性和模块化设计，即使是没有编程基础的新手，也能通过简单的代码或图形界面快速搭建EEG实验流程。其功能覆盖：1.自定义实验范式设计（如视觉刺激、运动想象任务）2.实时EEG信号采集与预处理3.简单的脑机接口（BCI）应用开发4.实验数据的存储
RabbitMQ消息发送与接收 VksgShapes rabbitmq ruby 分布式
RabbitMQ是一个功能强大的开源消息代理，用于在应用程序之间传递消息。它实现了AMQP（高级消息队列协议），提供了可靠的消息传递机制，支持多种消息模式和灵活的消息路由。在本篇文章中，我们将详细介绍如何在应用程序中使用RabbitMQ进行消息的发送和接收。我们将使用Python作为示例编程语言，并使用Pika作为RabbitMQ的Python客户端。安装依赖库首先，我们需要安装Pika库。可以使
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
【Python】函数 Guiat Python python
个人主页：Guiat归属专栏：Python文章目录1.函数的定义1.1基本定义方式1.2函数名和参数2.函数的调用2.1基本调用方式2.2参数传递3.函数的返回值3.1`return`语句3.2返回多个值4.函数的作用域4.1局部变量4.2全局变量5.匿名函数（Lambda函数）5.1定义和使用5.2应用场景6.递归函数6.1定义和原理6.2优缺点正文1.函数的定义1.1基本定义方式在Python
python函数的定义（含扩展） GodGump linux下python编程
python函数的定义deffunc(arg1,arg2,arg3):函数体returnarg4,arg5,arg6补充：如果想给某个参数一个默认值，不用每次都输入的话，可以采用以下方法（以参数arg2默认值设为233为例子）deffunc(arg1,arg2=233,arg3):函数体returnarg4,arg5,arg6还有一点是python支持在函数体内定义全局变量global在函数体内声
深入解析FastAPI：Python高效Web API框架永不放弃yes
本文还有配套的精品资源，点击获取简介：FastAPI是一个专为构建API设计的现代、高性能PythonWeb框架，它利用TypeHinting和Pydantic库简化了数据验证和文档生成。文章深入介绍了FastAPI的核心特性，如异步支持、类型提示、依赖注入、自动化API文档以及错误处理等。还探讨了FastAPI的部署和测试方法，提供了实践案例和代码示例。FastAPI因其简洁、高效、易于测试的特
python实战:在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订 Ven% 服务器 python linux LiberOffice 开源办公软件 linux办公软件
在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订一、背景与需求1.1常见场景1.2为什么选择LibreOffice二、环境准备2.1安装LibreOffice2.2验证安装三、Python实现代码四、代码解析4.1主要功能4.2错误处理4.3使用灵活性五、高级应用5.1批量处理多个文件5.2与其他工具集成六、注意事项七、总结在实际工作中，我们经常需要处理包含修订标
python学智能算法（十五）|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理西猫雷婶人工智能机器学习 python学习笔记机器学习 python 人工智能深度学习 scikit-learn
【1】引言前序学习进程中，已经学习CountVectorizer文本处理的简单技巧，先相关文章链接为：python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客此次继续深入，研究多文本的综合处理。【2】代码测试首先相对于单文本测试，直接将文本改成多行文本：#引入必要的模块fromsklearn.feature_extraction.te
本地命令行工具libreoffice 完成docx转pdf 陈毛毛虫 pdf 汇编开发语言 wps
文章目录前言一、libreoffice是什么？二、使用步骤1.安装libreoffice2.运行命令行工具总结前言最近忙着编写一些文档，需要转换成pdf，但是WPS的转pdf功能需要付费，上网搜了很久，搜到的不是付费的就是有大小限制的，于是想着本地使用python库转，结果效果不大理想，查阅资料后找到了这一款开源的本地命令行工具libreoffice一、libreoffice是什么？LibreOf
python自动化运维 ZZH1120KQ 运维 python 自动化
1系统性能信息模块psutilpsutl是一个跨平台库，能够轻松实现获取系统运行的进程和系统利用率(包括CPU、内存、磁盘、网络等)信息。它主要应用于系统监控，分析和限制系统资源及进程的管理。#这是一个外部模块，需要下载，通过指定源下载pip3installpsutil-ihttps://mirrors.aliyun.com/pypi/simple/importpsutil1.1内存信息memor
python学智能算法（十六）|机器学习支持向量机简单示例西猫雷婶 python学习笔记人工智能机器学习机器学习 python 支持向量机人工智能深度学习
【1】引言前序学习了逻辑回归等算法，相关文章链接包括且不限于：python学智能算法（十）|机器学习逻辑回归（Logistic回归）_逻辑回归算法python-CSDN博客python学智能算法（十一）|机器学习逻辑回归深入（Logistic回归）_np.random.logistic()-CSDN博客今天在此基础上更进一步，学习支持向量机，为实现较好地理解，先解读一个简单算例。【2】代码解读【2
Python的LibreOffice命令行详解：自动化文档处理的终极指南
在数字化转型的浪潮中，文档处理自动化已成为提升效率的关键。LibreOffice作为开源办公软件的佼佼者，其命令行功能结合Python脚本，可实现从格式转换到复杂文档操作的全面自动化。本文将深入解析如何通过Python调用LibreOffice命令行工具，覆盖从基础操作到高级场景的完整流程。一、环境搭建：三步构建自动化基石1.安装LibreOffice与PythonLinux系统：sudoapti
WPF学习笔记（3）：ListView根据内容自动调整列宽 weixin_30709061
WPF学习笔记（3）：ListView根据内容自动调整列宽原文:WPF学习笔记（3）：ListView根据内容自动调整列宽DataGrid中，只要不设置DataGrid的宽度和列宽度，或者将宽度设置为Auto，那么表格就会根据内容自动调整宽度，以显示所有内容。但如果是ListView，按以上方法设置，却达不到列宽自动调整的效果，列宽在控件第一次加载的时候已经确定，之后不会随着某列数据长度的增加和减
[Python 基础课程]字符串叶落 Python 基础课程 python python 基础 python 入门
字符串字符串几乎是所有编程语言中最常用的数据类型。在Python中，我们可以使用引号’或"来创建字符串。greeting='Hello,world!'name="Python"empty_string=''number_string="12345"mixed_string="Hello123!"多行字符串如果想让字符串在代码中展示更加清晰，比如展示出json的结构或json样式，可以使用多行字符串
wpf 学习笔记
1.同时加载两个窗体先添加一个子窗体，然后再app.xaml.cs里重写OnStartup方法//app.xaml.csusingSystem.Configuration;usingSystem.Data;usingSystem.Windows;namespaceWpfApp1{//////InteractionlogicforApp.xaml///publicpartialclassApp:Ap
38、Seabor的联合图和成对图的绘制【用Python进行AI数据分析进阶教程】理工男大辉郎 python 人工智能数据分析
用Python进行AI数据分析进阶教程38：Seabor的联合图和成对图的绘制关键词：Seaborn、联合图（JointPlot）、成对图（PairPlot）、数据类型、变量关系摘要：本文介绍了Seaborn库中的联合图（JointPlot）和成对图（PairPlot）的绘制方法。联合图用于展示两个变量之间的关系及各自分布，支持散点图、直方图、核密度估计图等多种类型，适用于连续型变量分析，可自定义
使用【重心坐标】在模型上进行插值来获取纹理上每个像素对应的顶点坐标雨中飞蛾 python blender
前提：纹理在模型上贴好后，能使用blenderpythonapi直接获取的就是，这个模型的每个三角面片上顶点对应的纹理坐标。这其中每个三角面的顶点构成一个三角形(A)，每个三角面的顶点对应的纹理坐标也构成一个三角形(B)。（注：实际上blender常用的是四边形，所以处理时要把四边形分成两个三角形）计算步骤：1、遍历每个像素(P)时，先判断这个像素属于一群B三角形中的哪个三角形。2、然后结合这个像
Github 2024-11-01 开源项目月报 Top19 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本月(2024-11-01统计)共有19个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目9TypeScript项目3JavaScript项目3Svelte项目1JupyterNotebook项目1Ruby项目1HTML项目1Rust项目1Java项目1C++项目1Go项目1Python中的算法实现集合创建周期：2831天
在浏览器中使用TensorFlow.js 魏铁锤chui tensorflow javascript 人工智能
TensorFlow.js简介介绍光学字符识别(OCR)是指能够从图像或文档中捕获文本元素，并将其转换为机器可读的文本格式的技术。如果您想了解更多关于这个主题的内容，本文是一个很好的介绍。TensorFlow.js是一个库，用于使用JavaScript开发和训练机器学习模型，并将其部署在浏览器中或Node.js上。您可以使用现有模型、转换PythonTensorFlow模型、使用迁移学习用您自己的
SQL学习笔记5 彤银浦 sql 学习笔记
多表查询1、多表关系MySQL是一个关系型数据库，数据库中表与表之间存在关联。它们的关系根据一张表包含另外一张表数据的多少可以分为：（使用外键建立关系的方法不常用）一对多或多对一：在多的一方加入外键对应少的一方的主键多对一：在两张表中加入一张中间表，中间表中加入两个外键对应两张表的主键一对一：在一张表加入另一张表的外键，且将外键约束为唯一2、多表查询概述多表查询的语法：select字段from表1
JVM垃圾回收(笔记) Coder-thinking Java jvm 笔记
文章目录完全垃圾回收其他垃圾回收类型垃圾回收器1.Serial垃圾回收器2.ParNew垃圾回收器3.ParallelScavenge垃圾回收器4.CMS（ConcurrentMarkSweep）垃圾回收器5.G1（GarbageFirst）垃圾回收器6.ZGC（ZGarbageCollector）和Shenandoah垃圾回收器垃圾回收算法1.标记-清除（Mark-Sweep）算法2.复制（Co
字节工程师实战传授：用 Go 实现 AI 原生应用全流程 CSDN资讯人工智能 go deerflow eino
作为一名Gopher，你是否也曾在深夜看着Python生态的繁荣而心生羡慕？当LangChain、LlamaIndex等框架层出不穷，我们不禁会想，渴望已久的、专为Go语言打造的顺滑AI开发体验，究竟在哪里？我们常常看到一个个惊艳的AI应用，想用自己最熟悉的Go来复刻，却发现从Agent的定义到复杂的任务编排，每一步都充满着挑战，最终产出的“胶水代码”也难以维护和扩展，距离一个优雅的生产级应用相去
SQL学习笔记6 彤银浦 sql 学习笔记
事务1、事务的概念事务就是多个操作的集合，事务将这一串操作作为一个整体向数据库提交，要么同时操作成功，要么同时失败在输入DML语句时，MySQL是自动将事务提交，因此要操作事务时需要手动开启事务操作流程为：开启事务（若中间有错，则回滚复原并报错）结束事务2、事务操作事务操作有两种方式方式一：关闭事务自动提交，改为手动提交查看事务提交方式：select@@autocommit设置事务提交方式：set
前端计算机视觉：使用 OpenCV.js 在浏览器中实现图像处理亿只小灿灿前端 OpenCV 前端计算机视觉 opencv
一、OpenCV.js简介与环境搭建OpenCV（OpenSourceComputerVisionLibrary）是一个强大的计算机视觉库，广泛应用于图像和视频处理领域。传统上，OpenCV主要在后端使用Python或C++等语言。但随着WebAssembly(Wasm)技术的发展，OpenCV也有了JavaScript版本——OpenCV.js，它可以直接在浏览器中高效运行，为前端开发者提供了前
pytorch底层原理学习--PyTorch 架构梳理 xinxiangwangzhi_ 深度学习 pytorch 架构人工智能
文章目录PyTorch完整架构流程图关键组件详解完整执行流程示例PyTorch架构梳理PyTorch完整架构流程图硬件层后端层C++部署层核心引擎(libtorchC++)绑定层Python层加载调用训练模式编译模式推理模式生成CPUGPUCPUKernelsCUDAKernelsC++代码torch::jit::load('model.pt')module.forward(inputs)libt
pytorch底层原理学习--Libtorch
libtorchlibtorch是PyTorch的C++实现版本，可以认为所有的pytorch底层都是由c++实现，而pytorch的所有C++实现就叫libtorch，也就是我们在pytorch官网getstart页面下载的c++pytorch版本。我们用python写的pytorch神经网络代码都会通过pybind11将python转换为libtorch的C++代码。[官方文档](PyTorc
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

Python & 笔记 - Python 网络爬虫权威指南 - 第 1 部分 创建爬虫

第 1 章 初见网络爬虫