观生生不息

备忘：Python爬虫（urllib.request和BeautifulSoup）

学习urllib.request和beautifulsoup，并从dribbble和behance上爬取了一些图片，记录一下

一、urllib.request

1. url的构造

构造请求的url遇到的主要问题是如何翻页的问题，dribbble网站是下拉到底自动加载下一页，地址栏的url没有变化，如下：

但是通过检查，我们可以发现request url里关于page的字段，如下：

因此，我们构造如下的url：

for i in range(25):  # 最多25页
    url = 'https://dribbble.com/shots?page=' + str(i + 1) + '&per_page=24'

2. header的构造

不同网页需要的header的内容不一样，参照检查里request header来构造。例如dribbble需要Referer，即从哪一个页面跳转到这个当前页面的，一般填写网站相关页面网址就可以。

headers = {"Accept": "text/html,application/xhtml+xml,application/xml;",
           "Referer": "https://dribbble.com/",
           "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36"}

3. urllib.request获取页面内容

用url和header实例化一个urllib.request.Request(url, headers)，然后url.request.urlopen()访问网页获取数据，使用read()函数即可读取页面内容。

def open_url(url):
    # 将Request类实例化并传入url为初始值，然后赋值给req
    headers = {"Accept": "text/html,application/xhtml+xml,application/xml;",
               "Referer": "https://dribbble.com/",
               "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36"}
    req = urllib.request.Request(url, headers=headers)
    # 访问url，并将页面的二进制数据赋值给page
    res = urllib.request.urlopen(req)
    # 将page中的内容转换为utf-8编码
    html = res.read().decode('utf-8')
    return html

这里需要注意的是，有的页面返回的数据是“text/html; charset=utf-8”格式，直接decode('utf-8')编码即可，而有的页面返回的是“application/json; charset=utf-8”格式数据，例如behance：

此时就需要json.loads()来获取数据，得到的是列表，用操作列表的方式拿到html数据：

 html = json.loads(res.read())
 return html['html']

二、BeautifulSoup

BeautifulSoup将复杂的html文档转换为树形结构，每一个节点都是一个对象。

1.创建对象

soup = BeautifulSoup(open_url(url), 'html.parser')

‘html.parser’是解析器，BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装，常见解析器：

2. 标签选择器

标签选择筛选功能弱但是速度快，通过这种“soup.标签名” 我们就可以获得这个标签的内容，但通过这种方式获取标签，如果文档中有多个这样的标签，返回的结果是第一个标签的内容

# 获取p标签
soup.p

# 获取p标签的属性的两种方法
soup.p.attrs['name']
soup.p['name']

# 获取第一个p标签的内容
soup.p.string

# 获取p标签下所有子标签，返回一个列表
soup.p.contents

# 获取p标签下所有子标签，返回一个迭代器
for i,child in enumerate(soup.p.children):
    print(i,child)

# 获取父节点的信息
soup.a.parent

# 获取祖先节点
list(enumerate(soup.a.parents))

# 获取后面的兄弟节点
soup.a.next_siblings

# 获取前面的兄弟节点
soup.a.previous_siblings

# 获取下一个兄弟标签
soup.a.next_sibling

# 获取上一个兄弟标签
souo.a.previous_sinbling

3. 标准选择器

find_all(name,attrs,recursive,text,**kwargs)可以根据标签名，属性，内容查找文档，返回一个迭代器，例如：

# 获取所有class为js-project-module--picture的所有img标签，并选择每个标签的src构成一个列表
image.src = [item['src'] for item in soup.find_all('img', {"class": "js-project-module--picture"})]

# .string获取div的内容，strip()去除前后空格
desc = soup.find_all('div', {"class": "js-basic-info-description"})
if desc:
    image.desc = [item.string.strip() for item in desc]

find(name,attrs,recursive,text,**kwargs)，返回匹配的第一个元素

其他一些类似的用法：
find_parents()返回所有祖先节点，find_parent()返回直接父节点
find_next_siblings()返回后面所有兄弟节点，find_next_sibling()返回后面第一个兄弟节点
find_previous_siblings()返回前面所有兄弟节点，find_previous_sibling()返回前面第一个兄弟节点
find_all_next()返回节点后所有符合条件的节点, find_next()返回第一个符合条件的节点
find_all_previous()返回节点后所有符合条件的节点, find_previous()返回第一个符合条件的节点

三、从dribbble爬取图片完整代码

1.批量获取图片页面链接

# -*- coding: utf-8 -*-

import random
import urllib.request
from bs4 import BeautifulSoup
import os
import time


def open_url(url):
    headers = {"Accept": "text/html,application/xhtml+xml,application/xml;",
               "Referer": "https://dribbble.com/",
               "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36"}
    req = urllib.request.Request(url, headers=headers)
    res = urllib.request.urlopen(req)
    html = res.read().decode('utf-8')
    return html


# 打开/创建“dribbble_list.txt”文件，O_CREAT：不存在即创建、O_WRONLY:只写、O_APPEND:追加
fd = os.open('dribbble_list.txt', os.O_CREAT | os.O_WRONLY | os.O_APPEND)
for i in range(25):
    url = 'https://dribbble.com/shots?page=' + str(i + 1) + '&per_page=24'
    soup = BeautifulSoup(open_url(url), 'html.parser')
    srcs = soup.find_all('a', {"class": "dribbble-link"})
    src_list = [src['href'] for src in srcs]
    for src in src_list:
        os.write(fd, bytes(src, 'UTF-8'))
        os.write(fd, bytes('\n', 'UTF-8'))
    time.sleep(random.random()*5)

2. 获取图片和信息

import os
import random
import urllib.request
import re
import time
from bs4 import BeautifulSoup


class Image:
    title = ''
    src = ''
    desc = []
    tags = []
    colors = []
    view = []
    like = []
    save = []


def open_url(url):
    headers = {"Accept": "text/html,application/xhtml+xml,application/xml;",
               "Referer": "https://dribbble.com/shots",
               "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36"}
    try:
        req = urllib.request.Request(url, headers=headers)
        res = urllib.request.urlopen(req)
        html = res.read().decode('utf-8')
    except:
        return None
    return html


def get_number(x):
    return int(re.sub('\D', "", x))


def get_img_info(html):
    # 实例化一张图
    image = Image()
    soup = BeautifulSoup(html, 'html.parser')
    # 标题
    image.title = soup.find('div', {"class": "slat-header"}).find('h1').string.strip()
    # 地址
    image.src = soup.find('div', {"class": "detail-shot"}).find('img')['src']
    # 描述
    desc = soup.find('div', {"class": "shot-desc"})
    if desc:
        image.desc = [item.string.strip() for item in desc.find_all(text=True)]
    # 标签
    image.tags = [item.string for item in soup.find_all('a', {"rel": "tag"})]
    # 颜色
    image.colors = [item.string for item in soup.find_all('a', {"style": re.compile('background-color.*')})]
    # 浏览量
    view = soup.find('div', {"class": "shot-views"})
    if view:
        image.view = [str(get_number(item)) for item in view.stripped_strings]
    # 喜欢
    like = soup.find('div', {"class": "shot-likes"})
    if like:
        image.like = [str(get_number(item)) for item in like.stripped_strings]
    # 收藏
    save = soup.find('div', {"class": "shot-saves"})
    if save:
        image.save = [str(get_number(item)) for item in save.stripped_strings]
    return image


def save_text(root_path, img, num):
    text = {
        'src': img.src,
        'desc': ';'.join(img.desc),
        'tags': ';'.join(img.tags),
        'colors': ';'.join(img.colors),
        'score': ';'.join([img.title, ''.join(img.view), ''.join(img.like), ''.join(img.save)])
    }
    text_list = ['src', 'desc', 'tags', 'colors', 'score']
    for item in text_list:
        save_path = root_path + item + '.txt'
        fd = os.open(save_path, os.O_CREAT | os.O_WRONLY | os.O_APPEND)
        write_str = str(num).zfill(3) + ' ' + text[item] + '\n'
        os.write(fd, bytes(write_str, 'UTF-8'))
        os.close(fd)


def read_dribbble_data(data_folder):
    import pandas as pd
    import os
    columns = ['url']
    df = pd.read_csv(os.path.join(data_folder, 'dribbble_list.txt'), names=columns)
    return df


def to_url(img_url):
    return 'https://dribbble.com{img_url}'.format(img_url=img_url)


if __name__ == '__main__':
    data_folder = './'
    df = read_dribbble_data(data_folder)
    urls = map(to_url, df['url'].values)
    for i, url in enumerate(urls):
        print(url)
        # 获取并解析网页
        html = open_url(url)
        if html:
            image = get_img_info(open_url(url))
            # 获取并保存图片
            # save_path_img = 'img/' + image.title + '.jpg'
            save_path_img = 'img/' + str(i+556).zfill(3) + '.jpg'
            urllib.request.urlretrieve(image.src, save_path_img)
            # 保存“标题 地址 描述 标签 颜色 浏览量 喜欢 收藏”
            save_path_text_root = 'dribbble_text/'
            save_text(save_path_text_root, img=image, num=i+556)
            time.sleep(random.random()*5)

四、从behance爬取图片完整代码

1. 批量获取图片页面链接

# -*- coding: utf-8 -*-

import random
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import json


def open_url(url):
    headers = {"Accept": "*/*",
               "Referer": "https://www.behance.net/search?field=48&content=projects&sort=appreciations&time=week",
               "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36",
               "Host": "www.behance.net",
               "Connection": "keep-alive",
               "X-BCP": "523bc8eb-c6a4-4eeb-a73d-0bf9ec1c06d9",
               "X-NewRelic-ID": "VgUFVldbGwACXFJSBAUF",
               "X-Requested-With": "XMLHttpRequest"}
    req = urllib.request.Request(url, headers=headers)
    res = urllib.request.urlopen(req)
    html = json.loads(res.read())
    return html['html']


fd = os.open('behance_list.txt', os.O_CREAT | os.O_WRONLY | os.O_APPEND)
for i in range(200):
    url = 'https://www.behance.net/search?ordinal=' + str((i+100) * 48) + '&per_page=48&field=48&content=projects&sort=appreciations&time=week&location_id=×tamp=0&mature=0'
    print(url)
    soup = BeautifulSoup(open_url(url), 'html.parser')
    srcs = soup.find_all('a', {"class": "js-project-cover-image-link"})
    src_list = [src['href'] for src in srcs]
    for src in src_list:
        os.write(fd, bytes(src, 'UTF-8'))
        os.write(fd, bytes('\n', 'UTF-8'))
    time.sleep(random.random()*5)
os.close(fd)

2. 获取图片和信息

# -*- coding: utf-8 -*-

import os
import random
import urllib.request
import re
import time
from bs4 import BeautifulSoup


class Image:
    title = ''
    src = []
    desc = []
    tags = []
    data = []


def open_url(url):
    headers = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
               "Referer": "https://www.behance.net/gallery/70675447/YELLOWSTONE",
               "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36",
               "Host": "www.behance.net",
               "Connection": "keep-alive",
               "Upgrade-Insecure-Requests": 1,
               "Cookie": "巴啦啦小魔仙全身变"
               }
    try:
        req = urllib.request.Request(url, headers=headers)
        res = urllib.request.urlopen(req)
        html = res.read().decode('utf-8')
    except:
        return None
    return html


def get_number(x):
    return int(re.sub('\D', "", x))


def get_img_info(html):
    # 实例化一张图
    image = Image()
    soup = BeautifulSoup(html, 'html.parser')
    # 地址
    image.src = [item['src'] for item in soup.find_all('img', {"class": "js-project-module--picture"})]
    # 标题
    image.title = soup.find('div', {"class": "js-project-title"}).string.strip()
    # 描述
    desc = soup.find_all('div', {"class": "js-basic-info-description"})
    if desc:
        image.desc = [item.string.strip() for item in desc]
    # 标签
    tags = soup.find_all('a', {"class": "object-tag"})
    if tags:
        image.tags = [item.string.strip() for item in tags]
    # 浏览 点赞 评论
    data = soup.find_all('div', {"class": "project-stat"})
    if data:
        image.data = [item.string.strip() for item in data][:2]
    return image


def save_text(root_path, img, num):
    text = {
        'title': image.title.replace(' ', '_'),
        'score': ' '.join(img.data),
        'desc': ';' + (';'.join(img.desc)).replace('\n', ';'),
        'tags': ';' + ';'.join(img.tags),
        'src': ';' + ';'.join(img.src)
    }
    text_list = ['title', 'score', 'desc', 'tags', 'src']
    for item in text_list:
        save_path = root_path + item + '.txt'
        fd = os.open(save_path, os.O_CREAT | os.O_WRONLY | os.O_APPEND)
        write_str = str(num).zfill(5) + ' ' + text[item] + '\n'
        os.write(fd, bytes(write_str, 'UTF-8'))
        os.close(fd)


def read_dribbble_data(data_folder):
    import pandas as pd
    import os
    columns = ['url']
    df = pd.read_csv(os.path.join(data_folder, 'behance_list.txt'), names=columns)
    return df


if __name__ == '__main__':
    data_folder = './'
    urls = read_dribbble_data(data_folder)['url'].values
    for i, url in enumerate(urls):
        print(url)
        # 获取并解析网页
        html = open_url(url)
        if html:
            image = get_img_info(open_url(url))
            # 获取并保存图片
            for j, src in enumerate(image.src):
                save_path_img = './behance_img/' + str(i).zfill(5) + '_' + str(j).zfill(3) + src[-4:]
                urllib.request.urlretrieve(src, save_path_img)
                time.sleep(random.random()*3)
            # 保存“标题 浏览量 喜欢 收藏 描述 标签 ”
            save_path_text_root = './behance_text/'
            save_text(save_path_text_root, img=image, num=i)
            time.sleep(random.random()*5)

AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
Golang后端学习笔记 — 6. Golang操作数据库事务的方法宝码 Golang后端学习笔记 golang 数据库事务 postgresql
之前，学习了对数据库的每个表执行CRUD操作。真实的场景中，我们经常需要执行一个事务，它组合了多个表的相关操作。本节学习如何在Golang中实现它。在开始之前，先聊一下事务。什么是数据库事务？它是一个单一的工作单元，通常由多个表操作组成。比如：在我们的小银行项目中，我们要从张三的账户中向李四的账户中转账10元。该交易就包括5个操作，涉及到accounts表、entries表和transfers表：
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
GO语言学习笔记螺旋式上升abc golang 学习笔记
一、viper笔记【七米】https://liwenzhou.com/posts/Go/viper/二、优雅关机和平滑重启https://liwenzhou.com/posts/Go/graceful-shutdown/三、gin使用zaphttps://liwenzhou.com/posts/Go/zap-in-gin/四、flag用于命令行传参https://liwenzhou.com/pos
Oracle创建表空间、删除、状态、重命名、修改、增加、移动水煮白菜王 Oracle oracle 数据库
目录Oracle基本学习笔记创建表空间1.表空间创建格式3.表空间状态属性4.重命名表空间5.修改表空间数据文件的大小6.删除表空间的数据文件7.修改表空间中数据文件的状态8.表空间中数据文件的移动Oracle基本学习笔记创建表空间需要使用CREATETABLESPACE语句。其基本语法如下:CREATE[TEMPORARYIUNDO]TABLESPACEtablespacename[DATAFI
学习笔记09——并发编程之线程基础码代码的小仙女高级开发必备技能学习笔记 python
线程基础1.1进程与线程的区别，Java中线程的实现（用户线程与内核线程）进程是操作系统分配资源的基本单位，而线程是CPU调度的基本单位。每个进程有独立的内存空间，而同一进程内的线程共享内存.可以从资源分配、切换开销、通信方式和独立性四个方面来比较两者的区别资源分配进程：操作系统分配资源（如内存、文件句柄等）的基本单位，拥有独立的地址空间。线程：隶属于进程，共享进程的资源（如内存、文件等），是CP
学习笔记10——并发编程2线程安全问题与同步机制码代码的小仙女高级开发必备技能 java知识学习笔记
线程安全问题与同步机制线程安全的本质问题线程安全问题源于多线程环境下对共享资源（数据或状态）的非原子性、非可见性、非有序性访问，导致程序行为不符合预期。主要表现如下：竞态条件（RaceCondition）：多个线程对同一资源进行非原子操作，导致结果依赖线程执行顺序。示例：两个线程同时执行count++（非原子操作，实际包含读-改-写三步）。内存可见性问题：线程修改共享变量后，其他线程无法立即看到最
Java学习笔记——并发编程（三） __________习惯 java java
一、wait和notifywait和notify原理Owner线程发现条件不满足，调用wait方法，即可进入WaitSet变为WAITING状态BLOCKED和WAITING的线程都处于阻塞状态，不占用CPU时间片BLOCKED线程会在Owner线程释放锁时唤醒WAITING线程会在Owner线程调用notify或notifyAll时唤醒，但唤醒后并不意味着立刻获得锁，仍需进入EntryList重
学习笔记12——并发编程之线程之间协作方式码代码的小仙女高级开发必备技能 java jvm 开发语言
线程之间协作有哪些方式当多个线程可以一起工作去解决某个问题时，如果某些部分必须在其他部分之前完成，那么就需要对线程进行协调。共享变量和轮询方式实现：定义一个共享变量（如volatile修饰的布尔标志）。线程通过检查共享变量的状态来决定是否继续执行。publicclassTest{ privatestaticvolatilebooleanflag=false; publicstaticvoi
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
【C++基础学习笔记】C++的输入输出流及缺省参数大家好我叫张同学深入浅出学习C++c++
我要做一个好奇宝宝，带着疑问来阅读，哼~C++如何进行输入输出？和C语言何有区别？C++的缺省参数是什么？如何理解和掌握？文章目录C++的输入&输出缺省参数缺省参数的概念缺省参数的分类1.全缺省参数2.半缺省参数：C++的输入&输出婴儿降生到这个世界上时，会以自己独特的方式向这个崭新的世界打招呼。跟新生婴儿类似，C++语言刚出来后，也算是一个新事物，作为一门新的编程语言也会有自己问候这个美好世界的
快速从C过度C++（一）：namespace，C++的输入和输出，缺省参数，函数重载愚润泽 C++学习笔记 c++开发语言 c语言
前言：本文章适合有一定C语言编程基础的读者浏览，主要介绍从C语言到C++过度，我们首先要掌握的一些基础知识，以便于我们快速进入C++的学习，为后面的学习打下基础。这篇文章的主要内容有：1，命名空间namespace2，C++的输入和输出3，缺省参数4，函数重载个人简介：努力学习ing个人专栏：C++学习笔记CSDN主页愚润求学其他专栏：C语言入门基础，python入门基础，python刷题专栏快速
学习笔记11——并发编程之并发关键字码代码的小仙女高级开发必备技能开发语言 java
并发关键字synchronized关键字在应用Sychronized关键字时需要把握如下注意点：1.一把锁只能同时被一个线程获取，没有获得锁的线程只能等待；2.每个实例都对应有自己的一把锁(this),不同实例之间互不影响；例外：锁对象是*.class以及synchronized修饰的是static方法的时候，所有对象公用同一把锁3.synchronized修饰的方法，无论方法正常执行完毕还是抛出
2024年HarmonyOS鸿蒙最全HarmonyOS Next 自定义路由栈管理_navpathstack，2024年最新销售应届毕业生的面试题 2401_84870988 程序员鸿蒙面试学习
深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上鸿蒙开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化的资料的朋
python爬虫项目（十二）：爬取各大音乐平台排行榜并分析音乐类型趋势人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫开发语言 python爬虫项目 python爬虫
目录1.项目简介2.工具与技术3.爬取音乐平台排行榜数据3.1使用requests和BeautifulSoup爬取网易云音乐排行榜3.2爬取QQ音乐排行榜4.数据处理4.1合并数据5.分析音乐类型趋势5.1使用关键词匹配类型6.数据可视化6.1绘制音乐类型分布图6.2绘制时间趋势图7.总结爬取各大音乐平台排行榜并分析音乐类型趋势是一个有趣且有意义的项目。我们可以通过以下步骤来实现：1.项目简介本项
深度学习笔记——Resnet和迁移学习肆—— 深度学习深度学习笔记迁移学习
1.ResNet的提出深度学习与网络深度的挑战：在深度学习中，网络的“深度”(即层数)通常与模型的能力成正比。然而，随着网络深度的增加，一些问题也随之出现，最突出的是梯度消失/爆炸问题。这使得深层网络难以训练。梯度消失：梯度消失是指在训练深度神经网络时，通过多层传递的梯度(误差)变得非常小，接近于零。这导致网络中较早层的权重更新非常缓慢，甚至几乎不更新。梯度爆炸：梯度爆炸是指在训练深度神经网络时，
ts学习笔记江小年 go 笔记
TypeScript本文引用枫枫知道不做商用，仅用于学习枫枫知道可以购买枫枫知道的课程安装node建议下载长期维护版安装之后把node加入环境变量命令行输入node-vnpm-vnpm就是node里面安装第三方包的工具，相当于pip安装tsc它的作用就是将ts文件编译为js文件//.ts=>.jsnpmitypescript-gtsc-vtsc--init//生成一个json文件tsc//会编译项
Gin学习笔记江小年 go gin 学习笔记
RESTfulAPI以前写网站get/userpost/create_userpost/update_userpost/delete_userRESTfulAPIget/user获取post/user新建put/user更新patch/user更新部分delete/user删除REST与技术无关，代表的是一种软件架构风格，只要API程序遵循了REST风格，那就可以称其为RESTfulAPIREST
Unity入门学习笔记（Day01） Alika-snowr unity学习 unity 学习笔记
一.认识unity工作面板1.1.projectwindow（项目面板）显示当前项目中的所有文件和目录，包含了项目里面所有的资源文件1.2.consolewindow（输出面板）显示当前游戏开发中生成的警告错误1.3.hierarchywindow（层次面板）也称为场景面板，显示当前的场景中所有游戏游戏对象，并显示父子级关系；我们说开发的游戏是由一个一个的场景组成的（类型与拍戏的场次场景）游戏物体
Etcd学习笔记江小年 etcd 学习笔记
etcd的介绍与安装主要用于微服务的配置中心和服务发现，数据可靠性比redis更强在对外api的应用中，如何知道order服务的rpc地址？如果服务的ip地址变化了怎么办？在传统的配置文件模式，修改配置文件，应用程序是需要重启才能解决的，所以引入etcdwindows安装etcd-v3.5.16-windows-amd64.zipdocker安装dockerrun--nameetcd-d-p237
Pyhton网络编程_UDP_TCP(IP地址--端口--socket编程) Felix-微信(Felixzfb) 网络编程 TCP UDP
Python高级语法——网络编程——进阶学习笔记项目中案例参考：https://github.com/FangbaiZhang/Python_advanced_learning/tree/master/03_Python_network_programming1网络通信使用网络能够把多方链接在一起，然后可以进行数据传递所谓的网络编程就是，让在不同的电脑上的软件能够进行数据传递，即进程之间的通信1.
Python爬虫之爬取酷狗音乐进击的Loser‭
Python爬虫之爬取酷狗音乐废话不说，上代码：#!Python#-*-encoding:utf-8-*-'''1.文件名称:酷我音乐爬虫.py2.创建时间:2021/03/2117:29:093.作者名称:ZAY4.Python版本:3.7.0'''importosimportgetpassimportrequestsfromurllib.parseimportquoteclassSpider(
【源代码】python爬虫，爬取足球赛制比分码农之家★资源共享 python 爬虫开发语言
完整代码！fromseleniumimportwebdriverfromselenium.common.exceptionsimportNoSuchElementExceptionfromselenium.webdriver.common.keysimportKeysimporttimefrombs4importBeautifulSoupimportselectimportsocketimpor
Stm32学习笔记2-中断系统-对射式红外传感器计次 Anon_Tokoyo stm32 学习笔记
一.中断系统：1.中断条件：当主程序运行时，出现了特点的中断条件，此时程序暂停运行当前直到处理完中断程序后再继续执行操作。2.中断优先级：当有多个中断时，cpu会根据中断轻重优先选择加急的中断程序。3.参考nvic基本结构：可以看出stm32中的许多外设像EXTI、TIM等都有中断通道。通过NVIC统一管理。经过NVIC裁决后可向中断CPU当前程序转而执行这些外设的中断程序。二.EXTI外设：1.
JavaScript学习笔记一跨界科技汇前端 javascript 学习笔记
web三大标准：HTML(结构)+CSS（样式）+JavaScript(行为)JavaScript的作用：动态效果+数据交互编程语言编程让计算机为解决某个问题而使用某种程序设计语言编写程序代码，最终得到结果是什么？世界上最流行的语言之一，是一种运行在客户端的脚本语言脚本语言不需要编译，运行过程中由**js解析器(js引擎)**逐行来进行解释并执行现在也可以基于Node.js技术来进行服务器端编程作
Python 中自动打开网页并点击[自动化脚本],Selenium Ben_F Python python 自动化 selenium
要在Python中自动打开网页并点击第一个标签，你需要使用Selenium，它可以控制浏览器并执行像点击这样的操作。requests和BeautifulSoup只能获取并解析网页内容，但不能进行网页交互操作。步骤：安装Selenium安装WebDriver（例如ChromeDriver）编写代码来自动点击网页的第一个标签1.安装Selenium使用pip安装Selenium：pipinstalls
【5】单调队列学习笔记 W9095 学习笔记 c++算法
前言鸽了很久，2023/1/52023/1/52023/1/5开始，2023/1/212023/1/212023/1/21才完工。中途去集训了，没时间来补漏洞。单调队列单调队列是一种非常实用的数据结构，可以用于查询一个定长区间在以一定速度向后滑动，并查询区间内最值的问题（具体见例题111）。时间复杂度非常低，总体是O(n)O(n)O(n)，均摊到每个元素是O(1)O(1)O(1)，所以常用来优化其
侯捷 C++ 课程学习笔记：C++面向对象开发『六哥』 C++学习笔记
学习C++面向对象开发需要具备一些基础。学习过某种proceduurallanguage（C语言最佳）了解变量（variables）、类型（types）、作用域（scope）、循环（loops）、流程控制。知道一个程序需要编译才能被执行。以良好的方式编写C++class是一种基于对象（ObjectBased）classwithoutpointermembers——Complex带指针classwi
Linux学习笔记--shell脚本（二）运维派C shell脚本学习 Linux shell脚本
20.1什么是shell脚本shell脚本并不能作为正式的编程语言，因为它是在linux的shell中运行的，所以称为shell脚本。事实上，shell脚本就是一些命令的集合。假如完成某个需求需要一口气输入10条命令，对于简单的命令，我们可以直接在shell窗口中输入，但如果是比较长且复杂的命令，一次一次敲就会显得很麻烦。我们可以把这10条命令都记录到一个文档中，然后去调用文档中的命令，这样就能一
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

备忘：Python爬虫（urllib.request和BeautifulSoup）

你可能感兴趣的:(学习笔记,urllib,beautifulsoup)