Mr数据杨

「数据分析师的网络爬虫」使用Python快速抓取需要的数据

文章目录

内容介绍
基础第三方库使用
爬虫的网页抓取
动态网页和静态网页的区分
动态网页和静态网页的抓取

内容介绍

开发环境为 Python3.6 ，爬虫项目全部内容索引目录

看懂Python爬虫框架，所见即所得一切皆有可能

作为一名数据分析师而并非开发工程师，需要掌握的爬虫必备的知识内容，能获取需要的数据即可，如果需要更专业的基于爬虫工程师的内容请浏览我的其他文章。

虽说不会敲代码的 Python数据分析师 不是好的数据分析师，但你不是正儿八经的开发人员，代码敲的那么溜有什么用？学点数据爬虫基础能让繁琐的数据CV工作（Ctrl+C，Ctrl+V）成为自动化就足够了。

基础第三方库使用

1.基本使用方法

"""例"""
from urllib import request
response = request.urlopen(r'http://bbs.pinggu.org/') 
#返回状态 200证明访问成功
print("返回状态码：  "+str(response.status))
#读取页面信息转换文本并进行解码，如果本身是UTF-8就不要，具体看页面格式
#搜索“charset”查看编码格式
response.read().decode('gbk')[:100]

2.Request

使用request（）来包装请求，再通过urlopen（）获取页面。俗称伪装。让服务器知道我们是通过浏览器来访问的页面，有些情况可能会被直接毙掉。

url = r'http://bbs.pinggu.org/'
headers = {
     'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
           r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
           'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
           'Connection': 'keep-alive'}
req = request.Request(url, headers=headers)
page = request.urlopen(req).read()
page = page.decode('gbk')
page[:100]

包含data的方法。

import urllib.parse
url = r'https://new-api.meiqia.com/v1/throttle/web?api_name=%2Fvisit%2Finit&ent_id=7276&v=1534848690048'
headers = {
     'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
           r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
           'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
           'Connection': 'keep-alive'}
values={
     'api_name':'/visit/init','ent_id':'7276','v':'1534848690048'}
data = urllib.parse.urlencode(values).encode(encoding='UTF8')
req = request.Request(url, data,headers=headers)
page = request.urlopen(req).read()
page = page.decode('gbk')

3.异常处理

from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError
req = Request("http://www.111cn.net /")
try:
    response = urlopen(req)
except HTTPError as e:
    print('服务器无法满足请求.')
    print('错误代码: ', e.code)
except URLError as e:
    print('不能访问服务器.')
    print('原因: ', e.reason)
else:
    print("OK!")
    print(response.read().decode("utf8"))

from urllib.request import Request, urlopen
from urllib.error import  URLError
req = Request("http://www.111cn.net /")
try:
    response = urlopen(req)
except URLError as e:
    if hasattr(e, '原因'):
        print('不能访问服务器.')
        print('原因: ', e.reason)
    elif hasattr(e, '代码'):
        print('服务器无法满足请求.')
        print('错误代码: ', e.code)
    else:
        print("OK!")
        print(response.read().decode("utf8"))

4.HTTP认证

import urllib.request
 
# 私密代理授权的账户
user = "user_name"
# 私密代理授权的密码
passwd = "uesr_password"
# 代理IP地址  比如可以使用百度西刺代理随便选择即可
proxyserver = "177.87.168.97:53281"
# 1. 构建一个密码管理对象，用来保存需要处理的用户名和密码
passwdmgr = urllib.request.HTTPPasswordMgrWithDefaultRealm()
# 2. 添加账户信息，第一个参数realm是与远程服务器相关的域信息，一般没人管它都是写None，后面三个参数分别是 代理服务器、用户名、密码
passwdmgr.add_password(None, proxyserver, user, passwd)
# 3. 构建一个代理基础用户名/密码验证的ProxyBasicAuthHandler处理器对象，参数是创建的密码管理对象
#   注意，这里不再使用普通ProxyHandler类了
proxyauth_handler = urllib.request.ProxyBasicAuthHandler(passwdmgr)
# 4. 通过 build_opener()方法使用这些代理Handler对象，创建自定义opener对象，参数包括构建的 proxy_handler 和 proxyauth_handler
opener = urllib.request.build_opener(proxyauth_handler)
# 5. 构造Request 请求
request = urllib.request.Request("http://bbs.pinggu.org/")
# 6. 使用自定义opener发送请求
response = opener.open(request)
# 7. 打印响应内容
print (response.read())

5.ROBOT协议

目标网址后加/robots.txt，例如：https://www.jd.com/robots.txt

第一个的意思就是说对于所有的爬虫，不能爬取在/？开头的路径，也不能访问和/pop/*.html 匹配的路径。
后面四个用户代理的爬虫不允许访问任何资源。

所以Robots协议的基本语法如下：

User-agent: 这里是爬虫的名字。
Disallow: /该爬虫不允许访问的内容。

爬虫的网页抓取

1.爬虫的用途

实现浏览器的功能,通过制定的URL,直接返回用户所需要的数据。
一般步骤：

查找域名对应的IP地址 (比如:119.75.217.109是哪个网站?)。
向对应的IP地址发送get或者post请求。
服务器相应结果200,返回网页内容。
开始抓你想要的东西吧。

2.网页分析

获取对应内容之后进行分析,其实就需要对一个文本进行处理，把你需要的内容从网页中的代码中提取出来的过程。BeautifulSoup可实现惯用的文档导航、查找、修改文档功能。如果lib文件夹下没有BeautifulSoup的使用命令行安装即可。

pip install BeautifulSoup

3.数据提取

# 想要抓取我们需要的东西需要进行定位，寻找到标志
from bs4 import BeautifulSoup
soup = BeautifulSoup('',"html.parser")
tag=soup.meta

# tag的类别
type(tag)
>>> bs4.element.Tag

# tag的name属性
tag.name
>>> 'meta'

# attributes属性
tag.attrs
>>> {
     'content': 'all', 'name': 'robots'}

# BeautifulSoup属性
type(soup)
>>> bs4.BeautifulSoup
soup.name
>>> '[document]'

# 字符串的提取
markup='房产'
soup=BeautifulSoup(markup,"lxml")
text=soup.b.string
text
>>> '房产'
type(text)
>>> bs4.element.NavigableString

4.BeautifulSoup 应用举例

import requests
from bs4 import BeautifulSoup
url = "http://www.cwestc.com/MroeNews.aspx?gd=2"
html = requests.get(url)
soup =  BeautifulSoup(html.text,"lxml")

#通过页面解析得到结构数据进行处理
from bs4 import BeautifulSoup
soup=BeautifulSoup(html.text,"lxml")

#定位
lptable = soup.find('table',width='780')

# 解析
for i in lptable.find_all("td",width="680"):    
    title = i.b.strong.a.text
    href = "http://www.cwestc.com"+i.find('a')['href']
#     href = i.find('a')['href']
    date = href.split("/")[4]
    print (title,href,date)

4.Xpath 应用举例
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

四种标签的使用方法

// 双斜杠定位根节点，会对全文进行扫描，在文档中选取所有符合条件的内容，以列表的形式返回。
/ 单斜杠寻找当前标签路径的下一层路径标签或者对当前路标签内容进行操作
/text() 获取当前路径下的文本内容
/@xxxx 提取当前路径下标签的属性值
| 可选符使用|可选取若干个路径如//p | //div 即在当前路径下选取所有符合条件的p标签和div标签。
. 点用来选取当前节点
… 双点选取当前节点的父节点

from lxml import etree

html="""



    test
    



    
        NO.1
        NO.2
        NO.3
    
    
        one
        two
    


    crossgate
    pinggu



"""

#这里使用id属性来定位哪个div和ul被匹配 使用text()获取文本内容
selector=etree.HTML(html)
content=selector.xpath('//div[@id="content"]/ul[@id="ul"]/li/text()') 
for i in content:
    print (i)

#这里使用//从全文中定位符合条件的a标签，使用“@标签属性”获取a便签的href属性值
con=selector.xpath('//a/@href') 
for i in con:
    print (i)

#使用绝对路径 #使用相对路径定位 两者效果是一样的
con=selector.xpath('/html/body/div/a/@title') 
print (len(con))
print (con[0],con[1])

动态网页和静态网页的区分

来源百度：

静态网页的基本概述

静态网页的网址形式通常是以.htm、.html、.shtml、.xml等为后后缀的。静态网页，一般来说是最简单的HTML网页，服务器端和客户端是一样的，而且没有脚本和小程序，所以它不能动。在HTML格式的网页上，也可以出现各种动态的效果，如.GIF格式的动画、FLASH、滚动字母等，这些“动态效果”只是视觉上的，与下面将要介绍的动态网页是不同的概念。

静态网页的特点

静态网页每个网页都有一个固定的URL，且网页URL以.htm、.html、.shtml等常见形式为后缀，而不含有“？”。
网页内容一经发布到网站服务器上，无论是否有用户访问，每个静态网页的内容都是保存在网站服务器上的，也就是说，静态网页是实实在在保存在服务器上的文件，每个网页都是一个独立的文件。
静态网页的内容相对稳定，因此容易被搜索引擎检索。
静态网页没有数据库的支持，在网站制作和维护方面工作量较大，因此当网站信息量很大时完全依靠静态网页制作方式比较困难。
静态网页的交互性交叉，在功能方面有较大的限制。

动态网页的基本概述

动态网页是以.asp、.jsp、.php、.perl、.cgi等形式为后缀，并且在动态网页网址中有一个标志性的符号——“？”。动态网页与网页上的各种动画、滚动字幕等视觉上的“动态效果”没有直接关系，动态网页也可以是纯文字内容的，也可以是包含各种动画的内容，这些只是网页具体内容的表现形式，无论网页是否具有动态效果，采用动态网站技术生成的网页都称为动态网页．动态网站也可以采用静动结合的原则，适合采用动态网页的地方用动态网页，如果必要使用静态网页，则可以考虑用静态网页的方法来实现，在同一个网站上，动态网页内容和静态网页内容同时存在也是很常见的事情。

动态网页应该具有以下几点特色：

交互性：即网页会根据用户的要求和选择而动态改变和响应。例如访问者在网页填写表单信息并提交，服务器经过处理将信息自动存储到后台数据库中，并打开相应提示页面。
自动更新：即无需手动操作，便会自动生成新的页面，可以大大节省工作量。例如，在论坛中发布信息，后台服务器将自动生成新的网页。
随机性：即当不问的时间、不问的人访问同一网址时会产生不同的页面效果。例如，登录界面自动循环功能。
动态网页中的“？”对搜索引擎检索存在一定的问题，搜索引擎一般不可能从一个网站的数据库中访问全部网页，或者出于技术方面的考虑，搜索蜘蛛不去抓取网址中“？”后面的内容，因此采用动态网页的网站在进行搜索引擎推广时需要做一定的技术处理才能适应搜索引擎的要求。

总结来说：页面内容变了网址也会跟着变基本都是静态网页，反之是动态网页。

动态网页和静态网页的抓取

1.静态网页

import requests
from bs4 import BeautifulSoup
url = "http://www.cwestc.com/MroeNews.aspx?gd=1"
html = requests.get(url)
soup =  BeautifulSoup(html.text,"lxml")
soup.text[1900:2000]

import requests
from bs4 import BeautifulSoup
url = "http://www.cwestc.com/MroeNews.aspx?gd=2"
html = requests.get(url)
soup =  BeautifulSoup(html.text,"lxml")
soup.text[1900:2000]

总结：上面2个url差别在最后一个数字，在原网页上每点下一页网址和内容同时变化，我们判断：该网页为静态网页。

2.动态网页

import requests
from bs4 import BeautifulSoup
url = "http://news.cqcoal.com/blank/nl.jsp?tid=238"
html = requests.get(url)
soup =  BeautifulSoup(html.text,"lxml")
soup.text

抓取该网页看不到任何的信息证明是动态网页，正确抓取方法如下。

import urllib
import urllib.request
import requests

url = "http://news.cqcoal.com/manage/newsaction.do?method:webListPageNewsArchivesByTypeid"
post_param = {
     'pageNum':'1',\
              'pageSize':'20',\
              'jsonStr':'{"typeid":"238"}'}
return_data = requests.post(url,data =post_param)
content=return_data.text
content

快速排序_详解快速排序算法网站推广优化yetaoaiueo 排序算法算法
快速排序（Quicksort），计算机科学词汇，适用领域Pascal，c++等语言，是对冒泡排序算法的一种改进。快速排序的排序流程快速排序算法通过多次比较和交换来实现排序，其排序流程如下：(1)首先设定一个分界值，通过该分界值将数组分成左右两部分。(2)将大于或等于分界值的数据集中到数组右边，小于分界值的数据集中到数组的左边。此时，左边部分中各元素都小于分界值，而右边部分中各元素都大于或等于分界值
浅谈十大源码交易平台，找源码不走弯路 17源码网游戏源代码管理
大家好啊，作为一名经历了无数代码风风雨雨的资深老码农，今天我就来跟你们聊聊十大源码交易平台。这可是我多年经验的结晶，希望你们能从中找到自己需要的宝贝。七爪网：七爪网，这名字很生动。七爪网提供各种类型的源码，包括游戏源码、分销商城源码、小程序源码等等，简直是码农的百宝箱。不管你是初学者还是经验丰富的老鸟，总能在这里找到适合的资源。而且，七爪网还提供详细的使用教程和技术支持，真是想得太周到了。86资源
Python 函数-调用函数赔罪 Python 系统学习 python 开发语言
目录抽象调用函数数据类型转换练习小结我们知道圆的面积计算公式为：S=πr2当我们知道半径r的值时，就可以根据公式计算出面积。假设我们需要计算3个不同大小的圆的面积：r1=12.34r2=9.08r3=73.1s1=3.14*r1*r1s2=3.14*r2*r2s3=3.14*r3*r3当代码出现有规律的重复的时候，你就需要当心了，每次写3.14*x*x不仅很麻烦，而且，如果要把3.14改成3.14
Python数据容器（dict字典、set集合）张小生180 python 开发语言
dic字典dict全称dictionary，在其他语言中也称为map，使用键-值（key-value）存储，具有极快的查找速度。字典的创建使用大括号{}包含键值对，并用冒号:分隔键和值，形成键:值对。字典的特性唯一键：字典中的每个键都必须是唯一的。值可以取任何数据类型，如字符串，数字，元组。无序（Python3.6之前的版本）：在Python3.6之前的版本中，字典是无序的。但从Python3.7
VTK知识学习（32）-图像运算无所谓จุ๊บ VTK 学习 VTK
1、数学运算vklmageMathematics提供了基本的一元和二元数学操作。根据不同的操作，需要一个或者两个输入图像。二元数学操作要求两个输入图像具有相同的像素数据类型和颜色组分。当两个图像大小不同时，输出图像的范围为两个输入图像范围的并集，并且原点和像素间隔与第一个输入图像保持一致。privatevoidTestMathematics(){//绘制一个暗红色矩形vtkImageCanvasS
自定义Agent组件三月七꧁ ꧂ langchain+llm python 开发语言 microsoft gpt langchain javascript 前端
文章目录ReActAgent的实践工具组件和工具包组件工具组件的类型一个Agent组件由两部分组成：tools（代理可以使用的工具)和AgentExecutor(决定采取哪种行动)。下面逐一介绍如何创建自定义Agent组件。Tool、AgentExecutor和BaseSingleActionAgent是从LangChain.agents模块中导人的类，用于创建自定义Agent组件和too
Agent组件入门示例三月七꧁ ꧂ langchain+llm 前端语言模型 javascript microsoft 人工智能 gpt llama
文章目录Agent组件的类型Agent组件的应用Agent组件的多功能性安装openai和LangChain库。pip-qinstallopenaipipinstallLangChain 设置谷歌搜索的API密钥，以及设置OpenAI的密钥。os.environ["OPENAIAPIKEY"]="填人你的密钥"os.environ["SERPAPIAPIKEY"]="填人你的谷歌搜索
rabbitmq3.5.1 原理和集群安装「已注销」大数据网络运维
参考http://dl528888.blog.51cto.com/2382721/1864895http://kaibinyuan.blog.51cto.com/7304008/1610110原因：最近有一个异步需要使用消息队列，或许最终会选择阿里的rocketmq性能单台TPS基本上是在2000-3000左右最新rabbitmq版本是3.6.2yum安装配置文件RPM-/etc/rabbitmq
Spring Boot整合RabbitMQ Java架构设计 Java程序员经验分享程序人生 Java架构 spring boot
应用场景1.异步处理场景：用户注册完成后，需要发注册成功的邮件和短信，传统的做法有两种：串行的方式：将注册信息写入数据库后，发送注册成功的邮件，邮件发送成功后，再发送注册成功的短信。以上三个任务全部完成后才将注册成功的信息返回给客户端。存在的问题是：邮件和短信并不是必须的，它只是一个通知，串行的方式会让客户端等待没有必要等待的时间。并行的方式：将注册信息写入数据库后，同时发送注册成功的邮件和短信。
批量更新 AWS ECS Fargate 服务：自动化平台版本升级 ivwdcwso 开发运维 aws 自动化云计算 Fargate ecs
在使用AWSECSFargate时，我们经常会收到平台版本更新的通知。为了确保我们的服务运行在最新的平台版本上，我们需要更新所有受影响的任务。本文将介绍如何使用Python和AWSSDK(boto3)来批量更新ECSFargate服务，自动化这一过程。背景AWSFargate会定期发布新的平台版本，以提供新功能和进行例行维护。当新版本发布时，AWS会通知用户在特定日期之前更新他们的任务。虽然AWS
【学习笔记】Python基础-字典Dict和Set和List与Str扩展法迪 Python基础 python hashmap Dict set list
Dict使用大括号围起来，这里提供一种键值对的list表示方法1.Dict{}2.List[]3.turple()实例代码#!/usr/bin/envpython3#-*-coding:utf-8-*-#字典dict类似Java的HashMap#Dict{}#List[]#turple()mDict={"Lava":90,"Huawei":100,"Sony":60}print(mDict['La
数仓_数据口径 TTXS123456789ABC #XM1离线数仓_金融零售大数据
数仓_数据口径数据口径含义数据口径包含口径收敛数据口径含义在数据仓库（数仓）中，数据口径是指在数据统计和分析过程中，对数据的定义、计算方法、范围和标准等方面的详细规定。它确保了数据的一致性和准确性，避免因统计标准不一致导致的数据误解和混淆。数据口径包含具体来说，数据口径包括以下几个方面：数据定义：明确指标的具体含义。例如，“用户注册数”指的是在某一定时间内通过平台注册的新用户数量。计算方法：规定如
flink核心特性 24k小善 flink 大数据 java 架构
ApacheFlink核心特性详解一、流处理与批处理的统一Flink的核心设计理念之一是将流处理和批处理统一在一个框架中。这种统一性使得Flink在处理实时数据和批量数据时具有高度的灵活性和一致性。1.流处理与批处理的统一计算引擎流处理作为批处理的特例：Flink将批处理视为有限流（FiniteStream），从而实现了流处理和批处理的统一。统一API：Flink提供了DataStream和Dat
【隐私保护】身份认证的基本概念小oo呆【隐私保护】【学习心得】密码学安全隐私保护
在之前的文章中有提到认证技术，那么之前提到的认证技术和身份认证技术有什么不同呢？身份认证技术的到底是什么呢？如果想更系统的学习身份认证建议把之前的文章看看：【密码学】密码协议【密码学】密码协议的分类：②认证协议我认为认证技术是一个更广的概念，它指的是在计算机网络中确认操作者身份的过程以及确保数据完整性和来源可靠性的方法。也就是认证技术要认证三个东西：消息认证（验证消息的完整性）、数据源认证（验证消
CHRONOS - 新闻时间线摘要小众AI AI开源服务器人工智能 AI编程
CHRONOS是一种新颖的基于检索的时间线摘要（TLS）方法，通过迭代提出有关主题和检索到的文档的问题来生成按时间顺序排列的摘要。为开放域TLS构建了一个最新的数据集，它在大小和时间线持续时间方面都超过了现有的公共数据集。⚗️OPEN-TLS数据集我们发布了用于开放域时间线摘要的Open-TLS数据集。目标新闻查询以以下格式显示，地面实况时间线按以下格式显示：news_keywords.pydat
python中的dict与set “光光” python
python内置字典：dict支持key-value存储方式，在放进去的时候，必须根据key算出value的存放位置，这样取出来的时候才能根据key拿到value。由于一个key只能对应一个value,所以，多次对一个key放入value,后面的值会将前面的值覆盖掉。如果key不存在，dict就会报错要避免key不存在的错误，有两种方法：1）通过in判断key是否存在>>>d=｛'a':'1'｝>
推荐文章：md2pptx - Markdown到PowerPoint转换神器，让文档制作更简单！邬情然Harley
推荐文章：md2pptx-Markdown到PowerPoint转换神器，让文档制作更简单！项目地址:https://gitcode.com/gh_mirrors/md/md2pptx在快节奏的工作和学习环境中，高效地整理和展示信息变得至关重要。今天，我们来聊聊一个开源宝藏工具——md2pptx，它能将简洁的Markdown格式文本轻松转化为专业的PowerPoint演示文稿。对于那些喜欢Mark
Python基础---Dict（字典） grace666 Python
1.字典以键值对组成，包含在{}中，字典的键必须为hashable，即不可变（字符串、元组、数字），并且唯一；值可以是任何类型#dict1={[1]:1}#报错：TypeError:unhashabletype:'list'#dict1={{1}:1}#报错：TypeError:unhashabletype:'set'dict1={(1,):1}print(dict1)#{(1,):1}dict1
Markdown 到 PowerPoint 转换工具——md2pptx 伍盛普Silas
Markdown到PowerPoint转换工具——md2pptxmd2pptxMarkdownToPowerPointconverter项目地址:https://gitcode.com/gh_mirrors/md/md2pptxmd2pptx是一个开源项目，它可以将Markdown格式的文本转换为PowerPoint演示文稿。该项目主要使用Python编程语言实现。项目基础介绍md2pptx是一个
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
小白也能安装：Ubuntu20.04 安装 RabbitMQ Valishment RabbitMQ ubuntu rabbitmq linux 阿里云 java
开始我使用的是阿里云的轻量级服务器Ubuntu20.04系统镜像作为平台因为要使用RabbitMQ,想着步骤有点繁琐,写篇记一记安装基本依赖项更新源sudoapt-getupdate-y下载签名密钥和软件包所需的先决条件sudoapt-getinstallcurlgnupgdebian-keyringdebian-archive-keyring-y添加存储库签名密钥(指示易于信任由该密钥签名的软件
设计模式笔记10 | 适配器模式在源码中的应用 | Spring源码的 AOP 注册中心存储了不同的适配器实现 | SpringMVC源码doDisPatch方法里的 HandlerAdapter 「已注销」设计模式设计模式适配器模式 spring
文章目录一、适配器模式知识回顾二、类适配器使用案例之拓展登陆业务2.1模拟登陆的旧系统2.2旧系统拓展【类适配器】2.3旧系统拓展【接口适配器】三、适配器模式在Spring源码中的应用四、SpringMVC中的适配器模式五、总结参考资料一、适配器模式知识回顾适配器定义：将一个类的接口转换成另一种目标接口，使得原本由于接口不兼容而不能一起工作的类能一起工作适配器分类：类结构型模式（耦合读较高）和对象
Pytorch实现论文之一种基于扰动卷积层和梯度归一化的生成对抗网络这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集 pytorch 人工智能机器学习生成对抗网络神经网络计算机视觉深度学习
简介简介：提出了一种针对鉴别器的梯度惩罚方法和在鉴别器中采用扰动卷积，拟解决锐梯度空间引起的训练不稳定性问题和判别器的记忆问题。论文题目：APerturbedConvolutionalLayerandGradientNormalizationbasedGenerativeAdversarialNetwork（一种基于扰动卷积层和梯度归一化的生成对抗网络）会议：20244thInternationa
Pytorch实现论文：利用推土机距离与梯度惩罚在ACGAN中训练。这张生成的图像能检测吗优质GAN模型训练自己的数据集 pytorch 人工智能深度学习 gan 机器学习生成对抗网络
论文简介论文：ACWGAN-GPformillingtoolbreakagemonitoringwithimbalanceddata（ACWGAN-GP用于铣削工具断裂监视的数据不平衡数据）出处：RoboticsandComputer-IntegratedManufacturing论文摘要：铣削操作过程中的刀具破损监测(TBM)对于确保工件质量和最大限度减少经济损失至关重要。在训练数据充足、分布均
无人机遥感技术：从植被监测到生理参数反演的进阶之路 KY_chenzhao 无人机植被遥感参数反演
在当今的生态学和农林业研究中，无人机遥感技术已经成为获取植被信息的重要手段。它不仅能够快速覆盖大面积区域，还能提供高分辨率的多光谱和高光谱数据，为植被健康监测、生长状况评估和生理参数反演提供了强大的技术支持。今天，我们就来深入了解一下无人机遥感技术在植被定量监测中的应用。一、无人机遥感：为何备受青睐？无人机遥感技术结合了无人机的灵活性和遥感传感器的高精度，能够快速获取植被的多维度信息。与传统的卫星
Pytorch实现论文之三元DCGAN生成RGB图像用于红外图像着色生成这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集人工智能 python 生成对抗网络深度学习 pytorch 机器学习计算机视觉
简介简介：采用了三次DCGAN单独生成单通道图像之后进行组成RGB图像放入鉴别器中检测，并在鉴别器和生成器的损失训练中采用梯度方法来提升或者降低权重。该方法将用于获得红外图像着色的生成。论文题目：InfraredImageColorizationbasedonaTripletDCGANArchitecture（基于三元DCGAN架构的红外图像着色）会议：2017IEEEConferenceonCo
springcloud的组件及作用 zzyh123456 spring cloud spring 后端
SpringCloud是一个用于构建分布式系统的工具集，它提供了一系列组件来简化微服务架构的开发和部署。以下是一些关键的SpringCloud组件及其作用：1.服务注册与发现Eureka：Eureka是SpringCloud中的核心组件之一，用于实现服务注册与发现。服务实例通过EurekaServer进行注册，消费者通过EurekaServer查询服务实例的地址，实现服务的自动发现和调用。Eure
C++Primer学习（4.6成员访问运算符）黑果果的思考零基础学习C++c++
4.6成员访问运算符点运算符和箭头运算符都可用于访问成员，其中，点运算符获取类对象的一个成员;箭头运算符与点运算符有关，表达式ptr->mem等价于(*ptr).mem:stringsl="astring",*p=&s1;auton=s1.size();//运行string对象s1的size成员n=(*p).size();//运行p所指对象的size成员n=p->size();//等价于(*p).
微服务架构中的负载均衡与服务注册中心(Nacos) ღ᭄ꦿ࿐Never say never꧂ 微服务架构微服务负载均衡 spring cloud spring boot 后端 java
1.负载均衡：解决实际业务问题1.1业务场景思考想象一个电子商务平台的微服务架构。我们有一个订单服务和多个用户服务实例。当订单服务需要调用用户服务时，它如何选择具体调用哪一台用户服务器？这就是负载均衡要解决的核心问题。1.2常用负载均衡算法及其业务影响1.2.1轮询（RoundRobin）原理：请求依次分配给每个服务器。业务影响：优点：实现简单，在服务器性能相近的情况下能达到较好的负载平衡。缺点：
Unity UI优化总结 Don里个冬 Unity3D技术分享 unity unity3d ugui
UnityUI优化总结前言最近又再一次回顾总结了一下UnityUI的优化，在此作下笔记，供学习参考。核心四大问题在Unity中UI优化的核心问题就是重绘和批处理之间的平衡。虽然说可以通过一些简单的技巧单方面地减少批次或者减少重绘，但进行过一波优化之后，最终还是要面临批次和重绘的平衡问题的。常见的四大UI优化问题：1、片段着色器利用率过高（或者说GPUfill-rate填充率过高），即每个片段处理的
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s