onetpm

Python爬虫-图片篇（1）初学乍练

文章目录

1. python爬虫基本功

1.1 requests
1.2 lxml(lxml.etree.HTML().xpath)
1.3 tqdm
1.4 os 路径、文件操作

2. 爬虫程序分析
3.知识点总结
4. troubleshooting

4.1 xpath不会写怎么办

1. python爬虫基本功

图片爬虫是学习其他爬虫的基础，如果掌握了一下几个常用库，和下面图片爬虫的实战程序，就可以轻松搭建其它更加复杂的爬虫任务。当然，如果你只是想爬取整个网站的所有图片，直接复制本文程序，也可以不用任何修改，获取到大量图片数据，以供后续研究学习使用。

以后补充如下几个工具包的使用方法，和相关链接。如果已经有相关基础的读者可以直接跳过，阅读第二部分

1.1 requests

1.2 lxml(lxml.etree.HTML().xpath)

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。本文作为图片爬虫，只使用到lxml中最基本的方法，利用xpath定位。下面几个教程可以用来学习xpath

W3School中Xpath教程

1.3 tqdm

Tqdm 是一个快速，可扩展的Python进度条，可以在 Python 长循环中添加一个进度提示信息，用户只需要封装任意的迭代器 tqdm(iterator)。
总之，它是用来显示进度条的，很漂亮，使用很直观（在循环体里边加个tqdm），而且基本不影响原程序效率。名副其实的“太强太美”了！这样在写运行时间很长的程序时，是该多么舒服啊！

tqdm官方网站
GitHub仓库

使用方法

from tqdm import tqdm
import time
# 直接对数据进行操作
for i in tqdm(range(10000)):
    time.sleep(0.1)

urls= ['A','B','C','D','F']
pbar = tqdm(urls)
for url in pbar:
	pbar.set_description("Processing %s" % url)
	time.sleep(1)

更多使用方法请移步官方网站

1.4 os 路径、文件操作

2. 爬虫程序分析

先给出程序源码，程序可以在没有任何修改的情况下，直接复制使用。

#!usr/bin/env python
#-*- coding:utf-8 -*-
"""
@author:CHERN
@file: spider_goddess.py
@time: 2020/04/27
"""
# https://tw.kissgoddess.com/
# requests应该就可以直接爬

import requests
import os
from lxml import etree
import json
from tqdm import tqdm
import random
import time
'''
这个网站的内容爬取自.现在域名为
该网站爬虫技术不过关，导致挂在网上的图片有一些就是父网站防止盗链的图片如https://tw.kissgoddess.com/album/32711.html
'''
# 获取一个连接(图片集)中所有页url,也包含它本身-
def get_all_pages_url(url):
    print("Getting all page urls of album...")
    urlset = set([])
    while True:
        urlsetlen = len(urlset)
        r = requests.get(url)
        page = etree.HTML(r.text)
        urls = page.xpath('//*[@id="pages"]/a/@href')
        urls = urls[0:-1]   #urls最后一项是当前页，包含在其中，所以删掉
        for u in urls:
            urlset.add(u)
        url = 'https://tw.kissgoddess.com'+urls[-1]
        if urlsetlen == len(urlset):
            print("There exists " + str(len(urlset)) + ' pages in this album.')
            return list(urlset)

# 下载给定页面中的所有图片，输入时一个URL，和指定路径
def download_image_in_page(url,path):
    # 首先获取到页面重所有图片的URL
    r = requests.get(url)
    page = etree.HTML(r.text)
    img_urls = page.xpath('//*[@id="td-outer-wrap"]/div[2]/div/div[2]/div/div/article/div[2]/img/@src')
    entry_title = page.xpath('//*[@id="td-outer-wrap"]/div[2]/div/div[2]/div/div/article/div[1]/header/h1/text()')

    for img_url in img_urls:
        dir = path + str(entry_title[-1].replace('?',' ').replace('|',' '))
        # 判断需要下载的图片是否存在，如果存在就进入下一张图片url
        if os.path.exists(dir + '/' + img_url.split('/')[-1]):
            continue
        if not os.path.exists(dir):
            print('Creating folder...')
            os.makedirs(dir)
        img = requests.get(img_url).content
        with open(dir + '/' + img_url.split('/')[-1], 'wb+') as f:
            f.write(img)
    return dir + '/'

# 给出一个相册集的URL，下载该URL对应作品集album中所有图片
# 传入的url需要是绝对路径
def download_all_image_by_album(url,path):
    print("="*30)
    print("Downloading album.. URL: " + url)
    urls = get_all_pages_url(url)
    pbar = tqdm(urls)
    for url in pbar:
        pbar.set_description("Processing %s" % url)
        result = download_image_in_page("https://tw.kissgoddess.com/"+url, path)
    print("Download album successfully. Go to folder:"+ result)
    return result

# 给出一个人的主页面https://tw.kissgoddess.com/people/li-yan-xi.html，下载它的所有作品,即所有albums中的所有图片，每个albums一个文件夹
def download_all_image_by_mainpage(url,path):
    page = etree.HTML(requests.get(url).text)
    # 可以在此处解析其他信息，如本站排名，体重，出生日期，星座等
    albums = page.xpath('// *[ @ id = "divAlbum"] / div / div / a/@href')
    print(url.split('/')[-1][0:-5]+"一共有"+str(len(albums))+"照片集")
    for album in albums:
        url = 'https://tw.kissgoddess.com' + album
        result = download_all_image_by_album(url,path)

# 没有找到获取所有任务主页的方法
def get_all_mainpages():
    pass

# http://tw.kissgoddess.com/gallery/ 获取所有album的url.注意这是相对路径，不可以直接get().需要拼接https://tw.kissgoddess.com
# 可以获得900个url，以供下载。每个album大小为6MB左右。全部下载预计5.27GB
# range(1,31)是测试数据，内容可能会随着网站更新而变大
def get_all_albums_url():
    albums = []
    for i in tqdm(range(1,31)):
        url = "http://tw.kissgoddess.com/gallery/" + str(i) + ".html"
        page = etree.HTML(requests.get(url).text)
        alb = page.xpath('//*[@id="td-outer-wrap"]/div[2]/div/div/div[2]/div/div/article/div[1]/div[3]/div/div/div/a/@href')
        albums = albums + alb
    return albums

domain = 'https://tw.kissgoddess.com'


if __name__ == '__main__':
    # 下载单个相册测试
    # urls = ["https://tw.kissgoddess.com/album/32321.html"]
    # for url in urls:
    #     download_all_image_by_album(url,'F:/imagedownload/goddess/')

    # 下载个人所有相册测试
    # people_mainpage = "https://tw.kissgoddess.com/people/park-soo-neul.html"
    # download_all_image_by_mainpage(people_mainpage,'F:/imagedownload/goddess/')

    # 下载所有相册测试
    # 下面程序段，需要运行很长时间，取消注释请谨慎...
    print("-" * 30)
    print("Downloading all albums' url..")
    albums = get_all_albums_url()
    print("FBI warning: So many albums need to be downloaded...: " + str(len(albums)) + " items")
    print("Continue downloading and we will assume that you have understood the operation")
    print("-"*30)
    print('Downloading all albums...')
    for album in albums:
        download_all_image_by_album(domain+album, 'F:/imagedownload/godd/')

**download_image_in_page()函数讲解**

如果要从网上获取大量图片，需要从最底层的函数开始封装。程序第二个函数`download_image_in_page()`的功能是从单个网页中（如https://tw.kissgoddess.com/album/32160.html）获取图片的地址，然后下载到本地。这是最底层也是最基础的函数。首先通过requests.get()函数获取页面，然后通过etree.HTML()将网页内容r.text转化成方便处理的对象。

r = requests.get(url)
page = etree.HTML(r.text)

接下来我们就可以通过xpath获取页面重的制定元素，标签，属性等。xpath需要一个xpath语法的字符串来提取页面中制定内容。xpath语法教程可以在上面提供的连接中学习。如果对xpath不熟悉，也可以通过浏览器F12功能键，直接复制得到。下面通过查看网页内容，获取图片url列表，和标题（用作文件夹名）

img_urls = page.xpath('//*[@id="td-outer-wrap"]/div[2]/div/div[2]/div/div/article/div[2]/img/@src')
entry_title = page.xpath('//*[@id="td-outer-wrap"]/div[2]/div/div[2]/div/div/article/div[1]/header/h1/text()')

获取到图片url之后，我们就可以再次使用requests.get()方法，把图片下载到本地了。

for img_url in img_urls:
	# 获取到的标题中可能包含某些特殊字符（?,|,等），在Windows操作系统下无法新建文件夹
	# 这里是直接替换为空格处理
    dir = path + str(entry_title[-1].replace('?',' ').replace('|',' '))
    # 判断需要下载的图片是否存在，如果存在就进入下一张图片url
    if os.path.exists(dir + '/' + img_url.split('/')[-1]):
        continue
    # 判断存放图片的文件夹是否存在，如果不存在，就直接创建
    # 注意，使用os.makedirs()是为了防止其父文件夹不存在
    if not os.path.exists(dir):
        print('Creating folder...')
        os.makedirs(dir)
    # requests.get()获取图片内容，然后写入文件中
    img = requests.get(img_url).content
    with open(dir + '/' + img_url.split('/')[-1], 'wb+') as f:
        f.write(img)

**get_all_pages_url()函数讲解**

有了上面的函数，我们可以下载页面中的图片了。那么，如何解析一个相册的所有页面URL呢？我们需要这样一个函数，给出一个相册的首页地址，自动解析出属于相册的所有页面URL。然后就可以循环使用上面的函数，下载整个相册了。解析所有url的思路是，根据网站的特点，相册的页面中，总是包含了它往下若干条的URL。我们先定义一个空集（集合元素不重复），获取首页地址https://tw.kissgoddess.com/album/32144.html，我们从页面中获取到其中的所有其他页面，然后再获取到的最后一项（如这里是第八页的URL），第八页还包含了往下几条页面的URL（如果有的话）。然后不断循环，知道这个集合元素不再变化，说明获取到尾页了。通过上一个函数的学习，和提供的源程序，可以轻松理解这样的做法

有了上面两个函数，接下来的思路就比较清晰了。我们可以封装一个函数，传入相册集首页地址，把该相册集所有图片都下载下来，也就是函数download_all_image_by_album()

download_all_image_by_album()

这个函数比较简单，只需要调用上面两个封装好的函数即可。先通过相册集首页URL获取所有页面，然后循环下载页面中的图片即可。上面的函数使用了进度条，并且打印了一些提示进度的输出。

urls = get_all_pages_url(url)
for url in urls:
    result = download_image_in_page("https://tw.kissgoddess.com/"+url, path)

封装的层次越来越高了。我们现在下载图片，可以通过调用download_all_image_by_album()函数来实现，这个函数实现之后，就可以把一个album看作是最小单位。我们以后下载任何图片，都调用这个函数。

网站上，有个人主页的页面，例如https://tw.kissgoddess.com/people/duan-xiao-hui.html，在这个页面中，有她所有相册集，通过之前的学习，可不可以解析她所有的相册集，然后下载呢？答案是可以。也就是下面的函数。download_all_image_by_mainpage()

download_all_image_by_mainpage()

看上面的图片，我们可以通过个人主页解析她的作品集，然后通过调用上面下载作品集的函数`download_all_image_by_mainpage()`下载她的全部作品。

def download_all_image_by_mainpage(url,path):
    page = etree.HTML(requests.get(url).text)
    # 可以在此处解析其他信息，如本站排名，体重，出生日期，星座等
    albums = page.xpath('// *[ @ id = "divAlbum"] / div / div / a/@href')
    for album in albums:
        url = 'https://tw.kissgoddess.com' + album
        download_all_image_by_album(url,path)

能够下载单个人所有相册集了，我们可以获取到网站上所有人的主页吗？这个网站我也没有仔细研究过，所以没办法回答。这个就当是给观众留个作业。感兴趣的可以试一试，看看哪个入口可以提取。

该网站的资源其实是获取自nvshens.net，所以它只提供了排行榜在前900的相册集页面（不清楚这是不是网站的全部家底，应该不是）。我们下面解析这个页面，获取这900个相册集的URL

get_all_albums_url()

这个函数获取了900个相册集。通过观察网站，我们可以在http://tw.kissgoddess.com/gallery/查看相册集，下一页是http://tw.kissgoddess.com/gallery/2.html，我们通过循环的方式，往下读取30页，每页30个相册集，返回相册集URL。返回的URL可以通过 `download_all_image_by_album()` 来下载

# http://tw.kissgoddess.com/gallery/ 获取所有album的url.
# 注意这是相对路径，不可以直接get().需要拼接https://tw.kissgoddess.com
# 可以获得900个url，以供下载。每个album大小为6MB左右。全部下载预计5.27GB
# range(1,31)是测试数据，内容可能会随着网站更新而变大
def get_all_albums_url():
    albums = []
    for i in tqdm(range(1,31)):
        url = "http://tw.kissgoddess.com/gallery/" + str(i) + ".html"
        page = etree.HTML(requests.get(url).text)
        alb = page.xpath('//*[@id="td-outer-wrap"]/div[2]/div/div/div[2]/div/div/article/div[1]/div[3]/div/div/div/a/@href')
        albums = albums + alb
    return albums

以上就是一个完整的图片爬虫基本框架。如果要提高速度，可以通过多线程等方式实现。这篇文章就不扩展了。主要是怕稀释爬虫技术知识，分不清主次。读者可以自行学习多线程知识，在此基础上进行扩展。

3.知识点总结

列表list()内容可以重复，set([])表示集合对象，内容可以去重

获取标签属性内容，可以通过xpath//*[@id="pages"]/a/@href来获取html中属性内容，即www.baidu.com

获取标签内容，可以通过xpath//*[@id="pages"]/a/text()来获取

创建文件夹通过os.mkdir("c:\father\son")时，需要保证c:\father已经存在，才能成功创建son子文件夹，否则会报错。如果无法保证father文件夹存在，可以使用os.makedirs("c:\father\son")来完成。函数的功能是，如果路径不存在，就创建路径，并创建最后的文件夹

这个网站的数据来源是，由于上述网站爬虫封锁，该爬虫会下载到防盗链图片，这和程序无关。为了验证，可以把爬到的url放到浏览器中查看，依然是盗链图片

程序没有实现多线程

程序由于网络环境等问题，会出现下载缓慢的情况

4. troubleshooting

4.1 xpath不会写怎么办

在浏览器中打开网页，如http://www.xinhuanet.com/politics/leaders/xijinping/index.htm，按F12进入开发者模式

鼠标悬停在相关element上，网页上会显示其在页面中显示范围

右键，复制，复制xpath即可

Python 爬虫实战：舞台剧与演出信息获取西攻城狮北 python 爬虫开发语言
作为一名对文化艺术活动和数据获取感兴趣的内容创作者，我决定利用Python爬虫技术抓取舞台剧与演出信息。这对于文艺爱好者、文化活动组织者以及相关研究人员来说，是一个极具价值的探索。一、项目背景舞台剧和各类演出活动丰富了人们的精神文化生活。许多城市都有专业的演出场馆，如国家大剧院、上海大剧院等，它们会定期发布演出信息。通过爬虫技术，我们可以自动化地获取这些演出信息，方便用户查询和分析。二、技术选型在
AsyncHttpClient使用说明书有梦想的攻城狮 netty学习专栏 Java asynchttpclient 异步处理 netty
[[toc]]AsyncHttpClient（AHC）是一个高性能、异步的HTTP客户端库，广泛用于Java和Scala应用中，特别适合处理高并发、非阻塞的HTTP请求。它基于Netty或Java原生的异步HTTP客户端实现，支持HTTP/1.1和HTTP/2协议，适用于微服务、API调用、爬虫等场景。1.核心特性特性说明异步非阻塞基于事件驱动模型，避免线程阻塞，支持高并发（如每秒数千请求）。HT
C# 语法糖：深度解析与代码实例演示墨瑾轩一起学学C#【一】c#
C#作为一种现代、面向对象的编程语言，内置了许多语法糖（SyntacticSugar）特性，旨在简化代码书写、提升代码可读性与编写效率，而不会牺牲程序的语义或性能。语法糖并非语言的新功能，而是对已有功能的封装或简化表示，编译器在编译阶段会将其转换为等效的基础语法。以下是一些C#中常见的语法糖特性，结合详细描述、代码示例和注释进行展示。1.属性（Auto-ImplementedProperties）
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
开发语言漫谈-脚本语言大道不孤,众行致远技术杂谈开发语言
前面讲的都称之为编程语言，就是做系统用的。还有一大类称之为脚本语言的语言，这类语言数量极多，大部分程序员用不上，也不关心，这是系统维护人员专用的邻域。这个定义其实也很不准确，不必较真。更准确的来讲，能直接运行的文本都可以称之为脚本语言，按这个标准，python也是。但是python同样用于做系统。我们今天讲的脚本语言纯粹用于系统维护邻域。我们重点将编程语言，对这些脚本语言就打包一起介绍了bash：
Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
Rust + 时序数据库 TDengine：打造高性能时序数据处理利器涛思数据（TDengine）时序数据库 rust tdengine
引言：为什么选择TDengine与Rust？TDengine是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库，支持高并发写入、高效查询及流式计算，通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。Rust作为一门系统级编程语言，近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起，以其内存安全、高性能著称，与TDengine的高效特性天然契合，适合构建高可靠、高
python processpoolexecutor_Python多进程解决方案multiprocessing ProcessPoolExecutor weixin_39599046 python
大多数编程语言都会有多线程和多进程的概念，至于线程和进程的概念，大家可以百度一下。作为一门胶水语言，Python毫不意外，也可以利用多线程和多进程处理并发问题，但是多线程由于GIL的存在，起作用范围大打折扣，仅限于在IO等场景可以发挥点作用。所以，今天要跟大家分享的是Python多进程方案，更好地利用系统多核，从而提升性能。基础方案一：利用Process新建一个子进程，在子进程执行任务。我们写一个
SassScript：Sass中的编程特性详解 jiajia651304 sass 前端 css
Sass（SyntacticallyAwesomeStylesheets）是一种强大的CSS预处理器，它允许开发者使用类似于编程语言的语法来编写CSS，然后通过编译生成标准的CSS代码。SassScript是Sass中的编程特性集合，它包含了变量、嵌套规则、混合、函数以及控制指令等，极大地提高了CSS的开发效率和可维护性。1.变量SassScript中的变量允许开发者在样式表中存储和重复使用值。变
探秘知乎数据抓取神器 —— zhihu-spider 丁慧湘Gwynne
探秘知乎数据抓取神器——zhihu-spider项目地址:https://gitcode.com/gh_mirrors/zh/zhihu-spider在知识的海洋中畅游，每一份数据都可能成为智慧的火花。今天，我们来一起探索一个专为知乎设计的数据爬虫工具——zhihu-spider，它是由计算机科学研究生MorganZhang精心打造的开源宝藏。项目介绍zhihu-spider，正如其名，是一个针对
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
Emacs和SML的安装和使用 weixin_42281226 emacs 编辑器
环境：Mac电脑参考文章：编程语言软件安装和使用：SML和Emacs1.Emacs安装和基本使用从官网EmacsForMacOSX下载最新版本，正常安装即可。Emacs使用组合键进行操作（组合键比较难记，可以先尝试通用键）。最重要的操作：（C表示Control）C-xC-c：退出EmacsC-g：取消当前操作C-xC-f：打开文件或新建文件C-xC-s：保存文C-xC-w:等同于saveasC-s
索骥馆－编程语言之《网络编程实用教程（第2版）》扫描版[PDF] cinnarnia 面壁区 windows编程程序设计 TCPIP 网络
内容介绍：本书主要介绍基于tcp/ip协议栈的套接字网络编程技术。全书分为10章，第1章介绍网络编程基础，第2章介绍套接字网络编程接口，第3章介绍windows环境的网络编程，第4章介绍mfc编程，第5章介绍mfcwinsock类的编程，第6章介绍wininet编程，第7章介绍winsock的多线程编程，第8章介绍winsock的输入/输出模型，第9章介绍http及高级编程，第10章介绍电子邮件协
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
JavaScript反爬技术解析与应对不做超级小白 web逆向知识碎片 web前端 javascript 开发语言 ecmascript
JavaScript反爬技术解析与应对前言在当今Web爬虫与数据抓取的生态环境中，网站运营方日益关注数据安全与隐私保护，因此逐步采用多种反爬技术来限制非授权访问。本文从JavaScript角度出发，深入剖析主流反爬策略的技术原理，并探讨相应的绕过方案，以期为研究者和开发者提供系统性的理解与实践指导。1.JavaScript反爬技术概述1.1右键禁用与开发者工具防护部分网站采用JavaScript拦
Java：从入门到创新 java
Java：从入门到创新一、Java简介Java是一种广泛使用的高级编程语言，自1995年首次发布以来，一直深受开发者的喜爱。它由SunMicrosystems公司开发，后来被Oracle公司收购。Java的设计目标是简单、健壮、安全且跨平台，这些特性使其在企业级应用开发中占据重要地位。二、Java的主要特点（一）简单易学Java的语法与C语言和C++语言很接近，但丢弃了C++中一些复杂且容易出错的
从指令集鸿沟到硬件抽象：AI 如何重塑手机与电脑编程语言差异——PanLang 原型全栈设计方案与实验性探索1 灏瀚星空 PanLang 原型全栈设计方案与实验性探索人工智能智能手机开发语言架构机器学习语言模型模板方法模式
AI如何跨越指令集鸿沟？手机与电脑编程语言差异溯源与统一路径——PanLang原型全栈设计方案与实验性探索1文章目录AI如何跨越指令集鸿沟？手机与电脑编程语言差异溯源与统一路径——PanLang原型全栈设计方案与实验性探索1前言一、手机与电脑编程语言的核心差异二、实现语言统一的技术路径1.硬件抽象层设计（HAL2.0）2.自适应运行时系统3.跨平台UI引擎三、新型统一语言设计要素1.核心特性2.编
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
C++学习：六个月从基础到就业——C++基础语法回顾：数据类型、变量与常量 superior tigre C++学习：六个月从基础到就业 c++学习
C++学习：六个月从基础到就业——C++基础语法回顾：数据类型、变量与常量本文是"C++学习：六个月从基础到就业"系列的第一篇技术文章，主要回顾C++的基本数据类型、变量定义和常量使用，为后续深入学习打下基础。查看完整系列目录了解更多内容。引言编程的本质是对数据的处理，而数据类型、变量与常量是任何编程语言的基础构建块。在C++中，对这些基础概念的深入理解不仅能让我们编写出正确的代码，还能帮助我们编
从零开始学习 Go 语言九班长 Golang 学习 golang 后端开发语言 gin
Go语言（又称Golang）是由Google开发的一种静态强类型、编译型、并发型编程语言。它以其简洁的语法、高效的并发支持和强大的标准库而闻名，非常适合开发高性能的服务器端应用、分布式系统和云计算工具。本文将从零开始，详细介绍如何学习Go语言，涵盖基础语法、核心概念、并发编程、工具链和实战项目等内容。1.Go语言简介1.1Go语言的特点简洁易学：语法简洁，学习曲线平缓。高效编译：编译速度快，生成的
网络安全爬虫全解析 Hacker_LaoYi 爬虫 web安全网络
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
用Python爬虫获取AliExpress商品信息：item_search API接口实战指南 JelenaAPI小小爬虫 Python API python 爬虫开发语言
引言在全球化电商的浪潮中，数据的力量不容小觑。对于电商分析师、市场研究者以及在线商家而言，能够快速获取商品信息是至关重要的。AliExpress作为全球知名的跨境电商平台，提供了丰富的商品数据。本文将介绍如何使用Python爬虫结合item_searchAPI接口，按关键字搜索并获取AliExpress上的商品信息。一、为什么选择Python爬虫Python因其简洁的语法和强大的库支持，成为编写爬
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
6.8:Python如何处理文件写入时出现的错误？小兔子平安 Python完整学习全解答 java windows html
Python是一种功能强大且易于学习的编程语言，已经成为了当今最流行的编程语言之一。随着Python应用领域的不断扩大，越来越多的人开始学习Python，希望能够掌握这个有用的工具，从而实现更多的创意和创新。而文件操作是Python编程中不可或缺的一部分，对于处理文件写入时的错误更是必须掌握的技能。本文主要介绍如何处理Python中文件写入时的错误。我们将详细讲解如何使用try-except语句、
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C