最初的梦10

爬虫基础（一）

爬虫基础知识

概念：1.模拟客户端

2.发送网络请求，获取

3.按照规则自动提取数据的程序

分类：1.通用爬虫：搜索引擎（什么都抓，不挑食），百度，谷歌，必应

通用爬虫和聚焦爬虫工作原理：

1.搜索引擎原理

抓取网页

数据存储

预处理

提供检索服务，网站排名

2.聚焦爬虫原理

url list

响应内容提取url

提取数据

入库

3.robots.txt 文件一般放置在网站根目录下

2.HTTP和HTTPS内容

HTTP：超文本传输协议，默认端口号：80

HTTPS：HTTP+SSL（安全套接字层）默认端口号：443

HTTPS和HTTP更安全，但是性能更低

url的格式：

浏览器地址栏的链接地址https://www.baidu.com/

形式 scheme://host[:port#]/path/.../[?query-string][#anchor]

scheme:协议（例如：http,https,ftp)

host:服务器的IP地址或者域名

port:服务器的端口（如果是走协议默认端口，80 or443)

path:访问资源的路径

http://www.cnblogs.com/be-saber/p/4734951.htm

浏览器会根据html标签，自动再次请求，获取图片，css,js等内容，叫做渲染

爬虫只会根据url地址，获取网页地址，发送请求，获取响应

重点：浏览器访问一个网站，在获取网站源码（HTML）之后，会根据源码上的链接加载图片，js ,css文件等，我们称之为渲染，而爬虫只会请求指定的url对应的网页源码，不会自动加载css,js,图片

3.HTTP请求报文的格式

对于爬虫，最重要的是User-agent,其次：cookie, referer ,accept等

# 操作系统的版本，浏览器内核，版本信息等
# 白氏客户端是谁？
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36
# 表示从哪来？
# 也是CSRF防护手段之一
Referer: https://www.baidu.com/

总结：

爬虫代码中：必须要用的用户代理，其次，referer和cookie等请求头信息

HOST(主机和端口号）

Connection(链接类型）

Upgrade-Insecure-Requests(升级为HTTPS请求）

User-Agent(用户代码）

服务器能够识别客户使用的操作系统及版本，CPU类型，浏览器及版本，浏览器渲染引擎，浏览器语言，浏览器插件等

Accept(传输文件类型）

Referer

页面跳转处，从何处来到当前页面，可用于防爬和防盗链

Accept-Encoding

浏览器支持的编码类型，主要的编码格式就是压缩格式 gizp compress deflate

用户进行状态保持，通常也可用于识别用户身份

x-requested-with:

XMLHttpRequest xhr是Ajax 异步请求

4.get与post方法

get方法

用来请求资源

在url中传输实体数据

传输的数据量小(受浏览器限制）

post方法

用来传输实体数据(本质上更专业）

在实体中传输数据

传输的数据量大

6.响应状态码（status code)

200:成功

客户端---请求正常处理则返回200 ok------服务器

爬虫代码中：不能百分百的信任服务器返回的状态码，必须以服务器返回的响应中是否有数据为准，为唯一标准。

如果浏览器中能看到数据，爬虫代码中获取不到，对比代码和浏览器的请求的区别。

如果遇到异常状态码，对比代码中的请求信息，和浏览器中的请求信息(请求头)和区别。

7.字符编码说明

str类型和bytes类型

bytes:二进制

互联网上数据的都是以二进制的方式传输的

str:unicode的呈现形式

Unicode UTF8 ASCLL的补充

字符集（Character set)是多个字符的集合

字符集包括：ASCLL字符集，GB2312字符集，GB18030字符集，Unicode字符集等

ASCLL编码是1个字节，而Unicode编码通常是2个字节（UCS-2)

UTF-8是Unicode的实现方式之一，UTF-8是它是一种变长的编码方式，可以是1，2，3个字节

str bytes如何转化

字符串数据使用encode方法转化为bytes

Bytes类型数据通过decode转化为字符串类型数据

编码方式是默认是utf-8，如果需要选定编码方式，编码方式解码方式必须一样，否则就会出现乱码

8.requests基本使用

发送简答请求

需求：通过requests向百度首页发送请求，获取百度首页的数据

response=requests.get(url)

response的常用属性

response.txt 获取str类型的响应

response.context 获取bytes类型的响应

response.status_code 获取状态码

response.headers 获取响应头

response.request 获取响应对应的请求

response.text

类型：str

解码类型：根据HTTPS头部对响应的编码作出有根据的推测，推测的文本编码

如何修改编码方式：response.encoding='gbk'

response.content

类型：bytes

解码类型：没有指定

如何修改编码方式：response.content.decode('utf8')

更推荐使用response.content.decode('utf8')的方式获取响应的html页面

headers的形式：字典

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/110.0.0.0 Safari/537.36'}
# 发送请求，伪装成浏览器
resp2 = requests.get(url, headers=headers)
with open('baidu4.html', 'w') as f:
    f.write(resp2.content.decode('utf8'))

9.发送带参数的请求

参数的形式：字典

kw={'wd':'python'}

用法：requests.get(url,params=kw)

10.爬取百度贴吧案例

# 单页爬取
"""
爬虫代码实现步骤：
# 1.要准备其实url地址和请求头信息
# 2.发送请求，获取响应
# 3.保存信息
# 4.定义入口函数

"""
import requests


class TuPian(object):
    def __init__(self):
        self.url = 'https://m.baidu.com/sf/vsearch?pd=image_content&word=%C3%C0%CD%BC&tn=vsearch&atn=page'
        self.headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit'
                                      '/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Mobile Safari/537.36'}

    def get_data(self):
        resp = requests.get(self.url, self.headers)
        return resp.content.decode('utf-8')

    def save(self, data):
        with open('tupian.html', 'w', encoding='utf-8') as f:
            f.write(data)

    def run(self):
        data = self.get_data()
        self.save(data)


if __name__ == '__main__':
    tupian = TuPian()
    tupian.run()

"""
爬虫代码实现步骤：
# 1.要准备其实url地址和请求头信息
# 2.发送请求，获取响应
# 3.保存信息
# 4.定义入口函数

"""
#------爬取吧的页数---------

import requests


class TieBa(object):
    def __init__(self, pn):
        self.url = 'https://tieba.baidu.com/f?kw=%E4%B8%8A%E6%B5%B7%E8%B4%B4&ie=utf-8&pn='
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)'
                          ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Mobile Safari/537.36'}
        self.url_list = [self.url + str(i * 50) for i in range(pn)]
        print(self.url_list)

    def get_data(self, url):
        # 发送请求，获取响应
        resp = requests.get(url, self.headers)
        return resp.content.decode('utf-8')

    def save_data(self, data, index):
        # 保存数据
        file_name = 'tieba_' + str(index) + '.html'
        with open(file_name, 'w', encoding='utf-8') as f:
            f.write(data)

    def run(self):
        # 入口函数，在类的内部，实现各个功能函数之间的协调调用
        # 遍历url列表，把没页的url传给发送请求的函数
        for url in self.url_list:
            data = self.get_data(url)
            index = self.url_list.index(url)
            print('index=',index)
            self.save_data(data, index)


if __name__ == '__main__':
    tieba = TieBa(3)
    tieba.run()

#----爬取不同的吧，且不覆盖之前爬取的吧-------------

import requests


class TieBa(object):
    def __init__(self, name,pn):  # name 为吧名字
        self.url = 'https://tieba.baidu.com/f?kw={}ie=utf-8&pn='.format(name)
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)'
                          ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Mobile Safari/537.36'}
        self.url_list = [self.url + str(i * 50) for i in range(pn)]
        self.name = name
        print(self.url_list)

    def get_data(self, url):
        # 发送请求，获取响应
        resp = requests.get(url, self.headers)
        return resp.content.decode('utf-8')

    def save_data(self, data, index):
        # 保存数据
        file_name = self.name + str(index) + '.html'
        with open(file_name, 'w', encoding='utf-8') as f:
            f.write(data)

    def run(self):
        # 入口函数，在类的内部，实现各个功能函数之间的协调调用
        # 遍历url列表，把没页的url传给发送请求的函数
        for url in self.url_list:
            data = self.get_data(url)
            index = self.url_list.index(url)
            print('index=', index)
            self.save_data(data, index)


if __name__ == '__main__':
    tieba = TieBa('李毅', 3)
    tieba.run()

#----------终端命令输入---------

import requests


class TieBa(object):
    def __init__(self, name, pn):  # name 为吧名字
        self.url = 'https://tieba.baidu.com/f?kw={}ie=utf-8&pn='.format(name)
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)'
                          ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Mobile Safari/537.36'}
        self.url_list = [self.url + str(i * 50) for i in range(pn)]
        self.name = name
        print(self.url_list)

    def get_data(self, url):
        # 发送请求，获取响应
        resp = requests.get(url, self.headers)
        return resp.content.decode('utf-8')

    def save_data(self, data, index):
        # 保存数据
        file_name = self.name + str(index) + '.html'
        with open(file_name, 'w', encoding='utf-8') as f:
            f.write(data)

    def run(self):
        # 入口函数，在类的内部，实现各个功能函数之间的协调调用
        # 遍历url列表，把没页的url传给发送请求的函数
        for url in self.url_list:
            data = self.get_data(url)
            index = self.url_list.index(url)
            print('index=', index)
            self.save_data(data, index)


if __name__ == '__main__':
    import sys  # 获取程序外的输入
    import codecs

    sys.stdout = codecs.getwriter("utf-8")(sys.stdout.detach())

    # print('argv[0]=', sys.argv[0])  # 传文件名
    # print('argv[1]=', sys.argv[1])  # 传名字 李毅
    # print('argv[2]=', sys.argv[2])  # 次数 3
    name = sys.argv[1]
    pn = int(sys.argv[2])
    tieba = TieBa(name, pn)
    tieba.run()

11.Requests深入

发送POST请求

登录注册（POST比GET更安全）

绝大多数的登录会使用post请求，极少数网站仍然在使用get请求进行登录

向服务器传输的数据量比较多的时候，或者向服务器传输大文件

所以同样的，我们的爬虫也需要在这两个地方会去模拟浏览器发送post请求

状态保持cookies

cookie和session

二者区别：

cookie数据存放在客户的浏览器上，session数据放在服务器上

cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗（使用用户的cookie获取相关信息）。

session会在一定时间内保存在服务器。当访问增多，会比较占用服务的性能。

单个cookie保存的数据不能超过4k，很多浏览器都限制一个站点保存的cookie的信息

1.requests模块中的Session,能够实现自动保存服务器返回的会话信息

方向代理：代理的服务器，隐藏了服务器

正向代理：代理的客户端，隐藏了客户端

import requests

"""
代理ip的使用，在工作中必须写爬虫代码，必须使用代理ip(不止一个ip)，使用高匿代理
"""
url = 'http://www.baidu.com'
# 定义字典，保存代理字典,代理ip使用付费的，不会只用一个
proxy = {'http': ''}
# 不使用代理ip，发送请求
resp1 = requests.get(url)

print(resp1.status_code)
# 使用代理ip，发送请求,免费代理Ip不好用
resp2 = requests.get(url, proxies=proxy)
print(resp2.status_code)

Requests小技巧

cookiesjar与字典之间的转换

requests.utils.dict_from_cookiejar 把cookiejar对象转化为字典格式的cookies

requests.utils.cookiejar_from_dict 把字典格式的cookies转换成cookiejar对象

import requests

# cookiejar和字典之间的转换
# 作用：动态获取服务器返回cookie信息，代码中动态处理，不是在请求头中固定写死cookie信息
url = 'http://www.baidu.com'
resp = requests.get(url)
print(resp.cookies)
cookie_jar = resp.cookies
cookie_dict = requests.utils.dict_from_cookiejar(cookie_jar)
print(cookie_dict)
# 把字典转换为cookie对象
print(requests.utils.cookiejar_from_dict(cookie_dict))

请求SSL整数验证

使用场景：

Requests可以为HTTPS请求验证SSL证书，就像web浏览器一样。SSL验证默认是开启的，如果证书验证失败，Requests会抛出SSLError

使用方式：response=requests.get('https://12306.cn/mormhweb/'verify=False)

import requests

# 只有在访问https类型的网站才会遇到
url = 'https://sam.huat.edu.cn:8433/selfservice/'
# 默认开启CA证书认证
# resp = requests.get(url)
# 关闭认证
resp = requests.get(url, verify=False)
print(resp.status_code)

设置超时

使用场景：有些站点或者代理反应慢，严重降低效率，这时候可以设置超时

使用方式：response=requests.get(url,timeout=10)

import requests

url = 'http://www.baidu.com'
# 定义字典，保存代理ip，代理ip使用付费的，不会只用一个
proxy = {'http': 'http://123.182.58.46:8089'}
# 使用代理ip，发送请求，免费代理ip不好用
# timeout表示发送请求的超时时间，单位秒，有一定的网络延时，不是秒表
# timeout作用：可以用来测试代理IP是否好用
resp2 = requests.get(url, proxies=proxy, timeout=5)
print(resp2.status_code)

12.数据提取与数据分类

数据化结构：json,xml等

处理方法：转化为python数据类型

注意：xml:可扩展标记语言，标签可以自定义

html:标签不能自定义

# 标签都是预定好的，只能选择用或者不用
# 作用：主要用来展示数据

 
 
   退出
    
 

# xml标签可以自定义,微信使用xml传输数据，包括：表情，文字，红包，视频，语言等数据：
# 作用：主要用来传输数据，传输账号和密码，python处理xml数据，pip install xmltodict模块，parse和unparse

  zhangsan
  123456
  
# 多数网站都是使用json较多,轻量级的数据交互格式
'{'name':'zhangsan','password':'123456'}'

把json格式字符串转换为Python字典类型很简单，所以爬虫中，如果我们能够找到返回json数据格式字符串的url，就会尽量使用这种url

dumps 把字典转json

loads 把json转成字典

13.豆瓣电影

数据包查找：

找数据包类型document,看第一个，根据网页的数据的关键字，搜索数据包是否有数据

如果第一个数据包没有，后面的数据包较多，直接找xhr

# 通过浏览器测试，网页中能够展示数据包的url地址
# https://movie.douban.com/j/search_subjects?type=movie&tag=%E8%B1%86%E7%93%A
# 实现步骤：
# 1.准备起始的url和请求头
# 2.发送请求，获取响应
# 3.解析响应，提取数据
# 4.保存数据
# 5.程序运行入口
# """
#
# class DouBan(object):
# #     def __init__(self):
# #         self.url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E8%B1%86%E7%93%A'
# #         self.headers = {
# #             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
# #                           'Chrome/110.0.0.0 Safari/537.36'}
# #         # 打开文件
# #         self.file = open('douban.json', 'w', encoding='utf-8')
# #
# #     def get_data(self):
# #         # 发送请求，获取响应
# #         resp = requests.get(self.url, headers=self.headers)
# #         return resp.content.decode()
# #
# #     def parse_data(self, data):
# #         # 解析响应，提取数据
# #         results = json.loads(data)
# #         # print(results)
# #         results_list = results['subjects']
# #         # 定义列表，用来保存提取的数据
# #         data_list = []
# #         # 遍历列表数据，获取每部电影的信息，名称，评分，url
# #         for item in results_list:
# #             temp = {}
# #             temp['title'] = item['title']
# #             temp['url'] = item['url']
# #             data_list.append(temp)
# #         return data_list
# #
# #     def save_date(self, data_list):
# #         # 保存数据
# #         # 不能直接写入字典
# #         for data in data_list:
# #             # 不是ascii编码,在每条数据的后面，加上逗号和换行符
# #             json_data = json.dumps(data, ensure_ascii=False) + '\n'
# #             self.file.write(json_data)
# #
# #     def __del__(self):
# #         # 解构方法，最后执行(关闭文件）
# #         self.file.close()
# #
# #     def run(self):
# #         data = self.get_data()
# #         data_list = self.parse_data(data)
# #         self.save_date(data_list)
# #
# #
# # if __name__ == '__main__':
# #     douban = DouBan()
# #     douban.run()

14.爱词霸

"""
http://ifanyi.iciba.com/index.php?c=trans&m=fy&client=6&auth_user=key_web_fanyi&sign=2ad53c323affb5ad
POST
from: auto
to: en
q: 中国
content1
: # 中文翻译英文
{status: 1,…}
content: 
{from: "zh", to: "en", vendor: "ciba", out: "China", reqid: "438b8144-4003-47fc-a40d-7f9956dea749",…}
status: 1
 # 英文翻译中文
{status: 1,…}
content：
{from: "en", to: "zh", vendor: "ciba", out: "老鼠", reqid: "0cd50ed7-6c11-4b04-9c01-00f9ff1b1af4",…}
1.准备起始的url和请求头
2.发送请求，获取响应
3.解析响应，提取翻译结果
5.程序运行入口
"""

import requests
import json


class Translation(object):
    def __init__(self, dw):
        self.url = 'http://ifanyi.iciba.com/index.php?c=trans&m=fy&client=6&auth_user=key_web_fanyi&sign' \
                   '=2ad53c323affb5ad '
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/110.0.0.0 Safari/537.36'}
        self.data = {'from': 'zh', 'to': 'en', 'q': dw}

    def get_data(self):
        resp = requests.post(self.url, headers=self.headers, data=self.data)
        return resp.content.decode('utf-8')

    def parse_data(self, data):
        # 把响应的json字符串改成字典，获取翻译结果
        # 异常处理：
        results = json.loads(data)
        # try:
            # 中文翻译成英文
        result_list = results['content']['out']
        # except:
        #     result_list = results['content']['out']
        print(result_list)

    def run(self):
        data = self.get_data()
        self.parse_data(data)


if __name__ == '__main__':
    translation = Translation('翻译')
    translation.run()

15.XPATH和LXML类库

可以利用XPath,来快速的定位特定元素以及获取节点信息

XPATH（元素==标签==节点）

在HTML\XML文档中查找信息的语言，可以来在HTML\XML文档中对元素和属性进行遍历

lxml是python的模块，在python代码中书写xpath语言，定位网页数据。

xPath Helper:是个工具

16.正则表达式（复习）

# -------------------------
import re

from django.contrib.admin.templatetags.admin_list import results

# data = 'abc'
# print(re.findall('abc', data))  # ['abc']
# print(re.findall('a.c', data))  # ['abc']
# data = 'a\nc'
# print(re.findall('a.c', data))  # []
# # DOTALL表示可以匹配换行符
# data = 'a\nc'
# print(re.findall('a.c', data, re.DOTALL))  # ['a\nc']
# print(re.findall('a.c', data, re.S))  # ['a\nc']
# /斜线  \反斜线
# data = 'a\c'
# print(len(data))
# print(re.findall('a.c', data))  # ['a\\c']
# []字符集，范围内的字符
# data = 'abc adc afc'
# print(re.findall('a[bf]c', data))
# 预定义字符集
# data = 'itcast 2020 python36'
# 匹配字符串中的数字
# print(re.findall('\d', data))  # ['2', '0', '2', '0', '3', '6']
# # 匹配非数字
# print(re.findall('\D', data))  # ['i', 't', 'c', 'a', 's', 't', ' ', ' ', 'p', 'y', 't', 'h', 'o', 'n']
# # 匹配非空白字符
# print(re.findall('\S', data))  #['i', 't', 'c', 'a', 's', 't', '2', '0', '2', '0', 'p', 'y', 't', 'h', 'o', 'n', '3', '6']
# # 匹配空白字符
# print(re.findall('\s', data)) # [' ', ' ']
# # 匹配单词字符，字母，数字，下划线
# print(re.findall('\w',data)) #['i', 't', 'c', 'a', 's', 't', '2', '0', '2', '0', 'p', 'y', 't', 'h', 'o', 'n', '3', '6']
# print(re.findall('\W',data)) #[' ', ' ']
# 量词
data = 'itcast 你好2020 python36'
# *表示匹配前个字符0或n次
# print(re.findall('t*', data))  # ['', 't', '', '', '', 't', '', '', '', '', '', '', '', '', 't', '', '', '', '', '', '']
# print(re.findall('t+', data))  # ['t', 't', 't']
# 贪婪(尽可能多匹配)和非贪婪(限制匹配的次数，非贪婪)
# print(re.findall('t?', data))  # ['', 't', '', '', '', 't', '', '', '', '', '', '', '', '', 't', '', '', '', '', '', '']
# 爬虫代码中，多数情况下使用.*？
# print(re.findall('itcast(.*?)2020', data))  # [' 你好']
# compile表示编译
# 每执行一次findall，都会编译一次规则表达式，执行多次，编译多次
# print(re.findall('\d+', data))
# # 建议使用第二种，匹配效率比第一种要高
# r = re.compile('\d+')
# # 通过compile方法，得到编译的规则对象，直接调用findall,如果findall，执行多次只编写一次编译，多次使用
# print(r.findall(data))

用正则表达式爬取数据（新闻）

"""

https://36kr.com/
user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36
实现步骤：
1.准备起始的url和请求头信息
2.发送请求，获取响应
3.解析响应，提取数据，返回提取的数据列表
4.保存数据列表
5.代码启动
36k新闻：提取标签，摘要，url地址，图片链接
"""

import requests
import re


class XinWen(object):
    def __init__(self):
        self.url = 'https://36kr.com/'
        self.headers = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/110.0.0.0 Safari/537.36'}
        self.file = open('xinwen2', 'w', encoding='utf-8')

    def get_data(self):
        resp = requests.get(self.url, headers=self.headers)
        return resp.content.decode()

    def parse_data(self, data):
        results = re.findall('', data)[0]
        # 把提取的原始新闻数据，保存文件，便于查看数据的结构
        # with open('news.json', 'w', encoding='utf-8') as f:
        #     f.write(results)
        # 把原始的新闻json数据，转成Python字典
        result_dict = json.loads(results)
        # 提取新闻列表数据
        list_results = result_dict['homeData']['data']['homeFlow']['data']['itemList']
        # 定义列表，用来保存提取的新闻数据
        data_list = []
        for item in list_results:
            # 网页中itemType不同有10，60，5000
            temp = {}
            if item['itemType'] == 10:
                temp['widgetTitle'] = item['templateMaterial']['widgetTitle']
                temp['summary'] = item['templateMaterial']['summary']
                temp['widgetImage'] = item['templateMaterial']['widgetImage']
                temp['author'] = item['templateMaterial']['authorName']
                print(temp)
                data_list.append(temp)
        return data_list

    def save_data(self, data_list):
        for data in data_list:
            json_data = json.dumps(data, ensure_ascii=False, ) + '\n'
            self.file.write(json_data)

    def __del__(self):
        self.file.close()

    def run(self):
        data = self.get_data()
        data_list = self.parse_data(data)
        self.save_data(data_list)


if __name__ == '__main__':
    xinwen = XinWen()
    xinwen.run()

17.Xpath的基础语法

网页html标签数据的体现形式：xPath默认提取的是标签中的文本内容

选中的标签会添加属性class='xh-highlight'

在爬虫代码中，xpath的使用，先从浏览器中copy，在手动修改xpath

# 数据保存在标签中
这是一个div

# 标签中的数据：‘这是一个a标签’
# 标签中的属性；href
< a href='...'>这是一个a标签

#绝对路径
/html/head/title
# 相对路径
//title

# 绝对路径：如果使用绝对路劲，任意层级发生变化，都会导致无法提取数据：
相对路径：爬虫代码中，建议使用相对路径
# 修饰属性：@根据属性查找具体的标签
/html/head/meta[@content='always']
# 修饰属性：@，提取标签中的属性内容
//div[@id='page']/div/a/@href
####提取下一页链接：不建议直接使用last,包含contains()
//div[@id='page']/div/a[last()]/@href

18.lxml模块的使用

# 导入lxml中的etree,需要安装使用
# 代码中使用lxml:
# 1.首先通过浏览器复制xpath语句，在xpath_helper中测试能否提取数据
# 2.多数情况下后，需要修改复制xpath语句
# 3.把xpath语句，复制到代码中使用;
# 定义变量

19.好段子网页爬取数据（案例一）

import json

import requests
from lxml import etree


class DuanZi(object):
    def __init__(self):
        # 初始化url和请求头
        self.url = 'http://haoduanzi.com/?1_{}'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/110.0.0.0 Safari/537.36'}
        self.file = open('haoduanzi3.html', 'w', encoding='utf-8')
        # 定义空列表，用来保存url
        self.url_list = []

    def generate_url_list(self):
        # 生成不同页数的url信息
        self.url_list = [self.url.format(i) for i in range(1, 10)]

    def get_data(self, url):
        resp = requests.get(url, headers=self.headers)
        return resp.content.decode('utf-8')

    def parse_data(self, data):
        # 解析响应内容，提取段子的标题和内容
        html = etree.HTML(data)
        # not是官方自带函数
        node_list = html.xpath("// *[ @ id = 'LR'] / div / div[2] / ul / li[not(@class='ad')]")
        data_list = []
        # 遍历节点列表，提取数据
        for node in node_list:
            temp = {}
            temp['title'] = node.xpath('/div[1]/h2/text()')
            temp['content'] = node.xpath('div[2]/a/p/text() | div[2]/a/text()')
            data_list.append(temp)
            # 返回列表
        return data_list

    def save_data(self, data_list):
        # 遍历数据列表,把每条字典数据，转成json，保存文件
        for data in data_list:
            json_data = json.dumps(data, ensure_ascii=False) + '\n'
            self.file.write(json_data)

    def __del__(self):
        self.file.close()

    def run(self):
        self.generate_url_list()
        for url in self.url_list:
            data = self.get_data(url)
            data_list = self.parse_data(data)
            self.save_data(data_list)


if __name__ == '__main__':
    duanzi = DuanZi()
    duanzi.run()

总结：

浏览器中测试的xpath能够取出页面，代码中不一定（lxml模块的语法和xpath在浏览器中的使用有区别）；

如果代码中xpath提取不到，首先把响应写入文件，是否有数据，如果有数据，说明是lxml模块和xpath语法不同

把响应写入文件，是否有数据，如果没有数据，可能被网站反爬了，模拟浏览器更多的请求头：

20.百度贴吧（案例二）

"""
需求：
1.完成某个百度贴吧的所有贴
2.使用xpath进行定位
3.完成翻页功能
4.下载详情页面中的图片


1.第一次网络请求：div/div[2]/div[1]/div[1]/a/@href
https://tieba.baidu.com/f?ie=utf-8&kw=90%E5%90%8E%E7%BE%8E%E5%A5%B3
node_list=//*[@id="thread_list"]/li[@class="j_thread_list clearfix thread_item_box"]
提取每个帖子的链接,得到贴吧的列表，下一页的链接
https://tieba.baidu.com/ + div/div[2]/div[1]/div[1]/a/@href
下一页的链接，缺少https:/div[2]/div[1]/div[1]/a/@href
'https:'+ //*[@id="frs_list_pager"]/a[contains(text(),'下')]/@href
2.遍历帖子链接，发送请求，进入每个帖子中，提取图片列表
//img[@class="BDE_Image"]/@src
3.遍历图片列表，下载每张图片，保存图片

4.每一页图片处理完成后，翻页
"""
import requests
from lxml import etree
import os


class TuPian(object):
    def __init__(self):
        self.url = 'https://tieba.baidu.com/f?ie=utf-8&kw=90%E5%90%8E%E7%BE%8E%E5%A5%B3'
        self.headers = {
            # 'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
            #               'Chrome/27.0.1453.94 Safari/537.36'}
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)'}

    def get_data(self, url):
        resp = requests.get(url, headers=self.headers)
        # 保存响应内容，用来测试
        # with open('tupian11.html', 'w', encoding='utf-8') as f:
        #     f.write(resp.content.decode())
        print(resp.content)
        return resp.content
        pass

    def parse_data(self, data):
        # 解析响应，返回帖子列表
        html = etree.HTML(data)
        node_list = html.xpath('//*[@id="thread_list"]/li[@class="j_thread_list clearfix thread_item_box"]')
        print(len(node_list))
        # 遍历列表
        tieba_list = []
        # 遍历节点列表，提取数据
        for node in node_list:
            temp = {}
            temp['title_url'] = 'https://tieba.baidu.com/' + node.xpath('./div/div[2]/div[1]/div[1]/a/@href"]')[0]
            print(temp)
            tieba_list.append(temp)
        # 提取下一页的链接，不能根据下标取链接，如果最后一页，为None
        next_url = html.xpath("//*[@id='frs_list_pager']/a[contains(text(),'下一页')]/@href")
        return node_list, next_url
        pass

    def parse_detail(self, datail_data):
        # 解析帖子详情内容，返回图片列表
        html = etree.HTML(datail_data)
        image_list = html.xpath('//img[@class="BDE_Image"]/@src')
        return image_list

    def download(self, image_list):
        # 遍历图片列表，发送请求，下载图片
        # 通过代码，创建文件夹，用来保存图片，不能每
        for img_url in image_list:
            image_bytes = self.get_data(img_url)
            image_name = 'image' + os.sep + img_url.split('/')[-1]
            # 为了让代码，既可以
            with open(image_name, 'wb', encoding='utf-8') as f:
                f.write(image_bytes)
        pass

    def run(self):
        # 第一次请求
        url = self.url
        # 解析响应内容，获取贴吧列表，下一页链接
        while True:
            data = self.get_data(url)
            next_url, tieba_list = self.parse_data(data)
            # 遍历贴吧列表，对每个帖子发送请求，获取图片列表
            for tieba in tieba_list:
                detail_data = self.get_data(tieba['url'])
                image_list = self.parse_detail(detail_data)
                self.download(image_list)
            # 如果一个页面的贴吧列巴处理完，应该翻页
            if not next_url:
                break
            else:
                url = 'https:' + next_url

        pass


if __name__ == '__main__':
    tupian = TuPian()
    tupian.run()

你可能感兴趣的:(爬虫,python,开发语言,pycharm)

Python爬虫实战：深入无限滚动页面抓取原理与Playwright实现 Python爬虫项目 python 爬虫开发语言区块链 json
一、前言：无限滚动页面的挑战在现代Web开发中，「无限滚动（InfiniteScrolling）」早已取代了传统的分页模式。以微博热搜流、知乎首页、抖音推荐页为例，用户向下滚动时会自动加载更多内容，这种体验虽提升了交互性，却让传统爬虫面临巨大挑战：页面初始只加载一部分内容剩余内容由JavaScript在滚动事件中动态加载requests类爬虫无法感知页面行为为什么传统爬虫抓不到数据？因为页面数据不
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
YOLO V8+Python训练手写数字识别 yuanpan YOLO python 开发语言
以下是针对Windows11+Python环境的详细步骤说明，从数据集整理到模型训练，全部适配YOLOv8流程。1.数据集整理（MNIST→YOLO格式）1.1下载MNIST数据集MNIST数据集可通过Python直接下载（无需手动下载）：python复制fromtorchvision.datasetsimportMNISTimportos#自动下载MNIST数据集（图片和标签）train_dat
python学智能算法（二十七）|SVM-拉格朗日函数求解上西猫雷婶机器学习人工智能 python学习笔记支持向量机 python 机器学习算法人工智能
【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
Python importlib 动态加载 cliffordl python python 数据库开发语言
文章目录1.importlib库概述2.导入模块（import_module()）2.1.导入已安装的模块2.2.导入子模块2.3通过字符串变量导入模块3.重新加载模块（reload()）4.检查模块是否存在（find_spec()）5.获取模块路径（find_spec().origin）6.加载.py文件为模块（spec_from_file_location()）7.读取模块资源（importl
Python爬虫实战：研究Korean库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui korean
一、引言1.1研究背景与意义随着韩流文化在全球的传播，韩语网页内容急剧增加。韩国在科技、娱乐等领域的信息具有重要研究价值。然而，韩语独特的黏着语特性（如助词体系、词尾变化）给信息处理带来挑战。传统爬虫缺乏对韩语语言特点的针对性处理，本研究旨在开发一套完整的韩语网页内容分析系统，填补这一技术空白。1.2研究目标与方法研究目标：设计高效的韩语网页爬虫框架实现精准的韩语内容识别与处理构建多维度的韩语内容
Python爬虫实战：研究Genius库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 genius
1.引言在当今数字化时代，音乐数据的分析与挖掘成为了音乐学、计算机科学等领域的研究热点。歌词作为音乐的重要组成部分，蕴含着丰富的情感、文化和社会信息。通过对歌词数据的分析，可以揭示音乐风格的演变、流行趋势的变化以及社会情绪的波动等。Genius是一个专注于歌词解析与音乐知识分享的平台，拥有大量的歌词文本以及用户对歌词的注释和解读。Genius提供了API接口，允许开发者获取歌曲、艺术家和歌词等信息
【Python】通过注释插桩替换代码实现开源自动化 ChrisEighteen18 python python
需求提出在特定的标签注释后写上开源后的代码实现开源替换答疑解惑调用如下的代码即可实现defreplace_java_code_in_one_line_by_tag(patch_file_path,update_java_code_line_tag):"""本方法对包含update_java_code_line_tag的之前本行内所有内容进行删除操作;适用于对java文件的代码替换，即在包含upda
python量化实战_Python与量化投资从基础到实战.pdf weixin_39841709 python量化实战
作者：王小川出版发行:北京：电子工业出版社,2018.03ISBN号：978-7-121-33857-1页数：408原书定价:99.00开本:16开主题词:软件工具-程序设计-应用-投资中图法分类号:F830.59-39(经济->财政、金融->金融、银行->金融、银行理论)内容提要:本书主要讲解如何利用Python进行量化投资，包括对数据的获取、整理、分析挖掘、信号构建、策略构建、回测、策略分析等
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
Python量化实战：基于索提诺比率的价值投资策略回测量化价值投资入门到精通 python 网络开发语言 ai
Python量化实战：基于索提诺比率的价值投资策略回测关键词：Python量化分析、索提诺比率、价值投资策略、回测框架、风险调整收益、下行风险、量化实战摘要：本文深入探讨如何利用Python构建基于索提诺比率（SortinoRatio）的价值投资策略，并通过完整的回测框架验证策略有效性。首先解析索提诺比率的数学原理与核心优势，对比传统夏普比率的差异；其次详细演示价值投资策略的构建步骤，包括低估值因
Python+Allpairspy实战：高效正交法测试用例设计全攻略聪明的一休哥哥测试开发技术大全 python 测试用例自动化测试
引言：正交法的核心价值正交实验法是一种通过科学筛选参数组合来优化测试用例设计的技术。其核心思想是从所有可能的参数组合中，选择最具代表性的N个组合进行测试，既能显著减少用例数量（通常可减少30%-70%），又能保证覆盖关键场景。例如：传统全组合测试：3因素×3水平=27种组合正交法优化后：仅需4-9种组合即可覆盖核心场景1、Allpairspy库安装与基础使用1.1、安装命令pipinstallal
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
Python包高级开发技术：性能优化与系统集成软考和人工智能学堂 Python开发经验深度学习强化学习 python 性能优化开发语言
引言掌握Python包的高级开发技术是构建工业级应用的关键。本文将深入探讨Python包的性能优化策略、C扩展开发、异步IO集成以及跨语言互操作等高级主题，帮助你将Python包提升到专业水平。1.性能优化技术1.1性能分析工具链#性能分析工具矩阵perf_tools={'cProfile':'标准库分析器，提供函数级耗时统计','line_profiler':'行级分析器，需要@profile装
2、Python 测试全攻略：自动化与驱动开发辣条鉴定师 Python测试自动化测试测试驱动开发
Python测试全攻略：自动化与驱动开发1.测试的乐趣与收益编程过程中，测试常被视为徒劳或浪费时间的事。但实际上，测试可以变得轻松有趣且富有成效。比如回忆一下曾遇到的恼人bug，可能是数据库模式不匹配、数据结构错误等。若有一小段代码能在恰当时间捕捉到该bug并告知你，而所有代码都配有这样易执行的测试代码，那bug存活时间会大大缩短。基本思路是用简单易写的代码片段告知计算机期望结果，让计算机在编码过
华为OD机考2025B卷 - 表达式括号匹配（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述(1+(2+3)*(3+(8+0))+1-2)这是一个简单的数学表达式,今天不是计算它的值,而是比较它的括号匹配是否正确。前面这个式子可以简化为(()(()))这样的括号我们认为它是匹配正确的,而((())这样的我们就说他是错误的。注意括号里面的表达式可能是错
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
Python.03 唯怡委员 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程是Linux中资源分配的基本单位，代表程序在内存中的执行实例，拥有独立的地址空间和系统资源。通过ps、top命令查看，kill命令终止，或使用systemctl管理服务进程。线程是进程内的轻量级执行单元，共享进程资源（如内存），切换开销小。Linux通过POSIX线程（pthread）库实现，可用htop查
Python.01 唯怡委员 python
Python.011.技术面试题（1）TCP与UDP的区别是什么？（2）DHCP和DNS的作用是什么？（3）简述Linux文件系统的目录结构，其中/boot、/var、/usr目录的作用分别是什么？（4）Linux系统突然无法访问外网，但内网通信正常。请列出至少5个可能的故障点及排查步骤。2.HR面试题（1）假如你成功入职，却发现直属领导能力远不如你，你会如何与他共事？（2）你简历上的经历并不突出
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
python爬虫-国家企业信用信息公示系统_GitHub - yong771/Crack-JS: Python3爬虫项目进阶实战、JS加解密、逆向教程 - 犀牛数据 | 美团美食 | 企名片 | 七麦... 日向夕阳
Crack-JSPython3爬虫实战、JS加解密、逆向教程犀牛数据|美团美食|企名片|七麦数据|淘大象|梦幻西游藏宝阁|漫画柜|财联社|中国空气质量在线监测分析平台|66ip代理|零度ip|国家企业信用信息公示系统|中国产品大目录Author咸鱼微信公众号咸鱼学PythonIntroduce数据解密、反爬处理、逆向教程一、代码配套说明目录JS解密案例│├──lingduip//-----零度ip
python pywebview + vue3 做桌面端妃衣 python 开发语言
pythonpywebview+vue3做桌面端Api.py#传给前端的api对象,定义了一个可以通过js调用退出当前应用的函数classApi:def__init__(self)->None:self._window=None#java运行的线程self.process=Nonedefset_process(self,_process):self.process=_processdefset_w
python的pywebview库结合Flask和waitress开发桌面应用程序简介 czliutz python 笔记 python flask 开发语言
pywebview的用途与特点用途pywebview是一个轻量级Python库，用于创建桌面应用程序（GUI）。它通过嵌入Web浏览器组件（如Windows的Edge/IE、macOS的WebKit、Linux的GTKWebKit），允许开发者使用HTML/CSS/JavaScript构建界面，并用Python处理后端逻辑。这种方式结合了Web技术的灵活性和Python的强大功能，适合快速开发跨平
python笔记day1 w的狗子啊
01.Holleword1.pycharm快捷键ctrl+/----添加或者取消注释ctrl+s----保存ctrl+c----复制ctrl+v----粘贴ctrl+n----新建ctrl+f----搜索ctrl+r----替换ctrl+z----撤销ctrl+shift+z-----反撤销ctrl+a----全选2.注意事项在程序中涉及到的所有和语法相关的符号，都是在英文输入法下对应的符号。实际
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
PyCharm 高效入门指南：从安装到进阶，解锁 Python 开发全流程
作为Python开发者的利器，PyCharm的安装与配置是开启高效编程之旅的第一步。面对Community和Professional两个版本，该如何选择呢？Community版是免费开源的，适合初学者和简单项目开发，包含基础的Python开发功能；而Professional版虽收费，但功能更强大，支持Web开发、数据库连接等高级功能，适合专业开发者和复杂项目。1.安装与配置下载与安装下载PyCha
嵌入式知识篇---机械臂的运动学结算（简单2自由度） Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇人工智能机械臂解算
机械臂的“解算”本质是运动学解算，核心是解决“关节角度”和“末端位置”的互转问题。下面用最通俗的方式解释，并结合2自由度平面机械臂（结构最简单，适合入门）给出Python和ESP32代码，以及参数细节。一、机械臂运动学解算的通俗原理想象你有一条“简化的手臂”：只有大臂和小臂两个关节（类似人类的上臂和前臂），只能在桌面（X-Y平面）内运动。正解：知道“大臂转30°，小臂转60°”，算出“手掌”的位置
老码农和你一起学AI：Python系列-Pandas 并行计算 chilavert318 熬之滴水穿石 pandas python
但凡用到科学计算，Pandas几乎是绕不开的工具——它以简洁的API、灵活的数据操作能力成为数据处理的“瑞士军刀”。但随着数据量增长（比如从10万行到1000万行），你可能会发现：原本流畅的代码突然变慢了，一个简单的apply操作要等好几分钟，读取大文件时进度条仿佛凝固了。这不是你的代码有问题，而是原生Pandas的“单线程”基因在多核时代遇到了瓶颈。并行计算正是解决这个问题的核心方案。简单来说，
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &