丿於豪

python爬虫学习笔记

爬虫基础

day01

爬虫学习来源：（逆风学习网：买的 2019年3月份黑马爬虫阶段课程，很遗憾没有文档。。。）（获取方法：自行百度）

先给出爬虫的总目录：

爬虫基础知识

在自己电脑上设置爬虫的时候，需要注意几个点：

首先确认电脑是安装了 python2 和 python3 的吗？如果两个都安装了，而且你还想用 pip 来自动安装库，请使用链接
安装的库需要看自己是否需要了，现在先安装了 repuests库，注意本文章现在只用了 python3 ！！！如果更新了库，使用的软件还是 pycharm，请更新 pycharm 的 python3 的信息，只需要在下图刷新一下就行了。

模块一：

尝试爬取网站信息：

如果结果出现乱码，注意设置编码为 UTF-8
代码：

from urllib import request

base_url = 'http://www.baidu.com'

req = request.Request(base_url)
response = request.urlopen(req)

html = response.read()
print(html)

with open('baidu.html ','wb') as f:
    f.write(html)
    f.close()

爬取结果：

模块二

这个是各种请求对象的使用：
代码：

import requests
if __name__ == '__main__':
    url = 'http://www.baidu.com'
    response = requests.get(url)

    data = response.content
    data_str = data.decode('utf-8')

    #状态码
    code = response.status_code
    print(code)
    print(type(code))

    #请求头
    requests_headers = response.request.headers
    print(requests_headers)

    #响应头
    response_headers = response.headers
    print(response_headers)

    #请求 cookies——RequestsCookieJar 对象 有时是 _cookies
    request_cookies = response.request._cookies
    print(request_cookies)

    #响应的 cookie
    response_cookies = response.cookies
    print(response_cookies)

    #保存文件
    # with open('02baidu.html','w') as f:
    #     f.write(data_str)
    print('结束')

结果：

模块三循环抓取页面

import requests


class TieBaSpider(object):
    def __init__(self):
        self.tiebaName = input('输入贴吧名字:')
        self.startPage = int(input('开始页数：'))
        self.endPage = int(input('结束页数：'))


        self.base_url = 'http://tieba.baidu.com/f'
        self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24'}

    # 1.发请求
    def send_request(self,tieba_params):
        response = requests.get(url=self.base_url, headers=self.headers, params=tieba_params)
        data = response.content
        print(555)
        return data

    # 2.保存数据
    def write_file(self, data, page):
        file_pat = 'TieBa/' + str(page) + '.html'
        print('正在抓取{}页...'.format(page))
        with open(file_pat, 'wb') as f:
            print('666')
            f.write(data)

    # 3.调度方法
    def run(self):
        for page in range(self.startPage, self.endPage + 1):
            # 1.拼接参数
            tieba_params = {
                'kw': self.tiebaName,
                'pn': (page - 1) * 50
            }
            # 2.发请求
            data = self.send_request(tieba_params)
           # 3.保存数据
            self.write_file(data, page)


tool = TieBaSpider()
tool.run()

到这里就算是爬虫的基本应用了。

day02

模块四抓取豆瓣排行榜信息

先分析网站：
很明显我们要获取的信息是放到数据库中的，我们需要去请求服务器的接口。在网页里面用到的技术是 ajax ，异步的 JavaScript 和 XML。

然后就去请求接口就行了。

模块五爬取百度翻译

都是请求服务器的接口。
首先看到的是百度翻译的电脑端：

详细的分析前端代码就不分析了。
因为：

电脑端的接口需要的字段较多，需要在前端代码中分析出每个字段的意思，其中 sign 涉及的算法较多，这里就不贴出来了。然后在网上看到了这个：
Python破解百度翻译反爬机制：自制翻译器
（假破解）

然后根据视频的换位思考，就去考虑手机端的接口。
视频中的：

实际中的：

看来百度翻译已经更新了这种 “bug” 了，下面的内容就跳过了。。。

学习到：
python3 解析 json 格式的数据可以导入 json 包。
使用方式：

	re = json.loads(data)['trans'][0]['result'][1]

模块六人人网实现代码登录

import requests


# 多 user-agent 池子，账户一个人；浏览器
# 封帐号——多帐号——>多 cookies 池子
# 20账号

# 1. keaders={}
# 2. cookie={}
# 3. 代码模拟登录

# 1.html form(action='提交网址' method='请求方法') input select area
# 2.net_work —— >url-data--login 都是可以登录

#code 代码登录——cookies——>页面
def renren_login():

    # 1.代码登录
    # 1.1登录的网址 url
    login_url = 'http://www.renren.com/PLogin.do'

    # 1.2 登录的参数
    login_data = {
        'email':"",
        'password':''
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24',
        'Cookie':''
    }
    # 1.3 发送登录请求POST
    #session 可以自动保存 cookies
    session = requests.session()
    login_response = requests.post(urll = login_url, data = login_data, headers=headers)

    cookies_dice = requests.utils.dict_from_cookiejar(cookies)

    #
    #

    profile_url = ''
    data = session.get(profile_url, headers = headers).content.decode()

    with open('03renren.html', 'w') as f:
        f.write(data)

遇到有 ssl 不安全的问题、
解决方案：

将验证设置为 false。

代理 IP 的原理

是一种正向代理。反向代理是nginx那种。

代理分成三类：

透明
匿名：不知道真实IP
高匿

day03

数据提取方法：

主要使用： $…book 这样的。

模块七分析拉钩网的 json 格式数据

import jsonpath
import requests
import json
# 1.json_url
json_url = 'https://www.lagou.com/lbs/getAllCitySearchLabels.json'
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24'}

# 2.发请求
response = requests.get(url = json_url,headers = headers)
data = response.content
print(data)
data_str = data.decode('utf-8') # 先解析成字符串
data_dict = json.loads(data_str)    # 再解析成字典类型
print(data_dict)

# json()方法 必须返回的是 json 格式的数据
dice = response.json()

# 3.解析 jsonpath 接受的 dict/list
result_list = jsonpath.jsonpath(data_dict, '$..name' )

# 4.写入文件
print(result_list)
json.dump(result_list, open('02city.json', 'w', encoding='utf-8'))

结果：

正则表达式

模块八

爬取果壳页面下的

按照教程爬取结果：

然而教程得到的数据是20个。然后去翻前端代码，发现在第十几个的时候：

这玩意在前面是换行的，
但是其他都是不换行的：

很无奈很无奈。

代码：

import requests
import re
import json

class GuokrSpider(object):

    def __init__(self):
        self.base_url = 'https://www.guokr.com/ask/highlight/'
        self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24'}

    # 1.发送请求
    def send_request(self):
        data = requests.get(self.base_url, headers = self.headers).content.decode('utf-8')
        return data

    # 2.解析数据
    def analysis_data(self, data):
        """
        < a
        target = "_blank"
        href = "https://www.guokr.com/question/669761/" > 印度人把男人的生殖器叫林伽，把女人的生殖器叫瑜尼，林伽和瑜尼的交合，便是瑜伽。这是真还是假的 < / a >
       """

        # 下面这个太广了，把一部分没用的也拉了进来。
        # pattern = re.compile('(.*)')

        pattern = re.compile('(.*)')
        result_list = pattern.findall(data)
        print(result_list)
        return result_list

    # 3.保存数据
    def write_file(self, data):
        # with open('06guokr.html', 'w', encoding='utf-8') as f:
        #     f.write(data)
        json.dump(data, open('06guokr.json', 'w', encoding='utf-8'))

    # 4.调度
    def run(self):
        data = self.send_request()
        analysis_data = self.analysis_data(data)
        self.write_file(analysis_data)

GuokrSpider().run()

day04

xpath

xpath的学习可以看 https://www.w3school.com.cn/xpath/xpath_syntax.asp。

下面这个是进行xpath的简单运用（需要安装lxml）

from lxml import etree

html_str = """
    
        
             first item 
             second item 
             third item 
             fourth item 
             fifth item 
        
    

"""

data = etree.HTML(html_str.encode())
print(data)
result_list = data.xpath('//li')
print(result_list)
result_list = data.xpath('//li[3]')
print(result_list)
result_list = data.xpath('//a[@href="link4.html"]/text()')  # 用 text() 取 文本
print(result_list)
result_list = data.xpath('//li[3]/@class')  # 用 @class 取属性
print(result_list)
result_list = data.xpath('//li[contains(@class,"item")]')  # 用 contains 进行模糊查询
print(result_list)
result_list = data.xpath('//a[@href="link4.html"]')
print(result_list)
result_list = etree.tostring(data).decode()
print(result_list)

运行结果：

bs4

bs4的使用（比xpath简单）

能使用 javascript 的选择器，如果学习过前端，使用这个是最简单的了。
实例代码：

from bs4 import BeautifulSoup
import re

html_str = """
    
        The Dormous's story
    
        The Dormouse's story
        Once upon a time there were three little sisters;
        Elsie
        Lacie
        Tillie
        
        ...
"""

# 1.转解析类型
soup = BeautifulSoup(html_str, 'lxml')

# # 2.格式化输出
# result = soup.prettify()
# print(result)

# 2.解析数据
# 2.1 fin——获取符合条件 第一个
result = soup.find(name='a')
print(result)

result = soup.find(attrs={
    "id":"link2"
})
print(result)

pattern = re.compile('^ht')
result = soup.find(pattern)
print(result)

result = soup.find(text="...")
print(result)
# 2.2 find_all ——list
# result = soup.findall('a')
# print(result)

# 2.3 select 选择器
# 类型有：标签选择器，类选择器，ID选择器，层级选择器，组选择器，属性选择器

result = soup.select('a')
result = soup.select('.title')
result = soup.select('#link3')
result = soup.select('head title')
result = soup.select('#link3,#link1')
result = soup.select('p[name="dromouse"]')
result = soup.select('#link3')
print(result)

# 标签包裹的内容
# result = result[0].get_text()
# print(result)

# 标签的属性(这个和上面那个不能一起用的)
result = result[0].get('href')
print(result)

保存数据采用下面的字典。

一个爬取实例：

day05

多线程

这章先跳了。。。

day06

反爬思路分析

破解 js 的步骤：
不需要自己找，太费时间了，采用下面的：

可以在python里面运行 js 代码来解决这个问题。

可以用这个去找百度翻译的 sign 值，前面有提到过这个话题。

额外添加

可以考录设置成为多线程

用个bitmap来存访问过的数据即可。然后询问是否拿过即可。

2. 使用代理服务器

小结

到这里就把爬虫的基础基本全部了解了。
后面还有8个day，一个是关于 mongodb 的使用，这个会在后面重新开一个文章。还有好几个day是关于 scrapy 框架的，这个就先不学习了，等以后决定深入学习爬虫再学习。

总结：
爬虫用起来是挺方便的，知识点主要是与网络相关的。反爬点很多，但是反反爬也不是太困难，毕竟只要花时间和心思在网站上，总能解决问题的。通过这个爬虫的学习，我更加的深入学习了网页的前端，对浏览器加载网页的数据和浏览器请求网站的数据也有了更加深入的理解吧。

Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python爬虫学习（一）——爬取新浪新闻 WayBling python python 爬虫
参照网易云课堂的课程实践的结果：准备工作：安装requests和BeautifulSoup4。打开cmd，输入如下命令pipinstallrequestspipinstallBeautifulSoup4打开我们要爬取的页面，这里以新浪新闻为例，地址为：http://news.sina.com.cn/china/大概的思路就是通过浏览器的开发者工具检测到要获取数据所需要的request是什么，然后使
爬虫学习第六篇轻松搞定网络请求笨鸟笃行 python学习爬虫学习 python
嘿，小伙伴们！今天咱们来聊聊用Python进行网络请求，这是爬虫学习的敲门砖哦。别怕，跟着我一步步来，保证让你轻松上手！（一）安装requests模块首先，得把requests模块装上。看过上一篇的小伙伴应该都搞定了吧，这玩意儿超好用，能帮我们轻松发起网络请求。如果没搞定的，跟着我重新安装一遍，在vscode的终端里输入pipinstallrequests，回车，搞定！就像给手机装了个APP一样简
爬虫学习第一篇（认识爬虫流程和使用工具）笨鸟笃行 python学习爬虫学习
认识爬虫什么是爬虫？爬虫听着好像是一个什么虫子的名字，其实爬虫是一个自动化请求网站并提取数据的程序，简单理解即是一个自动化爬取数据的脚本例如以下就是一个十分简单的爬虫代码（不过这个代码不适用于所有网页，只能爬取一些没有限制的网站）importrequests#导入请求库url=""#输入爬取内容的地址res=requests.get(url)#发送请求到url这个地址print(res.statu
Go爬虫学习笔记_go爬虫的知识储备 2401_86372470 golang 爬虫学习
接口空接口定义、声明实现调用组合断言动态类型v.(type)比较并发协程通道声明、初始化读写关闭作为参数作为返回值单方向的通道，用于只读和只写场景select，随机执行context协程优雅退出级联退出原子锁：atomic互斥锁读写锁：适合多读少写场景。sync.Once、sync.Cond、sync.WaitGroup项目组织依赖管理：gomod组合工具与库编辑测试：编译部署：调试分析工具：代码
爬虫学习--1.前导知识 F—— 爬虫爬虫学习开发语言 python
初始爬虫前言引入随着大数据时代的来临，网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的，如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题，而爬虫技术就是为了解决这些问题而生的。我们感兴趣的信息分为不同的类型：如果只是做搜索引擎，那么感兴趣的信息就是互联网中尽可能多的高质量网页；如果要获取某一垂直领域的数据或者有明确的检索需求，那么感兴趣的信息就是根据我们的检索和需
爬虫学习--14.进程与线程 F—— 爬虫-限免爬虫学习 python
什么是进程？电脑中时会有很多单独运行的程序，每个程序有一个独立的进程，而进程之间是相互独立存在的。比如下标中的QQ播放器、小鹅通等等。什么是线程？进程可以简单的理解为一个可以独立运行的程序单位，它是线程的集合，进程就是有一个或多个线程构成的。而线程是进程中的实际运行单位，是操作系统进行运算调度的最小单位。可理解为线程是进程中的一个最小运行单元。什么是多进程?同理，多进程就是指计算机同时执行多个进程
python电影评价分析_用 Python 分析豆瓣电影 TOP250 weixin_39806413 python电影评价分析
用Python分析豆瓣电影TOP250既然要分析豆瓣电影TOP250,那么肯定就要把相关的数据采集下来,比如排名,电影名,导演,主演等信息.那就肯定使用一下爬虫咯,如果还不会的话,欢迎看之前的文章:Python爬虫学习(一)概述Python爬虫学习(二)urllib基础使用Python爬虫学习(三)urllib进阶使用Python爬虫学习(四)正则表达式Python爬虫学习(五)爬取电影排行榜及其
Python爬虫学习——爬取小说章节一大块肥皂 Python爬虫 python 爬虫
之前学了Python好久都没有用，感觉再不继续学就要忘了。。。赶紧再挖个坑继续学习。这个部分会用Python去做爬虫来进行学习，巩固python的知识。爬虫的教程看的是Jack-Cui大佬的文章。这一次是跟着大佬学习：Python3网络爬虫（二）：下载小说的正确姿势（2020年最新版）_Jack-Cui-CSDN博客练习-爬取章节前面的爬虫基础部分就看大佬的上一篇博文，讲的非常棒：Python3网
手机Python爬虫教程：利用手机学习Python爬虫的终极指南一只会写程序的猫 Python 智能手机 python 爬虫
【引言】在数字化时代，手机已经成为人们生活中不可或缺的一部分。而Python爬虫作为一种强大的数据获取工具，也受到越来越多人的关注。但是，是否可以利用手机进行Python爬虫学习呢？本文将介绍如何通过手机学习Python爬虫，为你打开一扇全新的学习之门。【一、手机学习资源】1.《Python爬虫入门教程》（手机应用）这款手机应用程序提供了Python爬虫的基础知识和实例讲解，适合初学者使用。你可以
python 爬虫学习 lally. python 爬虫学习
目录requst库访问HTML语言常用HTML标签结构性标签文本格式化标签超链接与图像列表标签HTML练习BeautifulSoup处理数据requst库访问fromrequestsimport*response=get("https://19j.tv/")print(response)若访问成功，状态码为200，访问失败，则查询状态码，http和https的状态码是一样的http状态码可以采取伪
Python爬虫：从入门到实践来恩1003 Python爬虫 python 爬虫开发语言
Python爬虫学习资料Python爬虫学习资料Python爬虫学习资料在当今数字化信息爆炸的时代，数据已成为企业和个人发展的重要资产。Python爬虫作为一种高效获取网络数据的工具，正逐渐被广大开发者所熟知和应用。无论是市场调研、学术研究，还是数据分析，Python爬虫都能发挥巨大作用。本文将带你从基础概念出发，逐步深入到爬虫的实战应用，助你掌握这一强大的数据获取技能。一、爬虫基础：开启数据获取
python爬虫心得_python爬虫学习心得 weixin_39941721 python爬虫心得
爬虫新手一枚，因为工作原因需要学习相关的东西。发表下这段时间学习的心得，有说得不对的地方欢迎指指点点。一.什么是爬虫在学习爬虫之前只对爬虫有个概念性的认识。通过向服务器发送请求获取服务器传回信息，再根据其提取所需的信息。原理虽然简单，但是涉及的细节非常多，从一个坑爬出来又掉进另一个坑。二.post和getpost和get是两种向服务器发送请求的方式，有些http基础的同学应该都清楚他们的用处，在写
Python大数据之Python爬虫学习总结——day16 数据可视化笨小孩124 Python爬虫学习总结信息可视化 python 大数据
数据可视化Map_地图基础地图知识点:基础示例:实战练习:知识点:自定义模块:制作中国地图data1.txt文件内容python代码示例制作区域地图data2.txt文件内容python代码示例Line_折线图基础折线图实战练习:Bar_柱状图基础柱状图反转以及主题设置Json数据python数据转为json数据知识点:示例:json数据转为python数据知识点:json文件:示例:Map_地图
python爬虫要不要学正则_Python爬虫学习（四）正则表达式 weixin_39583751 python爬虫要不要学正则
经过前面的学习之后，大家现在应该可以顺利地得到一个网页源码字符串，对于Python中的字符串，Python提供了很多操作，大家可以其去尝试提取网页源码字符串中想要的信息。在这里，给大家推荐的是正则表达式!文章最后还有爬取糗事百科的实例哦！什么是正则表达式说白了，正则表达式就是描述我们需要提取的那部分信息的规则的工具。举个栗子，比如，我们想要提取'Stayhungry,123stayfoolish!
爬虫学习4：爬取技能信息夜清寒风爬虫网络爬虫 pycharm 学习 python
爬虫：爬取技能信息（代码和代码流程）代码importtimefromseleniumimportwebdriverfromselenium.webdriver.common.byimportByif__name__=='__main__':fp=open("./honorKing.txt","w",encoding='utf8')#1、urlurl=""#页面url#2、发送请求driver=we
python爬虫学习小叶丶
Python爬虫(1):基本原理Python爬虫(2):Requests的基本用法Python爬虫(3):Requests的高级用法Python爬虫(4):BeautifulSoup的常用方法Python爬虫(5):豆瓣读书练手爬虫Python爬虫(6):煎蛋网全站妹子图爬虫Python爬虫(7):多进程抓取拉钩网十万数据Python爬虫(8):分析Ajax请求爬取果壳网Python爬虫(9):C
爬虫学习笔记-scrapy链接提取器爬取读书网链接写入MySQL数据库 DevCodeMemo 爬虫学习笔记
1.终端运行scrapystartprojectscrapy_read,创建项目2.登录读书网,选择国学(随便点一个)3.复制链接(后面修改为包括其他页)4.创建爬虫文件,并打开5.滑倒下方翻页处,右键2,点击检查,查看到a标签网址,复制6.修改爬虫文件规则allow(正则表达式),'\d'表示数字,'+'表示多个,'\.'使'.'生效7.在parse_item中编写打印,scrapycrawlr
爬虫学习笔记-scrapy爬取电影天堂(双层网址嵌套) DevCodeMemo 爬虫学习笔记
1.终端运行scrapystartprojectmovie,创建项目2.接口查找3.终端cd到spiders,cdscrapy_carhome/scrapy_movie/spiders,运行scrapygenspidermvhttps://dy2018.com/4.打开mv,编写代码,爬取电影名和网址5.用爬取的网址请求,使用meta属性传递name,callback调用自定义的parse_sec
爬虫学习笔记-scrapy爬取当当网 DevCodeMemo 爬虫学习笔记
1.终端运行scrapystartprojectscrapy_dangdang,创建项目2.接口查找3.cd100个案例/Scrapy/scrapy_dangdang/scrapy_dangdang/spiders到文件夹下,创建爬虫程序4.items定义ScrapyDangdangItem的数据结构(要爬取的数据)src,name,price5.爬取src,name,price数据导入items
Python爬虫学习曹博Blog Python python 爬虫学习
1.1搭建爬虫程序开发环境爬取未来七天天气预报frombs4importBeautifulSoupfrombs4importUnicodeDammitimporturllib.requesturl="http://www.weather.com.cn/weather/101120901.shtml"try:headers={"User-Agent":"Mozilla/5.0(WindowsNT10
python爬虫学习day2—百度翻译 2401_82964032 爬虫学习 python 百度
##第零步安装requests库以及了解AJAX请求##第一步打开百度翻译网址，随便输入一个英文单词，我们可以发现网页进行了局部刷新，而非整体性的，因此我们可以猜测，这是一个AJAX请求。##第二步F12打开控制台，点击网络(network)，因为我们已经猜测这是一个AJAX请求，因此我们选择XHR(实现网页得局部刷新)或者叫Fetch/XHR。然后输入一个英文单词，例如write。我们挨个点击，
python爬虫学习day3—KFC肯德基餐厅信息查询 2401_82964032 爬虫学习 beautifulsoup
##第零步安装requests库以及了解AJAX请求##第一步打开肯德基餐厅信息查询(kfc.com.cn)随便输入一个地址后发现页面没有整体刷新，并且点击下一页页面也仍然是局部刷新，因此判断是AJAX请求。##第二步F12打开控制台，点击网络(network)，选择XHR(实现网页得局部刷新)或者叫Fetch/XHR。选择一个地址后，我们可以得到点击后我们可以得到：其url为https://ww
python爬虫学习day1—Books to Scrape 2401_82964032 python beautifulsoup
##第零步安装requests库与BeautifulSoup库，以及学习一点点html知识##第一步导入requests库与BeautifulSoup库importrequestsfrombs4importBeautifulSoup##第三步查看网站是否有反爬机制如果有可以选择伪装浏览器headers={"User-Agent":"自己浏览器的标识"}按F12找到网络（network）然后刷新网页
python爬虫beautifulsoup实例-Python爬虫学习（二）使用Beautiful Soup库 weixin_37988176
（一）使用BeautifulSoup库（默认将HTML转换为utf-8编码）1，安装BeautifulSoup库：pipinstallbeautifulsoup42，简单使用：importrequests;from_socketimporttimeoutfrombs4importBeautifulSoup#使用BeautifulSoup库需要导包#fromaifcimportdatadefgetH
速看，关于Python的17个学习网站，从基础到机器学习【建议收藏】帅帅的Python python 学习机器学习
目录一、基础学习网站Python官方教程Python官方安装包地址PyCharm下载地址anaconda3清华开源下载地址二、爬虫学习网站requests官方学习网站BeautifulSoup文档网站selenium官方学习网站scrapy中文学习网站三、数据分析学习网站numpy官方文档网站pandas官方文档网站sklearn官方文档网站四、数据可视化学习网站matplotlib官方学习网站p
PYthon进阶--网页采集器(基于百度搜索的Python3爬虫程序) 在猴站学算法 python 百度爬虫
简介：基于百度搜索引擎的PYthon3爬虫程序的网页采集器，小白和爬虫学习者都可以学会。运行爬虫程序，输入关键词，即可将所搜出来的网页内容保存在本地。知识点：requests模块的get方法一、此处需要安装第三方库requests:在Pycharm平台终端或者命令提示符窗口中输入以下代码即可安装pipinstallrequests二、抓包分析及编写Python代码1、打开百度搜索进行抓包分析打开百
python爬虫学习步骤和推荐资料 suoge223 python 爬虫学习
学习Python爬虫是一项非常实用的技能，可以帮助你获取网络上的数据，进行信息抓取和分析。以下是一系列学习步骤和对应的参考资料，帮助你入门和深入学习Python爬虫。###学习步骤：####Step1:基础Python编程在学习爬虫之前，首先要确保你对基础的Python语法有一定的了解。参考资料：-[Python官方文档](https://docs.python.org/3/)-[w3school
爬虫学习笔记-scrapy爬取汽车之家 DevCodeMemo 爬虫学习笔记
1.终端运行scrapystartprojectscrapy_carhome,创建项目2.接口查找3.终端cd到spiders,cdscrapy_carhome/scrapy_carhome/spiders,运行scrapygenspideraudihttps://car.autohome.com.cn/price/brand-33.html4.打开audi,编写代码,xpath获取页面车型价格列
Python爬虫学习之scrapy库蜀道之南718 python 爬虫学习笔记 scrapy
一、scrapy库安装pipinstallscrapy-ihttps://pypi.douban.com/simple二、scrapy项目的创建1、创建爬虫项目打开cmd输入scrapystartproject项目的名字注意:项目的名字不允许使用数字开头也不能包含中文2、创建爬虫文件要在spiders文件夹中去创建爬虫文件cd项目的名字\项目的名字\spiderscdscrapy_baidu_09
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它