夜空精灵

爬虫开发日记（第三天）

数据提取

1 爬虫中数据的分类

结构化数据：json，xml等
处理方式：直接转化为python类型
非结构化数据：HTML
处理方式：正则表达式、xpath

json的数据提取

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

具体使用方法：

#json.dumps 实现python类型转化为json字符串
#indent实现换行和空格
#ensure_ascii=False实现让中文写入的时候保持为中文
json_str = json.dumps(mydict,indent=2,ensure_ascii=False)

#json.loads 实现json字符串转化为python的数据类型
my_dict = json.loads(json_str)


#json.dump 实现把python类型写入类文件对象
with open("temp.txt","w") as f:
    json.dump(mydict,f,ensure_ascii=False,indent=2)

#json.load 实现类文件对象中的json字符串转化为python类型
with open("temp.txt","r") as f:
    my_dict = json.load(f)

jsonpath模块

用来解析多层嵌套的json数据;JsonPath 是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 对于 JSON 来说，相当于 XPath 对于 XML。

安装方法：pip install jsonpath

官方文档：http://goessner.net/articles/JsonPath

JsonPath与XPath语法对比：

正则

用事先定义好的一些特定字符、及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑。

正则表达式的常见语法：

re模块的常见方法：

pattern.match（从头找一个）
pattern.search（找一个）
pattern.findall（找所有）
返回一个列表，没有就是空列表
re.findall("\d",“chuan1zhi2”) >> [“1”,“2”]
pattern.sub（替换）
re.sub("\d","",“chuan1zhi2”) >> ["chuan_zhi"]
re.compile（编译）
返回一个模型P，具有和re一样的方法，但是传递的参数不同
匹配模式需要传到compile中

案例

1.json转换

import json

dict_one = {
    "name": "laowang",
    "age": 18
}

# 1.python的dict --> 字符串json_str
json_one_str = json.dumps(dict_one)
print(type(json_one_str))

# 2.字符串json_str --> python的dict list
dict_json = json.loads(json_one_str)
print(type(dict_json))

# 3.dict写入json文件中
fp = open('01json.json', 'w')
json.dump(dict_one, fp)
fp.close()

# 4.读取json文件直接转成dict
fp_dict = json.load(open('01json.json', 'r'))
print(type(fp_dict))

2.jsonpath的使用

import json
import requests
import jsonpath


class LaGou(object):
    def __init__(self):
        self.url = 'https://www.lagou.com/lbs/getAllCitySearchLabels.json'
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"
        }

    def send_request(self):
        response = requests.get(self.url, headers=self.headers)
        data = response.content.decode()
        return data

    def save_data(self, data):
        data_dict = json.loads(data)
        result_list = jsonpath.jsonpath(data_dict, '$..name')
        # print(result_list)

        json.dump(result_list, open('02lagou.json', 'w'))

    def run(self):
        data = self.send_request()
        self.save_data(data)


if __name__ == '__main__':
    tool = LaGou()
    tool.run()

3.正则

import re

# # 1. . 点匹配任意字符, 除了\n; 但是在DOTALL中可以匹配
#
# one = """
# afklsfhefNVS
# MMMMDJNJKKBB
# NNAAACCCCCCb
# """
#
# pattern = re.compile('a(.*)b')  # []
# pattern = re.compile('a(.*)b', re.DOTALL)  # ['fklsfhefNVS\nMMMMDJNJKKBB\nNNAAACCCCCC']
# # 或者写成re.S
# pattern = re.compile('a(.*)b', re.S)
#
# result = pattern.findall(one)
# print(result)
#
#
# two = 'abc123cba'
# pattern = re.compile('^\d+$')
# result = pattern.match(two)  # None
# result = pattern.search(two)  # None
# result = pattern.findall(two)  # []
#
# # 了解
# result = pattern.finditer(two)
# for res in result:
#     print(res.group())
#
# # print(result)


# 替换
three = 'ni_hao_hello'
pattern = re.compile('_')
result = pattern.sub('', three)
print(result)  # nihaohello

# 调换顺序
four = 'a b c d'
sub_pattern = re.compile(r'(\w+) (\w+)')
result = sub_pattern.sub(r'\2 \1', four)
print(result)  # b a d c

# 拆分
five = 'a,b,c,d:e;f g'
split_pattern = re.compile(r'[,:; ]+')
result = split_pattern.split(five)
print(result)  # ['a', 'b', 'c', 'd', 'e', 'f', 'g']

# 匹配汉字
china_str = '北京欢迎您 welcome to beijing'
china_pattern = re.compile('[\u4e00-\u9fa5]+')
result = china_pattern.findall(china_str)
print(result)  # ['北京欢迎您']

china_pattern = re.compile('[^\u4e00-\u9fa5]+')
result = china_pattern.findall(china_str)
print(result)  # [' welcome to beijing']

4.果壳网精彩问答

import json
import re

import requests


class GuokrSpider(object):
    def __init__(self):
        self.base_url = 'https://www.guokr.com/ask/highlight/'
        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}

    # 1.发送请求
    def send_request(self):
        data = requests.get(self.base_url, headers=self.headers).content.decode()
        return data

    # 2.解析数据
    # 需要提取的数据形式:
    # 印度人把男人的生殖器叫林伽，把女人的生殖器叫瑜尼，林伽和瑜尼的交合，便是瑜伽。这是真还是假的
    def parse_data(self, data):
        pattern = re.compile(r'(.*)
')
        data_list = pattern.findall(data)
        # print(data_list)
        return data_list

    # 3.保存数据
    def save_data(self, data_list):
        # with open('04guokr.html', 'w') as f:
        #     f.write(data_list)
        json.dump(data_list, open('04json.json', 'w'), ensure_ascii=False)

    # 4.调度
    def run(self):
        data = self.send_request()
        data_list = self.parse_data(data)
        self.save_data(data_list)


if __name__ == '__main__':
    GuokrSpider().run()

5.36氪新闻

import json
import re

import jsonpath
import requests


class KrSpider(object):
    def __init__(self):
        self.base_url = 'https://36kr.com/'
        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}

    def send_request(self):
        data = requests.get(self.base_url, headers=self.headers).content.decode()
        return data

    def prase_data(self, data):
        patterns = re.compile(r'')
        data_list = patterns.findall(data)[0]
        return data_list

    def save_data(self, data_list):
        with open('05kr.json', 'w') as f:
            f.write(data_list)

    def read_data(self):
        json_dict = json.load(open('05kr.json', 'r'))
        print(type(json_dict))

        result_list = jsonpath.jsonpath(json_dict, '$..title')
        print(result_list)

    def run(self):
        data = self.send_request()
        data_list = self.prase_data(data)
        self.save_data(data_list)

        self.read_data()


if __name__ == '__main__':
    KrSpider().run()

6.内涵吧帖子

import re

import requests


class NeihanbaSpider(object):
    def __init__(self):
        self.base_url = 'https://www.neihan-8.com/article/list_5_{}.html'
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"}
        self.first_pattern = re.compile(r'(.*?)
', re.S)
        self.second_pattern = re.compile(r'<(.*?)>|&(.*?);|\s')

    def send_request(self, url):
        data = requests.get(url, headers=self.headers).content.decode('gbk')
        return data

    def prase_data(self, data):
        # 第一层解析
        result_list = self.first_pattern.findall(data)

        return result_list

    def save_data(self, data_list, page):
        page_num = '\n*******************第' + str(page) + '页*******************\n\n'
        print(page_num)
        with open('06内涵.txt', 'a') as f:
            f.write(page_num)
            i = 0
            for data in data_list:
                # 第二层解析
                i += 1
                new_data = str(i) + ': ' + self.second_pattern.sub('', data) + '\n'
                f.write(new_data)

    def run(self):
        for page in range(1, 10):
            url = self.base_url.format(page)
            data = self.send_request(url)
            data_list = self.prase_data(data)
            self.save_data(data_list, page)


if __name__ == '__main__':
    NeihanbaSpider().run()

你可能感兴趣的:(爬虫开发)

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
【python报错】TypeError:__init__() got an unexpected keyword argunent ‘executable_path‘解决方案云天徽上 python运行报错解决记录 python 开发语言 numpy pandas
【Python报错】TypeError:init()gotanunexpectedkeywordargument'executable_path’解决方案在使用Python的Selenium库进行自动化测试或爬虫开发时，我们经常需要指定WebDriver的可执行文件路径。如果你在初始化WebDriver时遇到了TypeError:__init__()gotanunexpectedkeywordar
Java IO异常处理：在Web爬虫开发中的实践小白学大数据 python java 前端爬虫
在当今的互联网时代，Web爬虫技术已经成为数据采集的重要手段之一。它们能够自动地从网页中提取信息，为数据分析、搜索引擎优化、内容聚合等提供了强大的支持。然而，Web爬虫在执行过程中可能会遇到各种输入/输出（IO）异常，如网络错误、文件读写问题等。因此，有效地处理这些异常对于确保爬虫的稳定性和可靠性至关重要。本文将探讨Java中IO异常处理的机制，并展示如何在Web爬虫开发中实践这些机制。JavaI
Java爬虫开发：Jsoup库在图片URL提取中的实战应用小白学大数据 python java 爬虫开发语言测试工具前端 javascript
在当今的互联网时代，数据的获取和处理变得尤为重要。对于网站内容的自动化抓取，爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言，拥有丰富的库支持网络爬虫的开发。其中，Jsoup库以其简洁、高效的特点，成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫，以实现图片URL的提取。Jsoup库简介Jsoup是一个用于解析HTML文档的Java库，它
7个必须掌握的Python爬虫框架需要什么私信我 python
Python已经成为了最受欢迎的编程语言之一，并且在爬虫方面也有了广泛的应用。如果你想成为一名优秀的爬虫开发者，那么你必须熟练掌握一些Python爬虫框架。本文将介绍7个必须掌握的Python爬虫框架，它们都是目前比较热门的框架。Scrapy：Scrapy是一个Python编写的高级爬虫框架，可以用于爬取各种网站的数据。它具有高度的可扩展性和灵活性，还有强大的数据处理和存储功能。Beautiful
学习Python真的有用吗？打工人经验告诉你答案_python学习那么多语法有用吗 2401_84563438 程序员学习 python 开发语言
Web开发是目前Python应用最多的一个方面，主要从事网站开发工作。其就业岗位有后台开发工程师、全栈开发工程师等。2.爬虫开发工程师爬虫是Python实际应用中非常重要的方向，对于企业收集市场数据有非常重要的作用。需要注意的是，爬虫开发工程师需要在相应的规则与市场要求下完成工作。3.自动化运维开发在运维领域很多人都具备Python开发功能，主要是因为在运维过程中需要使用Python完成部分脚本的
python从入门到精通（十五）：python爬虫完整学习大纲 HACKNOE python 爬虫学习
一、基础知识爬虫的基本概念和工作原理。HTTP协议和网页结构。Python爬虫开发的基础库，如requests、BeautifulSoup等。常见的反爬虫机制和应对方法。二、爬虫逆向的技术代理服务器和IP封锁突破。用户代理和请求头模拟。JavaScript解析和执行。验证码识别和破解。动态网页抓取和爬虫框架。三、数据抓取和处理数据抓取的技巧和策略。数据清洗和预处理。数据存储和数据库操作。数据分析和
Python 爬虫从入门到精通武帝为此 python爬虫 python 爬虫开发语言
一、爬虫简介爬虫用来自动获取网络上信息。Python因其丰富的第三方库和易读性，成为了爬虫开发的热门选择。二、环境配置与基本工具1.Python环境配置安装Python3.x版本并配置好环境。DownloadPython|Python.org2.常用库介绍requests：用于处理HTTP请求的库，可以发送GET、POST等请求并获取响应数据。BeautifulSoup：用于解析HTML或XML文
爬虫实战1.2.3 爬虫基础-爬虫的基本原理罗汉堂主
本文转载：静觅»[Python3网络爬虫开发实战]2.3-爬虫的基本原理我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到
Python爬虫开发：Scrapy框架与Requests库数据小爬虫电商api api python 爬虫 scrapy 开发语言服务器音视频运维
Python爬虫开发中有两个非常流行的工具：Scrapy框架和Requests库。它们各自有自己的优点和适用场景。ScrapyScrapy是一个为了爬取网站并提取结构化数据而编写的应用框架，可以非常方便地实现网页信息的抓取。Scrapy提供了多种可配置、可重用的组件，如调度器、下载器、爬虫和管道等，使得开发者可以快速地构建出稳定、高效的网络爬虫。Scrapy的主要特点包括：异步处理：Scrapy基
如何爬虫开发工具命令执行爬虫
爬虫开发工具是帮助开发者实现爬虫功能的软件或库。下面介绍一些常用的爬虫开发工具：1.Python:Python是一种非常流行的编程语言，也是爬虫开发的首选语言。在Python中，有许多用于爬虫开发的库，如Requests、BeautifulSoup、Scrapy等。2.Scrapy:Scrapy是一个功能强大的Python爬虫框架，提供了高效的爬取、处理和存储数据的功能。它可以帮助开发者快速搭建起
《Python3 网络爬虫开发实战》:关系型数据库 MySQL 存储 Hi Bomb! mysql 数据库 sql
关系型数据库是基于关系模型的数据库，而关系模型是通过二维表来保存的，所以它的存储方式就是行列组成的表，每一列是一个字段，每一行是一条记录。表可以看作某个实体的集合，而实体之间存在联系，这就需要表与表之间的关联关系来体现，如主键外键的关联关系。多个表组成一个数据库，也就是关系型数据库。关系型数据库有多种，如SQLite、MySQL、Oracle、SQLServer、DB2等，本节我们主要来了解下My
使用ORM模型操作MySQL数据库：Python爬虫数据持久化实践 web安全工具库网络爬虫数据库 mysql python
源码分享https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2在Python爬虫开发中，数据持久化是一个重要的步骤。通常，我们会将爬取的数据保存到数据库中。本篇博客将介绍如何使用对象关系映射（ORM）模型在Python中操作MySQL数据库，以便更加高效和安全地管理爬虫数据。ORM简介ORM即对象关系映射，它是一种数据库抽象技术，使得开发者能够
精通Python中的正则表达式 web安全工具库网络爬虫 php 数据库 linux
源码分享https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2正则表达式是一种强大的文本处理工具，广泛应用于字符串搜索、替换、验证等多种场景。Python通过内置的re模块提供了对正则表达式的支持。在爬虫开发中，能够熟练地使用正则表达式对数据进行提取和处理至关重要。本博客文章将深入探究Python中的正则表达式，并通过具体的代码案例来展示其用法
理解日志基础：使用Python进行有效的日志记录 web安全工具库网络爬虫数据库 git
源码分享https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2日志记录是任何软件开发过程中的一个基本组成部分，尤其是在爬虫开发中。有效的日志记录策略可以帮助开发者监控爬虫的行为，诊断问题，以及追踪爬虫的性能。Python的logging模块提供了一套强大的日志记录工具，它可以帮助你轻松地记录信息、警告和错误。在这篇技术博客中，我们将探索如何在P
爬虫之xpath/BeautifulSoup/re 基础学习总结（一）流动的白沙爬虫 python
背景：小白，没有计算机基础，只学过python基础语法。大二，目前因为感兴趣所以先学着。开始学习爬虫，记录学习情况，这是我的第一篇文章，存在诸多不足，如果偶尔看见这篇文章，欢迎各位批评指正，也可以对我的学习给予一些建议。现在就是看成套的视频教程学习，过一段时间准备买崔庆才老师的《python3:网络爬虫开发实战》学习正文：1.首先是导入模块，三种都需要导入requests库：importreque
精通Python中的正则表达式 web安全工具库网络爬虫 php 数据库 linux
源码分享https://docs.qq.com/sheet/DUHNQdlRUVUp5Vll2?tab=BB08J2正则表达式是一种强大的文本处理工具，广泛应用于字符串搜索、替换、验证等多种场景。Python通过内置的re模块提供了对正则表达式的支持。在爬虫开发中，能够熟练地使用正则表达式对数据进行提取和处理至关重要。本博客文章将深入探究Python中的正则表达式，并通过具体的代码案例来展示其用法
用selenium爬当当网商品信息 qq_31478667 Python爬虫 python
【项目介绍】参考崔庆才老师《Python3网络爬虫开发实战》第七章动态渲染页面爬取里爬淘宝网的实例，由于现在淘宝网查找需要先登录，故用当当网进行尝试。1.动态加载页面的判断？F12→找到对应url的response，看到返回的页面是一个网页框架，并没有出现商品信息，以此我们可以大致判断是异步加载（注意，在network里看response的html，不要在element里看，这里返回的才是最真实的
Python从入门到精通学习的十个阶段 python零基础入门小白 python 学习开发语言计算机网络数据分析
文章目录前言一、Python开发基础二、Python高级编程和数据库开发三、前端开发四、WEB框架开发五、爬虫开发六、全栈项目实战七、数据分析八、人工智能九、自动化运维&开发十、高并发语言GO开发关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Pytho
计算机毕业设计Python新冠疫情数据分析可视化平台计算机毕业设计大神
开发技术前端开发：VUE、ElementUI、ECharts、Maptalks、D3js后端web开发：Flask、Mysql爬虫开发：request数据分析：pandas、numpy创新点数据可视化、爬虫、数据清洗、大数据、3D视图运行截图新冠疫情数据分析可视化平台新冠疫情数据分析可视化平台新冠疫情数据分析可视化平台新冠疫情数据分析可视化平台新冠疫情数据分析可视化平台新冠疫情数据分析可视化平台新
黑猴子的家：Python 学习阶段黑猴子的家
1、前戏阶段-疗程1语言基础数据类型流程控制常用模块函数、迭代器、装饰器递归、迭代、反射面向对象编程购物车程序ATM信用卡程序开发计算机程序开发模拟人生游戏开发2、轻撸怡情-疗程2网络编程Socketc/s编程、Twisted异步网络框架、网络爬虫开发多线程、多进程、协程gevent、select\poll\epoll生产者消费者模式审计堡垒机系统开发FTP服务器开发批量命令、文件分布工具Rabb
【Python基础 & 机器学习】Python环境搭建（适合新手阅读的超详细教程）为梦而生~ 机器学习python实战 python 机器学习开发语言人工智能数据挖掘 pycharm
个人主页：为梦而生~关注我一起学习吧！重要专栏：机器学习：相对完整的机器学习基础教学！机器学习python实战：用python带你感受真实的机器学习深度学习：现代人工智能的主流技术介绍python网络爬虫从基础到实战：Python的主流应用领域之一，也可以与人工智能领域相结合的技术往期推荐：【机器学习&深度学习】神经网络简述【机器学习&深度学习】卷积神经网络简述【python爬虫开发实战&情感分析
chatgpt赋能python：Python如何帮助你实现IP地址切换 b45e1933f46 ChatGpt chatgpt python tcp/ip 计算机
Python如何帮助你实现IP地址切换在网络爬虫开发和网站SEO优化中，经常需要切换IP地址来避免被目标网站禁止访问。Python作为多用途编程语言，也可以帮助你轻松实现IP地址的切换。在本篇文章中，我们将会介绍使用Python实现IP切换的方法。什么是IP地址切换IP地址切换是一种常见的防止被目标网站屏蔽或封禁的方法。这种方法通过不断切换使用的IP地址，来躲避目标网站的检测，从而达到绕过限制的目
爬虫开发实战1.2.6 爬虫基础-Robots协议罗汉堂主
本文转载：静觅»[Python3网络爬虫开发实战]3.1.4-分析Robots协议利用urllib的robotparser模块，我们可以实现网站Robots协议的分析。本节中，我们来简单了解一下该模块的用法。Robots协议Robots协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准（RobotsExclusionProtocol），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓
爬虫逆向开发教程1-介绍，入门案例程序员丶Johnny 爬虫逆向教程爬虫 python
爬虫前景在互联网的世界里，数据就是新时代的“黄金”。而爬虫，就是帮助我们淘金的“工具”。随着互联网的不断发展，数据量呈现指数级的增长，在数据为王的时代，有效的挖掘数据和利用，你会得到更多东西。学完爬虫你可以从事爬虫开发的工作，一个3-5年的爬虫工程师可以拿20k以上。相比Java，爬虫竞争少，好就业。同时你也可以做爬虫兼职，每月能挣个大几千。接下来我们正是学习爬虫。什么是爬虫？爬虫，顾名思义，就是
黑马苍穹外卖学习Day6 Jimmy Ding Java 学习 java spring boot 微信小程序
HttpClient介绍HttpClient是Apache提供的一个开源的JavaHTTP客户端库，用于发送HTTP请求和处理HTTP响应。它提供了一种更简便的方式来执行HTTP请求，并支持多种协议，如HTTP、HTTPS、FTP等。使用HttpClient可以方便地与远程服务器进行通信，发送HTTP请求并处理响应。在实际应用中，HttpClient常被用于与RESTfulAPI交互、爬虫开发、测
爬虫、知识图谱和开源情报分析01 量子-Alex 爬虫知识图谱和开源情报分析自然语言处理
爬虫、知识图谱和开源情报分析01再开一个新坑，这个也是我学习和工作中一直非常感兴趣而且投入较多时间研究的一个领域。主要是想通过这个系列完成以下目标1.梳理爬虫的实践方法2.梳理知识图谱的实践方法3.梳理知识图谱中NLP的运用4.实现雷达和EW领域的实用化的知识图谱方法还是书籍+论文+代码主要参考书包括：《python3网络爬虫开发实战》崔庆才《知识图谱：方法、实践与应用》王昊奋老师的情报是对已有信
selenium+python做爬虫开发前环境准备温室寻荒凉
爬虫开发的路很多，这里仅记录一条适合我的路。一个文件，100多行代码，就完成了一个带定时器的每天自动爬取的爬虫开发，每次爬取时自动登录账号，能对网站的二层浏览结构实现随意爬取，能控制有头无头模式，能控制是否加载网页图片等。操作系统：windows软件下载python环境：我用的是Anaconda（下载地址：https://www.anaconda.com/distribution/#downloa
【异步爬虫】requests和aiohttp中代理IP的使用小文没烦恼爬虫 tcp/ip 网络协议网络安全 python
前言在进行爬虫开发时，我们常常需要使用代理IP来隐藏自己的真实IP地址，以避免被一些网站限制或封禁。requests和aiohttp是两个非常常用的工具，本文将分别介绍如何在它们中使用代理IP，希望可以帮助大家更好地进行异步爬虫开发。一、requests中代理IP的使用1.1requests包简介requests是一个Python第三方库，用于发送HTTP请求，简化网络请求的过程。使用reques
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他