smalljun520

爬虫知识点---微信搜狗---xpath--pyquery--csselect--正则--bs4

1. 微信搜狗大神的代码

import requests, re, pymongo, time

from fake_useragent import UserAgent

from urllib.parse import urlencode
from pyquery import PyQuery
from requests.exceptions import ConnectionError


client = pymongo.MongoClient('localhost')
db = client['weixin1']

key_word = 'python开发'

connection_count = 0 # 连接列表页失败的次数
connection_detail_count = 0# 连接列表页失败的次数

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0',
    'Cookie': 'CXID=161A70BF2483DEF017E035BBBACD2A81; ad=Hkllllllll2b4PxFlllllV7W9VGlllll$ZMXqZllll9llllljCxlw@@@@@@@@@@@; SUID=57A70FAB5D68860A5B1E1053000BC731; IPLOC=CN4101; SUV=1528705320668261; pgv_pvi=5303946240; ABTEST=5|1528705329|v1; SNUID=EF1FB713B7B2D9EE6E2A6351B8B3F072; weixinIndexVisited=1; sct=2; SUIR=F607AE0BA0A5CFF9D287956DA129A225; pgv_si=s260076544; JSESSIONID=aaaILWONRn9wK_OiUhlnw; PHPSESSID=1i38a2ium8e5th2ukhnufua6r1; ppinf=5|1528783576|1529993176|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZToxODolRTklQUQlOTQlRTklOTUlOUN8Y3J0OjEwOjE1Mjg3ODM1NzZ8cmVmbmljazoxODolRTklQUQlOTQlRTklOTUlOUN8dXNlcmlkOjQ0Om85dDJsdUtPQzE0d05mQkJFeUI2d1VJVkhZUE1Ad2VpeGluLnNvaHUuY29tfA; pprdig=ENOZrtvLfoIOct75SgASWxBJb8HJQztLgFbyhRHBfeqrzcirg5WQkKZU2GDCFZ5wLI93Wej3P0hCr_rST0AlvGpF6MY9h24P267oHdqJvgP2DmCHDr2-nYvkLqKs8bjA7PLM1IEHNaH4zK-q2Shcz2A8V5IDw0qEcEuasGxIZQk; sgid=23-35378887-AVsfYtgBzV8cQricMOyk9icd0; ppmdig=15287871390000007b5820bd451c2057a94d31d05d2afff0',
}


def get_proxy():
    try:
        response = requests.get("http://127.0.0.1:5010/get/")
        if response.status_code == 200:
            return response.text
        return None
    except Exception as e:
        print('获取代理异常：',e)
        return None


def get_page_list(url):
    global connection_count
    proxies = get_proxy()
    print('列表页代理：', proxies)

    # 请求url，获取源码
    if proxies != None:
        proxies = {
            'http':'http://'+proxies
        }

    try:
        response = requests.get(url, allow_redirects=False, headers=headers, proxies=proxies)
        if response.status_code == 200:
            print('列表页{}请求成功',url)
            return response.text
        print('状态码：',response.status_code)
        if response.status_code == 302:
            # 切换代理，递归调用当前函数。
            get_page_list(url)
    except ConnectionError as e:
        print('连接对方主机{}失败: {}',url,e)
        connection_count += 1
        if connection_count == 3:
            return None
        # 增加连接次数的判断
        get_page_list(url)


def parse_page_list(html):
    obj = PyQuery(html)
    all_a = obj('.txt-box > h3 > a').items()
    for a in all_a:
        href = a.attr('href')
        yield href


def get_page_detail(url):
    global connection_detail_count
    """
    请求详情页
    :param url: 详情页的url
    :return: 
    """
    proxies = get_proxy()
    print('详情页代理：',proxies)
    # 请求url，获取源码
    if proxies != None:
        proxies = {
            'http': 'http://' + proxies
        }

    try:
        # 注意：将重定向allow_redirects=False删除。详情页是https： verify=False,
        # 注意：将重定向allow_redirects=False删除。详情页是https： verify=False,
        # 注意：将重定向allow_redirects=False删除。详情页是https： verify=False,
        # 注意：将重定向allow_redirects=False删除。详情页是https： verify=False,
        response = requests.get(url, headers=headers, verify=False, proxies=proxies)
        if response.status_code == 200:
            print('详情页{}请求成功', url)
            return response.text
        else:
            print('状态码：', response.status_code,url)
            # 切换代理，递归调用当前函数。
            get_page_detail(url)
    except ConnectionError as e:
        print('连接对方主机{}失败: {}', url, e)
        connection_detail_count += 1
        if connection_detail_count == 3:
            return None
        # 增加连接次数的判断
        get_page_detail(url)

def parse_page_detail(html):
    obj = PyQuery(html)
    # title = obj('#activity-name').text()
    info = obj('.profile_inner').text()
    weixin = obj('.xmteditor').text()

    print('info')

    return {
        'info':info,
        'weixin':weixin
    }


def save_to_mongodb(data):
    # insert_one: 覆盖式的
    db['article'].insert_one(data)

    # 更新的方法：
    # 参数1：指定根据什么字段去数据库中进行查询，字段的值。
    # 参数2：如果经过参数1的查询，查询到这条数据，执行更新的操作；反之，执行插入的操作；$set是一个固定的写法。
    # 参数3：是否允许更新
    db['article'].update_one({'info': data['info']}, {'$set': data}, True)
    time.sleep(1)


def main():
    for x in range(1, 101):
        url = 'http://weixin.sogou.com/weixin?query={}&type=2&page={}'.format(key_word, 1)
        html = get_page_list(url)
        if html != None:
            # 详情页的url
            urls = parse_page_list(html)
            for url in urls:
                detail_html = get_page_detail(url)
                if detail_html != None:
                    data = parse_page_detail(detail_html)
                    if data != None:
                        save_to_mongodb(data)


if __name__ == '__main__':
    main()

2.刘晓军的代码

import re, pymongo, requests,time
from urllib.parse import urlencode
from pyquery import PyQuery

# fake_useragent: 实现啦User-Agent的动态维护,利用他每次随机后去一个User-Agent的值 
from fake_useragent import UserAgent

client = pymongo.MongoClient('localhost')
db = client['wx']
key_word = 'python教程'

connection_count = 0
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
    'Cookie': 'SNUID=74852C8923264D45D6B96E0A2369AE27; IPLOC=CN4101; SUID=29139F756119940A000000005B090D0D; ld=Okllllllll2bjy12lllllV7JRy1lllllNBDF3yllll9lllllpklll5@@@@@@@@@@; SUV=003F178A759F13295B090D0E7F8CA938; UM_distinctid=163a9f5b4cc161-0f1b3689353b65-46514133-1fa400-163a9f5b4d0176; GOTO=; SMYUV=1527823120301610; pgv_pvi=6897384448; ABTEST=0|1528708438|v1; weixinIndexVisited=1; ppinf=5|1528708459|1529918059|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZTozNTpzbWFsbGp1biVFRiVCQyU4MSVFRiVCQyU4MSVFRiVCQyU4MXxjcnQ6MTA6MTUyODcwODQ1OXxyZWZuaWNrOjM1OnNtYWxsanVuJUVGJUJDJTgxJUVGJUJDJTgxJUVGJUJDJTgxfHVzZXJpZDo0NDpvOXQybHVQWWk5LVJkU1JJRHBHemsxWUx0Q01RQHdlaXhpbi5zb2h1LmNvbXw; pprdig=XRQQE_qExWhRS1AiOrwSCaNfWYtcUCrCVODql2R_gSIvCyFpG23pefn3RHO1EOH0L5TJRNEkpYgztrXfE1NvNtpe-1QR2PXH1frohkOL8RKEwJCVfRYhz1fOXSuZf0NQxC4Y9oSCfLimSVaodrUihdiLHmLqf1erzxZkEzFHhG4; sgid=17-35471325-AVsePWtlGzxQU9rKkedgl7k; sct=7; SUIR=18E941E54F4B2115642260494FE28B36; ppmdig=1528802332000000b239e8ac3d4723d0ecc7f25b5f16b073; JSESSIONID=aaaIry_FagLEc59Thglnw'
}


def get_proxy():
    try:
        response = requests.get('http://127.0.0.1:5010/get/')
        if response.status_code == 200:
            return response.text
        return None
    except Exception as e:
        print('获取代理异常', e)
        return None


def get_page_list(url):
    global connection_count
    proxies = get_proxy()
    print('列表页代理', proxies)
    if proxies != None:
        proxies = {
            'http': 'http://' + proxies
        }
    try:
        response = requests.get(url, headers=headers, allow_redirects=False, proxies=proxies)
        if response.status_code == 200:
            return response.text
        if response.status_code == 302:
            get_page_list(url)
    except ConnectionError as e:
        connection_count += 1
        if connection_count == 3:
            return None
        get_page_list(url)


def parse_page_list(html):
    obj = PyQuery(html)
    all_a = obj('.txt-box > h3 > a').items()
    for a in all_a:
        href = a.attr('href')
        yield href


def get_page_detail(url):
    global connection_detail_count
    proxies = get_proxy()
    print('列表页代理', proxies)
    if proxies != None:
        proxies = {
            'http': 'http://' + proxies
        }
    try:
        response = requests.get(url, headers=headers, verify=False, proxies=proxies)
        if response.status_code == 200:
            return response.text
        if response.status_code == 302:
            get_page_list(url)
    except ConnectionError as e:
        connection_detail_count += 1
        if connection_count == 3:
            return None
        get_page_list(url)


def parse_page_detail(html):
    obj = PyQuery(html)
    info = obj('#img-content > h2').text()
    weixinID = re.findall(re.compile(r'.*?(.*?)', re.S),html)
    return {
        'info': info,
        'weixinID': weixinID
    }


def save_to_mongodb(data):
    db['article'].update_one({'info': data['info']}, {'$set': data}, True)
    time.sleep(1)


def main():
    for x in range(1, 101):
        url = 'http://weixin.sogou.com/weixin?query={}&type=2&page={}'.format(key_word, 1)
        html = get_page_list(url)
        if html != None:
            urls = parse_page_list(html)
            for url in urls:
                detail_html = get_page_detail(url)
                if detail_html != None:
                    data = parse_page_detail(detail_html)
                    if data != None:
                        save_to_mongodb(data)


if __name__ == '__main__':
    main()

3.xpath

# xpath：跟re, bs4, pyquery一样，都是页面数据提取方法。根据元素的路径来查找页面元素。

# pip install lxml

# element tree: 文档树对象
from lxml.html import etree


html = """
    
        
            One
            Two
            Three
            Four
            
                百度一下
                第一段
                第2段
                第3段
                
                    第4段
                    法大师傅大师傅
                
                第5段
                第6段
            
        
    
"""

obj = etree.HTML(html)

# HTML  用于  HTML
# fromstring 用于  XML
 # 将一个Html文件解析成为对象。
# obj = etree.parse('index.html')

print(type(obj))

# //ul: 从obj中查找ul，不考虑ul所在的位置。
# /li: 找到ul下边的直接子元素li，不包含后代元素。
# [@class="one"]: 给标签设置属性，用于过滤和筛选

# xpath()返回的是一个列表
one_li = obj.xpath('//ul/li[@class="one"]')[0]

# 获取one_li的文本内容
print(one_li.xpath('text()')[0])

# 上述写法的合写方式
print(obj.xpath('//ul/li[@class="one"]/text()')[0])

# 获取所有li的文本内容：all_li = obj.xpath('//ul/li/text()')

# 获取包含某些属性的标签元素
print(obj.xpath('//ul/li[contains(@class,"four3")]'))

# 获取同时包含id和class两个属性元素的写法为

//div[@class='abc'][@id='123']

xpath组合查询: . 表示文本

# @class, @id
# . 表示文本内容
detail_url = weibo.xpath('.//a[contains(., "原文评论[")]/@href').extract_first('')

#  获取谁的属性就直接@谁,例如想要获取a标签中href属性的值: /a/@href

# 获取所有li的文本内容以及class属性的值
all_li = obj.xpath('//ul/li')for li in all_li: class_value = li.xpath('@class')[0]

text_value = li.xpath('text()')[0]

print(class_value, text_value)

# 获取div标签内部的所有文本

# //text()：获取所有后代元素的文本内容

# /text()：获取直接子元素的文本，不包含后代元素print(obj.xpath('//div[@id="inner"]//text()'))

# 获取ul中第一个li [1]: 位置print(obj.xpath('//ul/li[1]/text()'))此时的位置 1 不是从0 开始的,更不是索引值

# 查找类名中包含four的li的文本内容print(obj.xpath('//ul/li[contains(@class, "four")]/text()'))

# 作业：

# 利用xpath爬取百度贴吧内容 https://tieba.baidu.com/p/3164192117

# 利用xpath爬取猫眼电影Top100的内容 http://maoyan.com/board/4# mongodb, mysql, xlwt, csv(获取的数据是正常的，存入csv时乱码)# {'content': '最后巴西捧杯。4年后我会回来！

', 'sub_content': ['xxx', 'xxx', 'xxxx']}

4.pyquery

#  pyquery :仿照jquery语法,封装一个包,和bs4有点类似
from pyquery import PyQuery

html = """
    
        
            One
            Two
            Three
            Four
            
                百度一下
            
        
    
"""
#  利用Pyquery类,对html这个文档进行序列化,结果是一个文档对象
doc_obj = PyQuery(html)
print(type(doc_obj))

#  查找元素的方法
ul = doc_obj('.list')  # 从doc_obj这个对象中根据类名匹配元素
# print(ul)  #  ul 是一个对象
# print(type(ul))

#  从ul 中查找a
print(ul('a'))

#  当前元素对象.find():  在当前对象中查找后代元素
#  当前元素对象.chrildren():  在当前对象中查找直接子元素
print(ul.find('a'), '后代元素')


#  父元素的查找
#  parent():  直接父元素
#  parents():  所有的父元素

a = ul('a')
print(a.parent('#inner'), '直接父元素')
print(a.parents(), '所有父元素')


#  兄弟元素的查找,不包含自己,和自己同一级的兄弟标签
li = doc_obj('.one')
print(li.siblings(),'所有siblings')
print(li.siblings('.two'), '我是siblings')

#  遍历元素

ul = doc_obj('.list')
# generator object
res = ul('li').items()
print(res,'我是res')
for li in res:
    print(li,'哈哈哈')
    #  获取标签对象的文本内容
    print(li.text(), '文本内容')
    #  获取标签属性
    print(li.attr('class'), '属性')等同于

  或    print(li.attr.class)

使用CSS选择特定的标签

#使用CSS3 特定的伪类选择器,选择特定的标签
#用例: 伪类选择器
html = ‘‘‘

    
        
            first item
            second item
            third item
            fourth item
            fifth item


‘‘‘

from pyquery import PyQuery as pq
doc = pq(html)
li = doc(‘li:first-child‘)      #选择第1个 li 标签,注意 : 号写法
print(li)
li = doc(‘li:last-child‘)       #选择最后1个 li 标签
print(li)
li = doc(‘li:nth-child(2)‘)      #选择指定的,第2个li标签   ,child()    序号从1开始
print(li)
li = doc(‘li:gt(2)‘)             #选择序号比3大的,也就是第3个 li 标签之后的 li 标签  (序号从0开始)
print(li)
li = doc(‘li:nth-child(2n)‘)     #选择序号为偶数索引的 li 标签
print(li)
li = doc(‘li:contains(second)‘) #选择文本部分包含 second 的 li 标签
print(li)

5.csselect

# cssselector：和xpath是使用比较多的两种数据提取方式。

# scrapy爬虫框架：支持xpath/css
# pyspider爬虫框架：支持PyQuery，也是通过css样式选择器实现的

# pip install cssselector

import cssselect
from lxml.html import etree

html = """
    
        
            哈哈
            Two
            Three
            Four
            
                百度一下
                第一段
                第2段
                第3段
                
                    第4段
                    法大师傅大师傅
                
                第5段
                第6段
            
        
    
"""

html_obj = etree.HTML(html)
span = html_obj.cssselect('.list > .four')[0]
print(span.text) # 获取文本内容
# print(help(span))#  查找方法
# print(span.attrib['id']) # 获取属性：是一个字

# csv:

xpath和cssselector之间的差别

在scrapy中这样用其他按照正常的来

a.属性名来表明a的

6.正则

import re

# re: 用于提取字符串内容的模块。


# 1> 创建正则对象；2> 匹配查找；3> 提取数据保存；
string = """

正则

正则1


                
                
正则2
                
                
正则3"""
# ()是提取的一组数据   \b    \b
# re.S 可以将正则的搜索域不再是一行，而是整个html字符串。
pattern = re.compile(r".*?(.*?)", re.S)

# .*? 非贪婪匹配
# .*  贪婪匹配

# \d+
# \w+
# [a-z0-9]
# \d{4}

# findall() 返回是列表
res = re.findall(pattern, string)
print(res)

string = "a1234booooobccccccb"
# a.*?b  a1234b
# a.*b   a1234booooobccccccb


# 查找单个数据：search(): 不考虑数据的位置。  match(): 必须保证数据在目标字符串的起始位置。
string = '2a3'
print(re.match(re.compile('(\d)'), string))


             代理--进程池--保存到exel表格中

import requests, re
from fake_useragent import UserAgent
# from urllib.request import urlretrieve
import xlwt
from multiprocessing import Pool


class QiShu(object):
    sheet = None
    workbook = None
    row = 1

    def __init__(self):
        self.url = 'https://www.qisuu.la/'

    @classmethod
    def get_proxy(cls):
        return requests.get('http://localhost:5010/get/').text

    @classmethod
    def get_headers(cls):
        ua = UserAgent()
        headers = {
            'User-Agent': ua.random
        }
        return headers

    def get_index_page(self):

        proxies = {
            'http': 'http://' + self.get_proxy()
        }
        print(proxies)
        try:
            response = requests.get(self.url, self.get_headers(), proxies=proxies)
            if response.status_code == 200:
                self.parse_index_page(response.text)
            else:
                print('首页状态码：', response.status_code)
                return None
        except Exception as e:
            print('请求或解析首页异常：', e)
            return None

    @classmethod
    def parse_index_page(cls, index_page):

        index_pattern = re.compile(
            r'.*?.*?.*?',
            re.S)
        sort_types = re.findall(index_pattern, index_page)
        # 提取分类的url
        # print(sort_types)
        pool = Pool(5)
        for sort_url in sort_types[0]:
            sort_url = 'https://www.qisuu.la' + sort_url
            # cls.get_list_page(sort_url)
            pool.apply_async(cls.get_list_page, args=(sort_url,), callback=cls.parse_list_page)

        pool.close()
        pool.join()

    @classmethod
    def get_list_page(cls, list_url):

        proxies = {
            'http': 'http://' + cls.get_proxy()
        }
        try:
            response = requests.get(list_url, headers=cls.get_headers(), proxies=proxies)
            if response.status_code == 200:
                # 解析列表页
                # cls.parse_list_page(response.text)
                print(list_url + '解析成功')
                return response.text
            else:
                print('列表页状态吗：', response.status_code)
                return None
        except Exception as e:
            print('请求或解析列表页异常：', e)
            return None

    @classmethod
    def parse_list_page(cls, list_page):
        list_pattern = re.compile(r'.*?(.*?)', re.S)

        ul = re.search(list_pattern, list_page).groups()[0]
        # print(ul)

        list_data = re.findall(re.compile(r'.*?', re.S), ul)

        pool = Pool(5)
        for href, img in list_data:
            # img_url = 'https://www.qisuu.la' + img
            # urlretrieve(img_url, filename='')

            detail_url = 'https://www.qisuu.la' + href
            print(detail_url)

            # 非多进程
            # cls.get_detail_page(detail_url)

            # 多进程
            pool.apply_async(cls.get_detail_page, args=(detail_url,), callback=cls.parse_detail_page)

        pool.close()
        pool.join()
        # 查找下一页
        # next_page_url = re.search(re.compile(r'.*?下一页', re.S), list_page)
        # if next_page_url:
        #     next_page_url = next_page_url.groups()
        #     next_page_url = 'https://www.qisuu.la' + next_page_url
        #     self.get_list_page(next_page_url)
        # else:
        #     print('已经是最后一页了')

    @classmethod
    def get_detail_page(cls, detail_url):
        proxies = {
            'http': 'http://' + cls.get_proxy()
        }
        try:
            response = requests.get(detail_url, headers=cls.get_headers(), proxies=proxies)
            if response.status_code == 200:
                return response.content.decode('utf-8')# 利用返回值进行传参给
                                       parse_detail_page()
            else:
                print('请求详情页状态吗：', response.status_code)
                return None
        except Exception as e:
            print('请求或解析详情页异常：', detail_url, e)
            return None

    @classmethod
    def parse_detail_page(cls, detail_page):
        detail_pattern = re.compile(
            r'.*?(.*?)
.*?(.*?)
.*?(.*?)
.*?(.*?)
.*?(.*?)
.*?(.*?)
.*?(.*?)
.*?(.*?)
.*?(.*?)',
            re.S)
        detail_data = re.findall(detail_pattern, detail_page)

        title = click_num = file_size = novel_type = date_time = status = author = env = news_article = ''
        for title, click_num, file_size, novel_type, date_time, status, author, env, new_article in detail_data:
            click_num = click_num.split('：')[1]
            file_size = file_size.split('：')[1]
            novel_type = novel_type.split('：')[1]
            date_time = date_time.split('：')[1]
            status = status.split('：')[1]
            author = author.split('：')[1]
            env = env.split('：')[1]
            new_article = new_article.split('：')[1]

            pattern = re.compile('(.*?)')
            try:
                news_article = re.search(pattern, new_article).groups()
            except Exception as e:
                news_article = ''
                print('最新章节获取失败')

        # 小说的介绍
        info_pattern = re.compile(r'.*?(.*?)', re.S)
        info = re.search(info_pattern, detail_page).groups()

        # 下载地址
        down_pattern = re.compile(r"get_down_url(.*?);", re.S)
        down_url = re.search(down_pattern, detail_page)
        url = down_url.groups()[0].split(',')[1].strip("\\'")

        # print(title, click_num, file_size, novel_type, date_time, status, author, env, news_article, info, url)

        QiShu.sheet.write(QiShu.row, 0, title)
        QiShu.sheet.write(QiShu.row, 1, click_num)
        QiShu.sheet.write(QiShu.row, 2, file_size)
        QiShu.sheet.write(QiShu.row, 3, novel_type)
        QiShu.sheet.write(QiShu.row, 4, date_time)
        QiShu.sheet.write(QiShu.row, 5, status)
        QiShu.sheet.write(QiShu.row, 6, author)
        QiShu.sheet.write(QiShu.row, 7, env)
        QiShu.sheet.write(QiShu.row, 8, news_article)
        QiShu.sheet.write(QiShu.row, 9, info)
        QiShu.sheet.write(QiShu.row, 10, url)

        QiShu.row += 1

    @classmethod
    def open_file(cls):
        QiShu.workbook = xlwt.Workbook(encoding='utf-8')
        QiShu.sheet = QiShu.workbook.add_sheet('奇书')
        QiShu.sheet.write(0, 0, '标题')
        QiShu.sheet.write(0, 1, '点击数')
        QiShu.sheet.write(0, 2, '文件大小')
        QiShu.sheet.write(0, 3, '小说类型')
        QiShu.sheet.write(0, 4, '更新时间')
        QiShu.sheet.write(0, 5, '连载状态')
        QiShu.sheet.write(0, 6, '作者')
        QiShu.sheet.write(0, 7, '运行环境')
        QiShu.sheet.write(0, 8, '最新章节')
        QiShu.sheet.write(0, 9, '小说简介')
        QiShu.sheet.write(0, 10, '下载地址')

    @classmethod
    def close_file(cls):
        QiShu.workbook.save('奇书.xls')


if __name__ == '__main__':
    qishu = QiShu()
    QiShu.open_file()
    qishu.get_index_page()
    QiShu.close_file()

进程池--代理---保存到mongodb中

7.bs4

# 爬虫网络请求方式：urllib(模块), requests(库), scrapy, pyspider(框架)
# 爬虫数据提取方式：正则表达式, bs4, lxml, xpath, css

from bs4 import BeautifulSoup

# 参数1：序列化的html源代码字符串，将其序列化成一个文档树对象。
# 参数2：将采用 lxml 这个解析库来序列化 html 源代码
html = BeautifulSoup(open('index.html', encoding='utf-8'), 'lxml')

# print(html.title)
# print(html.a)
#
# # 获取某一个标签的所有属性
# # {'href': '/', 'id': 'result_logo', 'onmousedown': "return c({'fm':'tab','tab':'logo'})"}
# print(html.a.attrs)
#
# # 获取其中一个属性
# print(html.a.get('id'))

# 获取多个标签，需要遍历文档树
# print(html.head.contents)

# print(html.head.children) # list_iterator object
# for ch in html.head.children:
#     print(ch)

# descendants
# print(html.head.descendants)

# find_all
# find
# get_text: 标签内所有文本，包含子标签
# select
# string: 不能有其他标签。
print(html.select('.two')[0].get_text())

# print(help(html))

# find_all：根据标签名查找一组元素
# res = html.find_all('a')
# print(res,'aaa')

# select：支持所有的CSS选择器语法
res = html.select('.one')[0]
# print(res.get_text())
# print(res.get('class'),'凉凉')

res = html.select('.two')[0]
print(res)
print('----',res.next_sibling)


import os

os.mkdir('abc') # 在当前目录下6-7下，创建abc
os.chdir('abc') # 进入到abc
os.mkdir('123') # 在abc创建123目录

os.chdir(os.path.pardir) # 回到父级目录

os.mkdir('erf')创建和abc等级的文件夹erf

#获取标签名
tag.name
#对应的该变标签名为
tag.name = "你想要的标签"

属性

#获取属性
#获取属性列表
tag.attrs
#输出为一个dict键为属性，值为属性值
#例如{"class":"abc", "id":"link1"}

#获取指定属性
tag['class']
#或
tag.get('class')

#多值属性
#对于HTML中定义的一些可以包含多个值的属性（class,rev等等）
#返回值为list类型
tag['class']
#例如['top', 'box']

#为属性赋值
tag['class'] = "class1"

内容

这里用两种获取方式
.string 和 get_text()
.string 用来获取标签的内容
get_text() 用来获取标签中所有字符串包括子标签的。

#获取当前标签内容
tag.string
#返回结果的type为 

#获取标签内所有的字符串
tag.get_text()
#返回结果的type为 

#为标签内容赋值
tag.string = "str"

注意！！

在取值时我们要注意一点就是在获取标签的时候获取的是单个标签还是标签列表。
也就是find()和find_all(),select()和select_one()的区别。
当使用

find()
select_one()

时，获得的是一个标签
类型为

所以可以使用tag['class']取值

当使用

find_all()
select()

时，获得的是组标签(就算只有一个标签也是一组)
类型为

#find_all()的返回值类型

#select()的返回值类型

这时，我们要取值就需要先定位是list(ResultSet)中的那个标签在取值

例如tag[0]['class']

from bs4 import  BeautifulSoup
import bs4

创建soup对象(读取file文件创建)

filepath = 'test.html'
soup = BeautifulSoup(open(filepath,encoding='utf-8'),'lxml')

使用

根据标签查找(type:bs4_obj)

tag_p = soup.p

获取属性

name = tag_p.name
title = tag_p.attrs.get('title')
title = tag_p.get('title')
title = tag_p['title']

获取文本内容

string = tag_p.string
text = tag_p.get_text()
content = tag_p.contents

#过滤注释内容
if type(tag_p.string)==bs4.element.Comment:
    print('这是注释内容')
else:
    print('这不是注释')

获取子孙节点（tpye:generator)

descendants = soup.p.descendants

find&&find_all查找

soup.find('a')
soup.find('a',title='hhh')
soup.find('a',id='')
soup.find('a',class_='')

soup.find_all('a')
soup.find_all(['a','p'])
soup.find_all('a',limit=2)

select选择(type:list)

soup.select('.main > ul > li > a')[0].string

你可能感兴趣的:(爬虫知识点)

Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
2021-07-31 比峰
七月的最后一天，过了今天，就是八月，心脏在颤抖……昨天两点半才睡，一直在以两倍的语速的听之前的课程，虽然隔得时间不长，但是很多知识点已经忘了差不多了，为了让自己能够掌握的稍微全面一点，还是磨刀不误砍柴工的比较好。正因为晚上睡得晚，今天一上午的状态都不好，也可能因为上午都是待在家里，所以多数时间自己是在补觉。既然太累，那就睡觉吧，总比浪费时间的好。下午到咖啡馆做题，一道差错更正一下子让自己的实力暴露
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
android 更改窗口的层次,浮窗开发之窗口层级 Ms.Bu android 更改窗口的层次
最近在项目中遇到了这样的需求：需要在特定的其他应用之上悬浮自己的UI交互(拖动、输入等复杂的UI交互)，和九游的浮窗类似，不过我们的比九游的体验更好，我们越过了很多授权的限制。浮窗效果很多人都知道如何去实现一个简单的浮窗，但是却很少有人去深入的研究背后的流程机制，由于项目中浮窗交互比较复杂，遇到了些坑查看了很多资料，故总结浮窗涉及到的知识点：窗口层级关系(浮窗是如何“浮”的)？浮窗有哪些限制，如何
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
Python编程 - 函数进阶易辰君 Python核心编程 python 开发语言
目录前言一、函数参数的高级用法（一）缺省参数（二）命名参数（三）不定长参数二、拆包（一）函数返回值拆包（二）通过星号拆包（三）总结三、匿名函数（一）函数定义（二）使用匿名函数四、递归函数（一）简介（二）基本结构（三）简单示例（四）优缺点总结前言上篇文章主要了解了函数基础，如何定义函数，函数种类以及局部变量和全局变量的差异等，接下来就讲解python函数较为进阶的知识点，若有任何想法欢迎一起沟通讨论
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
Golang语言基础知识点总结最帅猪猪侠 golang 开发语言后端
Golang语言基础知识点小总结1.go语言有两大类型：值类型：数值类型，bool，string，数组，struct结构体变量直接存储值，内存通常在栈中分配,修改值,不会对源对象产生影响引用类型：指针，slice切片，管道chan，map，interface变量存储的是一个地址，这个地址对应的空间才真正存储数据值，内存通常在堆上分配，当没有任何变量引用这个地址时，该地址对应的数据空间就成为一个垃圾
教师资格证常考的5个知识点 a3cb74a20840
知识点1：教育与人的发展(5规律、4因素、3动因)五大规律：顺序性—循序渐进阶段性—不搞“一刀切”不平衡性—抓关键期互补性—扬长避短个别差异性—因材施教考点精华：1.举例子对应五大规律;2.每个规律的教学启示;3规律特点。四大因素：遗传(地位：物质前提、可能性)环境(地位：多种可能、现实性)学校教育(主导)个人主观能动性(动力、决定)三大动因：内发论(1.孟子：性善论;2.弗洛伊德：性本能)外铄论
2019-02-26 一枚_铜钱
今天是实习第一节课，昨天已经和同学们交流过了，对于新老师，让学生适当地了解你是很有必要的。这第一节课嘛，孩子们表现也还可以大部分孩子都是很认真听讲的，也有几个上课会说话。但是我觉得孩子们对知识点的掌握速度还是很慢的，有的地方讲很多遍还是不太懂的样子。当然我自己可能也要反省，重点地方一定要明明白白告诉大家。明天切正题要快，要让学生读题，要让学生多写多练。话要尽量说得少，但句句在点子上，还得全面。下午
怎么才能做一个好老师尘埃不确定
厉害的老师也许不用提前准备什么，随场发挥就可以讲的很好。也许要系统地教授，还是最好准备一个大纲，每节课需要备课；只有提前准备，在讲的时候，效率才会提高，也容易讲明白知识点。每个学生对知识技能的掌握都不一样，有针对性地教学，可能会有好的效果。今天重新组装用QQ飞控的教练机，费了好大劲，虽然自己对这套东西比较熟悉，但时间长了会忘记很多东西，教大家的时候，其实是共同学习。
2020-02-15 蔡卡
我是蔡卡，爱看日漫和美剧，一眨眼就成了爸爸，喜欢孩子的我总想给孩子最好的，于是开始了我的探索之旅。不爱看书的我开始认真看书和参与各种团体，通过自我学习以及思想的碰撞从而形成自己的知识体系。分享才能更好的提升，生活中每遇到一个困难，都需要我们用所学的知识点去解决。我的使命:让更多家庭的孩子不因地域和阶层导致认知以及成长上的差距更大。__________________________________
前端知识点 ZhangTao_zata 前端 javascript css
下面是一个最基本的html代码body{font-family:Arial,sans-serif;margin:20px;}//JavaScriptfunctionthatdisplaysanalertwhencalledfunctionshowMessage(){alert("Hello!Youclickedthebutton.");}MyFirstHTMLPageWelcometoMyPage
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
爬虫之隧道代理：如何在爬虫中使用代理IP？ 2401_87251497 python 开发语言爬虫网络 tcp/ip 网络协议
在进行网络爬虫时，使用代理IP是一种常见的方式来绕过网站的反爬虫机制，提高爬取效率和数据质量。本文将详细介绍如何在爬虫中使用隧道代理，包括其原理、优势以及具体的实现方法。无论您是爬虫新手还是有经验的开发者，这篇文章都将为您提供实用的指导。什么是隧道代理？隧道代理是一种高级的代理技术，它通过创建一个加密的隧道，将数据从客户端传输到代理服务器，再由代理服务器转发到目标服务器。这样不仅可以隐藏客户端的真
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他