weixin_34128534

python3爬虫-通过requests获取安居客房屋信息

import requests
from fake_useragent import UserAgent
from lxml import etree
from http import cookiejar
import re, time
import pymysql
import random
from requests.exceptions import Timeout

ua = UserAgent()

session = requests.Session()


class MyException(Exception):
    '''自定义一个异常'''

    def __init__(self, status, msg):
        self.status = status
        self.msg = msg
        super().__init__()


class AnKeJu:
    '''
    北京新房   https://bj.fang.anjuke.com/
    北京二手房 https://beijing.anjuke.com/sale/
    北京租房   https://bj.zu.anjuke.com/
    想要爬取不同城市的信息，只需将bj改为对应的城市信息
    '''

    # 本来想写下登陆的，但是他好像没有密码登陆，只有手机验证码。我说的普通用户
    is_login = False
    city_dict = {}
    conn = None
    proxies = None

    def __init__(self):
        self.session = session
        self.session.headers = {
            "user-agent": ua.random
        }
        self.session.cookies = cookiejar.LWPCookieJar(filename="./cookies.txt")

        if not self.conn:
            self.conn = pymysql.connect(host="127.0.0.1",
                                        port=3306,
                                        user="root",
                                        db="ankeju")
            self.conn.cursor = self.conn.cursor(cursor=pymysql.cursors.DictCursor)
        self.__get_all_city()

    def __response_to_xml(self, response):
        '''将response处理为xml格式数据'''
        xml = etree.HTML(response.text)
        return xml

    def __get_all_city(self):
        api = "https://www.anjuke.com/sy-city.html"
        headers = self.session.headers.copy()
        response = self.session.get(api, headers=headers)
        xml = self.__response_to_xml(response)
        city_xpath_list = xml.xpath("//div[@class='city_list']")[0:-1]
        city_name_list = [city_xpath.xpath("a/text()") for city_xpath in city_xpath_list]
        city_url_list = [city_xpath.xpath("a/@href") for city_xpath in city_xpath_list]
        city_dict_value = []
        city_dict_key = []

        # 这里真不知道怎么取变量名了
        # city_url_list它的格式是list套多个list，因为这个页面是按照A,B,C,D...这样排的
        for letter_url_list in city_url_list:
            for city_url in letter_url_list:
                shorthand_city = re.findall(r"//(.*?)\.", city_url)[0]
                city_dict_value.append(shorthand_city)

        for aa_list in city_name_list:
            for city_name in aa_list:
                city_dict_key.append(city_name)

        self.city_dict = {k: v for k, v in zip(city_dict_key, city_dict_value)}

    def __is_exist_next_page(self, response):
        '''判断二手房当前页面是否存在下一页'''
        xml = self.__response_to_xml(response)
        next_page_url = xml.xpath("//*[@class='aNxt']/@href")
        if next_page_url:
            return next_page_url[0]
        return False

    def __get_html_information_v2(self, response):
        '''获取二手房当前页面的房子信息'''
        xml = self.__response_to_xml(response)

        # 检测是不是访问验证的页面

        if xml.xpath("//*[@id='verify_page']"):
            # 出现了爬虫检测
            # 只要你的ip地址，都会出现访问验证这个页面，我也不清楚我用了代理，还是被检测出了ip问题
            # 那只有调用selenium去进行破解了
            pass

        # 获取到房子的信息
        li_xpath_list = xml.xpath("//*[@id='houselist-mod-new']//li[@class='list-item']")
        for li_xpath in li_xpath_list:
            house_info = []
            # 获取房子的img地址
            house_img_url = li_xpath.xpath("div[@class='item-img']/img/@src")[0]
            house_info.append(house_img_url)

            # 获取介绍房子的title
            house_title = li_xpath.xpath("div[@class='house-details']/div[1]/a/text()")[0].strip()
            house_info.append(house_title)
            # 获取房子详情信息
            house_details = li_xpath.xpath("div[@class='house-details']/div[2]")[0].xpath("string(.)").strip().split(
                "")[0]
            house_info.append(house_details)
            # 获取房子地址 可能会存在地址没有的请求
            try:
                house_address = li_xpath.xpath("div[@class='house-details']/div[3]/span/@title")[
                                    0].strip() or "暂时没有地址信息"
            except IndexError:
                house_address = "暂时没有地址信息"
            house_info.append(house_address)
            # 获取房子的总价钱
            house_total_price = li_xpath.xpath("div[@class='pro-price']/span[1]")[0].xpath("string(.)").strip()
            house_info.append(house_total_price)
            # 获取房子的房价
            house_price = li_xpath.xpath("div[@class='pro-price']/span[2]/text()")[0]
            house_info.append(house_price)
            # 获取房子标签
            house_tags = li_xpath.xpath("div[@class='house-details']/div[@class='tags-bottom']")[0].xpath(
                "string(.)").strip() or "暂无房子标签信息"

            house_info.append(house_tags)
            yield house_info

    def __get_html_information_v1(self, response):
        '''获取新房当前页面的房子信息'''
        xml = self.__response_to_xml(response)
        if xml.xpath("//*[@id='verify_page']"):
            pass

        div_xpath_list = xml.xpath("//div[@class='key-list imglazyload']//div[@class='item-mod ']")

        for div_xpath in div_xpath_list:
            house_info_list = []
            # 获取房子的img地址
            house_img_url = div_xpath.xpath("a[@class='pic']/img/@src")[0]
            house_info_list.append(house_img_url)
            # 获取介绍房子的title
            house_title = div_xpath.xpath("div[@class='infos']/a[@class='lp-name']/h3/span/text()")[0].strip()
            house_info_list.append(house_title)
            # 获取房子详情信息
            try:
                house_details = div_xpath.xpath("div[@class='infos']/a[@class='huxing']")[0].xpath("string(.)").strip()
                house_details = re.sub("\s", "", house_details)
            except IndexError:
                house_details = div_xpath.xpath("div[@class='infos']/a[@class='kp-time']/text()")[0]
            house_info_list.append(house_details)
            # 获取房子地址
            house_address = div_xpath.xpath("div[@class='infos']/a[@class='address']/span/text()")[0].strip()
            house_info_list.append(house_address)
            # 获取房子标签
            house_tags = ",".join(div_xpath.xpath("div[@class='infos']/a[@class='tags-wrap']/div/span/text()"))
            house_info_list.append(house_tags)
            # 获取房子的类型
            # 有些房子它是没有类型的
            try:
                house_type = \
                    div_xpath.xpath("div[@class='infos']/a[@class='tags-wrap']/div[@class='tag-panel']/i[2]/text()")[0]
            except IndexError:
                house_type = "无"
            house_info_list.append(house_type)
            # 获取房子是否还在售卖
            house_is_sale = div_xpath.xpath("div[@class='infos']/a[@class='tags-wrap']/div/i[1]/text()")[0]
            house_info_list.append(house_is_sale)
            # 获取房子价格
            # 有两种情况，一种价格确定，一种价格待定
            # 价格待定也有两种，一种是周围价格，一种就是没有价格
            try:
                house_price = div_xpath.xpath("a[@class='favor-pos']/p[@class='price']")[0].xpath("string(.)").strip()
            except IndexError:
                try:
                    house_price = div_xpath.xpath("a[@class='favor-pos']/p[2]")[0].xpath("string(.)").strip()
                except IndexError:
                    house_price = "暂无"
            house_info_list.append(house_price)
            yield house_info_list

    def __is_exist_next_page_v1(self, response):
        '''检测新房的当前页面是否有下一页'''
        xml = self.__response_to_xml(response)
        next_page_url = xml.xpath("//a[@class='next-page next-link']/@href")
        if next_page_url:
            return next_page_url[0]
        return False

    def __save_to_db(self, house_info_tuple, table_name):
        '''将数据保存在数据库,我这里只写了租房，新房，二手房，这样写的话，那么数据表的名字必须要对应上呀'''
        if table_name == "secondary_house":
            sql = "insert into secondary_house (house_img_url,house_title,house_details,house_address,house_total_price,house_price,house_tags) values (%s,%s,%s,%s,%s,%s,%s)"
        elif table_name == "new_house":
            sql = "insert into new_house (house_img_url,house_title,house_details,house_address,house_tags,house_type,house_is_sale,house_price) values (%s,%s,%s,%s,%s,%s,%s,%s)"

        else:
            sql = "insert into zu_house (house_img_url,house_title,house_details,house_address,house_tags,house_price) values (%s,%s,%s,%s,%s,%s)"
        self.conn.cursor.execute(sql, house_info_tuple)
        self.conn.commit()

    def __get_proxies(self):
        '''从代理池获取代理'''
        if not self.proxies:
            self.__init_proxies()
        while True:
            # 这里字段较少，而且所有的数据我都需要，所以用 "*"
            offset = random.randint(1, 100)
            sql = "select * from proxies ORDER BY id LIMIT %s,1 "
            row = self.proxies.cursor.execute(sql, (offset,))
            if not row:
                raise MyException(10003, "代理池错误")
            res = self.proxies.cursor.fetchone()
            proxies = {res["type"].lower(): "{}://{}:{}".format(res["type"].lower(), res["ip"], res["port"])}
            # 检测代理是否可以使用
            if self.__check_proxies(proxies):
                return proxies
            else:
                # 删除不可用的代理的记录
                del_sql = "DELETE FROM table_name where id = %s"
                self.proxies.cursor.execute(del_sql, (res["id"],))
                self.proxies.commit()

    def __check_proxies(self, proxies):
        '''检测代理是否可以使用'''
        api = "https://www.cnblogs.com/"
        try:
            res = requests.get(api, headers={"user-Agent": ua.random}, proxies=proxies, timeout=3)
            if res.status_code == 200:
                return True
            else:
                return False
        except Exception:
            return False

    def __init_proxies(self):
        self.proxies = pymysql.connect(
            host="127.0.0.1",
            port=3306,
            user="root",
            db="proxies"
        )
        self.proxies.cursor = self.proxies.cursor(cursor=pymysql.cursors.DictCursor)

    def __start_secondary_spider(self, url, city):
        '''处理二手房的爬虫'''
        secondary_house_table_name = "secondary_house"
        headers = self.session.headers
        page_num = 1
        while True:
            time.sleep(3)
            print("正在爬取 {} 第 {} 页...".format(city, page_num))
            response = self.session.get(url, headers=headers, proxies=self.__get_proxies(), timeout=10)

            # 获取当前页面的需要的数据,保存在数据库
            print("正在写入数据库...")

            for house_info_tuple in self.__get_html_information_v2(response):
                # 额，这里我是把所有的二手房信息，保存在一张表中，当时忘记加city这个字段了，如果你要写的话，最好加上city这个字段
                # 以后方便对数据库中的数据进行处理的话，就相对来说好很多
                self.__save_to_db(house_info_tuple, secondary_house_table_name)

            # 测试了一下，二手房数据最多50页，但是最好还是根据下一页去获取到下一页的数据
            next_page_url = self.__is_exist_next_page(response)
            if not next_page_url:
                raise MyException(10000, "{}二手房--数据爬取完毕...".format(city))
            url = next_page_url
            page_num += 1

    def __start_new_house_spider(self, url, city):
        '''处理新房的爬虫'''
        new_house_table_name = "new_house"
        headers = self.session.headers
        page_num = 1
        while True:
            time.sleep(3)
            print("正在爬取 {} 第 {} 页...".format(city, page_num))
            response = self.session.get(url, headers=headers, proxies=self.__get_proxies(), timeout=10)
            print("正在写入数据库...")
            for house_info_list in self.__get_html_information_v1(response):
                self.__save_to_db(house_info_list, new_house_table_name)
            next_page_url = self.__is_exist_next_page_v1(response)
            if not next_page_url:
                raise MyException(10000, "{}新房--数据爬取完毕...".format(city))
            url = next_page_url
            page_num += 1

    def __get_html_information_v3(self, response):
        '''获取租房页面的房子信息'''
        xml = self.__response_to_xml(response)
        if xml.xpath("//*[@id='verify_page']"):
            pass

        div_xpath_list = xml.xpath("//div[@class='zu-itemmod']")
        for div_xpath in div_xpath_list:
            house_info_list = []

            house_img_url = div_xpath.xpath("a/img/@src")[0]
            house_info_list.append(house_img_url)

            house_title = div_xpath.xpath("div[@class='zu-info']/h3/a/text()")[0].strip()
            house_info_list.append(house_title)

            house_details = div_xpath.xpath("div[@class='zu-info']/p[@class='details-item tag']")[0].xpath(
                "string(.)").strip().split("")[0]
            house_details = re.sub("\s", "", house_details)
            house_info_list.append(house_details)

            house_address = div_xpath.xpath("div[@class='zu-info']/address[@class='details-item']")[0].xpath(
                "string(.)").strip().replace("\xa0", "")
            house_address = re.sub("\s", "", house_address)
            house_info_list.append(house_address)

            house_tags = ",".join(div_xpath.xpath("div[@class='zu-info']/p[@class='details-item bot-tag']/span/text()"))
            house_info_list.append(house_tags)

            house_price = div_xpath.xpath("div[@class='zu-side']/p")[0].xpath("string(.)").strip()
            house_info_list.append(house_price)

            yield house_info_list

    def __is_exist_next_page_v3(self, response):
        '''判断租房页面是否有下一页'''
        xml = self.__response_to_xml(response)
        next_page_url = xml.xpath("//a[@class='aNxt']/@href")
        if next_page_url:
            return next_page_url[0]
        return False

    def __start_zu_house_spider(self, url, city):
        '''爬取租房'''
        zu_house_table_name = "zu_house"
        headers = self.session.headers
        page_num = 1
        while True:
            time.sleep(3)
            print("正在爬取 {} 第 {} 页...".format(city, page_num))
            try:
                response = self.session.get(url, headers=headers, proxies=self.__get_proxies(), timeout=10)
            except Timeout:
                response = self.session.get(url, headers=headers, proxies=self.__get_proxies(), timeout=10)
            print("正在写入数据库...")
            for house_info_list in self.__get_html_information_v3(response):
                self.__save_to_db(house_info_list, zu_house_table_name)
            next_page_url = self.__is_exist_next_page_v3(response)
            if not next_page_url:
                raise MyException(10000, "{}租房--数据爬取完毕...".format(city))
            url = next_page_url
            page_num += 1

    def spider_zufang(self, city: str = "北京", allow_all: bool = False):
        '''爬取租房信息'''
        while True:
            format_city = self.city_dict.pop(city)
            assert bool(format_city) is True, "请输入正确的地区"
            start_url = "https://{}.zu.anjuke.com/".format(format_city)
            try:
                self.__start_zu_house_spider(start_url, city)
            except MyException as e:
                if e.status == 10000:
                    print(e.msg)
                    if allow_all:
                        try:
                            city = list(self.city_dict.keys()).pop(0)
                        except IndexError:
                            print("全部爬取完毕")
                            return
                    else:
                        return

    def spider_new_house(self, city: str = "北京", allow_all: bool = False):
        '''爬取新房'''
        while True:
            format_city = self.city_dict.pop(city)
            assert bool(format_city) is True, "请输入正确的地区"
            start_url = "https://{}.fang.anjuke.com/".format(format_city)
            try:
                self.__start_new_house_spider(start_url, city)
            except MyException as e:
                if e.status == 10000:
                    print(e.msg)
                    if allow_all:
                        try:
                            city = list(self.city_dict.keys()).pop(0)
                        except IndexError:
                            print("全部爬取完毕")
                            return
                    else:
                        return

    def spider_secondary(self, city: str = "北京", allow_all: bool = False):
        '''
        :param city: 默认是北京
        :return:
        '''
        # 这里直接是要bj也是可以的，他会帮我们重定向beijing
        while True:
            format_city = self.city_dict.pop(city)
            assert bool(format_city) is True, "请输入正确的地区"
            start_url = "https://{}.anjuke.com/sale/".format(format_city)
            try:
                self.__start_secondary_spider(start_url, city)
            except MyException as e:
                if e.status == 10000:
                    print(e.msg)
                    if allow_all:
                        try:
                            city = list(self.city_dict.keys()).pop(0)
                        except IndexError:
                            print("全部爬取完毕")
                            return
                    else:
                        return

    def __del__(self):
        self.conn.close()
        if self.proxies:
            self.proxies.close()

    def test(self):
        '''测试bug专用方法'''
        res = self.session.get("https://al.zu.anjuke.com/", headers=self.session.headers)
        n = 1
        for i in self.__get_html_information_v3(res):
            print(n)
            print(i)
            n += 1


if __name__ == '__main__':
    anjuke = AnKeJu()
    # anjuke.spider_secondary(allow_all=True)
    # anjuke.spider_new_house(allow_all=True)
    # anjuke.spider_zufang(allow_all=True)
    # anjuke.test()

补上数据库获取到的数据。。创建数据库的时候，最好添加一个city的字段，要不然太乱了

转载于:https://www.cnblogs.com/zhuchunyu/p/10807605.html

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
2018/02/12 Tracy_zhang
人生并不在于获取，更在于放得下。放下一粒种子，收获一棵大树;放下一处烦恼，收获一个惊喜;放下一种偏见，收获一种幸福;放下一种执著，收获一种自在。放下既是一种理性抉择，也是一种豁达美。只要看得开放得下，何愁没有快乐的春莺在啼鸣，何愁没有快乐的泉溪在歌唱，何愁没有快乐的鲜花绽放!
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
特殊的拜年飘雪的天堂
文/雪儿大年初一，家家户户没有了轰响的鞭炮声，大街上没有了人流涌动的喧闹，几乎看不到人影，变得冷冷清清。天刚亮不大会儿，村里的大喇叭响了起来：由于当前正值疾病高发期，流感流行的高峰期。同时，新型冠状病毒感染的肺炎进入第二波流行的上升期。为了自己和他人的健康安全着想，请大家尽量不要串门拜年，不要在街里走动。可以通过手机微信，视频，电话，信息拜年……今年的春节真是特别。禁止燃放鞭炮，烟花爆竹，禁止出村
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

python3爬虫-通过requests获取安居客房屋信息

你可能感兴趣的:(python3爬虫-通过requests获取安居客房屋信息)