IT白鸽

用python做爬虫非常的简单：美团网数据采集技巧，有基础就开爬！

1.数据采集工具介绍

现在的大多数动态网站，都是由浏览器端通过js发起ajax请求，拿到数据后再渲染完成页面展示。这种情况下采集数据，通过脚本发起http的get请求，拿到DOM文档页面后再解析提取有用数据的方法是行不通的。然后又有人会想到通过F12打开浏览器控制台分析服务端api，再模拟请求相应的api来拿到我们想要的数据，这种思路在一些情况下可行，但是很多大型网站都会采取一些反爬策略，出于安全性考虑，往往对接口增加了安全验证，比如只有设置了相关的header和cookie，才能对页面进行请求；还有的对请求来源也做了限制等等，这个时候通过这种方式采集数据就更加困难了。我们还有其他有效的方法吗？当然，python做爬虫非常的简单，我们先来了解一下Selenium和Selectors,然后通过爬取美团网上商家信息的例子总结一下数据采集的一些技巧:

Selenium 是一个开源测试框架，用来对web应用(比如网站)做自动化测试用的，因为它可以驱动浏览器，诸如Chrome，Firefox，IE等，所以可以较为真实的模拟人自动去点击网站的各个按钮，翻页，填写表单等，我们使用python驱动Selenium的webdriver，可以驱动浏览器，直接拿到的就是渲染好的DOM文档，大量节省了时间。
Selectors是Scrapy(Python的一套爬虫框架)提取数据的一套机制。被称作选择器，可以通过特定的 XPath 或者 CSS 表达式来“选择” HTML文件中的某个部分。用它来分析提取DOM文档有效数据非常的方便。并且XPath是W3C标准，所以使用Selectors提取数据的方法是通用的。

对Python感兴趣或者是正在学习的小伙伴，可以加入我们的Python学习扣qun：784758214，看看前辈们是如何学习的！从基础的python脚本到web开发、爬虫、django、数据挖掘等，零基础到项目实战的资料都有整理。送给每一位python的小伙伴！分享一些学习的方法和需要注意的小细节，教你如何实现边学习边用Python赚钱的学习方式。点击加入我们的 python学习者聚集地

2.页面抓取数据分析和数据表创建

以朝阳大悦城中的一家美食店为例进行数据采集，网址是：

https://www.meituan.com/meishi/40453459/

2.1 抓取数据

我们要抓取的第一部分数据是商家的基本信息，包括商家名称、地址、电话、营业时间，分析多个美食类商家我们可知，这些商家的web界面在布局上基本是一致的，所以我们的爬虫可以写的比较通用。为了防止对商家数据的重复抓取，我们将商家的网址信息也存储到数据表中。

第二部分要抓取的数据是美食店的招牌菜，每个店铺基本都有自己的特色菜，我们将这些数据也保存下来，用另外的一张数据表存储。

最后一部分我们要抓取的数据是用户的评论，这部分数据对我们来说是很有价值的，将来我们可以通过对这部分数据的分析，提取更多关于商家的信息。我们要抓取的这部分信息有：评论者昵称、星级、评论内容、评论时间，如果有图片，我们也要将图片的地址以列表的形式存下来。

2.2 创建数据表

我们存储数据使用的数据库是Mysql,Python有相关的ORM,项目中我们使用peewee。但是在建立数据表时建议采用原生的sql,这样我们能灵活的控制字段属性，设置引擎和字符编码格式等。使用Python的ORM也可以达到效果，但是ORM是对数据库层的封装，像sqlite、sqlserver数据库和Mysql还是有些许差别的，使用ORM只能使用这些数据库共有的部分。下面是存储数据需要用到的数据表sql：

CREATE TABLE `merchant` (  #商家表
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(255) NOT NULL COMMENT '商家名称',
  `address` varchar(255) NOT NULL COMMENT '地址',
  `website_address` varchar(255) NOT NULL  COMMENT '网址',
  `website_address_hash` varchar(32) NOT NULL COMMENT '网址hash',
  `mobile` varchar(32) NOT NULL COMMENT '电话',
  `business_hours` varchar(255) NOT NULL COMMENT '营业时间',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=10 DEFAULT CHARSET=utf8mb4;

CREATE TABLE `recommended_dish` (   #推荐菜表
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `merchant_id` int(11) NOT NULL COMMENT '商家id',
  `name` varchar(255) NOT NULL COMMENT '推荐菜名称',
  PRIMARY KEY (`id`),
  KEY `recommended_dish_merchant_id` (`merchant_id`),
  CONSTRAINT `recommended_dish_ibfk_1` FOREIGN KEY (`merchant_id`) REFERENCES `merchant` (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=309 DEFAULT CHARSET=utf8mb4;

CREATE TABLE `evaluate` (   #评论表
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `merchant_id` int(11) NOT NULL COMMENT '商家id',
  `user_name` varchar(255) DEFAULT '' COMMENT '评论人昵称',
  `evaluate_time` datetime NOT NULL COMMENT '评论时间',
  `content` varchar(10000) DEFAULT '' COMMENT '评论内容',
  `star` tinyint(4) DEFAULT '0' COMMENT '星级',
  `image_list` varchar(1000) DEFAULT '' COMMENT '图片列表',
  PRIMARY KEY (`id`),
  KEY `evaluate_merchant_id` (`merchant_id`),
  CONSTRAINT `evaluate_ibfk_1` FOREIGN KEY (`merchant_id`) REFERENCES `merchant` (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=8427 DEFAULT CHARSET=utf8mb4;

相应的我们也可以使用Python的ORM创建管理数据表，后边具体分析到代码时会讲到peewee对mysql数据库的一些常用操做，比如查询数据,插入数据库数据并返回id；批量插入数据库等，读者可搜集相关资料系统学习。
meituan_spider/models.py代码:

from peewee import *

# 连接数据库
db = MySQLDatabase("meituan_spider", host="127.0.0.1", port=3306, user="root", password="root", charset="utf8")

class BaseModel(Model):
    class Meta:
        database = db

# 商家表，用来存放商家信息
class Merchant(BaseModel):
    id = AutoField(primary_key=True, verbose_name="商家id")
    name = CharField(max_length=255, verbose_name="商家名称")
    address = CharField(max_length=255, verbose_name="商家地址")
    website_address = CharField(max_length=255, verbose_name="网络地址")
    website_address_hash = CharField(max_length=32, verbose_name="网络地址的md5值，为了快速索引")
    mobile = CharField(max_length=32, verbose_name="商家电话")
    business_hours = CharField(max_length=255, verbose_name="营业时间")

# 商家推荐菜表，存放菜品的推荐信息
class Recommended_dish(BaseModel):
    merchant_id = ForeignKeyField(Merchant, verbose_name="商家外键")
    name = CharField(max_length=255, verbose_name="推荐菜名称")

# 用户评价表，存放用户的评论信息
class Evaluate(BaseModel):
    id = CharField(primary_key=True)
    merchant_id = ForeignKeyField(Merchant, verbose_name="商家外键")
    user_name = CharField(verbose_name="用户名")
    evaluate_time = DateTimeField(verbose_name="评价时间")
    content = TextField(default="", verbose_name="评论内容")
    star = IntegerField(default=0, verbose_name="评分")
    image_list = TextField(default="", verbose_name="图片")

if __name__ == "__main__":
    db.create_tables([Merchant, Recommended_dish, Evaluate])

3.代码实现和详解

代码比较简单，但是让代码运行起来，需要安装前边提到的工具包：selenium、scrapy，另外使用peewee也需要安装，这些包都可以通过pip进行安装；另外selenium驱动浏览器还需要安装相应的driver,因为我本地使用的是chrome浏览器，所以我下载了相关版本的chromedriver，这个后边会使用到。请读者自行查阅python操作selenium需要做的准备工作，先手动搭建好相关环境。接下来详细分析代码；源代码如下：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import NoSuchElementException

from scrapy import Selector
from models import *

import hashlib
import os
import re
import time
import json

chrome_options = Options()

# 设置headless模式，这种方式下无启动界面，能够加速程序的运行
# chrome_options.add_argument("--headless")
# 禁用gpu防止渲染图片
chrome_options.add_argument('disable-gpu')
# 设置不加载图片
chrome_options.add_argument('blink-settings=imagesEnabled=false')

# 通过页面展示的像素数计算星级
def star_num(num):
    numbers = {
        "16.8": 1,
        "33.6": 2,
        "50.4": 3,
        "67.2": 4,
        "84": 5
    }

    return numbers.get(num, 0)

# 解析商家内容
def parse(merchant_id):
    weblink = "https://www.meituan.com/meishi/{}/".format(merchant_id)
    # 启动selenium
    browser = webdriver.Chrome(executable_path="/Users/guozhaoran/python/tools/chromedriver", options=chrome_options)
    browser.get(weblink)
    # 不重复爬取数据
    hash_weblink = hashlib.md5(weblink.encode(encoding='utf-8')).hexdigest()
    existed = Merchant.select().where(Merchant.website_address_hash == hash_weblink)
    if (existed):
        print("数据已经爬取")
        os._exit(0)
    time.sleep(2)
    # print(browser.page_source)  #获取到网页渲染后的内容
    sel = Selector(text=browser.page_source)

    # 提取商家的基本信息
    # 商家名称
    name = "".join(sel.xpath("//div[@id='app']//div[@class='d-left']//div[@class='name']/text()").extract()).strip()
    detail = sel.xpath("//div[@id='app']//div[@class='d-left']//div[@class='address']//p/text()").extract()
    address = "".join(detail[1].strip())
    mobile = "".join(detail[3].strip())
    business_hours = "".join(detail[5].strip())
    # 保存商家信息
    merchant_id = Merchant.insert(name=name, address=address, website_address=weblink,
                                  website_address_hash=hash_weblink, mobile=mobile, business_hours=business_hours
                                  ).execute()

    # 获取推荐菜信息
    recommended_dish_list = sel.xpath(
        "//div[@id='app']//div[@class='recommend']//div[@class='list clear']//span/text()").extract()

    # 遍历获取到的数据，批量插入数据库
    dish_data = [{
        'merchant_id': merchant_id,
        'name': i
    } for i in recommended_dish_list]

    Recommended_dish.insert_many(dish_data).execute()

    # 也可以遍历list，一条条插入数据库
    # for dish in recommended_dish_list:
    #     Recommended_dish.create(merchant_id=merchant_id, name=dish)

    # 查看链接一共有多少页的评论
    page_num = 0
    try:
        page_num = sel.xpath(
            "//div[@id='app']//div[@class='mt-pagination']//ul[@class='pagination clear']//li[last()-1]//span/text()").extract_first()
        page_num = int("".join(page_num).strip())
        # page_num = int(page_num)
    except NoSuchElementException as e:
        print("改商家没有用户评论信息")
        os._exit(0)

    # 当有用户评论数据，每页每页的读取用户数据
    if (page_num):
        i = 1
        number_pattern = re.compile(r"\d+\.?\d*")
        chinese_pattern = re.compile(u"[\u4e00-\u9fa5]+")
        illegal_str = re.compile(u'[^0-9a-zA-Z\u4e00-\u9fa5.，,。？“”]+', re.UNICODE)
        while (i <= page_num):
            # 获取评论区元素
            all_evalutes = sel.xpath(
                "//div[@id='app']//div[@class='comment']//div[@class='com-cont']//div[2]//div[@class='list clear']")
            for item in all_evalutes:
                # 获取用户昵称
                user_name = item.xpath(".//div[@class='info']//div[@class='name']/text()").extract()[0]
                # 获取用户评价星级
                star = item.xpath(
                    ".//div[@class='info']//div[@class='source']//div[@class='star-cont']//ul[@class='stars-ul stars-light']/@style").extract_first()
                starContent = "".join(star).strip()
                starPx = number_pattern.search(starContent).group()
                starNum = star_num(starPx)
                # 获取评论时间
                comment_time = "".join(
                    item.xpath(".//div[@class='info']//div[@class='date']//span/text()").extract_first()).strip()
                evaluate_time = chinese_pattern.sub('-', comment_time, 3)[:-1] + ' 00:00:00'
                # 获取评论内容
                comment_content = "".join(
                    item.xpath(".//div[@class='info']//div[@class='desc']/text()").extract_first()).strip()
                comment_filter_content = illegal_str.sub("", comment_content)
                # 如果有图片，获取图片
                image_container = item.xpath(
                    ".//div[@class='noShowBigImg']//div[@class='imgs-content']//div[contains(@class, 'thumbnail')]//img/@src").extract()
                image_list = json.dumps(image_container)

                Evaluate.insert(merchant_id=merchant_id, user_name=user_name, evaluate_time=evaluate_time,
                                content=comment_filter_content, star=starNum, image_list=image_list).execute()
            i = i + 1
            if (i < page_num):
                next_page_ele = browser.find_element_by_xpath(
                    "//div[@id='app']//div[@class='mt-pagination']//span[@class='iconfont icon-btn_right']")
                next_page_ele.click()
                time.sleep(10)
                sel = Selector(text=browser.page_source)

if __name__ == "__main__":
    parse("5451106")

3.1 启动webdriver并设置优化参数

为了让爬虫更加通用，我们的解析函数通过接收商家"参数id"来摘取不同商家的网页内容。selenium通过webdriver驱动web浏览器:

 weblink = "https://www.meituan.com/meishi/{}/".format(merchant_id)
    # 启动selenium
    browser = webdriver.Chrome(executable_path="/Users/guozhaoran/python/tools/chromedriver", options=chrome_options)
    browser.get(weblink)

其中executable_path就是之前我们下载好的相关版本的chromedriver可执行文件，另外selenium启动web浏览器之前还可以设置一些参数：

chrome_options = Options()

# 设置headless模式，这种方式下无启动界面，能够加速程序的运行
# chrome_options.add_argument("--headless")
# 禁用gpu防止渲染图片
chrome_options.add_argument('disable-gpu')
# 设置不加载图片
chrome_options.add_argument('blink-settings=imagesEnabled=false')

设置–headless可以让chrome不启动前台界面运行，有点类似于守护进程，不过在调试代码的过程中我们可以不设置这个参数，这样就能看到程序对浏览器中的网页具体进行了哪些操作。另外我们还可以通过disable-gpu、blink-settings=imagesEnabled=false使浏览器解析网页过程中不加载图片来提高浏览器渲染网页的速度；因为我们数据中存储的图片数据也只是路径而已。selenium做爬虫的一个缺点是效率比较低，爬取速度慢，但是通过设置这些优化参数，也是可以极大提升爬虫抓取速度的。

3.2 提取商家的基本信息

前边提到过，为了不重复爬取数据，我们会对要抓取的商家进行hash校验:

# 不重复爬取数据
    hash_weblink = hashlib.md5(weblink.encode(encoding='utf-8')).hexdigest()
    existed = Merchant.select().where(Merchant.website_address_hash == hash_weblink)
    if (existed):
        print("数据已经爬取")
        os._exit(0)

如果商家数据没有被爬取过，我们就获取到网页数据进行解析：

 time.sleep(2)
    # print(browser.page_source)  #获取到网页渲染后的内容
    sel = Selector(text=browser.page_source)

sleep两秒是因为browser对象解析网页需要时间，不过这个时间一般会很快，这里是为了使程序更加稳妥；之后构造一个选择器对页面数据进行解析：

 # 提取商家的基本信息
    # 商家名称
    name = "".join(sel.xpath("//div[@id='app']//div[@class='d-left']//div[@class='name']/text()").extract()).strip()
    detail = sel.xpath("//div[@id='app']//div[@class='d-left']//div[@class='address']//p/text()").extract()
    address = "".join(detail[1].strip())
    mobile = "".join(detail[3].strip())
    business_hours = "".join(detail[5].strip())
    # 保存商家信息
    merchant_id = Merchant.insert(name=name, address=address, website_address=weblink,
                                  website_address_hash=hash_weblink, mobile=mobile, business_hours=business_hours
                                  ).execute()

解析商家基本信息是通过xpath语法定位到相关元素然后提取文本信息，为了保证提取的数据都是不为空的字符串，进行了字符串拼接；最后将解析到的数据插入到商家数据表，peewee的insert方法返回了主键id,在后边采集数据入库时会使用到。

3.3 提取商家特色菜信息

提取商家特色菜信息逻辑比较简单，提取出来的数据返回一个list，python解析数据类型非常的方便，不过数据入库时有不同的方案，可以批量插入也可以循环遍历列表插入，这里我们采用批量插入。这样效率会更高。

# 获取推荐菜信息
    recommended_dish_list = sel.xpath(
        "//div[@id='app']//div[@class='recommend']//div[@class='list clear']//span/text()").extract()

    # 遍历获取到的数据，批量插入数据库
    dish_data = [{
        'merchant_id': merchant_id,
        'name': i
    } for i in recommended_dish_list]

    Recommended_dish.insert_many(dish_data).execute()

    # 也可以遍历list，一条条插入数据库
    # for dish in recommended_dish_list:
    #     Recommended_dish.create(merchant_id=merchant_id, name=dish)

3.4 分页提取用户评论信息

用户信息的提取是数据抓取中最难的部分了，基本思路就是我们首先查看有多少页的用户评论，然后再一页一页的解析用户评论信息。期间我们可以通过selenium模拟浏览器的点击事件进行翻页，入库的时候还要注意对文本进行清洗，因为评论中很多的表情字符是不符合数据表字段设计的编码规范的，另外点击了下一页之后，程序一定要sleep一段时间，因为网站的数据发生了更新，要进行页面数据的重新获取。我们先来看看如何获取一共有多少页的用户评论数据，网站的分页图如下:

这里我们重点关注两个按钮，一个是下一页，另一个是最后一页的数字，这是我们想要的信息，不过有些商家可能没有相关的用户评论，页面上也没有相关的元素，程序还是要做一下兼容性处理的：

 # 查看链接一共有多少页的评论
    page_num = 0
    try:
        page_num = sel.xpath(
            "//div[@id='app']//div[@class='mt-pagination']//ul[@class='pagination clear']//li[last()-1]//span/text()").extract_first()
        page_num = int("".join(page_num).strip())
        # page_num = int(page_num)
    except NoSuchElementException as e:
        print("改商家没有用户评论信息")
        os._exit(0)

接下来就是像获取商场特色菜一样获取一条条的评论数据了，只是过程比较繁琐而已，我们的基本思路就是这样：

    if (page_num):
        i = 1
          ... 
        while (i <= page_num):
           ...
            i = i + 1
            if (i < page_num):
                next_page_ele = browser.find_element_by_xpath(
                    "//div[@id='app']//div[@class='mt-pagination']//span[@class='iconfont icon-btn_right']")
                next_page_ele.click()
                time.sleep(10)
                sel = Selector(text=browser.page_source)

我们判断程序解析是否到了最后一页，如果没有，通过模拟点击下一页获得新页面，程序sleep是为了给浏览器解析新页面数据留下时间。详细的解析过程我们挑几个重点说一下：

获取用户评论星级并不是直接获取到的，而是通过获取到星级评级元素的css宽度，通过函数计算得到的：

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun，784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容
# 通过页面展示的像素数计算星级
def star_num(num):
    numbers = {
        "16.8": 1,
        "33.6": 2,
        "50.4": 3,
        "67.2": 4,
        "84": 5
    }

    return numbers.get(num, 0)

    ...
    # 获取用户评价星级
                star = item.xpath(
                    ".//div[@class='info']//div[@class='source']//div[@class='star-cont']//ul[@class='stars-ul stars-light']/@style").extract_first()
                starContent = "".join(star).strip()
                starPx = number_pattern.search(starContent).group()
                starNum = star_num(starPx)

用户的评论内容可能含有非法字符，程序通过正则表式来过滤，正则表达式一般使用python中的re模块，预先编译能提高性能，另外这些操作要放在while,for这些循环外边：

number_pattern = re.compile(r"\d+\.?\d*")
        chinese_pattern = re.compile(u"[\u4e00-\u9fa5]+")
        illegal_str = re.compile(u'[^0-9a-zA-Z\u4e00-\u9fa5.，,。？“”]+', re.UNICODE)
         while (i <= page_num):
         ...
        comment_content = "".join(
                    item.xpath(".//div[@class='info']//div[@class='desc']/text()").extract_first()).strip()
                comment_filter_content = illegal_str.sub("", comment_content)

用户评论时图片可能有多张，我们只获得图片路径，以json压缩的形式保存到数据表字段中：

 image_container = item.xpath(
                    ".//div[@class='noShowBigImg']//div[@class='imgs-content']//div[contains(@class, 'thumbnail')]//img/@src").extract()
                image_list = json.dumps(image_container)

4.反思总结

下边是程序运行过程中数据抓取的截图：

程序的思路很简洁，真实的企业应用中，可能会更多的考虑爬虫的效率和稳定性。一般linux服务器下程序发生错误，都会记录有相关的日志，selenium也只能是无界面的运行，程序中没有用到太多的高级特性，其实一个爬虫架构中要包含的技术点有很多，比如多线程的数据爬取，还有针对验证码反爬的验证（本示例中第一次打开美团页面也需要验证，我手动处理了一次）等等，这里算是起一个抛砖引玉的目的吧。不过程序中使用到的文本处理技巧、数据分析提取等都是爬虫中经常会使用到的，很高兴在这里和大家一块分享。

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts