cinema这么卷

Python爬虫入门结课报告

文章目录

前言
一、Python爬虫入门课程心得
二、pip模块
三、实验内容
- 实验1--单个网页爬虫
- 实验2--多个站点循环爬取数据
- - 1.建立爬虫项目
  - 2.配置Scrapy框架
  - - （1）items文件的配置
    - （2）middlewares文件的配置
    - （3）pipelines文件的配置
    - （4）settings文件的配置
  - 3.创建配置爬虫news文件
  - 4.开始爬取
  - 5.爬取结果
- 实验3--Gerapy的搭建流程
- - 1.部署流程
  - 2.主机管理
  - 3.项目管理
  - 4.任务管理
  - 5.爬取结果

前言

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
通俗地讲，我们把互联网比作一张大蜘蛛网，每个站点资源比作蜘蛛网上的一个结点，爬虫就像一只蜘蛛，按照设计好的路线和规则在这张蜘蛛网上找到目标结点，获取资源。

在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 http://image.baidu.com/ ，我们会看到几张图片以及百度搜索框，类似下面图片这样：

这个过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器 HTML、JS、CSS 等文件，浏览器解析出来，用户便可以看到形形色色的图片了。
因此，用户看到的网页实质是由 HTML 代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。

而本次报告将从人民网单个网页"http://health.people.com.cn/GB/408568/index.html"和健康时报网"http://www.jksb.com.cn/index.htm"多个网页进行爬取。

一、Python爬虫入门课程心得

在学习爬虫之前只对爬虫有个概念性的认识。通过向服务器发送请求获取服务器传回信息，再根据其提取所需的信息。原理虽然简单，但是涉及的细节非常多，从一个坑爬出来又掉进另一个坑。

早在这门课程开启之前，我们学过一门课程叫做–Python数据仓库与数据挖掘。天真的我以为又是一门大致相同的课程，但随着课堂的深入，我逐渐对爬虫有了新的、更深刻的认识与理解。

首先，我先说明一下这门课程与众不同的教学方式：这门课程并没有像我们以往的那些编程语言课程一样，拿着书本去背很多的繁琐的概念。该课程老师带领我们直接上手操作，提前让我们了解以后工作的真实场景。这种授课方式极大的激发了我们的兴趣，调动了我们的积极性。

其次，在本学期学习中我渐渐了解到爬虫的学习并不是像表面那么简单，其中有很多细节和方法我们很容易忽略，起初我认为爬虫只是简单的调用一些包、库就能轻松爬取到数据，但是在实操中却出现了各种问题。比如在最初环境配置上、安装使用navicat、连接MongoDB数据库、第三方库安装上等，爬虫很多时候需要安装第三方库，但经常在安装成功后，程序并不能找到模块，原来我未在环境变量中添加pip的路径，这就等同于没有下载。当然解决了这些问题也只是跨入了爬虫学习的门槛。那时我天真的认为用第三方库或者现成的代码就能顺利爬到我想要的数据，随后的问题是为什么我的爬虫只能爬取一次，爬出来的结果和我打开的网页并不一样，可能会被有些网页监测到而进行伪装等。我才意识到原来爬虫并不是那么简单，要提前进行一些基础的学习并了解其整体流程而不是边写边问，事倍功半。

当然，在这两次的实验项目上我都出现了大大小小的问题。pycharm配置出现问题，老师告诉我换了社区版pycharm；Gerapy代码报错，老师给出了解决方案并进行细心地讲解；还有一些小的代码错误，直接一键百度也基本都能解决。所以，学习编程语言不能自己在那里死抠，要利用好周边的学习资源。老师也讲过他当时自学就走了很多弯路。所以，老师的存在以及百度让我在爬虫这条路上少走了很多弯路。而且，老师的课程还录制下来供我们观看，我的最后一次实验就是反复看老师录制的学习视频以及老师发布的学习文章一步一步完成的。

总之

不要急于求成，编程虽然不难，但也没有那么简单，不要想着速成，特别是对于计算机基础不是很好的人。
学习的过程中可能会遇到很多困难，或许会有很多你没有接触的东西冒出来，善用百度谷歌，一个个问题地解决，缺什么补什么。
对于初学者来讲，最重要的不是去学各种吊炸天的框架，追最新的技术。技术，框架是学不完的，永远都会层出不穷，最重要的是把基础学好。很多时候你有一个问题解决不了，都是你某些方面的知识缺了。慢慢来，不要急，随着学习的深入，再回过头来看以前的问题，会有豁然开朗的感觉。
一定要动手做，找点成就感，对你继续做下去有很大的促进作用。不然的话，遇到点困难很容易就放弃了。

二、pip模块

pip模块	简介
pandas	Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
BeautifulSoup	beautifulsoup是一个解析器，可以特定的解析出内容，省去了我们编写正则表达式的麻烦。是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式。
numpy	NumPy是Python中科学计算的基础包。它是一个Python库，提供多维数组对象，各种派生对象（如掩码数组和矩阵），以及用于数组快速操作的各种API，有包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数，基本统计运算和随机模拟等等。 NumPy包的核心是 ndarray 对象。
requests	requests是一个很实用的Python HTTP客户端库，编写爬虫和测试服务器响应数据时经常会用到，Requests是Python语言的第三方的库，专门用于发送HTTP请求
urllib	urllib库是Python内置的HTTP请求库。urllib模块提供的上层接口，使访问www和ftp上的数据就像访问本地文件一样。
pymysql	PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库，Python2中则使用mysqldb。 PyMySQL 遵循 Python 数据库 API v2.0 规范，并包含了 pure-Python MySQL 客户端库。
pymongo	pymongo是python访问MongoDB的模块，使用该模块，我们定义了一个操作MongoDB的类PyMongoClient，包含了连接管理、集合管理、索引管理、增删改查、文件操作、聚合操作等方法。
scrapy	Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。
gerapy_auto_extractor	是一个基于 Scrapy、Scrapyd 的分布式爬虫管理框架，自动提取器模块。
gerapy	是一个分布式爬虫管理框架。能帮助我们：1. 更方便地控制爬虫运行 2. 更直观地查看爬虫状态 3. 更实时地查看爬取结果 4. 更简单地实现项目部署 5. 更统一地实现主机管理
Scrapyd	Scrapyd是一个用来部署和运行Scrapy项目的应用，由Scrapy的开发者开发。其可以通过一个简单的Json API来部署（上传）或者控制你的项目。
sqlalchemy	SQLAlchemy是 Python 编程语言下的一款开源软件。提供了SQL工具包及对象关系映射（ORM）工具，使用 MIT许可证发行。
selenium	Selenium是一个用于Web应用程序测试的工具。

三、实验内容

实验1–单个网页爬虫

流程描述：
1、导入抓取与存储数据相关的库
2、访问目标页面信息
3、获取目标内容数据列表
4、将数据列表转换成DataFrame形式
5、连接Mysql数据库
6、在Mysql数据库中创建存储数据的数据库和表
7、将Dataframe形式数据存入表
8、连接MongoDB数据库并创建数据库和表
9、将Dataframe形式数据转化成Json格式
10、将Json格式数据插入表中
11、最后两个库导入完成

import pandas as pd
import numpy as np
from pandas import DataFrame
import requests
from bs4 import BeautifulSoup
import pandas as pd
from urllib import parse
import pymysql
from sqlalchemy import create_engine
import sqlalchemy
import json
import pymongo
#调用数据包

url = "http://health.people.com.cn/GB/408568/index.html"
html = requests.get(url)
html.encoding = "GB2312"
#对爬取网站进行解码

soup = BeautifulSoup(html.text,'lxml')
list
data = []
for i in soup.find_all("div",class_="newsItems"):
    title = i.a.text
    date = i.div.text
    url = parse.urljoin(url,i.a["href"])
    print(title,date,url)
    data.append((title,date,url))
#调用BeautifulSoup对该网页进行爬取

df = pd.DataFrame(data,columns=["title","date","url"])
df
#将爬取数据转换成df数据并定义标题

sql = 'insert into qiushi(title,date,url) values(%s,%s,%s) charset=utf8'
engine = create_engine('mysql+pymysql://root:123456@localhost/test1?charset=utf8')
df.to_sql( 'newlist1', con=engine, if_exists='append')  #数据写入数据库
#运用sql、engine将数据写入数据库

client = pymongo.MongoClient('127.0.0.1',27017) #连接mongodb
database = client["NewsData"] #建立数据库
table = database["News"] 
data_ = json.loads(df.T.to_json())
data_
#连接mongodb建立数据库建立集合并将爬取数据存入该集合

Mysql库结果展示mongodb库结果展示

实验2–多个站点循环爬取数据

1.建立爬虫项目

scrapy startproject NewsData

2.配置Scrapy框架

（1）items文件的配置

# -*- coding: utf-8 -*-
# Define here the models for your scraped items
import scrapy
class NewsdataItem(scrapy.Item):
    title = scrapy.Field()  #文章标题
    url = scrapy.Field()  #文章链接
    date = scrapy.Field()  #发布日期
    content = scrapy.Field()  #文章正文
    site = scrapy.Field()
    item = scrapy.Field()
    student_id = scrapy.Field()

（2）middlewares文件的配置

# 添加Header和IP类
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware
from scrapy.utils.project import get_project_settings
import random

settings = get_project_settings()


class RotateUserAgentMiddleware(UserAgentMiddleware):
    def process_request(self, request, spider):
        referer = request.url
        if referer:
            request.headers["referer"] = referer
        USER_AGENT_LIST = settings.get('USER_AGENT_LIST')
        user_agent = random.choice(USER_AGENT_LIST)
        if user_agent:
            request.headers.setdefault('user-Agent', user_agent)
            print(f"user-Agent:{user_agent}")

（3）pipelines文件的配置

# 添加必备包和加载设置
import pymongo
from scrapy.utils.project import get_project_settings
settings = get_project_settings()
class NewsdataPipeline:
    # class中全部替换
    def __init__(self):
        host = settings["MONGODB_HOST"]
        port = settings["MONGODB_PORT"]
        dbname = settings["MONGODB_DATABASE"]
        sheetname = settings["MONGODB_TABLE"]
        #username = settings["MONGODB_USER"]
        #password = settings["MONGODB_PASSWORD"]
        # 创建MONGODB数据库链接
        #client = pymongo.MongoClient(host=host, port=port, username=username, password=password)
        client = pymongo.MongoClient(host=host, port=port)
        # 指定数据库
        mydb = client[dbname]
        # 存放数据的数据库表名
        self.post = mydb[sheetname]
    def process_item(self, item, spider):
        data = dict(item)
        # 数据写入
        self.post.insert_one(data)
        return item

（4）settings文件的配置

将ROBOTSTXT_OBEY=True改为False

DOWNLOADER_MIDDLEWARES = {
    #'NewsData.middlewares.NewsdataDownloaderMiddleware': 543,
    'NewsData.middlewares.RotateUserAgentMiddleware': 543,
}

ITEM_PIPELINES = {
    'NewsData.pipelines.NewsdataPipeline': 300,
}

USER_AGENT_LIST = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
MONGODB_HOST = "localhost"  # 数仓IP
MONGODB_PORT = 27017  # 数仓端口号
MONGODB_DATABASE = "NewsData"  # 数仓数据库
MONGODB_TABLE = "News_Process_A"  # 数仓数据表单

添加MONGODB数仓设置

3.创建配置爬虫news文件

我爬取的网站为：健康时报网

# -*- coding: utf-8 -*-
import scrapy
from NewsData.items import NewsdataItem
from bs4 import BeautifulSoup
from gerapy_auto_extractor.extractors import *
from urllib import parse

class NewsSpider(scrapy.Spider):
    name = 'news'
    page_link = set()
    content_link = set()
    allowed_domains = []
    start_urls = [

        ('http://www.jksb.com.cn/html/news/knowledge/', '健康时报', '医药-新知', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/news/industry/', '健康时报', '医药-产业', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/news/hospital/', '健康时报', '医药-医院', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/news/policy/', '健康时报', '医药-政策', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/news/academic/', '健康时报', '医药-学术', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/life/food/', '健康时报', '生活-饮食', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/life/chinesemedicine/', '健康时报', '生活-中医', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/life/nvxing/', '健康时报', '生活-女性', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/life/baby/', '健康时报', '生活-婴幼', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/life/sex/', '健康时报', '生活-两性', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/growth/growthhot/', '健康时报', '生长发育-热点', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/growth/growthnutrition/', '健康时报', '生长发育-营养', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/growth/growthsport/', '健康时报', '生长发育-运动', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/growth/growthmental/', '健康时报', '生长发育-心理', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/growth/growthstory/', '健康时报', '生长发育-成长故事', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/activities/focusing/', '健康时报', '活动-聚焦', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/activities/review/', '健康时报', '活动-回顾', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/supervision/exposure/', '健康时报', '监督-医药曝光', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/supervision/consumer/', '健康时报', '监督-消费困惑', '20201896王瑚'),
        ('http://www.jksb.com.cn/html/supervision/domestic/', '健康时报', '监督-企业监督', '20201896王瑚'),
    ]

调用scrapy数据包，载入items文件中的newsdataitem字典，在载入上述相关的数据包
定义一个新的scrapy类，编辑项目名称，爬取网站链接放入start_urls中
在健康时报网找到需要爬取的网页url、title、content的xpath写入

    def start_requests(self):
        for url in self.start_urls:
            item = NewsdataItem()
            item["site"] = url[1]
            item["item"] = url[2]
            item["student_id"] = url[3]

            yield scrapy.Request(url=url[0], meta={"item": item}, callback=self.parse)

    def parse(self, response):
        item = response.meta["item"]
        site_ = item["site"]
        item_ = item["item"]
        student_id_ = item["student_id"]


        title_list = response.xpath('//div[@class="left"]/ul/li//h1/a/text()').extract()
        url_list = response.xpath('//div[@class="left"]/ul/li//h1/a/@href').extract()
        date_list = response.xpath('//div[@class="info"]/span/text()').extract()


        for each in range(len(title_list)):
            item = NewsdataItem()
            item["title"] = title_list[each]
            #item["url"] = "https://www.msweekly.com/" + str(url_list[each])
            item["url"] = url_list[each]
            item["site"] = site_
            item["item"] = item_
            item["student_id"] = student_id_
            item["date"] = date_list[each]

            yield scrapy.Request(url=item["url"], meta={"item": item}, callback=self.parse_detail)

从目标网页进行检查，找出其中的title_list、url_list、date_list写入，并定义一个学号字段也写入其中

   def parse_detail(self, response):
        # data = extract_detail(response.text)

        item = response.meta["item"]
        strs = response.xpath('//div[@class="content"]').extract_first()
        item["content"] = BeautifulSoup(strs, 'lxml').text
        return item

next_url = response.xpath('//div[@id="page"]/a[last()]/@href').extract_first()

        if next_url:
            next_url = next_url
            self.page_link.add(next_url)
            yield scrapy.Request(next_url, meta={"item": item}, callback=self.parse)

这里因为爬的数据不够我添加了一段自动翻页代码。从目标网页检查里找到页码那一段url写入，从而实现自动翻页爬取。

   def parse_detail(self, response):
        item = response.meta["item"]
        strs = response.xpath('//div[@class="content"]').extract_first()
        item["content"] = BeautifulSoup(strs, 'lxml').text
        return item

运用response对meta进行解析，定义一个字典item。将网页文章内容放到定义好的strs里，调用soup进行解析，解析完在放进定义的content中，最后返回item。

4.开始爬取

scrapy crawl news

在NewsData目录下利用powershell进行爬取

powershell爬取过程

5.爬取结果

mongodb库结果展示

实验3–Gerapy的搭建流程

爬虫我们按照之前的内容写好了之后保证所有spider文件可以执行就可以了。接下来我们部署到远程的服务器上然后进行定时执行。

1.部署流程

gerapy 安装

pip install gerapy

scrapyd 安装

pip install scrapyd

创建工作的文件目录，该目录下初始化项目用命令行执行

gerapy init

初始化数据库

cd gerapy
gerapy migrate

创建用户（默认用户名账号密码都是admin）

gerapy initadmin

然后就可以启动服务了，启动服务（可指定url和port）

gerapy runserver 0.0.0.0:8000

进入管理平台，浏览器输入"http://127.0.0.1.8000"

2.主机管理

输入账号密码进入gerapy，进行主机管理设置

输入名称：localhost；ip：127.0.0.1；端口：6800，进行更新
更新后找到scrapyd.exe，在该目录下用命令行打开

启动服务

状态显示正常

3.项目管理

将之前编辑好的NewsData文件放入到新文件夹中的projects里

刷新一下项目管理

下面进行项目部署
描述输入NewsData（注意不能是中文）点击重新打包

打包成功后点击部署

部署成功
项目管理设置结束

4.任务管理

点击创建任务–输入名称–项目–爬虫–主机
调度方式我选择的inteval–1分钟爬一次，时区选择hongkong
最后点击创建


然后点击状态查看爬取进程

等待中

定时爬取成功

5.爬取结果

爬了三次第11页的结果
实验完成

基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
Python标准模块--importlib
作者：zhbzz2007出处：http://www.cnblogs.com/zhbzz2007欢迎转载，也请保留这段声明。谢谢！1模块简介Python提供了importlib包作为标准库的一部分。目的就是提供Python中import语句的实现（以及__import__函数）。另外，importlib允许程序员创建他们自定义的对象，可用于引入过程（也称为importer）。什么是imp？另外有一个
Python模块的动态加载机制 weixin_30632089 运维 python
Python在运行环境初始化中，就将sysmodule加载到了内存中，实际上，Python是将一大批的module加载到了内存中。但是为了使local名字空间能够达到最干净的效果，Python并没有将这些符号暴露在当前的local名字空间中，而是需要用户显式的通过import机制通知Python：需要将这个符号引入到local名字空间中。这些预先被加载进内存的module存放在sys.module
python学习打卡：DAY 18 推断聚类后簇的类型西西西仓鼠 python训练营 python 学习聚类
@浙大疏锦行聚类后的分析：推断簇的类型知识点回顾：推断簇含义的2个思路：先选特征和后选特征通过可视化图形借助ai定义簇的含义科研逻辑闭环:通过精度判断特征工程价值作业：参考示例代码对心脏病数据集采取类似操作，并且评估特征工程后模型效果有无提升。在聚类分析中，推断簇的类型是理解数据内在结构和业务意义的关键步骤。以下是系统化的推断方法及常见簇类型的总结：一、簇的基本类型明显分离的簇特征：不同簇中任意两
python 协程进阶 cliffordl async python python 开发语言
python协程实现python协程进阶python生成器的作用协程在多个模型流式输出中的使用实例文章目录1.协程基础1.1.协程名词解释1.2.基本工作流程1.3.async协程执行1.3.1.协程顺序执行（asyncio.run）1.3.2.协程顺序执行（await）1.3.3.协程同步执行（asyncio.create_task）2.可等待对象（Awaitables）2.1.Coroutin
python 基于 httpx 的流式请求
文章目录1.环境介绍2.同步客户端2.1.面向过程2.1.1.流式输出2.1.2.非流式输出2.2.面向对象3.异步客户端3.1.面向过程3.2.面向对象3.3.Attemptedtocallasynciteratoronanasyncstream.参考：https://www.jb51.net/article/262636.htm次要参考：https://blog.csdn.net/gitblo
Python实现动态加载模块的方法后端架构魔法构筑者 Python
在Python中，动态加载模块是一种常见的技术，它允许我们在运行时根据需要加载和使用模块，而不是在程序启动时就将所有模块都导入。这种方式可以提高程序的灵活性和性能。下面我将详细介绍几种实现动态加载模块的方法，并提供相应的源代码示例。使用importlib模块importlib是Python的一个内置模块，它提供了一些函数来实现动态加载模块。下面是一个简单的示例：importimportlibdef
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
Python打卡Day11 常见的调参方式
核心知识：1.模型=算法+实例化设置的外参（超参数）+训练得到的内参2.只要调参就需要考2次所以如果不做交叉验证，就需要划分验证集和测试集，但是很多调参方法中都默认有交叉验证，所以实际中可以省去划分验证集和测试集的步骤基线模型（基准模型）:首先运行一个使用默认参数的模型，记录其性能作为比较的基准。超参数调整数据1.网格搜索(GridSearchCV):-需要定义参数的网格（param_grid），
Python爬虫实战：深入无限滚动页面抓取原理与Playwright实现 Python爬虫项目 python 爬虫开发语言区块链 json
一、前言：无限滚动页面的挑战在现代Web开发中，「无限滚动（InfiniteScrolling）」早已取代了传统的分页模式。以微博热搜流、知乎首页、抖音推荐页为例，用户向下滚动时会自动加载更多内容，这种体验虽提升了交互性，却让传统爬虫面临巨大挑战：页面初始只加载一部分内容剩余内容由JavaScript在滚动事件中动态加载requests类爬虫无法感知页面行为为什么传统爬虫抓不到数据？因为页面数据不
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
YOLO V8+Python训练手写数字识别 yuanpan YOLO python 开发语言
以下是针对Windows11+Python环境的详细步骤说明，从数据集整理到模型训练，全部适配YOLOv8流程。1.数据集整理（MNIST→YOLO格式）1.1下载MNIST数据集MNIST数据集可通过Python直接下载（无需手动下载）：python复制fromtorchvision.datasetsimportMNISTimportos#自动下载MNIST数据集（图片和标签）train_dat
python学智能算法（二十七）|SVM-拉格朗日函数求解上西猫雷婶机器学习人工智能 python学习笔记支持向量机 python 机器学习算法人工智能
【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
Python importlib 动态加载 cliffordl python python 数据库开发语言
文章目录1.importlib库概述2.导入模块（import_module()）2.1.导入已安装的模块2.2.导入子模块2.3通过字符串变量导入模块3.重新加载模块（reload()）4.检查模块是否存在（find_spec()）5.获取模块路径（find_spec().origin）6.加载.py文件为模块（spec_from_file_location()）7.读取模块资源（importl
Python爬虫实战：研究Korean库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui korean
一、引言1.1研究背景与意义随着韩流文化在全球的传播，韩语网页内容急剧增加。韩国在科技、娱乐等领域的信息具有重要研究价值。然而，韩语独特的黏着语特性（如助词体系、词尾变化）给信息处理带来挑战。传统爬虫缺乏对韩语语言特点的针对性处理，本研究旨在开发一套完整的韩语网页内容分析系统，填补这一技术空白。1.2研究目标与方法研究目标：设计高效的韩语网页爬虫框架实现精准的韩语内容识别与处理构建多维度的韩语内容
Python爬虫实战：研究Genius库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 genius
1.引言在当今数字化时代，音乐数据的分析与挖掘成为了音乐学、计算机科学等领域的研究热点。歌词作为音乐的重要组成部分，蕴含着丰富的情感、文化和社会信息。通过对歌词数据的分析，可以揭示音乐风格的演变、流行趋势的变化以及社会情绪的波动等。Genius是一个专注于歌词解析与音乐知识分享的平台，拥有大量的歌词文本以及用户对歌词的注释和解读。Genius提供了API接口，允许开发者获取歌曲、艺术家和歌词等信息
【Python】通过注释插桩替换代码实现开源自动化 ChrisEighteen18 python python
需求提出在特定的标签注释后写上开源后的代码实现开源替换答疑解惑调用如下的代码即可实现defreplace_java_code_in_one_line_by_tag(patch_file_path,update_java_code_line_tag):"""本方法对包含update_java_code_line_tag的之前本行内所有内容进行删除操作;适用于对java文件的代码替换，即在包含upda
python量化实战_Python与量化投资从基础到实战.pdf weixin_39841709 python量化实战
作者：王小川出版发行:北京：电子工业出版社,2018.03ISBN号：978-7-121-33857-1页数：408原书定价:99.00开本:16开主题词:软件工具-程序设计-应用-投资中图法分类号:F830.59-39(经济->财政、金融->金融、银行->金融、银行理论)内容提要:本书主要讲解如何利用Python进行量化投资，包括对数据的获取、整理、分析挖掘、信号构建、策略构建、回测、策略分析等
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
Python量化实战：基于索提诺比率的价值投资策略回测量化价值投资入门到精通 python 网络开发语言 ai
Python量化实战：基于索提诺比率的价值投资策略回测关键词：Python量化分析、索提诺比率、价值投资策略、回测框架、风险调整收益、下行风险、量化实战摘要：本文深入探讨如何利用Python构建基于索提诺比率（SortinoRatio）的价值投资策略，并通过完整的回测框架验证策略有效性。首先解析索提诺比率的数学原理与核心优势，对比传统夏普比率的差异；其次详细演示价值投资策略的构建步骤，包括低估值因
Python+Allpairspy实战：高效正交法测试用例设计全攻略聪明的一休哥哥测试开发技术大全 python 测试用例自动化测试
引言：正交法的核心价值正交实验法是一种通过科学筛选参数组合来优化测试用例设计的技术。其核心思想是从所有可能的参数组合中，选择最具代表性的N个组合进行测试，既能显著减少用例数量（通常可减少30%-70%），又能保证覆盖关键场景。例如：传统全组合测试：3因素×3水平=27种组合正交法优化后：仅需4-9种组合即可覆盖核心场景1、Allpairspy库安装与基础使用1.1、安装命令pipinstallal
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
Python包高级开发技术：性能优化与系统集成软考和人工智能学堂 Python开发经验深度学习强化学习 python 性能优化开发语言
引言掌握Python包的高级开发技术是构建工业级应用的关键。本文将深入探讨Python包的性能优化策略、C扩展开发、异步IO集成以及跨语言互操作等高级主题，帮助你将Python包提升到专业水平。1.性能优化技术1.1性能分析工具链#性能分析工具矩阵perf_tools={'cProfile':'标准库分析器，提供函数级耗时统计','line_profiler':'行级分析器，需要@profile装
2、Python 测试全攻略：自动化与驱动开发辣条鉴定师 Python测试自动化测试测试驱动开发
Python测试全攻略：自动化与驱动开发1.测试的乐趣与收益编程过程中，测试常被视为徒劳或浪费时间的事。但实际上，测试可以变得轻松有趣且富有成效。比如回忆一下曾遇到的恼人bug，可能是数据库模式不匹配、数据结构错误等。若有一小段代码能在恰当时间捕捉到该bug并告知你，而所有代码都配有这样易执行的测试代码，那bug存活时间会大大缩短。基本思路是用简单易写的代码片段告知计算机期望结果，让计算机在编码过
华为OD机考2025B卷 - 表达式括号匹配（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述(1+(2+3)*(3+(8+0))+1-2)这是一个简单的数学表达式,今天不是计算它的值,而是比较它的括号匹配是否正确。前面这个式子可以简化为(()(()))这样的括号我们认为它是匹配正确的,而((())这样的我们就说他是错误的。注意括号里面的表达式可能是错
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
Python.03 唯怡委员 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程是Linux中资源分配的基本单位，代表程序在内存中的执行实例，拥有独立的地址空间和系统资源。通过ps、top命令查看，kill命令终止，或使用systemctl管理服务进程。线程是进程内的轻量级执行单元，共享进程资源（如内存），切换开销小。Linux通过POSIX线程（pthread）库实现，可用htop查
Python.01 唯怡委员 python
Python.011.技术面试题（1）TCP与UDP的区别是什么？（2）DHCP和DNS的作用是什么？（3）简述Linux文件系统的目录结构，其中/boot、/var、/usr目录的作用分别是什么？（4）Linux系统突然无法访问外网，但内网通信正常。请列出至少5个可能的故障点及排查步骤。2.HR面试题（1）假如你成功入职，却发现直属领导能力远不如你，你会如何与他共事？（2）你简历上的经历并不突出
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

Python爬虫入门结课报告

文章目录

前言

一、Python爬虫入门课程心得

二、pip模块

三、实验内容

实验1–单个网页爬虫

实验2–多个站点循环爬取数据

1.建立爬虫项目

2.配置Scrapy框架

（1）items文件的配置

（2）middlewares文件的配置

（3）pipelines文件的配置

（4）settings文件的配置

3.创建配置爬虫news文件

4.开始爬取

5.爬取结果

实验3–Gerapy的搭建流程

1.部署流程

2.主机管理

3.项目管理

4.任务管理

5.爬取结果

你可能感兴趣的:(python,爬虫,数据挖掘)