dpq666dpq666

Python-Level5-day01:机器学习基本概念,几种数据预处理方法

一、人工智能课程概述

1. 什么是人工智能

人工智能（Artificial Intelligence）是计算机科学的一个分支学科，主要研究用计算机模拟人的思考方式和行为方式，从而在某些领域代替人进行工作.

2. 人工智能的学科体系

以下是人工智能学科体系图：

机器学习（Machine Learning）：人工智能的一个子学科，研究人工智能领域的基本算法、原理、思想方法，机器学习研究的内容在其它子学科都会用到
计算机视觉（Computer Vision）：研究计算机处理、识别、理解图像、视频的相关技术
自然语言处理（Natural Language Processing）：研究计算机理解人类自然语言的相关技术
语音处理：研究计算机理解识别、理解、合成语音的相关技术

3. 人工智能与传统软件的区别

传统软件：执行人的指令和想法，在执行之前人已经有了解决方案，无法超越人的思想和认识范围
人工智能：尝试突破人的思想和认识范围，让计算机学习到新的能力，尝试解决传统软件的难题

4. 课程介绍

1）课程内容

课程内容主要包括：

2）课程特点

内容多：包括机器学习、深度学习、计算机视觉、NLP、常用框架
难度大：学习难度较大，入门难、提高难、应用难
需要部分数学知识：记住结论、会调用API、能定性分析公式、初步的公式推导
需要反复学习：第一轮听懂主要内容、第二轮理解核心概念、第三轮熟悉代码编写、第四轮深入理解和应用
越学越深

3）学习方法

先听懂、重理解
先易后难，先听后写，先粗后细
跳过过难的知识点，抓大放小
多看不同作者的教材，多听不同老师的讲解

二、机器学习基本概念

1. 什么是机器学习

1975年图灵奖获得者、1978年诺贝尔经济学奖获得者、著名学者赫伯特.西蒙（Herbert Simon）曾下过一个定义：如果一个系统，能够通过执行某个过程，就此改进了它的性能，那么这个过程就是学习.由此可看出，学习的目的就是改善性能.

卡耐基梅隆大学机器学习和人工智能教授汤姆.米切尔（Tom Mitchell）在他的经典教材《机器学习》中，给出了更为具体的定义：对于某类任务（Task，简称T）和某项性能评价准则（Performance，简称P），如果一个计算机在程序T上，以P作为性能度量，随着经验（Experience，简称E）的积累，不断自我完善，那么我们称计算机程序从经验E中进行了学习.

例如，篮球运动员投篮训练过程：球员投篮（任务T），以准确率为性能度量（P），随着不断练习（经验E），准确率不断提高，这个过程称为学习.

2. 为什么需要机器学习

1）程序自我升级；

2）解决那些算法过于复杂，甚至没有已知算法的问题；

3）在机器学习的过程中，协助人类获得事物的洞见.

3. 机器学习的过程形式

1) 建模问题

所谓机器学习，在形式上可近似等同于在数据对象中通过统计、推理的方法，来寻找一个接受特定输入X，并给出预期输出Y功能函数f，即 Y = f(x). 这个函数以及确定函数的参数被称为模型.

2) 评估问题

针对已知的输入，函数给出的输出（预测值）与实际输出（目标值）之间存在一定误差，因此需要构建一个评估体系，根据误差大小判定函数的优劣.

3) 优化问题

学习的核心在与改善性能，通过数据对算法的反复锤炼，不断提升函数预测的准确性，直至获得能够满足实际需求的最优解，这个过程就是机器学习.

4. 机器学习的分类（重点）

1) 有监督、无监督、半监督学习

a) 有监督学习

在已知数据输出（经过标注的）的情况下对模型进行训练，根据输出进行调整、优化的学习方式称为有监督学习.即提供数据集的时候也提供答案，大量试错纠错具有机器学习能力提升。分类就是有监督学习。

b) 无监督学习

没有已知输出的情况下，仅仅根据输入信息的相关性，进行类别的划分.即提供数据，不告诉你数据答案，聚类是无监督学习的主要形式。

c) 半监督

先通过无监督学习划分类别，再人工标记通过有监督学习方式来预测输出.例如先无监督对相似的水果进行聚类，再通过有监督进行分类.

d) 强化学习

通过对不同决策结果的奖励、惩罚，使机器学习系统在经过足够长时间的训练以后，越来越倾向于接近期望结果的方向输出.

2) 批量学习、增量学习

a) 批量学习

将学习过程和应用过程分开，用全部训练数据训练模型，然后再在应用场景中进行预测，当预测结果不够理想时，重新回到学习过程，然后应用，如此循环.

b) 增量学习

将学习过程和应用过程统一起来，在应用的同时，以增量的方式不断学习新的内容，边训练、边预测。实际基本很少运用增量学习。

3) 基于模型学习、基于实例学习

a) 基于模型的学习

根据样本数据，建立用于联系输出和输出的某种数学模型，将待预测输入带入该模型，预测其结果. 例如有如下输入输出关系。一行是一个样本，一列是一个特征。

输入（x）	输出（y）
1	2
2	4
3	6
4	8

根据数据，得到模型 y = 2x。即从数据中找出规律（即数学模型）叫模型学习。

预测：输入9时，输出是多少？

b) 基于实例的学习

根据以往经验，寻找与待预测输入最接近的样本，以其输出作为预测结果（从数据中心找答案）. 例如有如下一组数据：

学历(x1)	工作经验(x2)	性别(x3)	月薪(y)
本科	3	男	8000
硕士	2	女	10000
博士	2	男	15000

预测：本科，3，男 ==> 薪资？即从数据当中找答案叫基于实例学习。

5. 机器学习的一般过程(重点)

数据收集，手段如手工采集、设备自动化采集、爬虫等

数据来源：历史交易遗留数据（价值最高）

爬虫互联网公开采集（价值不高）

公开数据集，用于学习研究（价值低）

购买数据（价值低）

自己采集，如拍照等（价值高）
数据清洗：数据规范、具有较大误差的、没有意义的数据进行清理（如统一度量等）或丢弃。

注：以上称之为数据处理，不是重点但要会。包括数据检索、数据挖掘、爬虫......

3.选择模型（算法）

4.训练模型

5.模型评估

6.测试模型（5 -6步可合二为一）

注：3~6步主要是机器学习过程与重点，包括算法、框架、工具等......

应用模型
模型维护升级优化

6. 机器学习的典型应用

股价预测
推荐引擎
自然语言处理
语音处理：语音识别、语音合成
图像识别、人脸识别
……

7. 机器学习的基本问题(重点)

1) 回归问题

根据已知的输入和输出，寻找某种性能最佳的模型，将未知输出的输入代入模型，得到连续的输出。特征过程：从数据中提取特征的过程，深度学习阶段就是机器自己提取特征例如：

根据房屋面积、地段、修建年代以及其它条件预测房屋价格
根据各种外部条件预测某支股票的价格
根据农业、气象等数据预测粮食收成
计算两个人脸的相似度

2) 分类问题

根据已知的输入和输出，寻找性能最佳的模型，将未知输出的输入带入模型，得到离散的输出，例如：

手写体识别（10个类别分类问题）
水果、鲜花、动物识别
工业产品瑕疵检测（良品、次品二分类问题）
识别一个句子表达的情绪（正面、负面、中性）

3) 聚类问题

根据已知输入的相似程度，将其划分为不同的群落，例如：

根据一批麦粒的数据，判断哪些属于同一个品种
根据客户在电商网站的浏览和购买历史，判断哪些客户对某件商品感兴趣
判断哪些客户具有更高的相似度

4) 降维问题

在性能损失尽可能小的情况下，降低数据的复杂度，数据规模缩小都称为降维问题.

8. 机器学习课程内容

三、数据预处理

1. 数据预处理的目的

1）去除无效数据、不规范数据、错误数据

2）补齐缺失值

3）对数据范围、量纲、格式、类型进行统一化处理，更容易进行后续计算

2. 预处理方法

1）标准化（均值移除）

让样本矩阵中的每一列的平均值为0，标准差为1. 如有三个数a, b, c，则平均值为：

$$
m = (a + b + c) / 3 \\ a' = a - m \\ b' = b - m \\ c' = c - m
$$

预处理后的平均值为0（自证为0）：

$$
(a' + b' + c') / 3 =( (a + b + c) - 3m) / 3 = 0
$$

标准差公式：s = sqrt(((a - m)^2 + (b - m)^2 + (c - m)^2)/3)

标准化处理后我们得到数据：

a'' =a'/ s

b'' = b'/ s

c'' = c' / s

s'' = sqrt(((a' / s)^2 + (b' / s) ^ 2 + (c' / s) ^ 2) / 3)

=sqrt((a' ^ 2 + b' ^ 2 + c' ^ 2) / (3 *s ^2))

=1（自证为1）

标准差：又称均方差，是离均差平方的算术平均数的平方根，用σ表示，标准差能反映一个数据集的离散程度，不改变数据的性质。

代码示例：

"""
数据预处理：标准化(均值移除)
均值移除：调整数据分布，不改变数据性质。以列为处理单位
         处理后每列均值为0，标准差为1

"""
import numpy as np  # 处理数组用
import sklearn.preprocessing as sp  # 通用机器学习库的预处理模块

# 定义样本数据：这里是库里面的数组，而非列表，返回一个对象。
raw_samples = np.array(
    [[3.0, -1.0, 2.0],
     [0.0, 4.0, 3.0],
     [1.0, -4.0, 2.0]]
)
std_samples = raw_samples.copy()  # 复制数组，不对原数组产生影响
for col in std_samples.T:  # 遍历数组每列,其中.T表示转置
    col_mean = col.mean()  # 求每列均值 col_mean是一个元素
    col_std = col.std()  # 求每列标准差
    col -= col_mean  # 每个元素减去均值  col 是
    col /= col_std  # 每个元素除以标准差
print(std_samples)
print()
print(std_samples.mean(axis=0))  # 列方向求均值 均是0
print(std_samples.std(axis=0))  # 列方向求标准差 均是1

我们也可以通过sklearn提供sp.scale函数实现同样的功能，如下面代码所示：

std_samples = sp.scale(raw_samples) # 求标准移除
print(std_samples)
print(std_samples.mean(axis=0))
print(std_samples.std(axis=0))

2）范围缩放

将样本矩阵中的每一列最小值和最大值设定为相同的区间，统一各特征值的范围.如有a, b, c三个数，其中b为最小值，c ‘ 为最大值，则：

$$
a' = a - b
$$

$$
b' = b - b
$$

$$
c' = c - b
$$

缩放计算方式如下公式所示：

$$
a'' = a' / c'
$$

$$
b'' = b' / c'
$$

$$
c'' = c' / c'
$$

计算完成后，最小值为0，最大值为1.以下是一个范围缩放的示例.

"""
02_min_max_scale_demo.py
范围缩放示例:以列为单位
范围缩放：将每列最小值转换为0，最大值转换为1
"""

import numpy as np
import sklearn.preprocessing as sp

# 定义样本
raw_samples = np.array(
    [[1.0, 2.0, 3.0],
     [4.0, 5.0, 9.0],
     [7.0, 8.0, 11.0]]
)
mms_samples = raw_samples.copy()  # 复制数组
for col in mms_samples.T:  # 遍历每一列
    col_min = col.min()  # 求每列最小值
    col_max = col.max()  # 求每列最大值
    col -= col_min  # 减去最小值
    col /= (col_max - col_min)  # 除max-min
print(mms_samples)

我们也可以通过sklearn提供的对象实现同样的功能，如下面代码所示：

# 根据给定范围创建一个范围缩放器对象
mms = sp.MinMaxScaler(feature_range=(0, 1))# 定义对象(修改范围观察现象.默认也是0-1之间)
# 使用范围缩放器实现特征值范围缩放
mms_samples = mms.fit_transform(raw_samples) # 缩放
print(mms_samples)

执行结果：

[[0.   0.   0.  ]
 [0.5  0.5  0.75]
 [1.   1.   1.  ]]

3）归一化

反映样本所占比率.用每个样本的每个特征值，除以该样本各个特征值绝对值之和.变换后的样本矩阵，每个样本的特征值绝对值之和为1.例如如下反映编程语言热度的样本中，2018年也2017年比较，Python开发人员数量减少了2万，但是所占比率确上升了：反应数据此消彼长的变化。

年份	Python（万人）	Java（万人）	PHP（万人）
2017	10	20	5
2018	8	10	1

归一化预处理示例代码如下所示：

"""
03_normalize_demo.py
归一化示例
归一化：将每行数值转换为百分比(0~1)，更好反应
       出数据占比的变化
"""
import numpy as np
import sklearn.preprocessing as sp

# 定义样本
raw_samples = np.array(
    [[10.0, 20.0, 5.0],
     [8.0, 10.0, 1.0]]
)
nor_samples = raw_samples.copy()  # 复制数组
for row in nor_samples:  # 遍历每行
    row /= abs(row).sum()  # 每个数字除以绝对值之和
print(nor_samples)

print("利用系统提供的API实现")
nor_samples = sp.normalize(raw_samples, norm="l1")
print(nor_samples)

在sklearn库中，可以调用sp.normalize()函数进行归一化处理，函数原型为：

sp.normalize(原始样本, norm='l2')
# l1: l1范数，除以向量中各元素绝对值之和
# l2: l2范数，除以向量中各元素平方之和

使用sklearn库中归一化处理代码如下所指示：

nor_samples = sp.normalize(raw_samples, norm='l1')
print(nor_samples) # 打印结果

4）二值化

根据一个事先给定的阈值，用0和1来表示特征值是否超过阈值.如考试及格判断。以下是实现二值化预处理的代码：

"""
04_binary_demo.py
二值化处理示例
二值化：将所有元素转换为两个相对的值中的一个
       可以是0/1, -1/1等
"""
import numpy as np
import sklearn.preprocessing as sp

# 定义样本
raw_samples = np.array([[65.5, 89.0, 73.0],
                        [55.0, 99.0, 98.5],
                        [45.0, 22.5, 60.0]])
bin_samples = raw_samples.copy()  # 复制数组
# 生成掩码
mask1 = bin_samples < 60  # 小于60的元素返回True
mask2 = bin_samples >= 60  # 大于等于60的元素返回True
print(mask1)  # 打印数组
print(mask2)  # 打印数组

# 掩码计算进行二值化
bin_samples[mask1] = 0  # mask1中为True的元素设为0
bin_samples[mask2] = 1  # mask2中为True的元素设为1
print(bin_samples)

同样，也可以利用sklearn库来处理：

bin = sp.Binarizer(threshold=59) # 创建二值化对象(注意边界值)
bin_samples = bin.transform(raw_samples) # 二值化预处理
print(bin_samples)

二值化编码会导致信息损失，是不可逆的数值转换.如果进行可逆转换，则需要用到独热编码.

5）独热编码

根据一个特征中值的个数来建立一个由一个1和若干个0组成的序列，用来序列对所有的特征值进行编码.例如有如下样本：

$$
\left[ \begin{matrix} 1 & 3 & 2\\ 7 & 5 & 4\\ 1 & 8 & 6\\ 7 & 3 & 9\\ \end{matrix} \right]
$$

对于第一列，有两个值，1使用10编码，7使用01编码

对于第二列，有三个值，3使用100编码，5使用010编码，8使用001编码

对于第三列，有四个值，2使用1000编码，4使用0100编码，6使用0010编码，9使用0001编码

编码字段，根据特征值的个数来进行编码，通过位置加以区分.通过独热编码后的结果为：

$$
\left[ \begin{matrix} 10 & 100 & 1000\\ 01 & 010 & 0100\\ 10 & 001 & 0010\\ 01 & 100 & 0001\\ \end{matrix} \right]
$$

使用sklearn库提供的功能进行独热编码的代码如下所示：

"""
05_one_hot_demo.py
独热编码示例
独热编码：将每个特征值转换为由一个1和一串0表示的
         形式，在某些情况计算更方便
"""
import numpy as np
import sklearn.preprocessing as sp

raw_samples = np.array([[1, 3, 2],
                        [7, 5, 4],
                        [1, 8, 6],
                        [7, 3, 9]])
encoder = sp.OneHotEncoder(
    sparse=False,  # 是否采用稀疏格式
    dtype="int32",  # 元素类型
    categories="auto")  # 自动产生编码值
# 编码
oh_samples = encoder.fit_transform(raw_samples)
print(oh_samples)
# 解码
print(encoder.inverse_transform(oh_samples))

执行结果：

[[1 0 1 0 0 1 0 0 0]
 [0 1 0 1 0 0 1 0 0]
 [1 0 0 0 1 0 0 1 0]
 [0 1 1 0 0 0 0 0 1]]
 
[[1 3 2]
 [7 5 4]
 [1 8 6]
 [7 3 9]]

6）标签编码

根据字符串形式的特征值在特征序列中的位置，来为其指定一个数字标签，用于提供给基于数值算法的学习模型.与独热编码一样，皆可以编码解码可逆过程。代码如下所示：

# 标签编码
import numpy as np
import sklearn.preprocessing as sp

raw_samples = np.array(['audi', 'ford', 'audi',
                        'bmw','ford', 'bmw'])

lb_encoder = sp.LabelEncoder() # 定义标签编码对象
lb_samples = lb_encoder.fit_transform(raw_samples) # 执行标签编码
print(lb_samples)

print(lb_encoder.inverse_transform(lb_samples)) # 逆向转换

执行结果：

[0 2 0 1 2 1]
['audi' 'ford' 'audi' 'bmw' 'ford' 'bmw']

四、练习

1）判断以下哪个是回归问题，哪个是分类问题，哪个是聚类问题：

判断一封邮件是否为垃圾邮件（分类）
在图像上检测出人脸的位置（回归）
视频网站根据用户观看记录，找出喜欢看战争电影的用户（聚类）

2）分类和聚类主要区别是什么？（分类是有监督学习要标注数据，聚类是无监督学习不要标注数据）

3）判断以下哪些是数据降维问题

将8*8的矩阵缩小为4*4的矩阵（是）
将二维矩阵变形为一维向量（是）
将高次方程模型转换为低次方程模型（是）

4）说出以下编码格式属于哪种预处理方式（独热）

减肥：[1, 0, 0, 0, 0]
增重：[0, 1, 0, 0, 0]
瘦身：[0, 0, 1, 0, 0]
减脂：[0, 0, 0, 1, 0]
塑形：[0, 0, 0, 0, 1]

5）说出以下数据处理属于哪种预处理方式（二值化）

原始数据：
[[0, 150, 200],
 [1, 180, 223],
 [2, 190, 255]]
 
转换后的数据：
[[0, 0, 255],
 [0, 0, 255],
 [0, 0, 255]]

Python 服务器端与客户端的加密通信（SSL/TLS）解析现实逃脱计划TA python ssl 网络
```htmlPython服务器端与客户端的加密通信（SSL/TLS）解析在当今互联网时代，数据安全变得越来越重要。为了保护数据在传输过程中的安全，使用SSL/TLS协议进行加密通信成为了一种常见的做法。本文将详细介绍如何在Python中实现服务器端和客户端之间的SSL/TLS加密通信。什么是SSL/TLS？SSL（SecureSocketsLayer）和TLS（TransportLayerSec
python教程修订版 Ethan learn English python
9/23Inthiscourse,I'mgoingtoteachyoueverythingyouneedtoknowtogetstartedprogramminginPython.Now,Pythonisoneofthemostpopularprogramminglanguagesoutthere在众多的……中.Andit'sbyfar目前为止oneofthemostsõughtafter受欢迎的
Three ways to run a python script file captainOO7 python
Pythonoffersthreedistinctwaystorunascriptormodule,andeachoneaffectssys.path,__name__,andimportbehaviorinsubtlebutimportantways.Let’sbreakthemdownclearly:TheThreeWaystoRunPythonCode1.DirectScriptExecut
Python自动化神器：Pyautogui库实战指南码界奇点 Python python 自动化开发语言 python3.11 ui
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录1.PyAutoGUI简介1.1什么是PyAutoGUI？1.2安装
tensorflow sigmoid_cross_entropy_with_logits 函数解释及公式推导 CrazyWolf_081c
tensorflowsigmoid_cross_entropy_with_logits函数解释及公式推导tensorflow官方文档解释参考pytorch--BCELosspytorch--BCELoss解释参考定义在tensorflow/python/ops/nn_impl.py.功能：计算在给定logits和label之间的sigmoidcrossentropy。测量离散分类任务中的概率误差，
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
写一个空调风机时长统计系统
需求：通过python图形化程序需要实现空调风机的时长统计。界面功能介绍：该空调系统分为8页，通过右上角左右翻页的方式进行页面切换，翻页按钮是翻到最后一页后只能通过上一页往前面，同理第一页也是这样。做了颜色采样，采样而且每页的风机数量是不同的，灰色：#515151RGB:818181绿色：#1bf928RGB：2724940底色：#033047RGB：34871灰色是未开机状态、绿色是开机状态、底
超简单linux上部署Apache 悟空骑猪看电影 apache linux 运维网络
1.Apache是什么？Apache是世界上最流行的开源Web服务器软件，由Apache软件基金会维护。主要功能：接收客户端（如浏览器）的HTTP请求，返回网页、图片等静态/动态资源。特点：跨平台（Linux、Windows、macOS）模块化设计（按需加载功能）支持多语言扩展（PHP、Python等）高稳定性和安全性2.核心架构与工作原理多进程模型（MPM）Prefork：多进程模式，每个请求由
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
nodejs关于后端服务开发的探究墨水白云 node.js
前提在当前的环境中关于webserver的主流开发基本上都是java、php之类的，其中javaspring系列基本上占了大头，而python之流也在奋起直追，但别忘了nodejs也是可以做这个服务的，只是位置有点尴尬，现在就来探究下nodejs做webserver的当前现状。nodejs简介Node.js是一个基于ChromeV8引擎的JavaScript运行环境。Node.js使用了一个事件驱
Python自动操作GUI神器PyAutoGUI 小菜菜-K PYTHON
日常使用计算机，命令行程序可以说是为批量操作文件而生，但作为普通用户，最多的还是通过鼠标键盘操作形形色色的图形界面程序。试想下面一个场景：有成千上万个文件，都需要通过图形界面进行同样的一套编辑、保存工作，靠手工一遍一遍地重复做，累死人不说，时间久了必然出现错误，作为程序猿，怎么能忍重复3次以上的工作，必须利用程序自动化。要想图形界面也能像命令行程序那样精确控制，就需要GUI自动化工具了。不得不赞P
Python练习（7）Python模块与方法：20道核心实战练习题（含答案与深度解析）（上）
目录引言基础篇（5题）练习1：模块导入方式对比练习2：模块别名应用练习3：条件导入模块练习4：模块搜索路径管理练习5：包结构初始化进阶篇（5题）练习6：模块重载机制练习7：类方法与静态方法区分练习8：魔术方法应用练习9：模块级变量作用域练习10：装饰器实现方法注册高级技巧篇（5题）练习11：动态模块导入练习12：命名空间包练习13：模块卸载陷阱练习14：元类方法控制练习15：上下文管理器方法实战案
python启动其他程序或命令（pandoc） SUN_SU3 python
编写python脚本时，有些功能由其他程序执行，直接在python脚本中启动对应的程序或命令执行即可，现记录用过的几种方法：查看程序的安装目录：whichpandoc1）subprocess:importsubprocessa=subprocess.Popen(['/opt/***/pandoc','/home/***/test.docx','-o','/home/***/test.html'])
全国青少年软件编程(Python)等级考试四级考试真题2024年3月——持续更新..... owbc_ 电子学会（python）三四级考试真题及答案（持续更新）python 算法开发语言青少年编程
青少年软件编程（Python）等级考试试卷（四级）分数：100题数：38一、单选题(共25题，共50分)1.运行如下代码，若输入整数3，则最终输出的结果为？（）deff(x):ifx==1:s=1else:s=f(x-1)*xreturnsn=int(input(“请输入一个大于1的整数：”))print(f(n)+f(n-1))A.2B.4C.8D.16标准答案：C试题解析：由于f(3)=f(2
生成式 AI：从 “理解” 到 “创造” 的突破田园Coder 人工智能科普人工智能科普
1.生成式AI的定义：让AI从“识别”走向“创造”1.1什么是生成式AI生成式AI是一类能自主生成新内容（文本、图像、音频、视频等）的人工智能技术。与传统“判别式AI”（如人脸识别、垃圾邮件过滤，专注于分类和判断）不同，生成式AI的核心是“创造”——它能基于学习的规律，生成与训练数据相似但全新的内容。例如，判别式AI能判断“这是一幅梵高的画”，而生成式AI能模仿梵高的风格创作一幅全新的油画；判别式
【亲测免费】 PyPandoc 项目常见问题解决方案
PyPandoc项目常见问题解决方案基础介绍PyPandoc是一个为Pandoc提供的Python薄壳包装器。Pandoc是一个通用的文档转换工具，能够将标记格式的文档转换为多种格式。PyPandoc主要使用Python编程语言，旨在简化Pandoc在Python项目中的使用。新手常见问题及解决步骤问题1：如何安装PyPandoc问题描述：新手在使用PyPandoc时，首先需要了解如何正确安装。解
青少年人工智能Python编程水平测试四级模拟试卷9 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法数据结构排序算法
1、以下选项中，说法正确的是？（）A、条件1and条件2，表示条件满足其中1个即可B、条件1or条件2，表示2个条件需要同时满足C、and和or不能在一个条件表达式中同时使用D、andor一般和if语句搭配使用正确答案：D试题解析：and是逻辑与，同时满足结果才满足；or是逻辑或，满足一个结果就是满足；
青少年人工智能Python编程水平测试四级模拟试卷5 试题解析编程小伙伴测评网 YCL 试题详解 python 开发语言少儿编程青少年编程算法推荐算法
【单选题】（每题2分）1、运行下列代码后，输入4，输出的结果是？（）num_1=input()num_2="3"print(num_1+num_2)A、7B
十年老Python程序员：给我一个链接，没有我不能爬的视频，只有我顶不住的视频 IT孔乙己
一、写在前面真的，为什么别人发游戏这么多人看，我发了两次了加起来才一百个。算了算了，不整游戏了，反正你们也不爱看~python今天来试试把头条上扭腰上热门的那些妹子爬一爬，不知道我顶不顶得住~python二、准备工作1、使用的环境python3.8pycharm2021.2专业版2、要用的第三方模块seleniumrequestsparsel三、大致流程鉴于你们不喜欢我啰嗦，但是流程呢，我还是要给
Python中win32com的用法详解：自动化办公与COM交互的利器 detayun Python python 自动化交互 win32
在Python自动化办公场景中，win32com模块凭借其与WindowsCOM（ComponentObjectModel）的深度集成能力，成为操控MicrosoftOffice、工业设备甚至第三方软件的核心工具。本文将通过实战案例、技术细节和避坑指南，系统解析这一模块的核心用法。一、核心功能与安装配置1.1模块定位与优势win32com是pywin32扩展包的核心组件，其核心价值在于：跨软件交互
计算机视觉：人工智能的“眼睛” 人工智能教程人工智能计算机视觉机器学习算法 pytorch python 数据结构
前言在人工智能的众多领域中，计算机视觉（ComputerVision）无疑是其中最为引人注目的方向之一。它赋予了机器“看”的能力，使计算机能够像人类一样理解和解释视觉信息。从自动驾驶汽车到医疗影像诊断，从安防监控到虚拟现实，计算机视觉的应用场景无处不在，深刻地改变着我们的生活和工作方式。本文将深入探讨计算机视觉的核心技术、应用场景以及未来的发展趋势，帮助您全面了解这一充满活力的领域。一、计算机视觉
计算机视觉：打开机器之眼看世界 LeafyJee_ 人工智能人工智能深度学习计算机视觉
计算机视觉是人工智能领域中备受关注的一部分，它的目标是赋予计算机类似于人类眼睛的功能，让机器能够感知和理解周围的世界。通过图像和视频数据，计算机视觉技术将信息转化为可理解和可操作的数据，为各种应用领域提供了强大的支持。一、计算机视觉的起源和发展计算机视觉起源于20世纪50年代，当时科学家们开始研究如何让计算机能够识别和理解图像。随着技术的不断进步，计算机视觉逐渐发展成为一门独立的学科，并广泛应用于
Python 进阶（一）：多线程
目录1.相关概念1.1解释器1.2GIL2.threading2.1方法属性2.2线程对象2.3锁对象2.4条件对象2.5信号量对象2.6事件对象1.相关概念1.1解释器Python解释器的主要作用是将我们在.py文件中写好的代码交给机器去执行，比较常见的解释器包括如下几种：CPython：官方解释器，我们从官网下载安装后获得的就是这个解释器，它使用C语言开发，是使用范围最广泛的Python解释器
Python 基础（十四）：错误和异常
目录1错误2异常2.1内置异常2.2异常处理2.3抛出异常2.4自定义异常程序中的错误我们通常称为bug，工作中我们不仅需要改自己程序中的bug，还需要改别人程序中的bug，新项目有bug要改，老项目也有bug要改，可以说bug几乎贯穿一个程序员的职业生涯…我们通常将bug分为Error（错误）和Exception（异常），我们下面来具体学习下Python中的错误和异常。1错误错误通常是指程序中的
word python 域操作_Python进阶：关于 Word 基本操作铃木大宝 word python 域操作
1.概述Word是一个十分常用的文字处理工具，通常我们都是手动来操作它，本节我们来看一下如何通过Python来操作。Python提供了python-docx库，该库就是为Word文档量身定制的，安装使用pipinstallpython-docx命令即可。2.写入首先，我们使用Python来创建一个Word文档并向其中写入一些内容。2.1标题我们先来创建Word文档并向其中添加标题，完整实现代码如下
山东大学软件学院2024-2025人工智能导论期末复习简答题整理飘去数星星多元人工智能
写在前面给我的往年题整理引个流嘿嘿山东大学软件学院2024-2025人工智能导论期末回顾-CSDN博客个人观点：这次考试给我的感觉是意料之外又是意料之中，怎么说呢，意料之中的是这次的题跟往年题不一样，因为我们上一级的期末考试题就跟前几年的非常不一样，所以其实还是有所准备的，但是又是意料之外的，因为他考的也太不一样了，考的非常细节，还是招架不太住哈哈哈以下是我自己整理的一些知识点，仅供参考~需要的可
华为OD机试2025 B卷 - 通过软盘拷贝文件 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为OD机考 2025B卷
通过软盘拷贝文件华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述有一名科学家想要从一台古董电脑中拷贝文件到自己的电脑中加以研究。但此电脑除了有一个3.5寸软盘驱动器以外，没有任何手段可以将文件持贝出来，而且只有一张软盘可以使用。因此这一张软盘是唯一可以用来拷贝文件的载体。科学家想要尽可能多地将计算机中的信息拷贝到
2024年第六届振我中华资金分仓方案毛振华低碳未来碳交易市场被骗无法出金,真相令人毛骨悚然! 法律咨询维权
日常生活中，经常有陌生电话号称免费拉人进股票群；网络平台上，也经常有各种股票讲课的广告。很多人抱着不花钱只是进群看看、听听课的心态，没想到却一步步陷入被骗的漩涡，损失惨重。这些股票群里所谓的“老师”首先推荐股票，取得信任后，就会推荐自行发行平台，来骗取投资者钱财。数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，遇到此类情况一概不要相信。若你
开源模型应用落地-OpenAI Agents SDK-集成多个MCP Servers与Qwen3-8B模型的创新应用探索（九）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术迅猛发展的今天，如何让AI代理更高效地理解和操作外部资源成为行业关注的焦点。模型上下文协议（MCP）应运而生，作为一项由Anthropic推出的开源标准，它为AI系统提供了一种统一的方式来发现、检索和理解数据。与此同时，OpenAIAgents通过支持多种MCP服务器的集成，为开发者提供了更大的灵活性和扩展性。结合强大的Qwen3-8B模型，其不仅具备快速响应的能力，还能在复
盘点一个Python网络爬虫过程中中文乱码的问题皮皮_f075
大家好，我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Python网络爬虫中文乱码的问题，提问截图如下：原始代码如下：importrequestsimportparselurl='https://news.p2peye.com/article-514723-1.html'headers={'Accept-Language':'zh-CN,zh;q=0.9','Accept':'a
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

Python-Level5-day01:机器学习基本概念,几种数据预处理方法

一、人工智能课程概述

1. 什么是人工智能

2. 人工智能的学科体系

3. 人工智能与传统软件的区别

4. 课程介绍

1）课程内容

2）课程特点

3）学习方法

二、机器学习基本概念

1. 什么是机器学习

2. 为什么需要机器学习

3. 机器学习的过程形式

1) 建模问题

2) 评估问题

3) 优化问题

4. 机器学习的分类（重点）

1) 有监督、无监督、半监督学习

2) 批量学习、增量学习

3) 基于模型学习、基于实例学习

5. 机器学习的一般过程(重点)

6. 机器学习的典型应用

7. 机器学习的基本问题(重点)

1) 回归问题

2) 分类问题

3) 聚类问题

4) 降维问题

8. 机器学习课程内容

三、数据预处理

1. 数据预处理的目的

2. 预处理方法

1）标准化（均值移除）

2）范围缩放

3）归一化

4）二值化

5）独热编码

6）标签编码

四、练习

你可能感兴趣的:(数据分析人工智能,python)