hwwaizs

python机器学习（二）特征工程、K-近邻算法、KNN工作流程、scikit-learn实现K近邻算法、K值选择、距离计算、KD树

特征工程

把特征转换为机器容易识别的数据，把特征a转化为机器容易读懂、量化的语言

归一化Min-Max

将原始数据映射到[0,1]之间
$\frac{x-min}{max-min}$
但是归一化是有弊端的，比如有一个值错误，就会影响整体的数值，并且归一化是无法解决这个异常值。所以归一化只适合传统精确小数据场景。

标准化

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内。也就是服从正态分布的数据。
$X'=\frac{x-mean}{\sigma}$

K-近邻算法(K-Nearest Neighboor)

定义

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

理念

取近的邻居，本质为近朱者赤近墨者黑，比如可以通过身边的住户预测本区域送外卖的是哪些人。所以就要用欧式距离计算出跟邻居的距离，找出最近的邻居(k=1)。
问题：只有1个的话数据不够精准，被噪点的干扰太强，数据有误差的话就会被完全带偏。
解决：要找k个邻居，自己写代码实现knn。knn算法也可以用于动态加载的字体反爬。

理解K近邻

已知《战狼》、《红海行动》、《碟中谍6》是动作片，而《前任3》、《春娇与志明》、《泰坦尼克号》是爱情片。每一行(一部电影)为一个数据样本，特征列为打斗次数、接吻次数，根据打斗次数和接吻次数来区分是爱情片和动作片。如果新的电影如《美人鱼》，人可以根据自己经验将电影进行分类，也可以让机器也可以掌握一个分类的规则，自动的将新电影进行分类。

对图中的数据进行整理，绘制散点图如下：

通过分析结果可以看出，动作片的打斗场景非常多，根据《美人鱼》电影的数据，可以大致判断出在图中红色圆圈的位置。现在就要判断出红色圆圈距离哪一个样本点比较近，如果距离《春娇与志明》比较近，就可以归类为爱情片，如果距离《红海行动》比较近的话就可以归类为动作片。
两点之间的直线距离最近。

在机器学习中说到两点之间的距离，通常指的是欧式距离，二维欧式距离公式如下：
$d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2}$
特征不可能说只有两个，每个特征代表一个维度，同理衍生三维欧氏距离公式如下：
$d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2+(z_1-z_2)^2}$
如果是四维或者更高维度，归纳N维欧式距离公式如下：
$d_{12} = \sqrt{\sum_{k=1}^n(x_i-y_i)^2}$
对距离进行精准计算，以两点(美人鱼、碟中谍6)为例进行求解，

# 美人鱼：5  29
# 碟中谍6： 105 31
np.sqrt((105-5)**2+(31-29)**2)  # 100.0199980003999

如果要算出最近距离，则需要算《美人鱼》与各个特征点之间的距离。从计算结果可以看出，距离《美人鱼》最近的电影是《前任3》，如果只从一个特征点去判定的话，结果可能会不精确。这时要选择更多(K值)的附近特征值进行比较，如果选择K=3，选择距离最近的3个，选择的特征值为《前任3》、《春娇与志明》、《泰坦尼克号》，这三个都是爱情电影，可以把《美人鱼》归类为爱情电影。如果选择K=4，就会出现3个爱情电影，1个动作电影，此时就选择众数，将数据归类为出现次数最多的特征里。
如果只用一个特征点的距离就判断类型的话是不可靠的，如下图

xiaoming其实是在二七区，但是跟B同学的距离最近，这是一个分类的问题，在K近邻算法中，以半径的方式划圈，但是并不能说xiaoming就在中原区，分类问题不能算成均值。如果选择五名同学进行计算，分别计算跟每个同学的距离，要选择类别为众数的，才能更加可靠的来判断出xiaoming所在的区域。xiaoming距离C、D同学最近，E、F同学较远，才能准确的判断xiaoming在哪个区域。

KNN工作流程

计算待分类物体与其他物体之间的距离；
统计距离最近的 K 个邻居；
对于 K 个最近的邻居，它们属于哪个分类最多，待分类物体就属于哪一类。
基于流程使用numpy和pandas去实现算法。

用编程来实现，就要用到面向对象的编程思想，可以实现动态传参、继承等，避免了函数间的反复接受和调用，实例属性在所有的实例方法立都可以使用。要先封装一个类然后定义一个main()方法，在主程序的方法里进行实例化、调用方法的过程。
在main()方法里读取数据后，并不能将所有的数据传进去做处理，要把数据划分为初始化的特征，训练特征：打斗次数、亲吻次数；训练目标：电影类型；预测数据；实例化类，传入训练特征、目标数据和K值。
要把得到的数据传到类中，在类里创建初始化的方法来初始化属性。
创建预测方法，实现预测《美人鱼》电影属于哪个分类，计算预测数据和真实数据的欧式距离，获取距离最小的前K 个值，对K个点的分类进行统计。此时统计的是当k为确定的值时得到的结果，如果要测试多个，可以进行循环遍历，k最好取奇数。

小结

计算欧式距离
取最近的k个邻居
利用numpy和pandas的广播机制，效率比python的循环要高
选择数据。
- 1. df.loc[行标签,列标签]，通过标签选择数据
- 2.df.iloc[行下表,列下标]，通过下标/索引选择数据
1个邻居不可靠，需要选择多个邻居，求的是类别，不是均值。

K-近邻算法api介绍

scikit-learn工具介绍

scikit-learn是基于python语言的机器学习工具。参考说明文档：http://scikitlearn.com.cn

Python语言是简单高效的数据挖掘和数据分析工具
Scikit-learn包括许多知名的机器学习算法的实现
Scikit-learn文档完善，容易上手，有丰富的API

scikit-learn的安装

pip3 install scikit-learn

注意：安装scikit-learn，需要提前安装numpy，Scipy等库

scikit-learn实现K近邻算法–分类问题

从sklearn包下的neighbors模块，调用所用到的KNeighborsClassifier分类器，n_neighbors为指定的K值，

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights='uniform', algorithm='auto')
n_neighbors：查询默认使用的邻居数（默认为 5） 
weights：默认为 “uniform” 表示为每个近邻分配同一权重；
可指定为 “distance” 表示分配权重与查询点的距离成反比；同时还可以自定义权重。

从题目中看到1-，-2是同类别的，为0类别；2，3为同类别的，为1类别。传入的1特征，选择了2个近邻，不仅会找到跟1最近的2，还会找到跟1次近的-1，此时-1和2是同权重的，根据现有的特征数据和结果去训练模型，按距离近的用 weights=‘distance’ 增加权重。

实现电影分类的案例

scikit-learn实现K近邻算法–总结

构建特征数据与目标数据
构建k个近邻的分类器(两个参数：n_neighbors，weights)
使用fit进行训练
预测数据

K值选择

如果 K 值比较小就相当于未分类物体与它的邻居非常接近才行。这样产生的一个问题就是，如果邻居点是个噪声点，那么未分类物体的分类也会产生误差，这样 KNN 分类就会产生过拟合。通过输入的数据去预测类别，输入的数据要与训练的实例接近才会有结果，如果只取了一个实例(k的取值过小)，好比每天只练习一种题型，考试的时候遇到复杂的题型就会不知所措，只会记住自己训练出来的模板，对一种题型训练过度，就出现过拟合的现象。
如果 K 值比较大，相当于距离过远的点也会对未知物体的分类产生影响，虽然这种情况的好处是鲁棒性强，但是不足也很明显，会受到样本均衡的影响，产生欠拟合情况，也就是没有把未分类物体真正分类出来。k值过大，抗风险能力比较强，好比备考的时候，什么题型都看(海纳百川)，那任何一部电影传进来，都会见过类似的。考试的知识点是初中的，备考的时候复习了小学、初中、高中、大学的内容，考试的时候就不知道用初中、高中、还是大学的知识去解题(都接触过，又都不那么深入)，分不清对应的考点，就会有欠拟合的现象。
用N个K值从小到大进行测试，选择结果最好的那个K值，人为的一个一个的测试会很繁琐，可以用交叉验证。交叉验证的思路就是，把样本集中的大部分样本作为训练集，剩余的小部分样本用于预测，来验证分类模型的准确性。所以在 KNN 算法中，我们一般会把 K 值选取在较小的范围内，同时在验证集上准确率最高的那一个最终确定作为 K 值。

距离计算

欧氏距离(欧几里得距离)
曼哈顿距离
闵可夫斯基距离
切比雪夫距离
余弦距离

欧式距离

欧式距离代表的是两点之间的距离作为的衍生，比如现在在408教室上课，有位同学要去隔壁的508教室，不能根据距离直接穿过去，二维欧式距离公式如下：
$d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2}$
衍生三维欧氏距离公式如下：
$d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2+(z_1-z_2)^2}$
归纳N维欧式距离公式如下：
$d_{12} = \sqrt{\sum_{k=1}^n(x_i-y_i)^2}$

涉及到开根号，就会涉及到浮点数，甚至是无线无限循环小数。在机器学习中的特征一般都是高纬(超越了3个维度)的，再涉及到小数，就会有误差，对内存的消耗很大，计算机的运行速度就会很慢。为了解决这个问题，就尽量的进行整数的计算，引入曼哈顿距离。

曼哈顿距离

在几何空间中用的比较多，比如a同学在408，b同学在512，从a到达b，中间的格子都是墙，不可能从a走绿色的线穿墙而过，最终目的也要使得路程最短。可以从a点先往上走，距离为 $y_2$ 和 $y_1$ 的差值，然后横向走，距离为 $x_2$ 和 $x_1$ 的差值，才能到达最终的终点。通过两段距离的和，求出两点之间的距离。
通过下图可以看出，不管如何顺着格子走，两点之间的距离是一定的。

二维平面两点 $a(x_1,y_1)$ 与 $b(x_2,y_2)$ 间的曼哈顿距离：
$d_{12}=| x_1-x_2 | +\mid y_1-y_2 \mid$
n维空间点 $a(x_{11},x_{12},...,x_{1n})$ 与 $b(x_{21},x_{22},...,x_{2n})$ 的曼哈顿距离：
$d_{12} = {\sum_{k=1}^n(x_{1k}-x_{2k})}$

曼哈顿距离也被称为出租车几何，在城市中开车不能穿墙而过，只能根据房子周边的路线去走。在高维中进行整数计算，只用到了加减的运算，避免了小数的计算(不至于出现无线循环小数，或者是无理数)，运算速度比较快，并且误差很小。

切比雪夫距离

在国际象棋中，国王可以直行、横行、斜行，所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子 $x_1,y_1)$ 走到格子 $x_2,y_2)$ 最少需要走多少步？这个距离就叫切比雪夫距离。

从上图可以看出从2A到5C点所经过的距离，可以是先从2A走到2C(2步)，然后从2C走到5C(3步)；也可以是先从2A走到4C(2步)，然后从4C走到5C(1步)。第二种走的步数刚好为第一中走的两部分步数的最大值。
二维平面两点 $a(x_1,x_2)$ 与 $b(x_2,y_2)$ 间的切比雪夫距离：
$d_{12}=max(| x_1-x_2 | ,\mid y_1-y_2 \mid)$
n维空间点 $a(x_{11},x_{12},...,x_{1n})$ 与 $b(x_{21},x_{22},...,x_{2n})$ 的切比雪夫距离：
$d_{12}=max(| x_{1i}-x_{2i} | )$

闵可夫斯基距离

闵式距离是一类距离的同城，是对多个距离度量公式的概括性的表述。闵可夫斯基距离是个通过的指标，通过变换参数来更换极限形式，
两个n维变量 $a(x_{11},x_{12},...,x_{1n})$ 与 $b(x_{21},x_{22},...,x_{2n})$ 的闵可夫斯基距离定义为：
$d_{12} = \sqrt[p]{\sum_{k=1}^n|x_{1k}-x_{2k}|^p}$
其中p是一个变参数：

当 $p = 1$ 时，根号就不存在了，就是曼哈顿距离；
当 $p = 2$ 时，就是欧式距离；
当 $p\to \infty$ 时，取极限的最大值，忽略最小值，就是切比雪夫距离

余弦距离

余弦距离实际上计算的是两个向量的夹角，是在方向上计算两者之间的差异，对绝对数值不敏感。sin函数是对边比斜边，cos函数是临边比斜边，引申出来两个向量之间的夹角余弦公式。夹角余弦的取值为-1到1，余弦越大就表示向量的夹角越小。
二维空间中向量 $A(x_1,y_1)$ 与向量 $B(x_2,y_2)$ 的夹角余弦公式：
$cosθ=\frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+y_1^2}\sqrt{x_2^2+y_2^2}}$
两个n维样本点 $a(x_{11},x_{12},...,x_{1n})$ 与 $b(x_{21},x_{22},...,x_{2n})$ 的夹角余弦为：
$cosθ=\frac{a \cdot b}{|a||b|}$
即： $cos(θ)=\frac{\sum_{k=1}^nx_{1k}x_{2k}}{\sqrt{\sum_{k=1}^nx_{1k}^2}\sqrt{\sum_{k=1}^nx_{2k}^2}}$

余弦距离也被称为余弦相似度，可以判断两个物品间的相关性，
比如3个人去超市买物品，用表格表示，买的为1，没有买的为0。

物品人员	a	b	c	e
A	1	1	0	1
B	0	1	1	0
C	1	0	0	1

A与B的相似度： $cos(θ)=\frac{1*0+1*1+0*1+0*0+1*0}{\sqrt{1^2+1^2+0^2+0^2+1^2}\sqrt{0^2+1^2+1^2+0^2+0^2}}=\frac{1}{\sqrt{6}}=0.408$

A与C的相似度： $cos(θ)=\frac{1*1+1*0+0*0+0*0+1*1}{\sqrt{1^2+1^2+0^2+0^2+1^2}\sqrt{1^2+0^2+0^2+0^2+1^2}}=\frac{2}{\sqrt{6}}=0.816$

B与C的相似度： $cos(θ)=\frac{0*1+1*0+1*0+0*0+0*1}{\sqrt{0^2+1^2+1^2+0^2+0^2}\sqrt{1^2+0^2+0^2+0^2+1^2}}=\frac{0}{\sqrt{4}}=0$

由此可见，A与C的相似度较高，可以根据A用户购买的物品给与A相似度较高的C进行推荐。

KD树

有位置的数据想要去预测类别，找到跟他最临近的k个邻居，把这个点跟所有邻居的距离都算一下，进行排序，找到最近的k个来取众数，以此来划分到最多的类别中。对于数据比较少的情况，计算速度比较快，如果要训练好一个数据模型，数据量必然是很大的，再去一个一个的计算预测数据与每个邻居之间的距离，计算量就会特别的大，可以使用KD树进行优化。

KNN 的计算过程是大量计算样本点之间的距离。为了减少计算距离次数，提升 KNN 的搜索效率，提出了 KD 树（K-Dimensional 的缩写）。KD 树是对数据点在 K 维空间中划分的一种数据结构。在 KD 树的构造中，每个节点都是 k 维数值点的二叉树。既然是二叉树，就可以采用二叉树的增删改查操作，这样就大大提升了搜索效率。

例题1：有数据集{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}，构造kd树。

六个数据点为二维的点，呈现在二维的坐标轴上，kd树的划分：

1.以x1轴的中位数作为切分标准，2，4，5，7，8，9，把几个数从小到大排序，个数为偶数的话，选取中间的两个点，相加求中位数，(5+7)/2=6，
- 1.(5,4)与(7,2)距离6同样近，取任意的一个点如取(7,2)作为根节点
- 2.做一条过(7,2)点垂直于x1轴的线，把二维的屏幕划分为左右两部分
2.以x2轴来划分左边区域，找到中位数，做x2的垂直线，
- 1.左边区域有3个点，x2的值分别为3，4，7，中位数点为(5,4)，
- 2.过(5,4)做一条垂直于x2的线，把左边的区域分为上下两部分，
- 3.以x1轴划分下区域，除了已成为节点的点，下区域就剩下了(2,3)点，通过(2,3)向x1做垂线，
- 4.以x1轴划分上区域，除了已成为节点的点，上区域就剩下了(4,7)点，通过(4,7)向x1做垂线，
- 5.在二叉树上放置的点是左小右大，所以把(2,3)点放在左侧，(4,7)点放在右侧
3.以x2轴来划分右边区域，找到中位数，做x2的垂直线
- 1.只剩下(8,1)与(9,6)，所以中位数距离两个点的距离一致，随意取一个点作为节点，如取(9,6)
- 2.过 (9,6)向x2轴做垂线，把右边区域也分为上下两部分，上部分已经没有点了
- 3.下半部分找到(8,1)的中位数，只有一个点，这个点就是中位数，通过这个点向x1轴做垂线，得到的最后一个节点为(8,1)
例题2，有目标点(3,4.5)，请问如何在数据集中搜索目标点的最近邻？

如果取计算每个点的距离，就要去计算6次，如果数据量很大的话，计算量就会越来越多。用kd树进行计算，本身就是个递归，重复的过程。

1.从根节点(7,2)来判断，点(3,4.5)x1轴上的数为3，3小于7，左边为较小的数，就找到了点(5,4)，x2维度上的数为4，4.5大于4，会往右侧方向找(较大的数)，找到了点(4,7)，此时暂时的最近邻为(4,7)，
2.以(3,4.5)为圆心，到点(4,7)的距离为半径画圆，得到了蓝色的圆，很显然(4,7)不是点(3,4.5)的最近邻，此时算法要进行回溯，以目标点为圆心，以到暂时的临近点为半径，做圆，两点间的半径为2.69
3.回溯到上个节点(5,4)，以目标点为圆心，以到暂时的临近点(5,4)为半径，做圆，两点间的半径为2.06
4.继续进行回溯到(2,3)，以目标点为圆心，以到暂时的临近点(2,3)为半径，做圆，两点间的半径为1.8，
得到(2,3)才是最近邻的点，此时就不需要去计算距离(7,2)，(9,6)，(8,1)的距离了，减少了计算量。

数据集获取

要测试一些算法，如果不是在真实的环境中，缺少特征工程的数据，学这些模型的时候就可以借鉴已经做好处理的数据来进行学习。

获取函数

获取数据的接口

sklearn.datasets 加载获取流行数据集
datasets.load_***() 获取小规模数据集，数据包含在datasets里
datasets.fetch_***(data_home=None) 获取大规模数据集，需要从网络上下载，
函数的第一个参数是data_home，表示数据集下载的目录,默认是 ~/scikit_learn_data/

返回集

load 和 fetch 返回的数据类型(字典格式)
data：特征数据数组
target：标签数组
DESCR：数据描述
feature_names：特征名
target_names：标签名

数据分割

训练模型需要一部分数据，评估模型的好坏需要一部分新的数据，两份数据重合的时候会产生状况，导致结果不真实，所以把数据分为训练集、测试集以及验证集，在没有调参之前把数据分为训练集和测试集。数据分割的方式：留出法，直接以二八或者三七分数据；K折交叉验证，把数据集分为10份，依次以1份作为测试集，其他的作为训练集，得出10次的结果求平均；自助法，训练集随机进行有放回的抽取。最常用的是留出法。

留出法api

用程序实现，把数据集分为3份和7份，用numpy、pandas的选择数据来做，求出数据的总长度，然后做切割，用sklearn来做训练集的测试分割。

sklearn.model_selection.train_test_split(arrays,*options)
x 数据集的特征值
y 数据集的标签值
test_size 测试集的大小，一般为float
random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
return 训练特征值，测试特征值，训练目标值，测试目标值

算法、模型都存在随机性，同一个算法、同一个数据集运行多次的时候结果是不一样的，同一个代码、同一个模型不同人训练出来的结果会有差异。数据分割同样也具有随机性，可以使用random_state参数，保证每次训练出来的结果是一样的。

图论算法的大家庭——c++中的图论算法 imlarry0616 深度优先算法图论
图论算法是处理图结构问题的核心工具，广泛应用于路径规划、社交网络分析、计算机网络等领域。以下从基础概念、经典算法及其代码实现展开详细介绍，涵盖DFS、BFS、最短路径、最小生成树等核心内容，并附C++代码示例及注释。一、图的基础概念图的定义：由顶点（Vertex）集合V和边（Edge）集合E组成，记作G=(V,E)。分类：无向图：边无方向（如社交网络中的朋友关系）。有向图：边有方向（如网页链接关系
python之多进程(multiprocessing)
multiprocessing模块提供了一个Process类来代表一个进程对象，multiprocessing模块像线程一样管理进程，这个是multiprocessing的核心，它与threading很相似，对多核CPU的利用率会比threading好的多前言Multiprocessing.Pool可以提供指定数量的进程供用户调用，当有新的请求提交到pool中时，如果池还没有满，那么就会创建一个新
周易算卦排盘源码（完整的周易四柱八字紫微斗数_七政四余大六壬等源码）大大的拥抱88 开发语言 python
简介本仓库提供了一个完整周易八字排盘源码：周易八卦，阴阳五行，干支，四柱八字排盘，紫微斗数，奇门遁甲，七政四余集大成者结合，事实上年周易研究，结合了紫薇运势，刑冲关系，神煞，奇门遁甲，七政四余排盘，大六壬等中国古老的周易占卜算法，结合计算机知识，在网页上可以时时展示出来，对真正的占师卜，周易弟子非常受益。这套完整的代码适合开发者和商业运营者学习和使用。资源文件描述文件名:周易算卦源码（完整的周易四
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
Python-多进程编程 (multiprocessing 模块) Kusunoki_D Python 操作系统 python 进程
目录一、创建进程1.Process的语法结构2.进程不共享全局变量二、进程间通信1.队列通信2.管道通信三、进程池1.常用函数2.进程池中的Queue四、应用：复制文件夹（多进程版）五、守护进程和进程同步六、注意事项通过使用multiprocessing模块，Python程序可以在多核处理器上实现并行处理，提高程序的执行效率和响应速度。一、创建进程要创建一个新的进程，需要实例化multiproce
使用 Python 调用 Instagram API 爬取 Instagram 图片（完整指南） Python爬虫项目 python 开发语言爬虫 selenium beautifulsoup
一、引言在社交媒体平台中，Instagram以其图片和视频为主的独特风格，吸引了全球数十亿用户。无论是旅行博主、美食摄影师，还是品牌推广，Instagram上的数据具有极高的商业和研究价值。为了获取Instagram的公开数据，我们需要使用官方提供的InstagramGraphAPI。通过这个API，我们可以获取以下信息：✅账户基本信息（用户ID、用户名、头像等）✅用户的图片和视频✅用户的评论、点
matlab 渐进三角网(PTD)地面滤波(基础版) 点云侠 matlab点云工具箱 matlab 开发语言算法 c++计算机视觉
目录一、算法原理1、PTD算法2、实现流程二、代码实现三、结果展示1、原始点云2、滤波结果代码是按照算法原理的复现，效率极低，只适合学习和理解算法。一、算法原理1、PTD算法渐进三角网地面滤波算法（ProgressiveTINDensification,PTD）是一种广泛应用于机载LiDAR点云数据处理的滤波方法，旨在从复杂场景中精确分离地面点，以生成数字高程模型（DEM）。2、实现流程 P
轻松开发AI应用：Dify、Langchain与Coza全方位对比分析 AI Agent首席体验官人工智能 langchain
1.Dify与Langchain区别Dify和Langchain都是用于开发AI应用的平台，但在设计理念、功能特点及适用场景等方面存在明显差异。以下是两者的详细对比：总体概述Dify：一个开源低代码平台，旨在简化AI应用的开发，提供完整的UI解决方案和无缝的集成能力，适合技术背景不强的用户，帮助他们快速开发和部署AI应用。Langchain：一个灵活的Python开发库，为开发者提供精细控制，适合
编程语言发展史之：逻辑编程语言 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介逻辑编程（logicalprogramming）是一种编程范式，旨在以一种逻辑的方式来表示程序，而不是像命令式编程一样直接面向计算模型或执行指令。逻辑编程倾向于通过构造计算机所理解的数学逻辑模型来解决问题。它特别适用于那些对数据结构和算法模型十分敏感的问题。与函数式编程相比，逻辑编程更加强调数据、关系和抽象等抽象概念之间的对应关系，因此更容易设计出正确而优雅的程
python 函数的定义 SFH-松风寒 python 开发语言后端
#函数的定义#定义一个函数#def表示定义函数的关键字#msg表示函数的名称#()里面放置参数可以为空#：函数的固定格式defmsg():#函数体函数里面的代码用于实现函数的特定功能print('Helloworld')#msg（）函数的调用调用函数之后函数中的代码就会被执行#msg是函数本身msg()#函数的简单用法#打印ATM机的提示defselect_func():print('-----请
python——异常程丞Q香 python python 开发语言 pycharm 异常 raise try except
1、定义异常是在代码执行过程中发生的，它会影响到程序的正常运行。python程序不会自动来进行异常处理。python中常见异常父类：Exception。2、常见异常TypeError：类型错误异常。ValueError：值的异常。KeyError：键的异常。IndexError：索引异常。SyntaxError：语法异常。FileNotFoundError：读取文件内容，如果这个文件不存在，就会报
Python爬虫代理IP 巴里巴气 Python爬虫知识记录 python 爬虫 tcp/ip
前言在Python爬虫中,代理IP基本是必备的,因为基本上网站都会有反爬措施,对请求频繁和异常的IP进行自动封锁,拉入黑名单,所以我们需要有代理IP来实现动态IP的效果,保证请求的IP会变化,是动态的,这样网站就不会把我们的IP当作爬虫IP了目录国内代理IP和海外代理IP的现状代理IP最常用最实用的作用使用方法国内代理IP和海外代理IP的现状市面上的代理IP分为国内代理IP和海外代理IP国内代理I
脑机新手指南（二十）BCI2000 新手入门指南（下篇） Brduino脑机接口技术答疑脑机新手指南人工智能算法大数据
一、引言在上篇文章中，我们介绍了BCI2000的基本概念、特点和优势，以及安装、配置和基本使用流程。在本篇文章中，我们将深入探讨BCI2000的信号处理和分类算法，并提供一些实操的代码教程，帮助新手更好地掌握BCI2000的使用方法。二、BCI2000的信号处理（一）信号处理的基本概念在脑机接口系统中，信号处理是一个非常重要的环节，它的主要目的是从原始的脑电信号中提取有用的信息，并去除噪声和干扰。
脑机新手指南（十七）EEG-ExPy 新手入门教程（上篇）：基础概念与环境搭建 Brduino脑机接口技术答疑脑机新手指南新手入门算法脑机接口
一、EEG-ExPy是什么？EEG-ExPy是一个基于Python的开源工具包，专为脑电（EEG）实验设计、数据采集和实时分析而开发。它的核心优势在于低门槛易用性和模块化设计，即使是没有编程基础的新手，也能通过简单的代码或图形界面快速搭建EEG实验流程。其功能覆盖：1.自定义实验范式设计（如视觉刺激、运动想象任务）2.实时EEG信号采集与预处理3.简单的脑机接口（BCI）应用开发4.实验数据的存储
脑机新手指南（十五）speechBCI 项目新手入门指南（上）：项目概述、代码结构与环境搭建 Brduino脑机接口技术答疑脑机新手指南 python 脑机接口新手入门
一、引言在脑机接口（BCI）领域，语音相关的研究正不断取得突破。speechBCI项目为语音脑机接口的研究提供了一个优秀的开源代码库。该项目与前沿的学术研究、丰富的数据集以及具有挑战性的机器学习竞赛紧密相连。本指南将分上下两篇，详细引导新手深入了解和使用speechBCI项目。二、项目概述speechBCI项目不仅仅是一个代码集合，它背后有着深厚的学术背景和实际应用价值。它与一篇发表在[Natur
机器视觉：ransac算法详解无水先生数字图形和图像处理算法计算机视觉
目录一、说明：二、算法步骤三、算法代码四、其它补充一、说明：RANSAC是一种常用的参数估计方法，全称为RandomSampleConsensus（随机抽样一致性）。它通过随机选择数据中的一部分，然后根据这些数据拟合模型，统计模型与其他数据的偏差，最终筛选出符合一定阈值的数据，用于估计参数。RANSAC可以应用于很多领域，如计算机视觉、机器人和地理信息系统等。其优点在于对噪声数据和异常值有很强的鲁
matlab有限元相场算法 bubiyoushang888 算法 matlab 机器学习
研究的目的是证明一种有限元相场算法，其中相场方程是完全耦合并同时求解的。不过，在这种情况下，完全耦合的方程是弹性和非守恒的阶参数；然而，该方法可作为其他相场模型完全耦合公式的模板。这是求解具有弹性不均匀性的Allen-Cohn方程的主要程序。有限元算法。该算法解决了非保守阶参数的演化问题。全耦合模式下应力列场的演化。取决于代码中Isolve参数的选择：对于Isolve-1，代码以长手格式和非优化模
RabbitMQ消息发送与接收 VksgShapes rabbitmq ruby 分布式
RabbitMQ是一个功能强大的开源消息代理，用于在应用程序之间传递消息。它实现了AMQP（高级消息队列协议），提供了可靠的消息传递机制，支持多种消息模式和灵活的消息路由。在本篇文章中，我们将详细介绍如何在应用程序中使用RabbitMQ进行消息的发送和接收。我们将使用Python作为示例编程语言，并使用Pika作为RabbitMQ的Python客户端。安装依赖库首先，我们需要安装Pika库。可以使
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
【Python】函数 Guiat Python python
个人主页：Guiat归属专栏：Python文章目录1.函数的定义1.1基本定义方式1.2函数名和参数2.函数的调用2.1基本调用方式2.2参数传递3.函数的返回值3.1`return`语句3.2返回多个值4.函数的作用域4.1局部变量4.2全局变量5.匿名函数（Lambda函数）5.1定义和使用5.2应用场景6.递归函数6.1定义和原理6.2优缺点正文1.函数的定义1.1基本定义方式在Python
python函数的定义（含扩展） GodGump linux下python编程
python函数的定义deffunc(arg1,arg2,arg3):函数体returnarg4,arg5,arg6补充：如果想给某个参数一个默认值，不用每次都输入的话，可以采用以下方法（以参数arg2默认值设为233为例子）deffunc(arg1,arg2=233,arg3):函数体returnarg4,arg5,arg6还有一点是python支持在函数体内定义全局变量global在函数体内声
深入解析FastAPI：Python高效Web API框架永不放弃yes
本文还有配套的精品资源，点击获取简介：FastAPI是一个专为构建API设计的现代、高性能PythonWeb框架，它利用TypeHinting和Pydantic库简化了数据验证和文档生成。文章深入介绍了FastAPI的核心特性，如异步支持、类型提示、依赖注入、自动化API文档以及错误处理等。还探讨了FastAPI的部署和测试方法，提供了实践案例和代码示例。FastAPI因其简洁、高效、易于测试的特
半监督学习+迁移学习：低成本构建高精度AI模型 AI智能探索者 AI Agent 智能体开发实战人工智能学习迁移学习 ai
半监督学习+迁移学习：低成本构建高精度AI模型关键词：半监督学习、迁移学习、低成本、高精度AI模型、数据利用摘要：本文主要探讨了如何通过半监督学习和迁移学习相结合的方式来低成本构建高精度的AI模型。首先介绍了半监督学习和迁移学习的背景知识，然后详细解释了这两个核心概念及其相互关系，接着阐述了相关算法原理、数学模型，还给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探讨了未来发展趋
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
python实战:在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订 Ven% 服务器 python linux LiberOffice 开源办公软件 linux办公软件
在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订一、背景与需求1.1常见场景1.2为什么选择LibreOffice二、环境准备2.1安装LibreOffice2.2验证安装三、Python实现代码四、代码解析4.1主要功能4.2错误处理4.3使用灵活性五、高级应用5.1批量处理多个文件5.2与其他工具集成六、注意事项七、总结在实际工作中，我们经常需要处理包含修订标
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
python学智能算法（十五）|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理西猫雷婶人工智能机器学习 python学习笔记机器学习 python 人工智能深度学习 scikit-learn
【1】引言前序学习进程中，已经学习CountVectorizer文本处理的简单技巧，先相关文章链接为：python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客此次继续深入，研究多文本的综合处理。【2】代码测试首先相对于单文本测试，直接将文本改成多行文本：#引入必要的模块fromsklearn.feature_extraction.te
本地命令行工具libreoffice 完成docx转pdf 陈毛毛虫 pdf 汇编开发语言 wps
文章目录前言一、libreoffice是什么？二、使用步骤1.安装libreoffice2.运行命令行工具总结前言最近忙着编写一些文档，需要转换成pdf，但是WPS的转pdf功能需要付费，上网搜了很久，搜到的不是付费的就是有大小限制的，于是想着本地使用python库转，结果效果不大理想，查阅资料后找到了这一款开源的本地命令行工具libreoffice一、libreoffice是什么？LibreOf
数据结构：链表和二叉树的应用和算法设计鱼弦数据结构链表
鱼弦：CSDN内容合伙人、CSDN新星导师、全栈领域创作新星创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）链表：链表是一种常见的线性数据结构，由一系列节点组成，每个节点包含数据和指向下一个节点的指针。链表的优势在于可以动态添加和删除元素，不需要预先分配固定大小的内存空间。链表常用于
python自动化运维 ZZH1120KQ 运维 python 自动化
1系统性能信息模块psutilpsutl是一个跨平台库，能够轻松实现获取系统运行的进程和系统利用率(包括CPU、内存、磁盘、网络等)信息。它主要应用于系统监控，分析和限制系统资源及进程的管理。#这是一个外部模块，需要下载，通过指定源下载pip3installpsutil-ihttps://mirrors.aliyun.com/pypi/simple/importpsutil1.1内存信息memor
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end