泡泡龙的泡泡

模型评估指标AUC

模型评估指标AUC 、

AUC（Area Under Curve）被定义为ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值。

AUC在机器学习领域中是一种模型评估指标。根据维基百科的定义，AUC(area under the curve)是ROC曲线下的面积。所以，在理解AUC之前，要先了解ROC是什么。而ROC的计算又需要借助混淆矩阵，因此，我们先从混淆矩阵开始谈起。

混淆矩阵

假设，我们有一个任务：给定一些患者的样本，构建一个模型来预测肿瘤是不是恶性的。在这里，肿瘤要么良性，要么恶性，所以这是一个典型的二分类问题。

假设我们用y=1表示肿瘤是良性，y=0表示肿瘤是恶性。则我们可以制作如下图的表格：

TP表示预测为良性，而实际也是良性的样例数；
FN表示预测为恶性，而实际是良性的样例数；
FP表示预测为良性，而实际是恶性的样例数；
TN表示预测为恶性，而实际也是恶性的样例数；

所以，上面这四个数就形成了一个矩阵，称为混淆矩阵。

两个变量

FPR表示，在所有的恶性肿瘤中，被预测成良性的比例。称为伪阳性率。伪阳性率告诉我们，随机拿一个恶性的肿瘤样本，有多大概率会将其预测成良性肿瘤。显然我们会希望FPR越小越好。

TPR表示，在所有良性肿瘤中，被预测为良性的比例。称为真阳性率。真阳性率告诉我们，随机拿一个良性的肿瘤样本时，有多大的概率会将其预测为良性肿瘤。显然我们会希望TPR越大越好。
如果以FPR为横坐标，TPR为纵坐标，就可以得到下面的坐标系：

纵坐标：TPR （预测为正，实际为正占所有实际为正比例）
横坐标：FPR （预测为正，实际为负占所有实际为负比例）

可能看到这里，你会觉得有点奇怪，用FPR和TPR分别作横纵坐标有什么用呢？我们先来考察几个特殊的点。

点(0,1)，即FPR=0，TPR=1。FPR=0说明FP=0，也就是说，没有假正例。TPR=1说明，FN=0，也就是说没有假反例。这不就是最完美的情况吗？所有的预测都正确了。良性的肿瘤都预测为良性，恶性肿瘤都预测为恶性，分类百分之百正确。这也体现了FPR 与TPR的意义。就像前面说的我们本来就希望FPR越小越好，TPR越大越好。
点(1,0)，即FPR=1，TPR=0。这个点与上面那个点形成对比，刚好相反。所以这是最糟糕的情况。所有的预测都预测错了。
点(0,0)，即FPR=0，TPR=0。也就是FP=0，TP=0。所以这个点的意义是所有的样本都预测为恶性肿瘤。也就是说，无论给什么样本给我，我都无脑预测成恶性肿瘤就是了。
点(1,1)，即FPR=1，TPR=1。显然，这个点跟点(0,0)是相反的，这个点的意义是将所有的样本都预测为良性肿瘤。

考察完这四个点，我们可以知道，如果一个点越接近左上角，那么说明模型的预测效果越好。如果能达到左上角(点(0,1))，那就是最完美的结果了。

ROC曲线

我们知道，在二分类（0，1）的模型中，一般我们最后的输出是一个概率值，表示结果是1的概率。那么我们最后怎么决定输入的x是属于0或1呢？我们需要一个阈值，超过这个阈值则归类为1，低于这个阈值就归类为0。所以，不同的阈值会导致分类的结果不同，也就是混淆矩阵不一样了，FPR和TPR也就不一样了。所以当阈值从0开始慢慢移动到1的过程，就会形成很多对(FPR, TPR)的值，将它们画在坐标系上，就是所谓的ROC曲线了。

我们来举一个例子。比如我们有5个样本：
真实的类别(label)为y = c(1,1,0,0,1).
一个分类器预测样本为1的概率为p=c(0.5, 0.6, 0.55, 0.4, 0.7).

正如上面说的，我们需要有阈值，才能将概率转换为类别，才能得到FPR和TPR。而选定不同的阈值会得到不同的FPR和TPR。假设我们现在选定的阈值为0.1,那么5个样本都被归类为1。如果选定0.3，结果仍然一样。如果选了0.45作为阈值，那么只有样本4被分进0，其余都进入1类。当我们不断改变阈值，就会得到不同的FPR和TPR。然后我们将得到的(FPR , TPR)连接起来，就得到了ROC曲线了。

这里要注意:

阈值的范围是[0,1]，当阈值从1到0慢慢移动时，FPR会越来越大。因为FP(假正例)会越来越多。
如果在给定的样本中，我都随机预测，也就是0.5概率预测为良性肿瘤，0.5概率预测为恶性肿瘤。那么这条曲线会是怎样的呢？可以想象，如果数据是均匀，那么这条曲线就是y=x。
注意曲线一定是从(0,0)开始最终到达(1,1)的。理解了上面四个点的意义就知道了。
事实上，ROC曲线不是光滑的，而是阶梯型的。为什么呢？因为样本的数量是有限的，而FPR和TPR的变化需要至少有一个样本变化了，在没有变化的间隙里，就不会有变化。也就是说，步进是1/样本数。

得到了ROC曲线，我们就可以计算曲线下方的面积了。计算出来的面积就是AUC值了。

AUC值的意义

但是ROC曲线下的面积等于AUC，这句话怎么理解呢？（其实这里讲解了AUC的第二种计算方式）

实际上，这可以理解为一种积分过程，积分的内容是啥呢：每个预测为正的样本，能比多少个负样本大

积分所在的区域是啥呢？实际是正样本和负样本的交叉，也即正样本数∗负样本数

第一节中，原始有五个正样本：
p=0.9的真实正样本，它在所有5个负样本前面，因此记为5
p=0.8的真实正样本，它在所有5个负样本前面，因此记为5
p=0.7的真实正样本，它在所有5个负样本前面，因此记为5
p=0.6的真实正样本，它在4个负样本前面，因此记为4
p=0.4的真实正样本，它在3个负样本前面，因此记为3
交叉区域记为5*5=25
因此最终的AUC记为

假设我们有一个分类器，输出是样本输入正例的概率，所有的样本都会有一个相应的概率，这样我们可以得到下面这个图：

——其中，横轴表示预测为正例的概率，纵轴表示样本数。
所以，蓝色区域表示所有负例样本的概率分布，红色样本表示所有正例样本的概率分布。显然，如果我们希望分类效果最好的话，那么红色区域越接近1越好，蓝色区域越接近0越好。

为了验证你的分类器的效果。你需要选择一个阈值，比这个阈值大的预测为正例，比这个阈值小的预测为负例。如下图：

在这个图中，阈值选择了0.5于是左边的样本都被认为是负例，右边的样本都被认为是正例。可以看到，红色区域与蓝色区域是有重叠的，所以当阈值为0.5的时候，我们可以计算出准确率为90%.

好，现在我们来引入ROC曲线

图中左上角就是ROC曲线，其中横轴就是前面说的FPR(False Positive Rate)，纵轴就是TPR(True Positive Rate)。
然后我们选择不同的阈值时，就可以对应坐标系中一个点。

当阈值为0.8时，对应上图箭头所指的点。

当阈值为0.5时，对应上图箭头所指的点。

这样，不同的阈值对应不同的点。最后所有的点就可以连在一起形成一条曲线，就是ROC曲线。

现在我们来看看，如果蓝色区域与红色的区域发生变化，那么ROC曲线会怎么变呢？

上图中，蓝色区域与红色区域的重叠部分不多，所以可以看到ROC曲线距离左上角很近。

但是，当蓝色区域与红色区域基本重叠时，ROC曲线就和接近y=x这条线了。

综上两个图，如果我们想要用ROC来评估分类器的分类质量，我们就可以通过计算AUC（ROC曲线下的面积）来评估了，这就是AUC的目的。

其实，AUC表示的是正例排在负例前面的概率。

比如上图，第一个坐标系的AUC值表示，所有的正例都排在负例的前面。第二个AUC值，表示有百分之八十的正例排在负例的前面。

我们知道阈值可以取不同，也就是说，分类的结果会受到阈值的影响。如果使用AUC的话，因为阈值变动考虑到了，所以评估的效果更好。

另一个好处是，ROC曲线有一个很好的特性：当测试集中的正负样本分布发生变化了，ROC曲线可以保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。

在上图中，(a)和©为ROC曲线，(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集（正负样本分布平衡）的结果，©和(d)是将测试集中负样本的数量增加到原来的10倍后，分类器的结果。可以明显的看出，ROC曲线基本保持原貌，而Precision-Recall曲线则变化较大。

GAUC

auc在传统的机器学习二分类中还是很能打的，但是有一种场景，虽然是分类模型，但是却不适用auc，即广告推荐领域。

推荐领域使用的CTR（点击率）来作为最终的商用指标，但是在训练推荐模型时，却不用这个指标，用的是GAUC， 为什么呢，

因为推荐模型目前比较成熟的模式是训练分类模型，这个分类模型的任务是预测用户是否会点击给定的商品，因此，推荐系统的核心，仍然是一个二分类问题，但是是更细力度的二分类。
总结：传统的AUC可以评判二分类，但是推荐领域要算的是对于每个人的二分类结果

给定如下情形：

我们准备训练一个模型用来预测用户A和用户B购买iphone、华为和小米的可能性，我们训练了模型α

对于所有出现的概率值：我们可以计算得到AUC为
，好像预测效果不太好。但是，如果对每个用户查看AUC，则有：

用户A auc：
用户B auc：
也就是说这个模型其实预测地很完美！

auc的计算：
正样本：0.5，0.4，0.2
负样本：0.3，0.1
正样本3个，负样本2个，正负组合32=6种，
正样本值0.5大于负样本0.3、0.1 有两种，
正样本值0.4大于负样本0.3、0.1 有两种，
正样本值0.2大于负样本0.1 有一种，
所以正样本值大于负样本值的有2+2+1=5
所有auc为5/6=0.833 。
GAUC计算：
用户A的正样本0.5，负样本0.3，所以gauc为1；
用户B的正样本0.4，0.2，负样本0.1，正负组合为21种，正样本值大于负样本值有2种，
所以gauc为1

auc反映的是整体样本间的一个排序能力， 而在计算广告领域，我们实际要衡量的是不同用户对不同广告之间的排序能力，因此实际应该更关注的是同一个用户对不同广告间的排序能力。
GAUC（group auc）实际是计算每个用户的auc，然后加权平均，最后得到group auc，这样就能减少不同用户间的排序结果不太好比较这一影响。

group auc具体公式如下：
实际处理时权重一般可以设为每个用户view或click的次数，而且会过滤掉单个用户全是正样本或负样本的情况。

参考：
原文链接：https://blog.csdn.net/liweibin1994/article/details/79462554
https://www.zybuluo.com/frank-shaw/note/152851
https://www.zhihu.com/question/39840928?from=profile_question_card
http://blog.csdn.net/cherrylvlei/article/details/52958720
http://www.dataschool.io/roc-curves-and-auc-explained/
https://link.zhihu.com/?target=https%3A//blog.csdn.net/zhaohang_1/article/details/92794489
https://zhuanlan.zhihu.com/p/84350940

15. 条件语句 if_elif_else 丰收连山 python 数据库开发语言
一、基础语法结构if语句的基本格式概念定义if语句是Python中的条件控制语句，用于根据条件的真假执行不同的代码块。其基本结构如下：if条件:代码块使用场景if语句适用于需要根据条件决定是否执行某段代码的情况，例如：检查用户输入是否合法判断变量是否符合预期值根据计算结果选择不同的处理方式常见误区或注意事项条件表达式后必须加冒号（:）代码块必须缩进（通常4个空格或1个制表符）条件表达式的结果应为布
Python中if及else使用 moclocd Python编程 python
if、else使用{Python的if判断语句可以单独使用，也可搭配else使用：如：if(变量名运算符数值或另一个变量名)://括号可加可不加，如果不加，第一个变量名前就需要加一个空格。语句组1//语句组可多写，但是!!!语句组一定要和if的判断条件对齐!!!不然会报错!!!{例：if(a>=0):print(a)}或：if(变量名运算符数值或另一个变量名):语句组1else:语句组2//els
Python的判断语言if/elif/else Star___J python 开发语言后端
Python的判断语句分为"单分支"、"二分之"、"多分支"。Python判断语言"单分支"语句:if:if条件:代码块它包含这样几个部分:if关键字，表示这是一条判断语句；表示判断的条件，当这个条件被满足(即条件为真)时，执行中的代码，条件不满足时，中的代码不会被执行；冒号表示判断代码的开始；表示条件满足时，执行代码块。例如:x=5ifx>1:#if后面跟的就是条件，如果x大于1代码就会继续执行
【GitHub开源项目实战】高频交易系统实战解析：基于 Nautilus Trader 的策略回测与事件驱动架构优化观熵 GitHub开源项目实战 github 开源架构
高频交易系统实战解析：基于NautilusTrader的策略回测与事件驱动架构优化关键词：高频交易、事件驱动架构、NautilusTrader、量化回测、算法交易、PythonCython、交易引擎、回测系统、交易策略框架、实战优化摘要：本篇博客围绕GitHub上高质量的开源项目nautechsystems/nautilus_trader展开系统性实战解析。NautilusTrader是一套为专业
Python 中 if 和 else 基础知识的详解和使用点云SLAM Python python 开发语言 python基础学习 Python中流程控制语法 if和else语法人工智能基础计算机语言
一、基本语法结构if条件1:#条件1为真时执行的代码块elif条件2:#条件1不成立，条件2成立时执行else:#所有条件都不成立时执行注意：elif是“elseif”的缩写，可以有多个；else可省略；条件表达式必须是可以返回布尔值的语句（True或False）；Python使用缩进表示代码块，通常是4个空格。二、常见条件表达式表达式含义x==y等于x!=y不等于x>y,x=y,x0:print
python多线程：自定义线程类实现线程体、多线程锁机制、死锁问题的解决网小鱼的学习笔记 Python python 开发语言
自定义线程类实现线程体其实threading.Thread是threading模块内的一个类，我们可以自行设计一个类，让这个类继承threading.Thread类，接着在def_init_()内调用threading_Thread_init()方法，然后再所设计的类类别设计run方法，这个概念就称为自定义线程。自定义线程类实现线程体importthreadingimporttime#自定义子线程
深度剖析数据中台：大数据领域的核心技术架构大数据洞察大数据架构 java ai
深度剖析数据中台：大数据领域的核心技术架构关键词：数据中台、大数据、核心技术架构、数据治理、数据服务摘要：本文旨在对数据中台这一大数据领域的核心技术架构进行深度剖析。首先介绍了数据中台的背景，包括其目的、适用读者、文档结构和相关术语。接着阐述了数据中台的核心概念、原理和架构，通过文本示意图和Mermaid流程图进行直观展示。详细讲解了核心算法原理及具体操作步骤，并结合Python源代码进行说明。引
DOCKER教程 weixin_34388207 运维操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>注意事项1.官方申明docker还是在开发完善中，不建议在运营的产品中使用它，但是现在离正式版越来越接近了，请关注我们的博客http://blog.docker.io/2013/08/getting-to-docker-1-0/2.系统注意事项-由于现在的docker的局限性，现在只能使用在64位的服务器上边安装教程ubntu安装教程（12.0
Python简单理解1-10阶乘和运算小张不嚣张꒰ঌ(˚ᆺ˚)໒꒱ Python爬虫基础集合 python 后端
简单理解for循环实现1-10的阶乘运算基本思路;首先分析阶乘的关系如1!=12!=2*1=23!=3*2*1=64!=4*3*2*1=245!=5*4*3*2*1=120....10!=10*9*8*7*6*5*4*3*2*1=3628800自2以后的阶乘都是前面数的阶乘再乘以本身的数。如4的阶乘4!=43!(32*1),因此我们可以使用for循环来执行代码，定义一个变量啊a和一个总和sum然后
python实现回文数的判断简单理解
回文数的判断及解析第一种方法：第二种方法：回文数：简单来说就是，无论是从前往后读还是从后往前读，都是一样的第一种方法：通过字符串的一些特定的功能来判断是不是回文数a=str(input("请输入你要输入的数字:"))#输入字符串b=a[::-1]#倒序输出ifa==b:#判断是否相等print(f'{a}是回文数')else:print('{}不是回文数'.format(a))#format方法输
使用Python加载SubRip (.srt)字幕文件进行文本处理 zbb258 python 开发语言
SubRip文件格式是一种非常基础的字幕文件格式，通常使用扩展名.srt。这种格式的字幕文件是由一组组格式化的纯文本行组成，每组之间由一个空行分隔。字幕通常从1开始按顺序编号。时间码格式为小时:分钟:秒,毫秒，且时间单位固定为两个零填充的数字，分数固定为三个零填充的数字(例如00:00:00,000)。由于该程序是在法国编写的，分数分隔符使用逗号。在这篇文章中，我们将演示如何使用Python库加载
Flask + GPT 实践红鼻子时代 flask项目 flask gpt python
一、前言本篇文章会介绍从零开始构建一个基于Flask+GPT的小项目的过程。总共有四个版本的迭代，包括：1、调用GPT接口并渲染到前端页面；2、使用Flask提供的session来实现登录和登出功能；3、用SQLAlchemy管理数据库，实现用户注册和登录；4、记录和分页查看用户与GPT的对话历史。二、项目环境与依赖Python版本：建议3.7+Flask：最常用的PythonWeb框架之一ope
python初学者编程指南源码_Python可以这样学 PDF 带讲义代码版 weixin_39980917 python初学者编程指南源码
给大家带来的一篇关于Python编程相关的电子书资源，介绍了关于学Python方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小22MB，董付国编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.9。内容介绍读者评价已刷完，重点看前面部分基础知识，后面的挑着感兴趣的领域看。前面基础知识讲得不够系统，如果不是刷过别的python书的话单靠本书不一定能吃透。后半应用领域讲得较散，既不
Python的GUI库选择指南（深度拓展）
前文我们分析了python的GUI库，有很多，面向应用场景也不尽相同，如何在使用过程中，选择合适的GUI库呢？可以查看：python有哪些常用的GUI（图形用户界面）库及选择指南-CSDN博客初学者推荐：Tkinter或PySimpleGUI，简单易学，文档丰富。复杂应用：PyQt5或WxPython，提供完整的功能集和高级组件。移动应用：Kivy或BeeWare（Toga），支持跨平台部署到iO
Python小游戏（井字棋）毛大猫（蓉火科技） python 开发语言数据库
Python的井字棋小游戏：方法一：初始化一个3x3的空棋盘（用数字1-9表示位置）board=[“1”,“2”,“3”,“4”,“5”,“6”,“7”,“8”,“9”]defprint_board():“”“打印当前棋盘”“”print(“\n”)print(f"{board[0]}|{board[1]}|{board[2]}“)print(”—|—|—“)print(f”{board[3]}|
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
使用matplotlib绘制散点图、柱状图和饼状图-学习篇 Zorione Python matplotlib 学习 python
一、散点图Python代码如下：num_points=100x=np.random.rand(num_points)#x点位随机y=np.random.rand(num_points)#y点位随机colors=np.random.rand(num_points)#颜色随机sizes=1000*np.random.rand(num_points)#大小随机alphas=np.random.rand(
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
AccuFace 在 iClone/Character Creator 导出 ARKit 52 子燕若水 iclone 3D daz3d 服务器 linux 运维
方案概览AccuFace在iClone/CharacterCreator里写入的是Reallusion60标准BlendShape曲线。要把它们导出为ARKit52并写入文本文件，可采用「iClone→FBX(ARKit52命名)→Blender→Python脚本→JSON/CSV」这一条相对稳妥的管线。关键步骤下面分拆说明，并给出可直接运行的脚本示例。步骤1：把Reallusion60映射到AR
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
Python 3 中tkinter 里的滚动文本框（ScrolledText）彭啊彭
最近在写一个模拟做题系统，里面有一个输出错题的功能，设置的文本框只有输出一道错题的大小，但是不能就一道题吧，就想到了平时页面里的滚动文本框，上网搜了搜，查到了ScrolledText，但是没找到实现我所需要功能的具体方法，没办法，我就自己研究了研究，好在最后实现了，现在就附上我的实现代码：defcuotiwin():globalscore#分数globallist2#存放错题var1=String
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
【机器学习】机器学习的基本分类-监督学习-线性回归（Linear Regression） IT古董人工智能机器学习机器学习分类学习人工智能线性回归
线性回归是监督学习中的一种基础算法，用于解决回归问题。它通过拟合一条直线（或平面、高维超平面），来预测输出与输入变量之间的关系。1.线性回归的基本概念目标给定输入和对应的输出y，找到一个线性函数：其中：是权重（回归系数）。b是偏置（截距）。y是预测值。损失函数为了找到最佳的w和b，需要最小化预测值和真实值
Django 4.x Models App settings 模型应用设置 Mr数据杨 Python Web开发 python django 模型 model 配置
在Django框架中，模型（Model）是用于定义和操作数据库表结构的核心组件。模型通过使用Python类的形式，帮助简化数据库操作，自动生成SQL语句，使得开发者能够专注于业务逻辑的实现，而无需直接编写复杂的SQL代码。Django的ORM（对象关系映射）提供了一种便捷的方式，将Python对象与数据库记录进行映射操作，从而有效地管理数据交互。对于那些想要在项目中使用Django构建数据库应用的
OpenGauss数据库-L.应用开发(Python)-选做 lovane_630 数据库 python oracle
第1关：简单查询#加载数据库模块importpsycopg2#连接数据库,创建连接并返回连接对象defconnect():conn=psycopg2.connect(database="finance",user="gaussdb",password="Passwd123@123",host="localhost")returnconn#建立与数据库连接mydb=connect()#获取游标#执行
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
Python 数据分析与机器学习入门 (三)：Pandas 数据导入与核心操作程序员阿超的博客 Python python 数据分析机器学习 Pandas DataFrame Series 数据清洗
引言：Pandas是什么，为何如此重要？如果说NumPy是处理原始数值数组的利器，那么Pandas则是驾驭结构化数据的瑞士军刀。在真实世界的数据分析项目中，数据很少是单纯的数字矩阵。它们通常以表格形式存在，包含行和列，每列可能有不同的数据类型（如文本、数字、日期），并且带有描述性的列名和行索引。Pandas正是为高效处理这类数据而生。Pandas构建于NumPy之上，它不仅继承了NumPy的高性能
GitHub 趋势日报 (2025年06月25日) qianmoQ GitHub 项目趋势日报 (2025年)github
由TrendForge系统生成|https://trendforge.devlive.org/本日报中的项目描述已自动翻译为中文今日获星趋势图今日获星趋势图880awesome788build-your-own-x691free-for-dev427best-of-ml-python404Self-Hosting-Guide403Best-websites-a-programmer-should-
python读mongodb很慢_Python3.5+Mongodb+Flask Web实战坑点小结【Dog Plus】 weixin_39604685
我不是程序员，也不是设计师，我只是碰巧有一些想法和一台电脑。Iamnotadesignernoracoder.I'mjustaguywithapoint-of-viewandacomputer.写在前言前：第一个WEB部署完毕，觉得有必要做一个小结：开发平台及工具：Win10+Pycharm+Py3.5+Flask+Mongodb回头看看，一旦选择这样的套装就注定要有很多坑来填。建议后来者能用Li
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户