云曦智划

【机器学习】Python常见用法汇总

活动地址：[CSDN21天学习挑战赛](https://marketing.csdn.net/p/bdabfb52c5d56532133df2adc1a728fd)

作者简介：在校大学生一枚，华为云享专家，阿里云星级博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实践资源建设专家委员会（TIPCC）志愿者，以及编程爱好者，期待和大家一起学习，一起进步~
.
博客主页：ぃ灵彧が的学习日志
.
本文专栏：机器学习
.
专栏寄语：若你决定灿烂，山无遮，海无拦
.

文章目录

【机器学习】Python常见用法汇总
前言
- - 为什么选择Python？
一、海量文件遍历
- (一)、数据准备
- (二)、实现“海量”文件的类型与存储空间统计
- (三)、小结
二、简单计算器实现
- (一)、定义两数字之间的计算操作
- (二)、解析输入的字符串表达式为表达式列表
- (三)、定义运算符压栈的决策函数
- (四)、实现表达式计算
- (五)、编写主程序，计算表达式结果
三、图像直方图统计
- (一)、准备一张图像
- (二)、绘制所有通道上整体的图像直方图
- (三)、分别绘制三通道的直方图
- (四)、小结
四、文本词频分析
- (一)、文本加载
- (二)、文本分词
- (三)、去停用词处理
- (四)、根据词频排序并输出
总结

前言

为什么选择Python？

Python是一种面向对象的脚本语言，使用时无需编译，因此也称作解释性语言，其结构简单，语法规则明确，关键词定义较少，非常适合初学者。
Python拥有丰富的内置库函数，对于处理网络、文件、GUI、数据库、文本等十分便捷，同时支持大量第三方库，比如最常用的用于科学计算的Numpy、SciPy等库，为科研工作者提供了非常简洁、高效的开发平台。
Python作为当下最流行的语言之一，有着易于维护、跨平台移植、可嵌入等独特优势，使其在人工智能领域备受推崇。

一、海量文件遍历

“海量”文件遍历旨在对文件夹下的大规模数据进行数据类型及占用存储空间的统计。

(一)、数据准备

定义解压函数：

import zipfile
def unzip_data(src_path,target_path):
    # 解压原始数据集，将src_path路径下的zip包解压至target_path目录下
    if(not os.path.isdir(target_path)):     
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(path=target_path)
        z.close()

调用解压函数

unzip_data('data/data19638/insects.zip','data/data19638/insects')
unzip_data('data/data55217/Zebra.zip','data/data55217/Zebra')

(二)、实现“海量”文件的类型与存储空间统计

调用全局遍历

import os
 
"""
通过给定目录，统计所有的不同子文件类型及占用内存
"""
size_dict = {}
type_dict = {}
def get_size_type(path):
    
    files = os.listdir(path)
    for filename in files:
        temp_path = os.path.join(path, filename)
        if os.path.isdir(temp_path):
            # 递归调用函数，实现深度文件名解析
            get_size_type(temp_path)     
        elif os.path.isfile(temp_path):
            # 获取文件后缀
            type_name=os.path.splitext(temp_path)[1]   
            #无后缀名的文件
            if not type_name:
                type_dict.setdefault("None", 0)
                type_dict["None"] += 1
                size_dict.setdefault("None", 0)
                size_dict["None"] += os.path.getsize(temp_path)
            # 有后缀的文件
            else:
                type_dict.setdefault(type_name, 0)
                type_dict[type_name] += 1
                size_dict.setdefault(type_name, 0)
                # 获取文件大小
                size_dict[type_name] += os.path.getsize(temp_path)

调用上述函数实现，对文件进行统计：

path= "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print ("%5s下共有【%5s】的文件【%5d】个,占用内存【%7.2f】MB" %     
            (path,each_type,type_dict[each_type],\
            size_dict[each_type]/(1024*1024)))
print("总文件数:  【%d】"%(sum(type_dict.values())))
print("总内存大小:【%.2f】GB"%(sum(size_dict.values())/(1024**3)))

输出如图1-1所示：

(三)、小结

至此，我们已经实现了如何动手编写一个Python小程序，统计路径下文件的类型及其占用空间的大小，这是一个非常实用的小技巧，可以帮助研究者快速实现文件的信息统计，对处理这些文件数据所需的资源进行合理规划和调配。

二、简单计算器实现

使用Python实现输入表达式计算，并返回计算结果。

主要思路如下：

解析计算单元，包括计算符号、计算数（负数提取）等。
根据优先级计算规则，对解析出的计算单元执行计算。

在计算过程中，括号具有最高优先级。因此，在表达式中搜索最后一个左括号，再搜索与之匹配的右括号，截取两个括号之间的表达式，进行先乘除后加减的运算，计算完括号内的表达式之后，将左右括号删除，计算结果当作一个新的操作数进行处理，循环上述计算过程，直至所有操作都执行完成。

(一)、定义两数字之间的计算操作

def calculate(n1, n2, operator):
    '''
    :param n1: float
    :param n2: float
    :param operator: + - * /
    :return: float
    '''
    result = 0
    if operator == "+":
        result = n1 + n2
    if operator == "-":
        result = n1 - n2
    if operator == "*":
        result = n1 * n2
    if operator == "/":
        result = n1 / n2
    return result

 # 判断是否是运算符，如果是返回True
def is_operator(e):
    '''
    :param e: str
    :return: bool
    '''
    opers = ['+', '-', '*', '/', '(', ')']
    return True if e in opers else False

(二)、解析输入的字符串表达式为表达式列表

# SVM分类器构建
# 将算式处理成列表，解决-是负数还是减号
def formula_format(formula):
    # 去掉算式中的空格
    formula = re.sub(' ', '', formula)
    # 以 '横杠数字' 分割， 其中正则表达式：(\-\d+\.?\d*) 括号内：
    # \- 表示匹配横杠开头； \d+ 表示匹配数字1次或多次；\.?表示匹配小数点0次或1次;\d*表示匹配数字1次或多次。
    formula_list = [i for i in re.split('(\-\d+\.?\d*)', formula) if i]
 
    # 最终的算式列表
    final_formula = []
    for item in formula_list:
        # 第一个是以横杠开头的数字（包括小数）final_formula。即第一个是负数，横杠就不是减号
        if len(final_formula) == 0 and re.search('^\-\d+\.?\d*$', item):
            final_formula.append(item)
            continue
 
        if len(final_formula) > 0:
            # 如果final_formal最后一个元素是运算符['+', '-', '*', '/', '('], 则横杠数字不是负数
            if re.search('[\+\-\*\/\(]$', final_formula[-1]):
                final_formula.append(item)
                continue
        # 按照运算符分割开
        item_split = [i for i in re.split('([\+\-\*\/\(\)])', item) if i]
        final_formula += item_split
    return final_formula

(三)、定义运算符压栈的决策函数

def decision(tail_op, now_op):
    '''
    :param tail_op: 运算符栈的最后一个运算符
    :param now_op: 从算式列表取出的当前运算符
    :return: 1 代表弹栈运算，0 代表弹运算符栈最后一个元素， -1 表示入栈
    '''
    # 定义4种运算符级别
    rate1 = ['+', '-']
    rate2 = ['*', '/']
    rate3 = ['(']
    rate4 = [')']
 
    if tail_op in rate1:
        if now_op in rate2 or now_op in rate3:
            # 说明连续两个运算优先级不一样，需要入栈
            return -1
        else:
            return 1
 
    elif tail_op in rate2:
        if now_op in rate3:
            return -1
        else:
            return 1
 
    elif tail_op in rate3:
        if now_op in rate4:
            return 0   # ( 遇上 ) 需要弹出 (，丢掉 )
        else:
            return -1  # 只要栈顶元素为(，当前元素不是)都应入栈。
    else:
        return -1

(四)、实现表达式计算

def final_calc(formula_list):
    num_stack = []       # 数字栈
    op_stack = []        # 运算符栈
    for e in formula_list:
        operator = is_operator(e)
        if not operator:
            # 压入数字栈
            # 字符串转换为符点数
            num_stack.append(float(e))
        else:
            # 如果是运算符
            while True:
                # 如果运算符栈等于0无条件入栈
                if len(op_stack) == 0:
                    op_stack.append(e)
                    break
 
                # decision 函数做决策
                tag = decision(op_stack[-1], e)
                if tag == -1:
                    # 如果是-1压入运算符栈进入下一次循环
                    op_stack.append(e)
                    break
                elif tag == 0:
                    # 如果是0弹出运算符栈内最后一个(, 丢掉当前)，进入下一次循环
                    op_stack.pop()
                    break
                elif tag == 1:
                    # 如果是1弹出运算符栈内最后两个元素，弹出数字栈最后两位元素。
                    op = op_stack.pop()
                    num2 = num_stack.pop()
                    num1 = num_stack.pop()
                    # 执行计算
                    # 计算之后压入数字栈
                    num_stack.append(calculate(num1, num2, op))
    # 处理大循环结束后 数字栈和运算符栈中可能还有元素 的情况
    while len(op_stack) != 0:
        op = op_stack.pop()
        num2 = num_stack.pop()
        num1 = num_stack.pop()
        num_stack.append(calculate(num1, num2, op))
 
    return num_stack, op_stack

(五)、编写主程序，计算表达式结果

if __name__ == '__main__':
    formula = input('请输入：\n')
    # formula = "1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2))"
    print("算式：", formula)
    formula_list = formula_format(formula)
    result, _ = final_calc(formula_list)
    print("计算结果：", result[0])

运行主程序，在控制台输入如图2-1所示的算式，即可得到输出的计算结果。

三、图像直方图统计

灰度直方图概括了图像的灰度级信息，简单的来说就是每个灰度级图像中的像素个数以及占有率，创建直方图无外乎两个步骤，统计直方图数据，再用绘图库绘制直方图。

统计直方图数据:

首先要稍微理解一些与函数相关的术语，方便理解其在python3库中的应用和处理

BINS: 在上面的直方图当中，如果像素值是0到255，则需要256个值来显示直方图。但是，如果不需要知道每个像素值的像素数目，只想知道两个像素值之间的像素点数目怎么办？例如，想知道像素值在0到15之间的像素点数目，然后是16到31…240到255。可以将256个值分成16份，每份计算综合。每个分成的小组就是一个BIN（箱）。在opencv中使用histSize表示BINS。

DIMS: 数据的参数数目。当前例子当中，对收集到的数据只考虑灰度值，所以该值为1。

RANGE: 灰度值范围，通常是[0,256]，也就是灰度所有的取值范围。
统计直方图同样有两种方法，使用opencv统计直方图，函数如下：

cv2.calcHist(images, channels, mask, histSize, ranges[, hist[, accumulate]])

(一)、准备一张图像

以一张哪吒图像为例（图3-1），进行后续直方图统计，直观上，该张图像的亮度较暗，因此在此刻可以推理出，该图像的直方图灰度值分布应该偏向于灰度值较低的区域，那么是否如此呢？

(二)、绘制所有通道上整体的图像直方图

图像数据分为R、G、B三个通道，同一位置的三个通道灰度值构成一个该像素点的最终着色形式。该步骤将三个通道中的所有灰度值拉平后进行统计，例如，一张彩色图片的大小为200×200，那么其拉平后的灰度值个数为3×200×200=120000，在所有通道上整体的图像直方统计正是对这120000个灰度值在各个bins内出现的1频次的刻画。

import cv2
import numpy as np
from matplotlib import pyplot as plt

img = cv2.imread('data/data131/test.jpeg',1)
img_np = np.array(img) 
plt.hist(img.reshape([-1]),256,[0,256]);
plt.show()

上述代码中，plt.hist()函数用来绘制直方图，将x轴[0，256)的区间划分为256个bins，因此，每个不同的灰度值均会落在不同的bins中，绘制结果如图3-2所示，图中灰度值的分布稍微偏左，说明了该图片的整体色调较暗。

(三)、分别绘制三通道的直方图

上述直方图无法区分在不同通道上的图统计特性，现在使用一种新的方法分别展示不同通道上，灰度值的分布特征。OpenCV库提供了专门的用于图像像素值统计的函数：

cv2.calcHist([images], [channels], mask, histSize, ranges[, hist[,
accumulate ]])
.
imaes:输入的图像 channels:选择图像的通道
mask:掩膜，是一个大小和image一样的np数组，其中把需要处理的部分指定为1，不需要处理的部分指定为0，一般设置为None，表示处理整幅图像
histSize:使用多少个bin(柱子)，一般为256 ranges:像素值的范围，一般为[0,255]表示0~255

import cv2
# import numpy as np
from matplotlib import pyplot as plt
img = cv2.imread('data/nezha.jpeg',0)
histr = cv2.calcHist([img],[0],None,[256],[0,256]) #hist是一个shape为(256,1)的数组，表示0-255每个像素值对应的像素个数，下标即为相应的像素值
plt.plot(histr,color = 'b')
plt.xlim([0,256])
plt.show()

绘制的三通道直方图结果如图3-3所示，从原始图片中可以看出，三原色中红色的部分在整张图片中是比较鲜明的，而图3-3中红色部分的x轴右侧要高于其它亮色，解释了整体的图片风格基调。

(四)、小结

上述调用了两种第三方库方法进行灰度值的统计，当然也可以动手实现一个统计函数，实现上述直方图展示，此处不再赘述。

四、文本词频分析

文本与图片具有本质上的差别：图片本质上是数字化的，其每个像素点都由三原色的组合灰度值构成，而文本属于自然语言，其表现形式无法被计算机直接识别，因此，在自然语言处理技术发展的早期，解决文本表示问题是一项极具挑战的任务。

与图像灰度值的直方图展示相类似，早期的研究者也对文本进行词频统计，将文本中各词出现的频率作为特征，然后进行后续一系列分析与处理。然而，各语言文本在表现形式上也具有很大的差异，比如英文文本由单词个体构成，空格为天然的单词分隔符，因此统计十分便利，然而中文不具备这种天然的分割形式，若要进行词频统计，需要对文本进行预处理，即分词。

下面逐一介绍进行中文文本词频统计的步骤。

(一)、文本加载

首先将需要分析的文本从文件中读出，本文以一篇散文为例进行后面的分析：

with open('test.txt', 'r', encoding='UTF-8') as novelFile:
    novel = novelFile.read()

(二)、文本分词

目前，Python支持多种第三方分词工具，最常用的有jieba分词、SnowNLP、THULAC、NLPIR等，本书以jieba分词为例进行演示，更多分词工具读者可以自行实验尝试。

stopwords = [line.strip() for line in open('stop.txt', 'r', encoding='UTF-8').readlines()]
novelList = list(jieba.lcut(novel))
novelDict = {}

(三)、去停用词处理

在自然语言钟，存在很多无意义的词，比如标点符号、“的”、“之”等，这类词出现频率高，但具有很有限的语义作用，称作停用词。为了避免这类词对统计结果造成的干扰，通常在分词之后，需要将其剔除，只保留重要的词语用作进一步分析，下面一段代码演示了在计算每个词出现的频次的过程钟，若该词在停用词列表中时，做不计入处理。

# 统计出词频字典
for word in novelList:
    if word not in stopwords:
            # 不统计字数为一的词
            if len(word) == 1:
                continue
            else:
                novelDict[word] = novelDict.get(word, 0) + 1

(四)、根据词频排序并输出

import jieba # jieba中文分词库

with open('test.txt', 'r', encoding='UTF-8') as novelFile:
    novel = novelFile.read()
# print(novel)
stopwords = [line.strip() for line in open('stop.txt', 'r', encoding='UTF-8').readlines()]
novelList = list(jieba.lcut(novel))
novelDict = {}

# 统计出词频字典
for word in novelList:
    if word not in stopwords:
            # 不统计字数为一的词
            if len(word) == 1:
                continue
            else:
                novelDict[word] = novelDict.get(word, 0) + 1

# 对词频进行排序
novelListSorted = list(novelDict.items())
novelListSorted.sort(key=lambda e: e[1], reverse=True)

# 打印前10词频
topWordNum = 0
for topWordTup in novelListSorted[:10]:
    print(topWordTup)

from matplotlib import pyplot as plt
x = [c for c,v in novelListSorted]
y = [v for c,v in novelListSorted]
plt.plot(x[:10],y[:10],color='r')
plt.show()

输出结果如图4-1所示：

from wordcloud import WordCloud,ImageColorGenerator
import jieba
import matplotlib.pyplot as plt 
from imageio import imread


#读入背景图片
bg_pic = imread('图1.png')
#生成词云图片
wordcloud = WordCloud(mask=bg_pic,background_color='white',\
    scale=1.5,font_path=r'msyh.ttc').generate(' '.join(novelDict.keys()))
plt.imshow(wordcloud) 
plt.axis('off') 
plt.show()
#保存图片
wordcloud.to_file('父亲.jpg')

总结

本系列文章内容为根据清华社初版的《机器学习实践》所作的相关笔记和感悟，其中代码均为基于百度飞浆开发，若有任何侵权和不妥之处，请私信于我，定积极配合处理，看到必回！！！

最后，引用本次活动的一句话，来作为文章的结语～(￣▽￣～)~：

【学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。】

Python——文件读取一颗小松松 python 开发语言
Python可以读取不同格式的文件，下面简单来介绍一下：1、使用read_excel或read_csv读取文件，若在路径前加r，使用“\”importpandasaspd#在路径前加r,使用“\”df=pd.read_excel(r'C:\Users\merit\Desktop\测试.xlsx')#导入.csv文件，以“，”为分隔符data=pd.read_csv(r'C:\Users\merit
给接口自动化测试框架增色，实现企业微信测试报告编程简单学软件测试 python python 单元测试压力测试 postman 功能测试
作者在新项目中搭建了python+requests+unittest+HTMLTestRunner接口自动化测试框架，通过修改配置文件实现环境隔离，一份脚本即可在不同的环境执行接口测试用例。但是没有实现任何形式的消息通知，也没有集成到jenkins，原因很简单，因为还没做到很大，而且用户活跃不够，问题也相对较少，只在上线前后执行一次uat和prod环境。那这几天想完善一下消息通知功能，让它具备发送
大模型火爆 2025：LLaMA、Qwen、DeepSeek 核心原理+就业秘籍，快速入门 AI 工程师 weixin_40941102 llama 人工智能
1.大模型核心原理：从零开始理解AI模型这些是大型语言模型（LLMs）的核心技术，适合初学者逐步深入学习。以下是详细拆解，让小白也能掌握：LLaMA系列模型核心原理详解：什么是LLaMA？：LLaMA是一个基于人工智能的语言模型，像一个超级聪明的聊天机器人，能理解和生成人类语言。它由Meta公司开发，类似ChatGPT，但更开源、灵活。核心原理：Transformer架构：想象一个工厂流水线，LL
【AI热点】MCP协议深度洞察报告碣石潇湘无限路人工智能 php 开发语言
摘要人工智能技术飞速发展，大型语言模型（LLM）如何高效、安全地利用外部数据和工具成为关键问题。模型上下文协议（ModelContextProtocol，简称MCP）是一种由Anthropic于2024年底提出的开放标准协议。它通过统一的客户端-服务器架构，为AI应用与文件系统、数据库、第三方API等外部资源之间提供标准化、安全的双向通信接口。本文将深入解析MCP协议的基本概念和背景、架构设计（通
轻松管理CSV数据，Python csv库全解析嘎啦AGI实验室 Python python android 数据库 Python csv
文章目录轻松管理CSV数据，Pythoncsv库全解析背景介绍csv库是什么？如何安装csv库？五个简单的库函数使用方法1.读取CSV文件2.写入CSV文件3.使用DictReader读取CSV4.使用DictWriter写入CSV5.指定分隔符五个场景使用代码说明场景1：读取CSV并统计数据场景2：将查询结果写入CSV场景3：读取CSV并过滤数据场景4：读取CSV并排序数据场景5：读取CSV并合
#PyCharm 2024.1新增功能 Dingdangr pycharm ide python
PyCharm2024.1作为JetBrains专为Python开发者设计的集成开发环境（IDE）的最新版本，带来了众多令人兴奋的新增功能，旨在提升开发者的编程效率和体验。以下是对这些新增功能的详细解析：一、智能编码辅助HuggingFace模型和数据集文档预览PyCharm2024.1引入了HuggingFace模型和数据集的快速文档预览功能。开发者可以直接在PyCharm内部快速获取Huggi
2025年Python生态全景：从AI霸主到量子计算，揭秘其不可替代的技术魅力南玖yy python 人工智能量子计算
在2025年的技术浪潮中，Python凭借其极简的语法、庞大的生态系统以及跨领域融合能力，依然稳坐编程语言界的“头把交椅”。尽管Java等语言在AI领域发起挑战，但Python通过持续的技术革新和生态扩展，展现出不可撼动的生命力。本文将从技术趋势、行业应用与未来挑战三个维度，解析Python的“常青”密码。一、AI领域的持续主导：生态优势与工具革新Python在AI领域的统治地位仍未动摇。尽管有观
使用Python爬取豆瓣用户信息：从入门到实战 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫大数据
引言豆瓣作为一个知名的社交平台，拥有丰富的用户信息。对于数据分析师、研究人员或普通用户来说，获取豆瓣用户信息具有重要的价值。本文将详细介绍如何使用Python及其相关库来爬取豆瓣用户信息，并展示如何利用最新的技术手段来实现这一目标。1.准备工作在开始编写爬虫之前，我们需要准备一些工具和环境：Python3.x：确保你已经安装了Python3.x版本。Requests库：用于发送HTTP请求。Bea
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
python中三元运算符使用总结上趣工作室 python python 开发语言
在Python中，三元运算符通常被称为条件表达式，它的语法为：value_if_trueifconditionelsevalue_if_false这个条件表达式的含义是：如果condition为True，则返回value_if_true，否则返回value_if_false。示例以下是一些使用三元运算符的示例：1、基本使用:x=10result="Greaterthan5"ifx>5else"5o
python中将字符串转换成数字，并且保留两位小数上趣工作室 python python 后端
在Python中，你可以使用float()函数将字符串转换为数字，并使用字符串格式化来保留小数点后两位。下面是一个示例代码：defconvert_to_float(string):try:number=float(string)formatted_number="{:.2f}".format(number)returnformatted_numberexceptValueError:return"
使用 Python 编写网络爬虫：从入门到实战 Manaaaaaaa python 爬虫开发语言
网络爬虫是一种自动化获取网页信息的程序，通常用于数据采集、信息监控等领域。Python是一种广泛应用于网络爬虫开发的编程语言，具有丰富的库和框架来简化爬虫的编写和执行过程。本文将介绍如何使用Python编写网络爬虫，包括基本原理、常用库和实战案例。一、原理介绍网络爬虫是一种自动化程序，通过模拟浏览器的行为向网络服务器发送HTTP请求，获取网页内容并进一步提取所需信息的过程。网络爬虫主要用于数据采集
列表推导式_Python教程曹操贪慕小乔 python基础 python numpy 算法
内容摘要Python中存在一种特殊的表达式，名为推导式，它的作用是将一种数据结构作为输入，再经过过滤计算等处理，最后输出另一种数据结构。根据数据结构的不同会被分为列表推导式、文章正文Python中存在一种特殊的表达式，名为推导式，它的作用是将一种数据结构作为输入，再经过过滤计算等处理，最后输出另一种数据结构。根据数据结构的不同会被分为列表推导式、集合推导式和字典推导式。我们先着重来介绍最常使用的列
【数字IC验证】博客内容全览 MoorePlus 数字IC验证百宝箱经验分享面试数字IC 芯片验证 SV
【导读】：数字IC验证百宝箱涵盖博主在实际工作中常用的技能与工具，包括但不限于SV、UVM、Formal、脚本(perl/python/shell)及EDA工具快速上手使用等。无论你是刚踏入职场的验证小白，还是希望回顾基础寻找跳槽机会的从业者，本专栏都能为你提供实用的技术支持，在达成目标的路上，助你一臂之力。“凡是能用钱买来的时间就是便宜的；凡是能用时间换来的注意力持续就是有价值的。”（附上超链接
[LeetCode]46.全排列（python） xyhaaab leetcode python 算法
1.代码fromtypingimportListclassSolution:defpermute(self,nums:List[int])->List[List[int]]:result:List[List[int]]=[]length=len(nums)deffill(n:int,nums:List[int]):ifn==length:result.append(nums[:])returnfo
rapidocr-onnxruntime库及在open-webui上传PDF 图像处理 (使用 OCR)应用原野AI 大模型部署 pdf ocr 深度学习 open-webui
背景rapidocr-onnxruntime是一个跨平台的OCR库，基于ONNXRuntime推理框架。目前已知运行速度最快、支持最广，完全开源免费并支持离线快速部署的多平台多语言OCR。缘起：百度paddle工程化不是太好，为了方便大家在各种端上进行ocr推理，我们将它转换为onnx格式，使用Python/C++/Java/Swift/C#将它移植到各个平台。名称来源：轻快好省并智能。基于深度学
NPU的应用场景：从云端到边缘绿算技术 NPU架构介绍缓存人工智能科技深度学习
NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。模型训练加速：在大规模训练任务中，NPU可以作为加速单元，提升训练效率。2.边缘计算智能摄像头：在安防监控中，NPU可以实时处理视频流，实现目标检测和跟踪。智能音箱：在语音助手中，NPU可以加速语音识别和自然语言处理任务。3.自动驾驶实时感知：NPU可以加速自动驾
关于scipy中uniform_filter函数的注意事项明·煜 scipy
关于scipy中uniform_filter函数的注意事项在处理分组聚合问题时，有时需要使用均值作为统计量。那其实就是一个均值滤波问题。我不希望使用for循环和均值卷积核来对二维数组进行滤波，因为这个线性运算且可用通过数字搬移来实现。在使用uniform_filter时在边界处会出现难以解释的值，不过后来发现是我对python语法不够熟悉导致的。例如以下代码：importnumpyasnpx=np
c++调用python代码，使用gpu AI改变视界 c++python 开发语言
c++调用python，使用gpu加速1、首先要配置cuda和cudnn的环境1、cmd窗口下nvidia-smi，查看电脑可以支持的最高cuda版本。如果nvidia-smi报错，那么需要去配置一下环境，网上有类似案例。或者通过NVIDIA控制面板/系统信息/组件里查看cuda_xxxx.dll，上面有版本号。2、保证安装的cuda版本要小于电脑支持的版本号。我电脑最大支持cuda11，但是安装
必看！一文读懂知识蒸馏技术小天才学习机打游戏人工智能知识图谱神经网络 langchain windows
导读最近，DeepSeek的爆火让大家对人工智能领域的技术发展又有了新的关注。而知识蒸馏作为深度学习中一项重要的技术，也在背后默默地发挥着作用，今天就来给大家详细介绍一下知识蒸馏及其相关原理。1.知识蒸馏是什么在深度学习领域，大型模型（如DeepSeek）通常具有强大的性能，但它们的计算量和参数量都非常庞大，这使得它们难以在资源受限的设备（如移动设备或嵌入式设备）上部署。例如，GPT-3在570G
数组中最长递增子序列问题的深入研究 cloudman08 算法
目录摘要一、引言二、问题定义三、问题分析3.1暴力枚举法的困境3.2动态规划的应用3.3二分查找优化四、算法设计4.1动态规划算法4.2二分查找优化算法4.3代码实现（Python）4.4代码解释五、复杂度分析5.1动态规划算法复杂度5.2二分查找优化算法复杂度六、实际应用6.1数据分析6.2生物信息学6.3信号处理七、结论摘要在数组处理的算法领域，寻找最长递增子序列是一个经典且具有广泛应用的问题
Python 爬虫实战：国际航班数据抓取与全球航班网络分析西攻城狮北 python 爬虫开发语言
一、引言随着全球化的加速，国际航班网络已成为现代交通体系的重要组成部分。通过分析国际航班数据，我们可以深入了解全球航空枢纽、热门航线以及航班流量的变化趋势。本文将介绍如何通过爬取国际航班数据，分析全球航班网络的情况，并给出实现爬虫和数据分析的详细过程及代码。二、项目背景与目标2.1项目背景航空交通是全球经济和旅游业的核心部分，了解全球航班网络有助于掌握各大航空公司之间的竞争格局、全球机场的枢纽作用
《Python实战进阶》小技巧 1：一篇文章讲完网站部署如何优化网站照片加载/访问提速的方法带娃的IT创业者 Python实战进阶 python php 网络
一篇文章讲完网站部署如何优化网站照片加载/访问提速的方法摘要在网络速度较低的情况下，大量照片会导致网站加载缓慢。本文档详细介绍了优化家庭网站中照片加载速度的多种方法和技术。以下是主要的优化策略及其具体实现：1.图片压缩与优化自动压缩上传的图片：通过Python脚本使用PIL库压缩图片，调整大小、转换模式，并保存为优化的JPEG格式。批量优化现有图片：编写脚本对文件夹中的图片进行批量处理，包括创建备
Fatal Python error: initfsencoding: unable to load the file system codec 珞珈山小裁缝11-8 python
FatalPythonerror:initfsencoding:unabletoloadthefilesystemcodecModuleNotFoundError:Nomodulenamed'encodings'Currentthread0x00007668(mostrecentcallfirst):问题原因：python路径错误我是直接运行exe程序（几乎没有配置python环境），我的pyth
AI大模型学习路线及相关资源推荐 python游乐园学习资源学习 Python AI AI编程人工智能
哈喽，大家好！本文为大家带来AI大模型学习路线及相关资源推荐，这对于学习掌握AI大模型很有帮助呦，希望大家多多点赞收藏～感谢～～1AI大模型的基础信息1.1什么是AI大模型AI大模型，即人工智能大型模型，是一种基于深度学习技术，具有海量参数、强大算力支持、能够处理和生成复杂数据的人工智能模型。1.2AI大模型的主要特点规模庞大：AI大模型通常包含海量的参数。例如，谷歌的BERT模型在最初发布时就有
用python实现excel 14个常用操作,用Python 操作 Excel,这篇文章别错过了!(超全总结)... weixin_39851914 用python实现excel 14个常用操作
在之前的办公自动化系列文章中，我已经对Python操作Excel的几个常用库openpyxl、xlrd/xlwt、xlwings、xlsxwriter等进行了详细的讲解。为了进一步带大家了解各个库的异同，从而在不同场景下可以灵活使用，本文将横向比较7个可以操作Excel文件的常用模块，在比较各模块常用操作的同时进行巩固学习！首先让我们来整体把握下不同库的特点“xlrd、xlwt、xlutils各自
PyCharm报错—Fatal Python error : unable to load the file system codec 萧念莳日常问题集锦 pycharm
报错窗口如下：找了很多方法，发现只有这个可以，帮大家避雷！第一步：第二步：选择你最新安装的可用的python.exe所在路径最后就可以看到可以正常运行啦！
python 实现 A* 算法 dev.null Python python 算法开发语言
A*算法是一种广泛使用的路径搜索算法，结合了启发式搜索和Dijkstra算法的优点。它通过评估每个节点的代价函数(f(n)=g(n)+h(n))来选择最优路径，其中：(g(n))是从起点到当前节点的实际代价。(h(n))是从当前节点到目标节点的启发式估计代价（如曼哈顿距离或欧几里得距离）。以下是一个Python实现的A*算法示例：Python实现A*算法importheapqfrommathimp
数据分布偏移检测：保障模型在生产环境中的稳定性 trust Tomorrow 机器学习 python 机器学习人工智能深度学习
数据分布偏移检测：保障模型在生产环境中的稳定性引言在机器学习系统从开发环境部署到生产环境的过程中，数据分布偏移问题是影响模型性能的主要挑战之一。当训练数据与生产环境中的数据分布不一致时，即使是经过精心调优的模型也可能表现出明显的性能下降。本文将深入探讨数据分布偏移的检测方法，并提供一套系统化的解决方案，帮助读者构建更加稳健的机器学习系统。1.数据分布偏移问题概述1.1分布偏移的类型数据分布偏移主要
二叉树中两个节点最近公共祖先的查找算法研究 cloudman08 深度优先算法
目录摘要一、引言二、问题定义三、问题分析3.1二叉树的特性利用3.2暴力搜索的不足四、算法设计4.1递归算法（适用于普通二叉树）4.2迭代算法（适用于二叉搜索树）4.3代码实现（Python）4.4代码解释五、复杂度分析5.1递归算法复杂度（普通二叉树）5.2迭代算法复杂度（二叉搜索树）六、实际应用6.1文件系统目录结构6.2遗传算法中的基因树分析6.3数据库索引结构优化七、结论摘要在二叉树相关算
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

【机器学习】Python常见用法汇总

【机器学习】Python常见用法汇总

文章目录

前言

为什么选择Python？

一、海量文件遍历

(一)、数据准备

(二)、实现“海量”文件的类型与存储空间统计

(三)、小结

二、简单计算器实现

(一)、定义两数字之间的计算操作

(二)、解析输入的字符串表达式为表达式列表

(三)、定义运算符压栈的决策函数

(四)、实现表达式计算

(五)、编写主程序，计算表达式结果

三、图像直方图统计

(一)、准备一张图像

(二)、绘制所有通道上整体的图像直方图

(三)、分别绘制三通道的直方图

(四)、小结

四、文本词频分析

(一)、文本加载

(二)、文本分词

(三)、去停用词处理

(四)、根据词频排序并输出

总结

你可能感兴趣的:(机器学习,python,机器学习,人工智能,自然语言处理,数据分析)