破浪会有时

OCR预处理之：通过随机森林机器学习进行去噪

OCR预处理之：通过随机森林机器学习对图像进行预处理去噪

此博文详细描述如何通过机器学习的算法（随机森林）对一张图片进行去噪处理。并且，这里也会附上及其详细的代码以及注解。如果感兴趣的同学可以自行下载。注：代码运行于Ubuntu AMD 环境。
代码下载地址：https://download.csdn.net/download/zyctimes/74472005
喜欢的朋友点个赞哦:)

文章目录

OCR预处理之：通过随机森林机器学习对图像进行预处理去噪
- 0. 效果图
- 1. 准备
- - 1.1 代码的安装与使用
  - 1.2 代码结构
  - 1.3 数据集
- 2. 用随机森林去噪
- 2.1. 特征提取：Random Forest Regression
- 2.2 特征提取：代码
- 2.3 模型训练
- 2.4 测试训练

0. 效果图

在真实的环境中，难以避免的，一些纸张上会有一些污渍或者褶皱。这个时候，如果我们想要去对其做一些OCR文字识别，其精度可能会大打折扣。我们希望通过一些简单的机器学习算法，对输入的图片做一些预处理，部分地消除其背景噪声。

1. 准备

1.1 代码的安装与使用

首先，我们将代码下载后，新建一个虚拟环境：virtualenv [venv]，[venv]指的是我们自己命名的虚拟环境的名称。接下来进入虚拟环境：source [venv]/bin/activate。如是自己创建的新虚拟环境，还需要安装依赖：pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple。如想直接看到结果，可以直接运行python main.py（在项目的根目录下）。

1.2 代码结构

一如既往地，我们先附上代码结构，并做一些相关的解释。

--document denoise
	|---img-ml-denoise (包含我们训练模型用的数据集)
		|---img2test (测试数据集，我们实际不用)
		|---img2trn (训练数据集，带有噪声的照片，如上图左)
		|---imggroundtruth (训练数据集，没有噪声的照片，如上图右)
	|---imgRaw (测试用的照片，用于测试我们训练出来的模型的效果)
	|---imgSave (保存照片的路径)
	|---buildfeature4trn.py (训练模型的第一步是从照片中提取特征并将其存于一个.csv文件中)
	|---imgmlfeatures.csv (运行buildfeature4trn.py后，会生成这个csv文件，用于保存特征)
	|---main.py (主程序)
	|---mathe.py (一些与计算有关的函数)
	|---modeltrain,py (模型的训练)
	|---modeltest.py (模型的测试)
	|---configInputsParse.py (读取config.txt文件中的参数)
	|---config.txt (所有可调参数)
	|---requirements.txt (所有安装包以及版本)
	|---imgdenoiser,pickle (ML 模型)
	|---readme.md (说明文档)

文件有一些多，但并不难理解。

接下来，我们可以直接进入main.py，看到如下代码：

def main(args):
    config = configparser.ConfigParser()        # Set properties of parameters inside config file.
    config.read(cfgFile)
    config.sections()
    cfgParameters.cfgInputParameters(config)    # Parameters to load.

    # For the first step of training, we need to build features based on train images and ground truth images
    buildFeature = buildFeature4TrnCls(cfgParameters)
    buildFeature.buildFeaturesMain()

    
    # After getting the feature and saving into file, we load them and use data inside for training.
    model2Trn = trainModelCls(cfgParameters)
    model2Trn.trainModelMain()

    
    # Test and display results
    testModel = testModelCls(cfgParameters)
    testModel.testModelMain()

从上述代码中，我们其实已经能够一眼看出这整个项目实际上只有四个部分：

读取参数（就是config文件，cfgParameters.cfgInputParameters(config)）
提取特征（buildFeature.buildFeaturesMain()）
训练（model2Trn.trainModelMain()）
测试结果（testModel.testModelMain()）

1.3 数据集

数据集源于Kaggle的Denoising Dirty Documents。

上图列举了一些例子。整个数据集的数量也不是很大，一共216张训练集。我这里也已经全部下载并放入项目中了。
数据集中的照片尺寸多为540248以及540420。我们的目标是输入上图中的带有噪声的照片，输出背景干净的照片，就如第0章所示。

接下来，让我们详细解释其中的每一个环节，以及对这个随机森林是如何使用的做一些详细说明。

2. 用随机森林去噪

在这之前，多说一句。实际上，我并不认为这个算法可以解决很大类的问题，但这个博文依旧有一些很值得借鉴的地方，比如去噪的逻辑，相对于传统的图像处理已经是更进了一步，以及代码的书写（我自认为还可以:)）。

2.1. 特征提取：Random Forest Regression

我们这个Random Forest Regression (RFR) 算法的工作原理是应用一个从左到右、从上到下滑动的5 x 5窗口。这个滑动窗口在带有噪声的图像（即我们要自动预处理和清理的图像）中滚动。痛过RFR算法，去预测/拟合在没有噪声的图像中对应位置的中心点的值。（这里的5x5的尺寸是可以根据输入图片的分辨率进行调整的）

让我们再次回顾一下代码结构：

--document denoise
	|---img-ml-denoise (包含我们训练模型用的数据集)
		|---img2test (测试数据集，我们实际不用)
		|---img2trn (训练数据集，带有噪声的照片，如上图左)
		|---imggroundtruth (训练数据集，没有噪声的照片，如上图右)

img2trn即那些带有噪声的照片。imggroundtruth即没有噪声的照片。这两个文件夹中的照片是一一对应的。所以说，两个文件夹中的照片共同组成了我们这个项目的训练集。

在每个滑动窗口停止处，我们提取：

带有噪声图像的5 x 5区域。然后，我们将5x5区域展平为一个25维列表（25x1），并将其视为一个特征向量。
不带噪声图像的相同5x5区域，但这次我们只取中心点（x，y）坐标。
给定来自噪声输入图像的25维特征向量，这个不带噪声图像的单像素值就是我们希望RFR预测的值。

2.2 特征提取：代码

def buildFeaturesMain(self):

    # grab the paths to our training images
    allTrainImgPaths = sorted(list(paths.list_images(self.imgMlTrainPath)))
    allGtImgPaths = sorted(list(paths.list_images(self.imgMlGtPath)))

    # initialize the progress bar
    widgets = ["Creating Features: ", progressbar.Percentage(), " ", progressbar.Bar(), " ", progressbar.ETA()]
    pbar = progressbar.ProgressBar(maxval=len(self.allTrnFilesPath), widgets=widgets).start()

    # zip training image paths and ground truth image paths, then open the output featureFile2Save file for writing
    allImgPaths = zip(allTrainImgPaths, allGtImgPaths)
    featureFile2Save = open(self.featureFileName, "w")

    # loop over the training  images together
    for (i, (trainPath, gtPath)) in enumerate(allImgPaths):
        trainImage = cv2.imread(trainPath)                          # Load train image (noisy image)
        gtImage = cv2.imread(gtPath)                                # Load ground truth image
        trainImage = cv2.cvtColor(trainImage, cv2.COLOR_BGR2GRAY)   # Convert train image from BGR to grey
        gtImage = cv2.cvtColor(gtImage, cv2.COLOR_BGR2GRAY)         # Convert ground truth image from BGR to grey

        # apply paddingStepxpaddingStep padding to both images, replicating the pixels along 
        # the border/boundary. This denoising document algorithm works by sliding a 5 x 5 window 
        # from left-to-right and top-to-bottom across the noisy input. This padding is similar 
        # as which in CNN in deep learning.
        trainImage = cv2.copyMakeBorder(trainImage, self.paddingStep, self.paddingStep, \
            self.paddingStep, self.paddingStep, cv2.BORDER_REPLICATE)
        gtImage = cv2.copyMakeBorder(gtImage, self.paddingStep, self.paddingStep, \
            self.paddingStep, self.paddingStep, cv2.BORDER_REPLICATE)

        # blur and threshold the noisy image
        trainImage = ImgBlurThresholding(trainImage)

        # scale the pixel intensities in the ground truth image from the range [0, 255] to [0, 1] 
        # (the train/noisy image is already in the range [0, 1])
        gtImage = gtImage.astype("float") / 255.0


        for ii in range(self.featureNumPerImage):
            # We randomly select the position on the image
            x = random. randint(1,trainImage.shape[1])
            y = random. randint(1,trainImage.shape[0])
            # extract the window ROIs for both the train image and ground truth image, 
            # then grab the spatial dimensions of the ROI
            trainROI = trainImage[y:y + self.filterScale, x:x + self.filterScale]
            gtROI = gtImage[y:y + self.filterScale, x:x + self.filterScale]
            (rH, rW) = trainROI.shape[:2]

            # if the ROI is not filterScale x filterScale, throw it out
            if rW != self.filterScale or rH != self.filterScale:
                continue

            # our features will be the flattened filterScale x filterScale raw pixels from the noisy ROI while 
            # the target prediction will be the center pixel in the filterScale x filterScale window
            features = trainROI.flatten()
            target = gtROI[self.paddingStep, self.paddingStep]

            # write the target and features to our CSV file
            features = [str(x) for x in features]
            row = [str(target)] + features
            row = ",".join(row)
            featureFile2Save.write("{}\n".format(row))

        # update the progress bar
        pbar.update(i)

    # close the featureFile2Save file
    pbar.finish()
    featureFile2Save.close()
    print("All features were generated and saved in {} file.".format(self.featureFileName))

首先我们把所有训练图片的路径提取出来，zip到一起：

allTrainImgPaths = sorted(list(paths.list_images(self.imgMlTrainPath)))
allGtImgPaths = sorted(list(paths.list_images(self.imgMlGtPath)))
allImgPaths = zip(allTrainImgPaths, allGtImgPaths)

然后，我们通过一个for循环对每一套训练照片进行遍历。我们需要注意的是，这里的每一套训练照片包含了两张照片，分别对应有噪声trainImage与没有噪声gtImage的照片。
在每一次的循环迭代中，我们首先通过cv2.cvtColor将照片灰度化，然后再照片的外面做一圈padding。回顾一下上一章节中我们提到，这个RFR算法的核心在于滑动的5 x 5窗口，这里我们希望原图的每一个像素点都能取到，所以在图像的外面padding了一圈。padding的尺寸为paddingStep这个变量，而滑动框的尺寸为filterScale，也是一个变量。两者之间的关系是：self.paddingStep = int(np.floor(self.filterScale/2))，比如filterScale=5的话，paddingStep=2。

trainImage = cv2.copyMakeBorder(trainImage, self.paddingStep, self.paddingStep, \
            self.paddingStep, self.paddingStep, cv2.BORDER_REPLICATE)
gtImage = cv2.copyMakeBorder(gtImage, self.paddingStep, self.paddingStep, \
            self.paddingStep, self.paddingStep, cv2.BORDER_REPLICATE)

经过一些简单的预处理，比如模糊取差（类似经典图像处理里面的hat），详细参见ImgBlurThresholding函数，以及归一（像素点从0-255归一到0-1），详细参见gtImage.astype("float") / 255.0，我们在每一组图像中的随机位置抽取featureNumPerImage个点。之所以这么做，是因为普通的滑动滚窗计算量太大，而且没有必要（就类似于stochastic gradient decent）。所以我们这里就做了一些随机取点的处理。
对于每一个随机取到的像素点位置，在有噪声的图片中，我们抽取以这个点为中心，长宽为filterScale的矩阵，然后把它转换为一个filterScale x filterScale纬的向量；在没有噪声的图片中，我们则直接选取这个像素点即可。

x = random. randint(1,trainImage.shape[1])
y = random. randint(1,trainImage.shape[0])
trainROI = trainImage[y:y + self.filterScale, x:x + self.filterScale]
gtROI = gtImage[y:y + self.filterScale, x:x + self.filterScale]
features = trainROI.flatten()
target = gtROI[self.paddingStep, self.paddingStep]

target和feature组成了我们这组图片的特征。
最后我们将这组特征保存进csv文件中，然后进行下一组图片的循环。

features = [str(x) for x in features]
row = [str(target)] + features
row = ",".join(row)
featureFile2Save.write("{}\n".format(row))

2.3 模型训练

这块其实就很简单了，我们直接来看代码吧。

def trainModelMain(self):
    # initialize lists to hold our features and target predicted values
    print("Start training the model.\nLoading dataset...")
    featureList = []
    predictList = []

    # loop over the rows in our features CSV file
    for row in open(self.featureFileName):
        # parse the row and extract (1) the target pixel value to predict
        # along with (2) the 5x5=25 pixels which will serve as our feature vector
        row = row.strip().split(",")
        row = [float(x) for x in row]
        predict_ = row[0]
        feature_ = row[1:]

        # update our featureList and predictList
        featureList.append(feature_)
        predictList.append(predict_)

    # convert the features and targets to NumPy arrays
    featureArray = np.array(featureList, dtype="float")
    predictArray = np.array(predictList, dtype="float")

    # construct our training and testing split, using 75% of the data for
    # training and the remaining 25% for testing
    (trainX, testX, trainY, testY) = train_test_split(featureArray, predictArray,
        test_size=self.mltrnValidDataPercentage, random_state=42)

    # train a random forest regressor on our data
    print("training model...")
    model = RandomForestRegressor(n_estimators=10)
    model.fit(trainX, trainY)

    # compute the root mean squared error on the testing set
    print("Evaluating model...")
    preds = model.predict(testX)
    rmse = np.sqrt(mean_squared_error(testY, preds))
    print("rmse: {}".format(rmse))

    # serialize our random forest regressor to local.
    f = open(self.imgDenoiseModel, "wb")
    f.write(pickle.dumps(model))
    f.close()

首先我们打开上一个步骤中保存好的特征csv文件，然后分别把带有噪声的特征（featureList）以及不带噪声的特征（其实就是ground truth）（predictList）放入对应的列表中。

for row in open(self.featureFileName):
    row = row.strip().split(",")
    row = [float(x) for x in row]
    predict_ = row[0]
    feature_ = row[1:]
    featureList.append(feature_)
    predictList.append(predict_)

然后我们直接调用sklearn做随机森林

# construct our training and testing split, using 75% of the data for
# training and the remaining 25% for testing
(trainX, testX, trainY, testY) = train_test_split(featureArray, predictArray,
    test_size=self.mltrnValidDataPercentage, random_state=42)
# train a random forest regressor on our data
print("training model...")
model = RandomForestRegressor(n_estimators=10)
model.fit(trainX, trainY)

2.4 测试训练

代码如下，这里就不一句句解释了，确实不难理解，感兴趣的同学可以下载我的代码，或直接阅读下面的代码，几乎每一行都有注释。

def testModelMain(self):
    # load our document denoiser from disk
    model = pickle.loads(open(self.imgDenoiseModel, "rb").read())

    # load the test image
    print("Load test image from {}".format(self.imgTestPath))
    imgTest = cv2.imread(self.imgTestPath)
    imgTest = cv2.cvtColor(imgTest, cv2.COLOR_BGR2GRAY)     # Convert from BGR to gray
    imgOrig = imgTest.copy()

    # pad the image followed by blurring/thresholding it
    imgTest = cv2.copyMakeBorder(imgTest, self.paddingStep, self.paddingStep, \
        self.paddingStep, self.paddingStep, cv2.BORDER_REPLICATE)
    imgTest = ImgBlurThresholding(imgTest)

    # initialize a list to store our ROI features (i.e., filterScale x filterScale pixel neighborhoods)
    features2Predict = []

    # slide a filterScale x filterScale window across the image
    for y in range(0, imgTest.shape[0]):
        for x in range(0, imgTest.shape[1]):
            # extract the window ROI and grab the spatial dimensions
            roi = imgTest[y:y + self.filterScale, x:x + self.filterScale]
            (rH, rW) = roi.shape[:2]

            # if the ROI is not filterScale x filterScale, throw it out
            if rW != self.filterScale or rH != self.filterScale:
                continue

            # our features will be the flattened filterScale x filterScale pixels from the training ROI
            features = roi.flatten()
            features2Predict.append(features)

    print("self.filterScale: ",self.filterScale)
    print("self.paddingStep: ",self.paddingStep)
    # use the ROI features to predict the pixels of our new denoised image
    imgPredict = model.predict(features2Predict)

    # the pixels list is currently a 1D array so we need to reshape
    # it to a 2D array (based on the original input image dimensions)
    # and then scale the pixels from the range [0, 1] to [0, 255]
    imgPredict = imgPredict.reshape(imgOrig.shape)
    imgPredict = (imgPredict * 255).astype("uint8")
    imgOrig = cv2.cvtColor(imgOrig, cv2.COLOR_GRAY2BGR)     # Convert from gray to BGR
    imgPredict = cv2.cvtColor(imgPredict, cv2.COLOR_GRAY2BGR)     # Convert from gray to BGR

    # show the original and output images
    imgs2Display = {"Original image":imgOrig, "Image after denoising":imgPredict}
    self.imgSaveFullPath = os.path.join(self.imgSaveFullPath,"imgSave.png")
    displaySaveMultipleImgs(imgs2Display,rows=1,cols=2, imgDisplay=self.imgDisplay, \
        imgSave=self.imgSave, imgSaveFullPath=self.imgSaveFullPath)

Python 爬虫实战：舞台剧与演出信息获取西攻城狮北 python 爬虫开发语言
作为一名对文化艺术活动和数据获取感兴趣的内容创作者，我决定利用Python爬虫技术抓取舞台剧与演出信息。这对于文艺爱好者、文化活动组织者以及相关研究人员来说，是一个极具价值的探索。一、项目背景舞台剧和各类演出活动丰富了人们的精神文化生活。许多城市都有专业的演出场馆，如国家大剧院、上海大剧院等，它们会定期发布演出信息。通过爬虫技术，我们可以自动化地获取这些演出信息，方便用户查询和分析。二、技术选型在
LeetCode剑指offer题目记录4 t.y.Tang LeetCode记录 leetcode python 矩阵
leetcode刷题开始啦,每天记录几道题.目录剑指offer07.重建二叉树题目描述示例思路python改进剑指offer09.用两个栈实现队列题目描述示例思路python剑指offer10-1.斐波那契数列题目描述思路pythonC++剑指offer10-2.青蛙跳台阶问题问题描述思路C++剑指offer07.重建二叉树题目描述输入某二叉树的前序遍历和中序遍历的结果，请构建该二叉树并返回其根节
【技巧分享】开发环境配置Python、R、Stata A线上仓库 python 开发语言
自用，看心情更新~版本更新2024-03-131.0版本2024-09-25FIX:1.conda命令ADD：1.python调用r命令2.r系统配置2025-01-22更新VSCode调用Statado文件目录版本更新Python环境配置Cheatsheet基础配置可选：环境配置：conda命令包管理R环境配置基础配置R命令Python调用Method1:`rpy2`Stata环境配置基础配置P
python实现成语接龙 Camellia 泡泡笔记 python
first_idiom='万事如意'end_str=first_idiom[-1]new_li=[first_idiom]li=['发愤图强','笑容满面','意气风发','强颜欢笑']forindexinrange(len(li)):foriinli:ifend_str==i[0]:new_li.append(i)li.remove(i)end_str=i[-1]breakprint(new_l
涛哥聊Python | borb，一个好用的 Python 库，处理 PDF 文件好帮手！双木的木 python拓展学习 python库 python 开发语言机器学习 pdf 人工智能深度学习
本文来源公众号“涛哥聊Python”，仅用于学术分享，侵权删，干货满满。原文链接：borb，一个好用的Python库！大家好，今天为大家分享一个好用的Python库-borb。Github地址：https://github.com/jorisschellekens/borbPythonBorb是一个用于处理PDF文件的Python库，它提供了丰富的功能和工具，使得PDF文件的创建、修改和解析变得更
python—计算学生成绩等级 2111339 彭传月 python
一、打开软件新建窗口输入代码#计算学生成绩等级is_continue='y'whileis_continue=='Y'oris_continue=='y':score=eval(input('请输入学生的成绩：'))ifscore>=90:print('A')elifscore>=80:print('B')elifscore>=70:print('C')elifscore>=60:print('D
CPU占用率飙升至100%：是攻击还是正常现象？群联云防护小杜安全问题汇总 ddos 安全 waf 服务器 cpu 占用被攻击
在运维和开发的日常工作中，CPU占用率突然飙升至100%往往是一个令人紧张的信号。这可能意味着服务器正在遭受攻击，但也可能是由于某些正常的、但资源密集型的任务或进程造成的。本文将探讨如何识别和应对服务器的异常CPU占用情况，并通过Python脚本示例，提供一种监控和诊断CPU占用率的方法。一、CPU占用率100%：攻击or正常？1.1攻击迹象持续性高占用：如果CPU占用率长时间保持在100%，且没
Python 成绩等级判定 Camellia 泡泡 python 笔记
score=int(input("请输入学生成绩:"))if90<=score<=100:grade="A"elif75<=score<=90:grade="B"elif60<=score<=75:grade="C"elifscore<60:grade="D"print("本次考试，等级为:",grade)运行结果：
【Python】PDFMiner.six：高效处理PDF文档的Python工具技术无疆 Python python pdf 开发语言 python3.11 人工智能数据挖掘机器学习
PDF是一种广泛使用的文件格式，特别适用于呈现固定布局的文档。然而，提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们，其中，PDFMiner.six是一个功能强大、专门用于PDF文档解析的库。⭕️宇宙起点什么是PDFMiner.six？主要功能安装PDFMiner.six♨️核心功能和代码示例1.提取PDF文档的纯文本2.从多个页面提取文本3.提取PDF中的表格内
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
python画一个爱心戴子雯 python绘画 python
大家好这是我的地一篇博客，我要写一个关于python的文章我要用python写一个爱心。不说别的，先看效果效果如下：话不多说，上代码，在这之前要下载python下载这事咱们放在最后现在上代码！！！！！！！！！！！！！！importturtleastt.pensize(2)#笔大小2像素t.pencolor("red")#颜色为红色t.left
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">