Cyril_KI

机器学习及深度学习基础---7.20课堂笔记

ML及DL学习基础

1.AI、ML、DL关系
2.主要学习内容
- 2.1一些基础知识
- 2.2监督学习
- 2.3无监督学习
3.基本概念
- 3.1模型
- 3.2学习准则
- 3.3 损失函数
- - 3.3.1.ideal loss
  - 3.3.2.Square loss
  - 3.3.3.Sigmoid+Square loss
  - 3.3.4.Sigmoid+Cross entropy
  - 3.3.5. Hinge loss
- 3.4 欠拟合与过拟合
- 3.5评价指标--分类问题
4.深入阅读

1.AI、ML、DL关系

三者关系可以用上面这张图来完整概括。深度学习的范围最小，其次是机器学习，人工智能的范围最大。

2.主要学习内容

2.1一些基础知识

数学基础：微积分与概率论、数理统计、矩阵与线性代数、凸优化、数值计算。这里面我只接触了前三个，后面两个还没有接触，由于数学建模国赛，暑假会自学数值计算。
编程工具基础：数据结构与算法、Python、sklearn、Pytorch/Tensorflow。数据结构接触了很多，Python对数据的处理方面还不是很熟悉，sklearn也仅仅限于前面学习的那部分内容，深度学习框架打算专心用Pytorch。

2.2监督学习

所谓监督学习（Supervised learning），是指利用一组已知类别的样本调整分类 or 回归的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。
监督学习可以理解为学生从老师那里获取知识、信息，老师提供对错指示、告知最终答案。 学生在学习过程中借助老师的提示获得经验、技能，最后对没有学习过的问题也可以做出正确解答。“老师提供对错指示”这句话很关键，它告诉我们：我们的训练样本，都是有“标准答案的”，比如分类，你在训练的时候就已经知道了它的正确类别，比如回归，你在训练的时候同样也提前知道了真实值。
监督学习要实现的目标是“对于输入数据X能预测变量Y”。这个预测可以是分类，也可以是具体的一个数值。
监督学习主要包括：

线性模型
贝叶斯（朴素贝叶斯和贝叶斯网络）
SVM&SVR
决策树与随机森林、GBDT、XGboost、Adaboost
逻辑回归与最大熵模型
K近邻与Manifold Learning（流形学习）
概率图模型、HMM、CRF
EM
神经网络

前面已经大致学习了机器学习之linear_model(普通最小二乘法)、机器学习之linear_model(Ridge Regression)、概率生成模型(Probabilistic Generative Model)与朴素贝叶斯(Naive Bayes)、机器学习之逻辑回归(logistics regression)、机器学习之SVM(Hinge Loss+Kernel Trick)原理推导与解析、决策树与随机森林(从入门到精通)、机器学习之Ensemble（一些推导与理解）、最简单的分类算法之一：KNN（原理解析+代码实现）

对于深度神经网络，可以分为：

前馈神经网络
CNN（卷积神经网络）
RNN（循环神经网络）
自编码器
深度信念网络
深度生成模型
当前的一些研究热点：GAN（生成对抗网络）深度强化学习（Deep Reinforcement Learning）、Attention（注意力机制）、迁移学习（Transfer Learning）…

DL也才刚刚入门，就看了一些比较基础的概念：反向传播算法(Backpropagation)----Gradient Descent的推导过程、Deep Learning中的一些Tips详解（RELU+Maxout+Adam+Dropout）。

2.3无监督学习

现实生活中常常会有这样的问题：缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。（百度百科）
简而言之，无监督学习的样本是没有标记的，无监督学习的最典型代表就是聚类。聚类的目的在于把相似的东西聚在一起，而我们并不关心这一类是什么。
无监督学习（Unsupervised Learning）分为以下几种：

聚类
SVD（奇异值分解）
PCA（主成分分析法）
LSA（潜在语义分析）
PLSA（概率潜在语义分析）
马尔科夫链蒙特卡罗方法
LDA（隐含狄利克雷分布）
Page Rank

无监督学习到目前为止只是接触了机器学习之K_means（附简单手写代码）以及一点点的PCA。

3.基本概念

样本Sample
数据集Data Set（训练集Training Set、测试集Test Set、验证集Validation Set）
特征Feature
特征向量Feature Vector
独立同分布Identically and Independently Distributed, IID
以上最基本的一些概念前期学习基本都接触过，就不再详述了。

机器学习的一些概念：

3.1模型

所谓的机器学习模型，本质上是一个函数，其作用是实现从一个样本 $x$ 到样本的标记值 $y$ 的映射，即 $f(x,\theta ^{*})\rightarrow y$ 。

3.2学习准则

学习目标就是选择期望风险最小的模型。

3.3 损失函数

在下面的问题中loss代表每一个样本的损失，Loss代表总的损失。
首先我们需要回顾一下前面所学的二分类问题：假设有一批样本， $x^1$ ， $x^2$ ， $x^3$ ，…， $x^n$ ，对应的label分别是： $y\hat{1}$ ， $y\hat{2}$ ， $y\hat{3}$ ，…， $y\hat{n}$ ， $y\hat{i}$ (i=1,2,…,n)有两个取值，-1和1，则Binary Classfication：

if f(x)>0,output=1，属于一个class
if(f(x)<0),output=-1,属于另一个class

在二分类问题中loss function的定义有很多种，其中最理想的loss function定义为：

即若分类正确loss=0，否则loss等于1，那么在这里Loss可以理解分类器在训练集上犯错误的次数。but如果Loss这样定义，是不能求微分的，所以我们换了一种方式，即：

我们以 $y\hat{n}f(x)$ 作为横轴，loss作为纵轴，从二分类的定义来看，当f(x)>0时，output=1，即 $y\hat{n}=1$ 时，f(x)是越大越好的，同理，当 $y\hat{n}=-1$ 时，f(x)是越小越好。 因此，当 $y\hat{n}f(x)$ 越大时，loss会越小。 这是我们判断一个loss function好坏的标准。

针对上面这个表达式，我们有以下几种情况可以讨论（加上ideal loss）：

3.3.1.ideal loss

定义：

这个loss比较好理解，可以直接画出图像：

如图中黑线所示，当 $y\hat{n}f(x)$ >0时,表面分类正确，loss=0，否则等于1。从其图像我们也可以看出，loss是不能进行Gradient Descent的。

3.3.2.Square loss

Square loss是用使用MSE来衡量误差，若output=1时，f(x)应该尽量接近1而当output=-1时，f(x)又应该尽量接近于-1，只有这样Square loss才能最小。因此我们可以定义 $l(f(x^{n},y\hat{n}))$ :

可以看出，该表达式是满足MSE定义的，我们画出 $(x - 1) ²$ 的图像，如下所图红线示：
前面我们讨论过，当 $y\hat{n}f(x)$ 越大时，loss应当会越小。 但是Square loss显然是不符合情况的，这里也可以进一步解释前面我们为什么说不能用Square loss来作为损失函数。

3.3.3.Sigmoid+Square loss

Sigmoid函数值域介于01之间，因此当output=1时， $\sigma (f(x^{n}))$ 应该尽量接近1，而当output=-1时， $\sigma (f(x^{n}))$ 又应该接近于0，因为其本质还是Square loss，只不过把输出映射到了01之间，因此，我们可以定义 $l(f(x^{n},y\hat{n})):$

同样画出图像:
从目前来看，该损失函数好像挺合理的，但仔细一想又是不对的。该函数的渐近线是y=1，越往左loss是越大的，但是其斜率是越来越小的。在Gradient Descent中，如果一个位置的loss太大那么它应该更加快速的下降以找到最优解，但是上述函数不符合要求，loss越大下降反而越慢，属于典型的“没有回报，不想努力。”

3.3.4.Sigmoid+Cross entropy

在逻辑回归中我们最终选择了交叉熵的形式，这里定义 $l(f(x^{n},y\hat{n})):$

画出图像：
可以看出，从左到右符合下降的趋势，并且相较与Sigmoid+Square loss，Sigmoid+Cross entropy的loss越大，其梯度越大，情况符合“有回报有努力。”

因此最终看来，Sigmoid+Cross entropy似乎是比较好的选择了。

3.3.5. Hinge loss

$l(f(x^{n},y\hat{n}))$ 定义为：

从表达式可以看出，当 $y\hat{n}=1$ 时， $f(x^{n})>1$ 则loss=0；当 $y\hat{n}=-1$ 时， $f(x^{n})<-1$ 则loss=0。
同样画出图像：

比较Hinge loss和Sigmoid+Cross entropy，比如说我们把黑点从1移动到2，可以发现Sigmoid+Cross entropy其实是可以做得更好的，而Hinge loss只要是 $y\hat{n}f(x)$ 大于它的阈值，无论怎么调整loss都不会变。但是当我们有outlier也就是异常值的时候，Hinge loss会给出比Cross entropy更好的结果。 这个后面再解释。

3.4 欠拟合与过拟合

所谓过拟合，是指模型学习能力过于强大，把训练样本中某些不太具有一般性的特征都学到了。例如判断一个人是否是好人，训练样本中所有好人都或多或少做过一些坏事，模型学到了这一特征，把这一模型运用到了实际预测中去，这明显是有失偏颇的，因为一个人是否是好人理论上跟一个人是否做过坏事是不相关的。
所谓欠拟合，是指模型学习能力低下，连训练集中的数据都不能很好的拟合，比如说我要预测一个人是否是坏人，模型只考虑到了他是否做过坏事，这明显是考虑不全的，做过坏事不一定就是坏人，那么显然这种情况就是欠拟合。

3.5评价指标–分类问题

准确率很好理解，你有10个样本，分类正确五个那么正确率就是1/2，同样错误率也是1/2。

上面引入了真正例（TP）、假负例（FN）、假正例（FP）、真负（TN）例四个定义。

True Positive ：预测为正，实际也为正
False Positive ：预测为正，实际为负
False Negative ：预测与负、实际为正
True Negative 预测为负、实际也为负
上面图片中的类别C表示正

由此引出查准率和查全率两个概念：

4.深入阅读

顶会：

顶刊：

你可能感兴趣的:(ML,DL,机器学习,深度学习)

Java 项目 IntelliJ IDEA 多环境配置详解我真的不想做程序员 java java intellij-idea 开发语言 ide 后端
目录一、使用MavenProfiles实现多环境配置1.在`pom.xml`中配置Profiles2.创建多环境配置文件3.配置文件内容示例`application.properties``application-dev.properties``application-test.properties``application-prod.properties`4.在代码中获取配置5.激活MavenP
如何在PDF中嵌入数据 IDRSolutions_CN 团队开发 java pdf 软件工程经验分享
好的，我们来聊聊怎么在PDF文件中放一些你自己的数据。因为PDF文件很强大也很灵活，所以经常被用在工作流程中。有时候，把一些额外的信息放进PDF里会很有用。别担心，这些信息通常不会影响PDF的正常使用，大多数工具都会忽略它们。这里有一些方法，你可以试试看：1.XML元数据文件1你可以把一个XML文件藏在PDF的元数据里。2XML文件就像一个可以放很多标签的盒子，你可以把关于整个PDF文件的各种信息
Android HAL服务注册与获取服务令狐掌门 Android开发笔记 android android aosp
HAL服务注册在AndroidHAL（硬件抽象层）开发中，当使用HIDL（硬件接口定义语言）定义接口时，生成的C++头文件会包含一个关键的registerAsService函数。该函数的作用是将HAL实现注册到系统服务管理器，使其他进程能够发现并调用该服务。以下是详细介绍：功能与作用服务注册：registerAsService用于将HAL接口的实现实例注册到Android的hwserviceman
id: ‘dev.flutter.flutter-plugin-loader‘, version: ‘1.0.0‘怎么解决程序猿阿杰 flutter
是因为必须要用jdk17吗？*Where:Settingsfile‘D:\AndroidTest\my_frist_app\android\settings.gradle’line:20Whatwentwrong:Plugin[id:‘dev.flutter.flutter-plugin-loader’,version:‘1.0.0’]wasnotfoundinanyofthefollowings
【＜二＞丹方改良：Spring 时代的 JavaWeb】之 Spring Boot 中的 RESTful API 设计：从上手到骨折 Foyo Designer spring spring boot restful Spring MVC Async CrossOrigin
点击此处查看合集https://blog.csdn.net/foyodesigner/category_12907601.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12907601&sharerefer=PC&sharesource=FoyoDesigner&sharefrom=from_link一、开篇整活儿咱今儿个唠唠Spr
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
Flutter开发：运行报错Error detected in pubspec.yaml：…的解决方法三掌柜666 大前端开发常识 flutter android
前言在Flutter开发中，经常会遇到一些稀奇古怪的的报错，比如版本更新之后会报错、文件没有导入会报错、第三方插件版本不一致的报错等等，而且最近几年Flutter不断完善和更新的速度越来越快，这就需要Flutter相关的开发者时刻保持不断学习的心态，来应对在Flutter开发中遇到的各种突发情况。本篇博文就来分享一下关于Flutter开发中运行Flutter项目之后报错Errordetectedi
JAVA毕业设计BS架构考研交流学习平台设计与实现计算机源码+lw文档+系统+调试部署+数据库瑞致网络 java 开发语言 jvm
JAVA毕业设计BS架构考研交流学习平台设计与实现计算机源码+lw文档+系统+调试部署+数据库JAVA毕业设计BS架构考研交流学习平台设计与实现计算机源码+lw文档+系统+调试部署+数据库本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
计算机毕业设计JavaBS景区票务管理系统设计与实现(源码+系统+mysql数据库+lw文档）毅铭科技数据库
计算机毕业设计JavaBS景区票务管理系统设计与实现(源码+系统+mysql数据库+lw文档）计算机毕业设计JavaBS景区票务管理系统设计与实现(源码+系统+mysql数据库+lw文档）本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
时间序列分析的军火库：AutoTS、Darts、Kats、PaddleTS、tfts 和 FancyTS解析赛卡大数据人工智能深度学习 python 概率论数学建模
引言：时间序列分析的现代挑战时间序列分析在多个领域中扮演着关键角色，包括工程、金融、气象、工业预测等。随着开源工具的快速发展，开发者可以通过多种库快速实现时间序列预测与分析。本文将对AutoTS、Darts、Kats、PaddleTS、tfts和FancyTS六大主流库进行详细解析，并提供代码示例，帮助你根据实际需求选择最佳工具。核心库技术解析与场景化实践1.AutoTS：自动化时间序列预测技术亮
金融、教育等行业如何高效利用wangEditor实现word文档网页化编辑？ 2501_90699850 金融 word umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word
要求：开源，免费，技术支持编辑器：wangEditor前端：vue2,vue3,vue-cli,html5后端：java,jsp,springboot,asp.net,php,asp,.netcore,.netmvc,.netform群体：学生,个人用户,外包,自由职业者,中小型网站,博客,场景：数字门户,数字中台,站群,内网，外网，信创国产化环境，web截屏行业：医疗，教育，建筑，政府，党政，国
网页编辑器能否满足Word公式与图片的直接复制粘贴？ 2501_90699800 编辑器 word umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word
要求：开源，免费，技术支持编辑器：百度ueditor前端：vue2,vue3,vue-cli,react,html5用户体验：Ctrl+V快捷键操作功能：导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word,导入微信公众号内容,web截屏平台：Windows,macOS,Linux,RedHat,CentOS,Ubuntu,中标麒麟,银河麒麟,统信UOS,
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
数据分析面临的三大挑战该如何解决銨靜菂等芐紶数据挖掘大数据数据分析
转载自品略图书馆http://www.pinlue.com/article/2020/09/0712/2611202048648.html有效的分析已成为决定性因素，很明显，掌握它的人会蓬勃发展。但是，实现这一目标的过程并非没有障碍。最常见的数据分析挑战是什么？公司如何自信地应对它们？下面就来介绍一下。1、浏览预算限制数据分析领导者需要在当下采取行动，但同时也需要考虑未来。平衡这些需求要求他们在制
HTML5响应式使用css媒体查询前段技术人 html5 css 媒体
HTML负责搭建页面结构，CSS负责样式设计，并且通过媒体查询实现了较好的响应式效果，能够适应不同屏幕尺寸下面就是写了一个详细的实例。CSS部分*{margin:0;padding:0;box-sizing:border-box;}*是通配选择器，会选中页面上的所有元素。margin:0;将所有元素的外边距设置为0。padding:0;将所有元素的内边距设置为0。box-sizing:border
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
一个比Fiddler/Charles更好用的免费抓包神器金丝猴也是猿 http udp https websocket 网络安全网络协议 tcp/ip
Proxyman与Sniffmaster：抓包工具的双剑合璧在当今的网络开发与调试中，抓包工具是不可或缺的利器。无论是前端开发者、后端工程师，还是安全研究人员，都需要通过抓包工具来分析网络请求、调试接口、排查问题。今天，我们将介绍两款强大的抓包工具：Proxyman和Sniffmaster，它们各自拥有独特的功能，能够帮助你在不同的场景下高效完成工作。Proxyman简介Slogan：只是简单地点
html 5中哪个标签用于定义标题列表项,No.5 HTML常用标签李诗旸 html 5中哪个标签用于定义标题列表项
一、标题标签为了使网页更具有语义化，我们经常会在页面中用到标题标签。HTML提供了6个等级的网页标题，即至。我是一级标题我是二级标题我是三级标题我是四级标题我是五级标题我是六级标题单词head的缩写，意为头部、标题。标签语义：作为标题使用，并且依据重要性递减。特点：加了标题的文字会变的加粗，字号也会依次变大。一个标题独占一行。二、段落标签在网页中，要把文字有条理地显示出来，就需要将这些文字分段显示
SpringBoot集成Swagger3.0 邪神大叔 Java Mac SpringBoot swagger3.0 java springboot
pom.xmlio.springfoxspringfox-boot-starter3.0.0SwaggerConfig/***@author:zek*@desc:swagger*/@EnableOpenApi@ConfigurationpublicclassSwaggerConfigimplementsWebMvcConfigurer{@BeanpublicDocketcreateRestApi(
什么是 HTML 实体和转义西门吹雪在编程前端开发 html 前端
在网页前端的源代码中，你可能会看到"这种字符串。这种字符串实际上是HTML实体之一，用于表示双引号字符（"）。HTML实体是一种用于在HTML文档中表示某些特殊字符的方法，因为这些字符在HTML中有特定的用途或可能会与HTML标签语法冲突。HTML实体的背景和用途在HTML中，一些字符有特定的意义。例如，用于标记HTML标签的开始和结束。如果你想在网页中显示这些字符而不是把它们解释为HT
HTML中的零宽字符 Jinuss 前端 html 前端
概述零宽字符是一组在文本中没有可见宽度的字符，它们通常用于处理文本的布局、分隔和合成。下面是一些常见的零宽字符及其详细介绍：详细介绍零宽空格(ZeroWidthSpace,ZWSP)Unicode码位:U+200BHTML实体:或用途:用于防止文字自动换行。用于在文本中插入不可见的间隔，以控制排版或进行文本分析。零宽非连字符(ZeroWidthNon-Joiner,ZWNJ)Unicode码位:U
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
html实体字符 Qhumaing HTML学习 html 前端
HTML实体字符HTML实体字符（HTMLEntities）是在HTML中用来表示那些在HTML文档中直接使用可能会引起问题的特殊字符的一种方法。这些特殊字符包括但不限于尖括号、与号、引号等，它们在HTML中有特定的用途（如标签界定符、属性值分隔符等），如果直接使用，浏览器可能会误解它们。以下是常见的HTML实体字符及其用途：<-小于号（）&-与号（&）"-双引号（"）&a
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他