中文信息处理（五）—— 文本分类与文本表示

文章目录

1. 文本分类
- 1.1 文本分类方法
- - 基于传统机器学习的文本分类
- 1.2 文本分类的一般流程
2. 基于向量空间模型(VSM)的文本表示方法
- 2.1 one-hot表示
- 2.2 VSM
- - - ① 文档（Document）
    - ② 项（Term）
- 2.3 特征选择常用方法
- - ① 文档频率DF
  - ② 信息增益IG
  - ③ 互信息(MI)
  - ④ $\chi^{2}$ 统计量
- 2.4 权重计算
- - ① TF-IDF
  - ② scikit-learn预处理
- 2.5 VSM的评价
3. 基于矩阵的文本表示方法
- 3.1 基于矩阵
- 3.2 奇异值分解(SVD分解)
- 3.3 评价

1. 文本分类

Text Categorization/Text Classification/TC

是根据给定文本的内容，将其判别为事先确定的若干个文本类别中的某一类或某几类的过程

给定:
• 一个实例的描述, $x \in X$ , $X$ 是实例空间
• 一个固定的文本分类体系: $C={c1, c2,…cn}$
• 由于类别是事先定义好的，因此分类是有指导的（或者说是有监督的）
确定:
• 实例x的类别 $c (x) \in C$ ， $c (x)$ 是一个分类函数，定义域是X，值域是C

例如中图分类法：

1.1 文本分类方法

基于传统机器学习的文本分类

随着统计学习方法的发展，在90年代后解决大规模文本分类问题的主要套路是人工特征工程+浅层分类模型。整个文本分类问题拆分成特征工程和分类器两部分

这里的特征工程也就是将文本表示为计算机可以识别的、能够代表该文档特征的特征矩阵的过程。我们通常将特征工程分为文本预处理、特征提取、文本表示等三个部分。

1.2 文本分类的一般流程

收集训练集和测试集，对文本进行预处理
- 数据清洗，去除指定无用的符号
- 让文本只保留汉字
- 对文本进行分词（词性标注）
- 去除停用词
对文本类别进行人工标注
对文本进行特征提取、文本表示
训练（学习）
评价：精确率、召回率、F1；宏平均、微平
均

对于特征工程中的文本表示，有下面几个方法：

2. 基于向量空间模型(VSM)的文本表示方法

对于下面两个文本，人类是如何区别的？

A. 中信证券建筑首席分析师罗鼎认为，发改委加大对重大基础设施建设项目审批力度，凸显逆周期调节重要性。
B. 2018年5月，太原国际马拉松赛被国际田联认定为银标赛事，成为全国第八个获得这项荣誉的马拉松赛

显然，在人的意识里，是通过几个关键词来区分文本的，这对于我们有一定的启发

2.1 one-hot表示

对一个语料库S中的所有句子 $s∈S，s=w_1w_2…w_n$ 。抽取其中包含的所有词汇 $w_i$ ，因为语气词对于文本的主题分类一般不起作用，所以去除其中的停用词（的、了、在、呢、啊等等），记为集合W。

对任意 $w_i ∈W$ 统计其在S中出现文档频次的文档频次 $d f (w)$ ，依照频次大小降序排列，取排序前 $N - M$ 位或前 $N N%-M%(N的词汇作为描述这个语料库S的特征集合 W d f W_{df}$

以 $W_{df}$ 为基础可将一个文本表示为一个k维0-1向量V， $k = | W_{df}|$ ，称之为one-hot表示或者词袋模型表示。

$V_{i}=\left\{\begin{array}{c}1, \quad w_{i} \in W_{d f}, w_{i} \text { in } s \\ 0, \quad w_{i} \in W_{d f}, w_{i} \text { not in } s\end{array}\right. \tag{1}$

One-hot模型是VSM的一种简化形式

例如：

A. 中信证券建筑首席分析师罗鼎认为，发改委加大对重大基础设施建设项目审批力度，凸显逆周期调节重要性。
B. 2018年5月，太原国际马拉松赛被国际田联认定为银标赛事，成为全国第八个获得这项荣誉的马拉松赛。

假设有特征词集Wtf = {证券，分析师，发改委，审批，马拉松，田联，赛事}。那么例句A、B分别表示为：
$A = [1, 1, 1, 1, 0, 0, 0] B = [0, 0, 0, 0, 1, 1, 1]$

2.2 VSM

向量空间模型，VSM，Vector Space Model，由Salton等人于20世纪70年代提出

VSM把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度（当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性）。

VSM包括：

用于表征文档语义的特征
这些特征的组织方式

可以说，自然语言处理的核心是文本的向量化表示

① 文档（Document）

泛指一般的文献或文献中的片断（段落、句子组或句子），一般指一篇文章。

② 项（Term）

当文档的内容被简单地看成是它含有的基本语言单位（字、词、词组或短语等）所组成的集合时，这些基本的语言单位统称为项，即文档可以用项集（Term List）表示为 $D(T_1,T_2…,T_n)$

注意：标点符号可以应用到文档的语体分类，在反动信息过滤中也有重要的作用。

TF:一个词在一个文档出现次数

DF：一个词出现在几个文档中

2.3 特征选择常用方法

① 文档频率DF

文档频率（Document frequency ）指在训练语料中出现某词条的文档数

选取的DF在某个范围内。因为出现太少，没有代表性，出现太多，没有区分度。

② 信息增益IG

对于特征词条t和文档类别c，IG考察c中出现和不出现t的文档频数来衡量t对于c的信息增益

$G(t)=-\sum_{i=1}^{m} P\left(c_{i}\right) \lg P\left(c_{i}\right)+P(t) \sum_{i=1}^{m} P\left(c_{i} \mid t\right) \lg P\left(c_{i} \mid t\right) +P(\bar{t}) \sum_{i=1}^{m} P\left(c_{i} \mid \bar{t}\right) \lg P\left(c_{i} \mid \bar{t}\right) \tag{2}$
其中 $P(C_i)$ 表示类文档在语料中出现的概率， P(t)表示语料中包含特征词条 t 的文档的概率， $P(C_i|t)$ 表示文档包含特征词条 t 时属于类的条件概率， $P(\bar{t})$ 表示语料中不包含特征词条 t 的文档的概率， $P(C_i|\bar{t})$ 表示文档不包含特征词条 t 时属于类的条件概率， m 表示文档类别数。

如果选择一个特征后，信息增益最大（信息不确定性减少的程度最大），那么我们就选取这个特征。

优点：考虑了词条未发生的情况，即虽然某个单词不出现也可能对判断文本类别有贡献。
缺点：非平衡问题下表现差（在类分布和特征值分布是高度不平衡的情况下其效果就会大大降低了）

③ 互信息(MI)

通过计算特征词条t和类别c之间的相关性来完成提取的：

$\log \frac { P ( t c ) } { P ( t ) \times P ( c ) } \tag{3}$

如果用A表示包含特征词条t且属于类别c的文档频数，B为包含t但是不属于c的文档频数，C表示属于c但不包含t的文档频数，N表示语料中文档的总数，t和c的互信息可由下式计算：

$\approx \lg \frac{A \times N}{(A+C) \times(A+B)} \tag{4}$

④ $\chi^{2}$ 统计量

度量特征词条t和文档类别c之间的相关程度，并假设t和c之间符合具有一阶自由度的分布。（特征词条对于某类的统计值越高，它与该类之间的相关性越大，携带的类别信息也越多，当的值为0时，属性t与类别c完全独立）

令N表示训练语料中的文档总数，D是既不属于c也不包含t的文档频数，可用下式表示：

$\chi^{2}(t, c)=\frac{N(A D-C B)^{2}}{(A+C)(B+D)(A+B)(C+D)} \tag{5}$

其中， $N = A + B + C + D$

（注：一般上面公式只适用于二分类的情况）

几种特征选择方法性能比较：

依据上一步得到文本的表示特征，构建向量空间模型，计算每个句子表示向量表示中每一个特征维度的权重（权重计算）

2.4 权重计算

① TF-IDF

词频-逆文档频度（Term Frequency - InverseDocument Frequency，TF-IDF）

字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。为了同时考虑两部分的影响，提出了TF-IDF ，定义如下：

$=\frac{\text { 某个词在文章中的出现次数 }}{\text { 文章的总词数 }} \tag{6}$

$F)=\log \frac{\text { 语料库文档数 }}{\text { 包含该词的文档数 }} \tag{7}$

$\tag{8}$

可以看到，IDF反应了一个词在所有文本中出现的频率，如果一个词在很多的文本中出现，那么它的IDF值应该低。一个极端的情况，如果一个词在所有的文本中都出现，那么它的IDF值应该为0。

常用的IDF我们需要做一些平滑，使语料库中没有出现的词也可以得到一个合适的IDF值。
$F)=\log \frac{\text { 语料库文档数 }}{\text { 包含该词的文档数+1 }}$

② scikit-learn预处理

用scikit-learn进行TF-IDF预处理，有两种方法可以进行TF-IDF的预处理：

CountVectorizer+TfidfTransformer

from sklearn. feature extraction. text import Tfidftransformer
from sklearn. feature extraction. text import Countvectorizer

corpus=["I come to China to travel",
	"This is a car polupar in China",
	"I love tea and Apple"]

vectorizer=Countvectorizer（）

trans former Tfidftrans former()
tfidf =transformer fit transform(vectorizer.fit_transform(corpus))
print tfidf

用scikit-learn进行TF-IDF预处理
输出格式：（文档id，全局词id，tfidf权重）

2.5 VSM的评价

优点：
简单易用

缺点：

维数灾难现象
在大数据环境下，高维的特征对于深层语义表示而言，其计算复杂度是难以接受的。
词汇鸿沟现象

one-hot：

显然，二者是正交的， $s i m (s t a r, s u n) = 0$ ，任意两个词之间都是孤立的，丢失了词之间语义关联关系的信息，所以提出了基于矩阵的文本表示方法。

3. 基于矩阵的文本表示方法

1954年，Harris最早提出了词语义的分布假说
(distributional hypothesis)，他认为：“具有相似上下
文的词语也具有相似的语义” 。奠定了词语分布式语义表示(distributional semantic representation) 的理论基础。现在，在此基础上，主要分为基于矩阵的表示和基于神经网络的表示两种类型。

Count-based distributional representation （基于分布式表示）

上下文信息嵌入到了词向量表示中（词嵌入，word embedding)

每个词都在一个低维空间中表示为一个稠密、实值的向量。

3.1 基于矩阵

基于矩阵的文本深层表示以“词-上下文”矩阵为核心，需要构建一个“词-上下文”矩阵，从矩阵中获取词的表示。

在“词-上下文”矩阵中，每行对应一个词，每列表示一种不同的上下文，矩阵分量表示对应的上下文对该词影响的权重。

例一：以词共现作为权重为例

I love monkeys.
Apes and monkeys love bananas

窗口值设为2

在这种表示下，矩阵中的一行，就成为了对应词的表示，这种表示描述了该词的上下文的分布。比如此时的bananas的词向量就是[0 1 0 0 0 0]

例二：文档级上下文

D1, I love monkeys.
D2, Apes and monkeys love bananas

此时的bananas的词向量就是[0, 1]

一般来说，对于上下文的选择可分为：

文档级，将该词出现的整个文档作为上下文
词窗口级，将该词上下文中选取长度固定的词窗口内的词作为上下文
n-gram窗口级，将该词上下文首先表示为ngram模型，之后再选取长度固定的词窗口内的ngram 词组作为上下文

相对而言，词窗口级因具有较低的稀疏性以及保留了词序信息，从而使词语义的建模精度达到最高。

3.2 奇异值分解(SVD分解)

当数据量较大时，构建得到的“词-上下文”矩阵维度较高，通常还需要进行矩阵分解以便降低维度。常用矩阵分解方法主要有奇异值分解等。

文档级一般使用较多，但是当数据量很大时，构建得到的“词-上下文”矩阵维度
较高，通常还需要进行矩阵分解以便降低维度。常用矩阵分解方法主要有奇异值分解等。

潜在语义分析（Latent semantic analysis, LSA）
主成分分析 (Principal Component Analysis, PCA)

指通过对大量的文本集进行统计分析，从中提取出词语的上下文使用含义。技术上通过奇异值分解SVD分解等处理，消除了同义词、多义词的影响，提高了后续处理的精度。

$\large \mathbf{A} \approx \mathbf{U} \mathbf{\Sigma} \mathbf{V}^{\mathbf{T}} \tag{7}$

输入有m个词，对应n个文本。而Aij则对应第i个词在第j个文本的特征值（共现频率、 TF-IDF值）。
引入一个中间变量，称之为主题。k是我们假设的主题数，一般要比文本数少。SVD分解后：

$U_{il}$ 对应第i个词和第l个主题的相关度
$Σ_{lm}$ 对应第l个主题和第m个主题的相关度
$V_{jm}$ 对应第j个文本和第m个主题的相关度

待分解矩阵 $A ： m \times n$
$U ： m \times m$ ：由左奇异向量组成
$Σ ： m \times n$ ：主对角线为奇异值，其他为0
$V ： n \times n$ ：由右奇异向量组成
U和V均为酉矩阵（ $U^TU=I,V^TV=I$ )

怎么得到？

用n×n的方阵 $A^TA$ 做特征值分解，得到n个特征值和特征向量v，作为右奇异向量，得到右侧的V矩阵： $\lambda_ { i } v _ { i }$

用m×m的方阵 $A A^{T}$ 做特征值分解，得到m个特征值和特征向量u，作为左奇异向量，得到左侧的U矩阵： $\left(A A^{T}\right) u_{i}=\lambda_{i} u_{i}$

流程：
（1）分析文档集合，建立词汇-文本矩阵A。
（2）对词汇-文本矩阵进行奇异值分解。
（3）对SVD分解后的矩阵进行降维
（4）使用降维后的矩阵构建潜在语义空间

从此模型开始，模型进入了不可解释的阶段，但是因为表示效果很好，所以继续使用

3.3 评价

优点：
1）可以刻画同义词；
2）无监督/完全自动化。
缺点：
1）无法解决一词多义问题；
2）高维度矩阵做奇异值分解是非常耗时；
3）特征向量没有对应的物理解释

android 10.0 设置默认中文系统settings 语言列表显示不可作为系统语言使用安卓兼职framework应用工程师 android 10.0 Rom开发疑难问题分析 android 10.0 Rom定制化高级进阶 android settings 默认中文系统语言不可作为系统语言使用
1.前言在10.0的系统rom定制化开发中，在开发国内项目的时候，需要设置默认语言为中文，然后再设置默认语言项为zh-CN时，这是系统设置语言列表下方显示不可作为系统语言使用，为了解决这个问题，就需要相关的分析，然后看怎么处理这个问题2.设置默认中文系统settings语言列表显示不可作为系统语言使用的核心类packages/apps/Settings/res/layout/locale_drag
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
考了微软MOS认证后才发现的事 qb_jiajia microsoft 微软
一、微软MOS认证和计算机二级的区别二、微软MOS认证简介微软MOS认证，MicrosoftOfficeSpecialist(MOS)中文称之为“微软办公软件国际认证”，是微软为全球所认可的Office软件国际性专业认证，全球有168个国家地区认可，每年有近百万人次参加考试，它能有效证明Word、Excel、PPT、Acess等办公软件技能。三、微软MOS认证含金量有效证明精通Ofice办公软件，
WebView 页面在多语言环境中错位怎么办？国际化适配调试全过程 2501_91600747 http udp https websocket 网络安全网络协议 tcp/ip
移动应用全球化后，WebView页面往往需要同时适配多种语言和地区设置，包括英语、中文、阿拉伯语等。尤其是当用户使用RTL（Right-to-Left，阿拉伯语、希伯来语等）语言环境时，页面容易出现布局错乱、文字溢出或控件位置异常。这类问题并不会在本地开发环境或英文/中文设置下暴露，常常等到国际用户反馈后才暴露。本文分享一次我们为多语言环境适配进行调试和修复的完整过程。背景：国际化上线后阿拉伯语用
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
【数据安全】《个人隐私保护法》详解-如何保护自己的隐私数据。暴躁小师兄数据学院数据治理大数据
《个人隐私保护法》详解《中华人民共和国个人信息保护法》（简称《个人隐私保护法》）于2021年11月1日正式实施，是我国首部专门针对个人信息保护的综合性法律。该法构建了完整的个人信息保护框架，核心内容如下：一、立法目的与适用范围立法目的规范个人信息处理活动，保障个人信息权益，促进个人信息合理利用。立法目标={保护权益规范处理促进利用\text{立法目标}=\left\{\begin{array}{l
游戏开发需要的知识 benchi0852 游戏编程网络游戏程序开发 windows 网络
网络游戏程序开发学习流程，这是最少要看的书了：1、C++primer中文版第4版2、C++标准程序库自修教程与参考手册3、Windows程序设计第5版4、MFCwindows程序设计第2版中文版5、VC++深入详解6、MFC深入浅出7、EffictiveSTL8、Windows核心编程学好以上几本，也可以去游戏公司一试VC++软件工程师职位了。9、WINDOWS游戏编程大师技巧第2版10、3D游戏
React基础笔记---小黑是小白小黑是小白 react react.js 学习笔记 1024程序员节
react学习前置准备学习网站网址种类React中文React中文文档文档ReactRouterReactRouter6中文文档路由ReactRouterReactRouter路由zustandzustand状态管理TanStackQueryTanStackQuery中文文档请求管理，路由reduxRTK状态管理，请求管理FetchFetch-MDN请求fontawesome图标fontaweso
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
Android解压工具，ZArchiver，RAR for Android，iZip，The Unarchiver，解压专家 xiaopengbc 软件 android
介绍手机解压缩工具种类繁多，以下为你推荐一些功能强大、操作便捷的软件，涵盖安卓和iOS平台：安装点击获取ZArchiver（Android）：支持ZIP、RAR、7z、tar、gzip等多种格式的解压与压缩，还能创建7z、zip等格式的压缩包。软件体积小、运行效率高，解压速度快，可对文件进行加密压缩或解压加密文件，保护隐私。其界面简洁直观，支持中文界面，是安卓平台上受欢迎的解压软件之一。RARfo
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
Mac电脑触摸板增强工具 BetterTouchTool fengyun2891 macos
BetterTouchToolmac版，是一款触摸板增强工具，允许用户使用各种手势来控制其计算机。Bettertouchtoolmac是一个小而高效的macOS应用程序，旨在帮助您为手势定义快捷方式。此外，Bettertouchtool可用于使用常规鼠标和键盘快捷键，并提供伴侣iOS应用程序：您可以使用移动设备来控制计算机。原文地址：BetterTouchToolMac中文触摸板增强工具
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
Ubuntu下搜狗输入法安装记录（解决安装好后仍旧无法输入中文的问题）
主要参考为博客https://blog.csdn.net/fangshuo_light/article/details/123634224以及搜狗官方给到的安装指南https://shurufa.sogou.com/linux/guide遇到问题使用dpkg安装在搜狗官网下载的Linuxdeb安装包sudodpkg-isogoupinyin_4.2.1.145_amd64.deb此时，按照官方的安
ubuntu 在线安装中文输入法一键安装脚本三希 ubuntu linux 运维
脚本#!/bin/bash#Ubuntu中文输入法一键安装脚本(fcitx5+搜狗拼音)#支持Ubuntu20.04/22.04/23.04等主流版本#检查是否为root用户if["$(id-u)"-eq0];thenecho"请不要使用root用户运行此脚本！"echo"请使用普通用户并在需要时输入sudo密码。"exit1fiecho"===开始安装中文输入法==="echo"警告：脚本将自动
【R语言】Can‘t subset elements that don‘t exist. 新子y r语言开发语言 excel
Errorin`select()`:ℹInargument:`all_of(label_col)`.Causedbyerrorin`all_of()`:!Can'tsubsetelementsthatdon'texist.✖Element`Label`doesn'texist.Run`rlang::last_trace()`toseewheretheerroroccurred.原文中文解释涉及关键
minicom中文乱码问题的解决北方的流星运维
当用minicom通过USB调试网络设备时，中文会显示乱码，这时只需要在minicom前加上envLANG=en_US即可正确显示中文，即：$envLANG=en_USminicom但是每次运行每次都需要输入会很麻烦，我们修改一下.bashrc文件就可以了$sudovim~/.bashrc在文件最后添加：aliasminicom='sudoenvLANG=en_USminicom'保存退出，然后执
ChatTTS实现文本转语音（TTS）全流程教程【附完整代码 & 环境配置】文浩（楠搏万）语言模型 Chattts 大语言模型 AI 人工智能 python 生成
言简意赅的讲解ChatTTS解决的痛点‍本教程手把手带你从零上手ChatTTS，实现文本到语音（TTS）转换，适合自媒体配音、有声内容创作、AI语音实验等场景。配套提供完整代码和环境配置方法，一键复现，无压力！什么是ChatTTS？ChatTTS是由清华大学团队开源的一款中文文本转语音（Text-to-Speech,TTS）模型。它的特点包括：️语音自然流畅，情感丰富️支持自定义发音人音色（spe
剖析C++底层文件系统：文件描述符管理与资源分配机制源码解读～郭俊辉@ c++
在C++底层文件系统中，文件描述符作为操作系统与文件交互的核心标识，其管理与资源分配机制对系统的性能、稳定性和资源利用率起着决定性作用。文件描述符不仅用于标识打开的文件，还涵盖了诸如管道、套接字等多种I/O设备。本文将深入剖析C++中文件描述符的管理策略与资源分配机制，结合源码揭示其运行原理与实现细节。一、文件描述符的基本概念与作用文件描述符（FileDescriptor）是操作系统为已打开文件或
如何利用Charles中文版抓包工具提升API调试与网络性能
在现代软件开发中，调试网络请求、优化API接口的性能是开发者面临的日常挑战之一。特别是在处理复杂的API请求和确保应用的响应速度时，开发者需要借助高效的工具来快速捕获和分析网络流量。Charles抓包工具，以其强大的功能和简易的操作，成为开发者调试和优化API接口、提升应用性能的得力助手。本文将介绍如何利用Charles中文版抓包工具提升API调试效率，捕获并分析HTTP/HTTPS流量，同时优化
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Git安装避坑指南 tonngw git 开源开源软件
Git安装避坑指南大纲系统环境准备确认操作系统版本（Windows/macOS/Linux）检查系统位数（32位或64位）确保网络环境稳定，避免下载中断下载官方安装包推荐从Git官网（https://git-scm.com/）下载避免第三方来源，防止捆绑软件或恶意程序选择与系统匹配的版本（如Windows用户注意选.exe安装包）Windows用户常见问题安装路径避免中文或特殊字符，建议全英文路径
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
比Cursor香！字节AI编程神器Trae上线，Claude3.5+GPT4o免费用，中文开发者狂喜！东哥说AI AI应用 AI编程 AI工具 Trae Cursor Windsurf
2024年开始，AI编程工具在国外卷疯了——Cursor、Copilot、Windsurf、Devin、Bolt.new等一系列AI编程神器纷纷露脸，但是国外的软件多国内的中文开发者还是不够友好；国内的各个编程插件通义灵码、文心快码、豆包MarsCode也经常刷屏程序员圈，但是还是作为一个插件嵌入到IDE中使用、而非作为独立的IDE。就在1月，字节跳动终于出手了，发布了对标Cursor和Winds
中文语义系统中，如何定义“语校” semantist@语校人工智能大数据 prompt 数据集语言模型百度
中文语义系统中，如何定义“语校”在中文互联网上，“语校”一词长期处于语义模糊状态。与“大学”、“中学”这类指向明确的词不同，“语校”并非标准官方名词，但在留学相关语境中高频出现，尤其在日本、泰国等非英语国家的留学内容中被大量使用。问题在于：不同人群对它的理解完全不同。一、当前语义混乱的五种典型表现✅中介宣传词：被用作“语言学校”的简称，常出现在机构介绍文案中；❓用户混淆词：部分用户误将其理解为“语
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
多角色AI Agent：基于LLM的虚拟角色扮演系统 AI天才研究院 AI人工智能与大数据人工智能 ai
多角色AIAgent：基于LLM的虚拟角色扮演系统关键词多角色AIAgentLargeLanguageModel(LLM)虚拟角色扮演系统人工智能自然语言处理程序设计摘要本文旨在探讨多角色AIAgent的基础知识以及其如何在虚拟角色扮演系统中发挥作用。我们将首先介绍多角色AIAgent的概念、历史背景和基本原理。随后，我们将深入探讨LLM（大语言模型）在虚拟角色扮演系统中的应用，包括其工作原理、核
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l