catcous

2020李宏毅学习笔记—— 10. Semi-supervised Learning（半监督学习）

文章目录

摘要
1. Introduction
- 1.1 Why Semi-supervised Learning？
- 1.2 why Semi-supervised Learning helps ？
2. Semi-supervised Learning for Generative Model
- 2.1 Supervised Generative Model
- 2.2 Semi-supervised Generative Model
3. Low-density Separation Assumption
- 3.1 Self Training
- 3.2 Entropy-based Regularization
4. Semi-supervised Learning Smoothness Assumption
- Smothness Assumption
- - 4.1 cluster and then label
  - 4.2 Graph-based Approach
  - - Graph-based Approach - Graph Construction
5. Semi-supervised Learning Bette Representation
6. 总结与展望

摘要

本章首先讲解了什么是半监督学习，以及分类与作用；其次讲解了基于高斯分布与似然估计的半监督学习基础理论，其主要实现有四种Semi-supervised Learning for Generative Model）生成模型中的半监督学习，对比了Supervised Generative Model；Low-density Separation Assumption，基本思想是非黑即白，以及两种方法self training与 Entropy-based Regularization；Smoothness Assumption，基本思想是近朱者赤，近墨者黑，以及如何实现Smoothness Assumption的方法cluster and then label与Graph-based Approach，引入了Graph structure；Better Representation，基本思想是去芜存菁，化繁为简，具体内容将在unsupervised Learning中展开。

1. Introduction

分类（classification）这种机器学习算法就是一种监督学习。对于分类，输入的训练数据有特征（feature），有标签（label）。也就是我们之前的输入x和输出y。每一个x样本都对应着一个y（输出）标签。所谓的学习，其本质就是找到特征和标签间的关系（mapping），也就是找规律。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签，即根据新数据进行预测。在上述的分类过程中，如果所有训练数据都有标签，则为有监督学习（supervised learning）。如果训练数据既有标签，又有无标签的，那就是半监督学习（Semi-supervised learning）。如果数据没有标签，显然就是无监督学习（unsupervised learning），即聚类（clustering）。

Supervised learning: 在训练数据中，所有的data都是有label的，即输入数据Xi都有与之对应的目标输出Yi（标签）。
Semi-supervised learning: 在训练数据中，既有label data，又有unlabeled data，且通常情况下U>>R 。

对于半监督学习分为两大类：

Transductive learning（直推学习）: 用有+无标签数据训练，把无标签数据作为测试数据。
Inductive learning（归纳学习）: 用单独的有标签数据测试，无标签数据不作为测试数据。

1.1 Why Semi-supervised Learning？

1.我们不缺数据，但是缺有标签的数据。
2.我们的现实生活中大多数都是半监督学习方式。

1.2 why Semi-supervised Learning helps ？

上图中有一部分labeled的data，还有一部分unlabeled的data。

unlabeled data的分布可能会告诉我们一些信息，比如切割的边界线，但是半监督学习使用unlabelled data 的方式往往伴随着一些假设，半监督学习是否有用，往往取决于假设是否符合实际，是否精确。所以半监督学习未必一直有用，他取决于所做的假设是否合适。

2. Semi-supervised Learning for Generative Model

2.1 Supervised Generative Model

根据高斯分布，估测, Σ，然后就可以估测出一个新的data属于哪类（生成模型可以去回顾一下）

2.2 Semi-supervised Generative Model

如果在原先的数据下多了unlabeled data(上图中绿色的点)，它就会影响最终的决定，你会发现原先的, Σ显然是不合理的，新的, Σ需要使得样本点的分布更接近上图虚线圆所标出的范围。此时，unlabeled data对P(C1)、P(C2)、u1、u1、Σ 都产生了一定程度的影响，划分两个class的decision boundary也会随之发生变化。

半监督学习的生成模型，一般分为三步：

Initialization ：初始化模型参数，假设是二元分类问题的话，先初始化一组参数，初始化 $，\mu^1 ， \mu^2$ ，∑，初始化的值可以random产生也可以又labelled data得来。
把 $，\mu^1 ， \mu^2$ ，∑，这些参数统称为：θ，根据已有的θ ，可以估算每笔unlabelled data属于class1 的几率，几率取决于model的θ 。
compute the posterior probability of unlabeled data：计算无标签数据的分类概率，原来没有考虑unlabelled data的时候，N可能是所有的example，N1是标记为C1的example数目，则不考虑unlabelled data时候， $P (C 1) = N 1 / N$ 。

现在考虑unlabelled data的公式：

3.update model :根据无标签数据的分类概率更新所有参数，重复步骤以上,计算P和 $\mu^1$ 等，有了新的model后，几率 $_\theta(C_1|x^u)$ 又会改变，就会进行第二步，model又不一样了，以此类推。。。(如下图计算所示）

理论上这个方法在最后是收敛的，但是初始值会影响收敛的结果。

为什么这个方法是表现成这个样子？

Maximum likelyhood with labelled data
原来只有labelled data的时候，我们要做的事情是要最大化一个likelyhood，每笔训练数据的likelyhood是可以计算的（如图），求和后是total likelyhood。
Maximum likelyhood with labelled + unlabelled data
公式纠正：
labelled data和前面公式一样，但是unlabelled data需要估测他的概率，因为一笔unlabelled data不知道是从C1还是C2来，所以，一笔unlabelled data出现的概率:

即为这笔unlabelled data出现的概率。接下来，就是最大化该式 $— — l o g L (θ)$ 。不幸的是，解开这个式子只能重复地去解这个式子（即，前面方法步骤里的step1和step2不断重复），不断地增大 $l o g L (θ)$ ，最后会收敛到一个locla minimum局部最优的地方。
注意：最大化该样本出现的原因，监督学习是可以得到最优解的，但是由于半监督方法中的优化函数不是凸函数，即不能得到最优解，所以只能迭代求解。

3. Low-density Separation Assumption

通俗来讲，就是这个世界是非黑即白的，在两个class的交界处data的密度(density)是很低的，它们之间会有一道明显的鸿沟，此时unlabeled data(下图绿色的点)就是帮助你在原本正确的基础上挑一条更好的boundary。

3.1 Self Training

low-density separation最具代表性也最简单的方法是self training

首先将data分为两组，一组是labeled data，一组是unlabeled data

从labelled data中训练一个模型 $f^*$ ,训练方式没有限制。
然后用这个模型去label你的unlabelled data，即输入unlabelled data，查看输出，叫做Pseudo-label。
从unlabelled data set中拿出一些放到labelled data set中，具体如何选择要加进去是一个开放问题，需要自己想办法解决。
有了更多的data之后，labelled data从unlabelled data中得到了更多的data，就返回第一步，再去训练 $f^*$ ,循环即可。

Q问：这个方法可以用在回归问题上吗？
A答：回归问题是要输出一个实数，把一部分data加入labelled data后，再训练，并不会影响 $f^*$ ，所以regression不可以使用这个方法。

self training与Semi-supervised Learning for Generative Model很相似，对比：

在做Self-training的时候用的是Hard label，在做Semi-supervised Learning for Generative Model的时候，用的是soft label。
在做Self-training的时候会强制指定一笔训练数据属于某一个class，而在做Semi-supervised Learning for Generative Model的时候，根据后验概率，按概率划分了，一部分属于class1，一部分属于class2。
在使用NN神经网络的时候，一定要用hard的label，soft label没有用（hard label的假设更加强烈，而soft的相当于没有，得到的参数相当于没有改变。)

3.2 Entropy-based Regularization

前面的hard label的方法太武断，可以用Entropy-based Regularization，output是一个分布，但是分布也要集中，因为“世界”是非黑即白的，过于平均不符合low-density separation的假设。

Q问：那么要如何用一个数值来评估一个分布是好还是不好，集中还是不集中呢？
A答：使用Entropy来评估，分布比较集中的Entropy比较小。

上图中可见entropy越大，distribution就越分散，entropy越小，distribution就越集中,因此我们的目标是在labeled data上分类要正确，在unlabeled data上，output的entropy要越小越好，此时就要修改loss function。

重新设计Loss function：

labelled data部分， $y^r$ 和 $\hat{y}^r$ 之间越近越好，可以使用cross entropy来评价距离。
unlabelled data部分，使用每笔data的output的分布的entropy，希望越小越好。
还可以添加一个weight参数λ \lambdaλ来代表，其所占的权重。

训练依旧使用梯度下降来最小化L，类似于Regularization（在原来的loss function后，加一个参数的L1或L2，来防止过拟合），现在这个很类似，现在加上一个根据unlabelled data来得到的entropy，来防止过拟合，称作Entropy-based Regularization。

4. Semi-supervised Learning Smoothness Assumption

基本思想：近朱者赤，近墨者黑。

Smothness Assumption

假设：如果x是像的，那么他们的label y也会相似。（但是这样假设是不精确的）
更精确的假设：

x的分布是不平均的，某些地方很集中，某些地方很分散。
x1和x2在一个高密度的区域的话，那么x1和x2很接近的时候，他们的label才会很像。x1和x2之间有一条高密度的路径。

假设下图是data的分布，x1,x2,x3是其中的三笔data，如果单纯地看x的相似度，显然x2和x3更接近一些，但对于smoothness assumption来说，x1和x2是处于同一块区域的，它们之间可以有一条相连的路径；而x2与x3之间则是“断开”的，没有high density path，因此x1与x2更“像”。
比如的应用：

4.1 cluster and then label

如何实现Smoothness Assumption，有一种简单的方法是cluster and then label（先聚类后标记），也就是先把data分成几个cluster，划分class之后再拿去训练，但这种方法不一定会得到好的结果，因为它的假设是你可以把同一个class的样本点cluster在一起，而这其实是没那么容易的。

下图中有橙色是class1，绿色是class2，蓝色是unlabelled data。
把所有数据先聚类，分出三个cluster，观察cluster1中，class1的label data最多，所以把cluster1中的所有data都归于class1，同理，cluster2和cluster3都归于class2。

4.2 Graph-based Approach

引入Graph structure，使用图结构来表达conneced by a high density path。
把所有的数据点都建成一个图，每笔data point x都是图上一个点，想要计算他们的相似度，要把图的边建立出来。如果现在有两个点之间有边，可以走的到，说明是同一个class，否则，哪怕距离很近，也走不到，不是同一类。

如何建图呢？

有时建图是很自然的，比如网页之间的链接关系，论文之间的引用关系。
有时需要自己想办法自己建图。

Graph-based Approach - Graph Construction

首先定义两个object 之间的相似度。
算完相似度后，添加边，就可以建graph了，方式有很多种：

k nearest neighbor：假设k=3，则每个point与相似度最接近的3个点相连。
e-neighborhood：每个point与相似度超过某个特定threshold e的点相连。

除此之外，还可以给Edge边特定的weight，让它与相似度成正比。

建议用RB function（径向基函数）来确定相似度,使用exponential的RB function可以做到只有非常近的两个点才能相连，稍微远一点就无法相连的效果（有海沟），避免了跨区域相连的情况。

graph-based approach的基本精神：在graph上已经有一些labeled data，那么跟它们相连的point，属于同一类的概率就会上升，假设有两把data属于class1，那相邻邻居也可能是class1,所以会像传染病一样传递下去。
以上是定性的例子。

如何定量使用graph ？
定义一个计算smoothness的函数，常用函数：

我们期望smooth的值越小越好：

将计算smoothness的函数转换成矩阵相乘：

这样在构建loss function 的时候，可以将监督学习的误差和smoothness of label的值结合起来表示，后者作为regularization term来调节，smoothness可以放在任何地方，不一定是output的地方（视情况而定）。

5. Semi-supervised Learning Bette Representation

基本思想：去芜存菁，化繁为简
找到表面观察背后的隐含特征，更好地表示这个物体。

算法具体思路和内容到unsupervised learning的时候再介绍！！！

6. 总结与展望

本章学习了半监督学习的分类与作用，以及四种实现方式；半监督学习的价值在于大大降低了机器学习模型对于标注数据的依赖，未标注数据的分布，也能提供很多信息，对模型迭代有指导意义，即使他们是没有标签。半监督学习方法一般都具有某些假设，半监督学习方法有没有作用，取决于这些假设的正确程度。最重要的三个假设是Low-density Separation Assumption和Smoothness Assumption以及Better Representation假设。low density separation就是通过强制分类来提升分类效果的方法（基本思想是非黑即白），而smoothness assumption的思想就是近朱者赤近墨者黑，better representation的思想是，去芜存菁，化繁为简.算法具体思路和内容到unsupervised learning的时候再介绍，下一章将学习无监督学习及无监督学习的类别，以及其作用与科学原理等。

#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
kafka--基础知识点--0 Chasing__Dreams kafka kafka 分布式
kafka架构https://cloud.tencent.com/developer/article/230789219张图生产者架构消息的磁盘存储文件结构https://cloud.tencent.com/developer/article/230789219张图produce消息分区策略kafka–基础知识点–5–生产者分区策略ISR、OSR、AR是什么？ISR：ISR，全称in-syncre
详解NIO Channel类沧澜sincerely Java 高并发 nio
目录什么是NIOChannel？为什么要学习NIOChannel？FileChannelSocketChannelDatagramChannel本篇文章内容的前置知识为NIOBuffer类，如果不了解，可点击链接学习详解NIOBuffer类及其属性和方法-CSDN博客什么是NIOChannel？在JavaNIO中，Channel（通道）是一种广义的I/O抽象，用于表示与数据源或数据目的地之间的连接
一天学会超级玛丽小游戏_手把手教学_Java小游戏 62f5ecb72f71
超级玛丽是任天堂制作的一款小游戏,在的童年里一起玩这个游戏,大胡子,背带裤的马里奥,每关以马里奥在走到重点的前提下尽可能地收集金币。他在闯关过程中，会遇到怪物，可以通过踩死或者跳过。也会遇到深坑。给游戏增加了一定的难度。今天带大家用java制作制作这款小游戏,下面是课程介绍.课程介绍：在你的童年记忆里，是否有一个会蹦跳，会吃蘑菇的小人？超级玛丽是一款经典并且流行的小游戏，通过键盘来控制马里奥的移动
2021-03-22 夫记
清晨自问我今天的目标是什么？今天最重要的一件事是什么？我今天要学哪些新知识？我今天要有怎样的心情？作息今日起床：0558昨日就寝：2305年度目标及关键点：项目本月重要成果：今日青蛙/番茄钟rplistreply昨日步数：8753昨日好习惯打卡：早起早睡阅读无氧
AI大模型开发工程师之路：从零到一的进阶指南
当前最热门的技术无疑是AI大模型。虽然它的应用前景广阔，但真正精通大模型技术的人还不多。然而，市场对大模型的需求却在不断增长，吸引了不少开发者想要转行进入这个领域。然而，面对新技术，许多人心中充满疑虑，担心自己无法掌握。笔者也是充满疑虑，然后直到我看到这本书籍，感觉受益匪浅，给与了很多指导和引路，先分享给大家，也希望可以帮助更多的小伙伴。一起开启大模型之路。加油加油加油！！！目录1.大模型开发知识
Java多线程、锁、线程池详解
Java多线程、锁、线程池详解在现代软件开发中，多线程编程是提高程序性能和响应能力的重要手段。Java提供了丰富的多线程支持，包括线程的创建、同步、通信以及线程池管理等。本文将深入探讨Java中的多线程、锁机制、线程池的原理和应用，并涵盖成员方法、并行、调度、同步、死锁、睡眠、唤醒以及线程状态等知识。一、多线程基础1.多线程的概念多线程允许程序同时执行多个任务，从而提高程序的执行效率。2.多线程的
C++-linux 7.文件IO（二）文件描述符、阻塞与非阻塞 HHRL-yx C++-linux系统编程 linux c++服务器
文件IO进阶：文件描述符、阻塞与非阻塞在前文我们介绍了文件IO的核心系统调用，本章将深入探讨Linux文件IO的底层机制，包括文件描述符的本质、阻塞与非阻塞IO模型、文件偏移量控制（lseek）以及系统调用中的参数传递规则，帮助你构建更完整的系统编程知识体系。一、文件描述符：进程与文件的桥梁在Linux系统中，当我们打开或创建一个文件（或套接字）时，操作系统会提供一个文件描述符（FileDescr
信息系统监理师·信息系统监理基础软考和人工智能学堂信息系统监理师数据库
目录一、考试定位与命题脉搏二、知识框架：一张思维导图三、四星考点速记口诀四、典型题型与秒杀套路五、2024-2025命题风向预测六、5分钟速查清单----------------------------------------------------------------一、考试定位与命题脉搏1.角色定位：国家强制监理制度下的“第三方守门人”，核心任务是“四控三管一协调”。2.命题规律：•近3年
互联网大厂Java求职面试：基于Spring AI与云原生架构的RAG系统设计与实现在未来等你 Java场景面试宝典 Java SpringAi RAG系统云原生
互联网大厂Java求职面试：基于SpringAI与云原生架构的RAG系统设计与实现场景背景郑薪苦，一位自称“代码界的段子手”的程序员，正在参加某互联网大厂的技术总监面试。面试官是技术总监李总，拥有丰富的架构设计经验，尤其擅长AI与大模型技术、云原生架构等领域。今天的面试主题围绕企业知识库与AI大模型的深度融合架构展开，重点探讨如何设计一个高性能、可扩展的RAG（Retrieval-Augmente
如何增强LLM（大语言模型）的“置信度”和“自信心” ：LLM的“自信”不是“什么都能答”，而是“该答的答得准，不该答的敢说不”。 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力语言模型人工智能自然语言处理深度学习 transformer 机器学习
如何增强LLM（大语言模型）的“置信度”和“自信心”Pleaseprovideafirmanswer,andforthosewhodon’tknow,pleasereply‘unknown’LLM（大语言模型）的“置信度”（对输出内容的准确性判断）和“自信心”（稳定输出可靠信息的能力），核心逻辑与传统模型相通——让模型在“已知且可靠的知识范围内输出”，同时避免“强行回答陌生问题”。但LLM因生成式
六爻基础-腾蛇的基本知识天机六爻
螣蛇临不同六亲组合而成的信息之象：1.螣蛇临官爻占官司灾凶，若发动克世爻用神，主有牢狱之灾；占梦主有恶梦、怪梦，令人惊恐、怪异之梦；占宅，主有怪异之事发生，有妖、仙、鬼、神怍祟，有异常声音、动静；占病，为虚病、怪痫，医院盘不出之病症，神经之类症症；女占婚，官爻临螣蛇，为命中注定之丈夫，很难离婚。2.螣蛇临父爻克世主受文书，契约所束缚，受合同所牵制；测父母，主父母有怪病怪事或神经不正常，有虚病，思虑
2022-06-02 你的常识，是别人的知识 Sarah写着玩
你的常识，是别人的知识Day87S解读论语之Day71【原文】7.34子曰：“若圣与仁，则吾岂敢！抑为之不厌，诲人不倦，则可谓云尔已矣。''公西华曰：“正唯弟子不能学也。”【翻译】孔子说：“如果说到圣和仁，那我怎么敢当！不过是朝着圣与仁的方向去努力做而不厌倦，教导别人不知疲倦，那是可以这样说的。”公西华说：“这正是我们弟子学不到的。”【解读】1，有时，你的追求只是别人的起点。孔子并没有刻意追求所谓
vLLM快速入门：开启高效推理与部署之旅
在如今这个人工智能飞速发展的时代，语言模型的应用已经深入到我们生活的方方面面，从智能聊天机器人到文本生成工具，都离不开强大的语言模型技术支持。而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。初识vLLM：背景与意义vLLM（VeryLargeLanguageModelInference）是一个专注于大型语言模型推
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
AI产品经理面试宝典第30天：AI+教育个性化学习与知识图谱相关面试题的解答指导 TGITCIC AI产品经理一线大厂面试题人工智能产品经理 AI产品经理面试大模型产品经理面试 AI面试大模型面试
自适应学习系统如何实现千人千面？面试官：请用产品视角解释AI自适应学习系统的核心逻辑你的回答：自适应学习系统本质是构建"数据-模型-决策"的闭环。以沪江Hitalk为例，其通过12级能力评估体系采集学员的听、说、读、写数据，利用知识图谱建立知识点关联网络。当学员完成"实景演练-诊断反馈-学习包推送"的完整链路时，系统会动态调整知识图谱权重，形成个性化学习路径。面试官追问：如何验证个性化效果？回答：
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
曼陀罗疗愈营第六周复盘|曼陀罗报告（7.14-7.20）小尘埃_bc53
一周的课程又结束了，本周学了眉心轮，引导我们看清真相。喉轮超越了距离，眉心轮超越了时间。看见即疗愈。本周曼陀罗解析，讲解了意象，不同的事物代表了不同的心理。花代表了绽放。城堡代表了保护和神圣。盾牌代表保护，宝剑代表勇气、力量和增强自我功能。眼睛代表光明和睿智，转轮代表自信的凝聚功能。大树代表宇宙的轴心，桥梁代表了联系，宝石代表自信的秩序，，需要培养教育的人性。太极代表整合两方面的意义。Part1：
2018-04-08 viper44
科技就是将复杂的事情简单化，所以智能手机的出现显著降低了我们学习的难度，只要善于使用搜索引擎，几乎能够获得所有的知识，而我们利用这些工具的姿势，会反过来决定我们未来的走向，所以一定不能做伸手党，能查到东西尽量自己去搜索，网上有很多现成的成功，我们要善于搜索，把节约的时间拿去干别的事生活中会面临很多突发状况，要如何才能从容面对呢，培养急智的最简单的方法就是列举出所有可能出现的问题，并对它们制定一些相
4D习书之旅 Day4 Jennie夏
第四章4D使用法则小标题：（1）团队评估引发行为改变（2）4D团队发展评估八项被评估的行为、用八项行为测评是否足够了？评估报告究竟什么样、团队会有什么进步（3）个人发展评估个人会有什么进步、基准尺度A我关注的内容：（1）关注点在哪里，能量就流向哪里。注意力和心态的改变促成行为的改变。理性知识不足以促使行为发生改变。（2）共通的社交语言，进行不可能的交谈。（3）四个维度八项行为同时全面发展，创造高绩
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
禁止拖动视频进度条来保障视频安全？菜包eo 教育视频 polyv 视频安全音视频安全
文章目录前言一、何为禁止拖动视频进度条？二、禁止拖动视频进度条的实现原理三、如何实现禁止拖动视频进度条总结前言在知识付费与企业培训场景中，视频内容安全是核心诉求。学员随意拖动进度条可能导致关键知识点遗漏，甚至助长盗录行为。本文深入解析HTML5播放器禁止拖拽进度条的技术方案，通过精准控制播放行为保障学习效果与内容安全。以企业培训、在线教育为例，探讨如何借助技术手段平衡用户体验与内容防护，为开发者提
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul