weixin_33736832

LDA模型学习之（三）走过的弯路

为了把LDA算法用于文本聚类，我真的是绞尽脑汁。除了去看让我头大的概率论、随机过程、高数这些基础的数学知识，还到网上找已经实现的源代码。

最先让我看到署光的是Mallet,我研究了大概一个星期，最后决定放弃了。因为Mallet作者提供的例子实在太少了。

回到了网上找到的这样一段源代码：

/*
* (C) Copyright 2005, Gregor Heinrich (gregor :: arbylon : net) (This file is
* part of the org.knowceans experimental software packages.)
*/
/*
* LdaGibbsSampler is free software; you can redistribute it and/or modify it
* under the terms of the GNU General Public License as published by the Free
* Software Foundation; either version 2 of the License, or (at your option) any
* later version.
*/
/*
* LdaGibbsSampler is distributed in the hope that it will be useful, but
* WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
* FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more
* details.
*/
/*
* You should have received a copy of the GNU General Public License along with
* this program; if not, write to the Free Software Foundation, Inc., 59 Temple
* Place, Suite 330, Boston, MA 02111-1307 USA
*/
/*
* Created on Mar 6, 2005
*/
package com.xh.lda;
import java.text.DecimalFormat;
import java.text.NumberFormat;
/**
* Gibbs sampler for estimating the best assignments of topics for words and
* documents in a corpus. The algorithm is introduced in Tom Griffiths' paper
* "Gibbs sampling in the generative model of Latent Dirichlet Allocation"
* (2002).
*
* @author heinrich
*/
public class LdaGibbsSampler {
/**
* document data (term lists)
*/
int[][] documents;
/**
* vocabulary size
*/
int V;
/**
* number of topics
*/
int K;
/**
* Dirichlet parameter (document--topic associations)
*/
double alpha;
/**
* Dirichlet parameter (topic--term associations)
*/
double beta;
/**
* topic assignments for each word.
*/
int z[][];
/**
* cwt[i][j] number of instances of word i (term?) assigned to topic j.
*/
int[][] nw;
/**
* na[i][j] number of words in document i assigned to topic j.
*/
int[][] nd;
/**
* nwsum[j] total number of words assigned to topic j.
*/
int[] nwsum;
/**
* nasum[i] total number of words in document i.
*/
int[] ndsum;
/**
* cumulative statistics of theta
*/
double[][] thetasum;
/**
* cumulative statistics of phi
*/
double[][] phisum;
/**
* size of statistics
*/
int numstats;
/**
* sampling lag (?)
*/
private static int THIN_INTERVAL = 20;
/**
* burn-in period
*/
private static int BURN_IN = 100;
/**
* max iterations
*/
private static int ITERATIONS = 1000;
/**
* sample lag (if -1 only one sample taken)
*/
private static int SAMPLE_LAG;
private static int dispcol = 0;
/**
* Initialise the Gibbs sampler with data.
*
* @param V
* vocabulary size
* @param data
*/
public LdaGibbsSampler(int[][] documents, int V) {
this.documents = documents;
this.V = V;
}
/**
* Initialisation: Must start with an assignment of observations to topics ?
* Many alternatives are possible, I chose to perform random assignments
* with equal probabilities
*
* @param K
* number of topics
* @return z assignment of topics to words
*/
public void initialState(int K) {
int i;
int M = documents.length;
// initialise count variables.
nw = new int[V][K];
nd = new int[M][K];
nwsum = new int[K];
ndsum = new int[M];
// The z_i are are initialised to values in [1,K] to determine the
// initial state of the Markov chain.
z = new int[M][];
for (int m = 0; m < M; m++) {
int N = documents[m].length;
z[m] = new int[N];
for (int n = 0; n < N; n++) {
int topic = (int) (Math.random() * K);
z[m][n] = topic;
// number of instances of word i assigned to topic j
nw[documents[m][n]][topic]++;
// number of words in document i assigned to topic j.
nd[m][topic]++;
// total number of words assigned to topic j.
nwsum[topic]++;
}
// total number of words in document i
ndsum[m] = N;
}
}
/**
* Main method: Select initial state ? Repeat a large number of times: 1.
* Select an element 2. Update conditional on other elements. If
* appropriate, output summary for each run.
*
* @param K
* number of topics
* @param alpha
* symmetric prior parameter on document--topic associations
* @param beta
* symmetric prior parameter on topic--term associations
*/
public void gibbs(int K, double alpha, double beta) {
this.K = K;
this.alpha = alpha;
this.beta = beta;
// init sampler statistics
if (SAMPLE_LAG > 0) {
thetasum = new double[documents.length][K];
phisum = new double[K][V];
numstats = 0;
}
// initial state of the Markov chain:
initialState(K);
System.out.println("Sampling " + ITERATIONS
+ " iterations with burn-in of " + BURN_IN + " (B/S="
+ THIN_INTERVAL + ").");
for (int i = 0; i < ITERATIONS; i++) {
// for all z_i
for (int m = 0; m < z.length; m++) {
for (int n = 0; n < z[m].length; n++) {
// (z_i = z[m][n])
// sample from p(z_i|z_-i, w)
int topic = sampleFullConditional(m, n);
z[m][n] = topic;
}
}
if ((i < BURN_IN) && (i % THIN_INTERVAL == 0)) {
// System.out.print("B");
dispcol++;
}
// display progress
if ((i > BURN_IN) && (i % THIN_INTERVAL == 0)) {
// System.out.print("S");
dispcol++;
}
// get statistics after burn-in
if ((i > BURN_IN) && (SAMPLE_LAG > 0) && (i % SAMPLE_LAG == 0)) {
updateParams();
// System.out.print("|");
if (i % THIN_INTERVAL != 0)
dispcol++;
}
if (dispcol >= 100) {
// System.out.println();
dispcol = 0;
}
}
}
/**
* Sample a topic z_i from the full conditional distribution: p(z_i = j |
* z_-i, w) = (n_-i,j(w_i) + beta)/(n_-i,j(.) + W * beta) * (n_-i,j(d_i) +
* alpha)/(n_-i,.(d_i) + K * alpha)
*
* @param m
* document
* @param n
* word
*/
private int sampleFullConditional(int m, int n) {
// remove z_i from the count variables
int topic = z[m][n];
nw[documents[m][n]][topic]--;
nd[m][topic]--;
nwsum[topic]--;
ndsum[m]--;
// do multinomial sampling via cumulative method:
double[] p = new double[K];
for (int k = 0; k < K; k++) {
p[k] = (nw[documents[m][n]][k] + beta) / (nwsum[k] + V * beta)
* (nd[m][k] + alpha) / (ndsum[m] + K * alpha);
}
// cumulate multinomial parameters
for (int k = 1; k < p.length; k++) {
p[k] += p[k - 1];
}
// scaled sample because of unnormalised p[]
double u = Math.random() * p[K - 1];
for (topic = 0; topic < p.length; topic++) {
if (u < p[topic])
break;
}
// add newly estimated z_i to count variables
nw[documents[m][n]][topic]++;
nd[m][topic]++;
nwsum[topic]++;
ndsum[m]++;
return topic;
}
/**
* Add to the statistics the values of theta and phi for the current state.
*/
private void updateParams() {
for (int m = 0; m < documents.length; m++) {
for (int k = 0; k < K; k++) {
thetasum[m][k] += (nd[m][k] + alpha) / (ndsum[m] + K * alpha);
}
}
for (int k = 0; k < K; k++) {
for (int w = 0; w < V; w++) {
phisum[k][w] += (nw[w][k] + beta) / (nwsum[k] + V * beta);
}
}
numstats++;
}
/**
* Retrieve estimated document--topic associations. If sample lag > 0 then
* the mean value of all sampled statistics for theta[][] is taken.
*
* @return theta multinomial mixture of document topics (M x K)
*/
public double[][] getTheta() {
double[][] theta = new double[documents.length][K];
if (SAMPLE_LAG > 0) {
for (int m = 0; m < documents.length; m++) {
for (int k = 0; k < K; k++) {
theta[m][k] = thetasum[m][k] / numstats;
}
}
} else {
for (int m = 0; m < documents.length; m++) {
for (int k = 0; k < K; k++) {
theta[m][k] = (nd[m][k] + alpha) / (ndsum[m] + K * alpha);
}
}
}
return theta;
}
/**
* Retrieve estimated topic--word associations. If sample lag > 0 then the
* mean value of all sampled statistics for phi[][] is taken.
*
* @return phi multinomial mixture of topic words (K x V)
*/
public double[][] getPhi() {
System.out.println("K is:"+K+",V is:"+V);
double[][] phi = new double[K][V];
if (SAMPLE_LAG > 0) {
for (int k = 0; k < K; k++) {
for (int w = 0; w < V; w++) {
phi[k][w] = phisum[k][w] / numstats;
}
}
} else {
for (int k = 0; k < K; k++) {
for (int w = 0; w < V; w++) {
phi[k][w] = (nw[w][k] + beta) / (nwsum[k] + V * beta);
}
}
}
return phi;
}
/**
* Configure the gibbs sampler
*
* @param iterations
* number of total iterations
* @param burnIn
* number of burn-in iterations
* @param thinInterval
* update statistics interval
* @param sampleLag
* sample interval (-1 for just one sample at the end)
*/
public void configure(int iterations, int burnIn, int thinInterval,
int sampleLag) {
ITERATIONS = iterations;
BURN_IN = burnIn;
THIN_INTERVAL = thinInterval;
SAMPLE_LAG = sampleLag;
}
/**
* Driver with example data.
*
* @param args
*/
public static void main(String[] args) {
// words in documents
int[][] documents = {
{1, 4, 3, 2, 3, 1, 4, 3, 2, 3, 1, 4, 3, 2, 3, 6},
{2, 2, 4, 2, 4, 2, 2, 2, 2, 4, 2, 2},
{1, 6, 5, 6, 0, 1, 6, 5, 6, 0, 1, 6, 5, 6, 0, 0},
{5, 6, 6, 2, 3, 3, 6, 5, 6, 2, 2, 6, 5, 6, 6, 6, 0},
{2, 2, 4, 4, 4, 4, 1, 5, 5, 5, 5, 5, 5, 1, 1, 1, 1, 0},
{5, 4, 2, 3, 4, 5, 6, 6, 5, 4, 3, 2},
};
// vocabulary
int V = 7;
int M = documents.length;
// # topics
int K = 2;
// good values alpha = 2, beta = .5
double alpha = 2;
double beta = .5;
System.out.println("Latent Dirichlet Allocation using Gibbs Sampling.");
LdaGibbsSampler lda = new LdaGibbsSampler(documents, V);
lda.configure(10000, 2000, 100, 10);
lda.gibbs(K, alpha, beta);//用gibbs抽样
double[][] theta = lda.getTheta();//Theta是我们所希望的一种分布可能
double[][] phi = lda.getPhi();
System.out.println();
System.out.println();
System.out.println("Document--Topic Associations, Theta[d][k] (alpha="
+ alpha + ")");
System.out.print("d\\k\t");
for (int m = 0; m < theta[0].length; m++) {
System.out.print(" " + m % 10 + " ");
}
System.out.println();
for (int m = 0; m < theta.length; m++) {
System.out.print(m + "\t");
for (int k = 0; k < theta[m].length; k++) {
System.out.print(theta[m][k] + " ");
// System.out.print(shadeDouble(theta[m][k], 1) + " ");
}
System.out.println();
}
System.out.println();
System.out.println("Topic--Term Associations, Phi[k][w] (beta=" + beta
+ ")");
System.out.print("k\\w\t");
for (int w = 0; w < phi[0].length; w++) {
System.out.print(" " + w % 10 + " ");
}
System.out.println();
for (int k = 0; k < phi.length; k++) {
System.out.print(k + "\t");
for (int w = 0; w < phi[k].length; w++) {
System.out.print(phi[k][w] + " ");
// System.out.print(shadeDouble(phi[k][w], 1) + " ");
}
System.out.println();
}
}
}

代码中关于数学部分我现在依然没有弄懂，但是先能用着再说吧。

   // vocabulary
        int V = 7;// 表示所有的文档中词汇的总数为7
        int M = documents.length;//表示文档的总个数
        // # topics
        int K = 2;//如果用于聚类，表示类簇的个数：主题的个数
        // good values alpha = 2, beta = .5

下面两个是LDA模型的参数，可以先不用管。
double alpha = 2;
double beta = .5;

我用的做法是：文本分词后对词进行统计，然后给词编号。这样就可以把文档

转化成了document矩阵了！

【锂电池寿命】基于BP锂电池寿命预测（matlab) 大橘科研工作室毕设锂电池方向（MATLAB版）matlab
【锂电池寿命】基于BP锂电池寿命预测（matlab)文章目录【锂电池寿命】基于BP锂电池寿命预测（matlab)一、引言1.1、研究背景1.2、研究意义二、文献综述2.1、锂电池寿命预测研究现状2.2、常见预测方法对比2.3、BP神经网络在寿命预测中的应用三、研究方法与数据准备3.1、BP神经网络模型设计3.2、数据来源与预处理3.3、特征提取与选择四、模型训练与验证4.1、训练过程4.2、模型验
Hibernate与Spring Data JPA：深入解读两大持久化框架的优劣与选择 devme hibernate spring java
亲爱的读者，你是否在处理Java应用程序的数据库交互时，曾对选择哪种持久化框架感到困惑？你是否曾对Hibernate和SpringDataJPA之间的关系感到好奇？今天，我将带你深入探索这两个流行的Java持久化框架，帮助你更好地理解它们的优缺点，以及在何种情况下应该选择哪一个。首先，让我们来了解一下Hibernate和SpringDataJPA的基本概念。HibernateHibernate是一
STLG_05_04_Python - 函数魔都天健开发语言前端笔记 python
Python函数是一种可重用的代码块，用于执行特定任务。它通过def关键字定义，可以接受参数作为输入，并通过return语句返回值。函数能够提高代码的模块化和可读性，方便维护和调试。无论是内置函数还是自定义函数，它们都是Python编程中实现功能和逻辑的重要工具。1.函数的定义和调用1.1函数的定义在Python中，函数是一段可重复使用的代码块，用于执行特定的任务。函数可以帮助我们将代码模块化，提
2024年推荐使用的centos版本是多少? wordpress爱好者 centos linux 运维
2024年CentOS版本选择策略：最新稳定与长期支持的平衡结论：在Linux发行版的选择上，CentOS以其开源、免费和稳定性深受企业级用户的青睐。然而，由于技术的快速发展，每个新版本都会带来新的功能和改进，对于2024年的用户来说，决定采用哪个CentOS版本至关重要。鉴于此，我们建议考虑CentOSStream和CentOS8，两者各具优势，但侧重点不同。原文链接：2024年推荐使用的cen
CentOS 7.6和7.9建站哪个好？ wordpress爱好者 centos linux 运维
CentOS7.6与7.9：建站选择的深度剖析结论：在决定使用CentOS7.6或7.9进行建站时，没有绝对的“更好”，只有更适合。两者都是稳定、可靠的Linux发行版，但7.9作为更新版本，包含了更多的安全修复和功能改进。对于新项目，选择7.9可能是更明智的选择，因为它提供了最新的安全补丁和优化。然而，如果已有系统基于7.6并且运行良好，升级可能带来的风险和复杂性需要权衡。因此，选择应基于具体需
使用AI工具链的实战指南 azzxcvhj 人工智能 python
在这篇指南中，我们将深入探讨如何创建调用工具的链(Chains)和智能体(Agents)。工具可以是API、函数、数据库等等，它们能让模型的能力超越简单的文本或消息输出。使用模型与工具的关键在于如何正确地提示模型选择合适的工具并提供正确的输入。技术背景介绍在现代AI应用中，模型本身虽然强大，但通常需要结合其他工具来实现更复杂的功能。通过集成工具，我们可以扩展模型的能力，轻松实现如计算、数据查询和特
使用LangChain构建信息提取链 azzxcvhj langchain python 深度学习
在现代文本处理应用中，从非结构化文本中提取结构化信息是一个重要且常见的任务。本教程将向您展示如何使用LangChain构建一个信息提取链。技术背景介绍随着大型语言模型(LLMs)的出现，它们的生成能力被广泛应用于各种信息提取任务。通过定义结构化的提取需求，我们可以利用这些模型从复杂的文本中获取所需的信息。核心原理解析提取链的核心在于定义清晰的提取需求，即通过Schema(数据模型)来告诉模型我们需
激活office2016遇：The Software Licensing Service reported that the product SKU is not found. ୧⍢⃝୨ LonelyCoder Office2016 Office2016 Windows10
今天把办公电脑系统重装了，之前的已经用了3年多了，win10还是不错了！！哈哈打开巨硬的下载地址：https://www.microsoft.com/zh-cn/software-download/windows10上面的立即更新，可以更新当前win10系统到最新版本，我顺便把X1也升级到1903了。全新安装点击“立即下载工具”下载程序，下载后插上8G以上的U盘（先格式掉），运行下载的程序，过一会
FreePBX修改IP地址和端口以及添加SSL证书开启HTTPS访问 ୧⍢⃝୨ LonelyCoder CentOS FreePBX mkcert tcp/ip ssl https
最近给单位部署了freepbx网络电话系统，我的系统是安装在ibmx3650m4物理机上的，iso镜像下载后直接用Rufus烧录到U盘，服务器上先做好了raid1，插上U盘重启服务器开撸。安装过程略过了，在虚拟机上安装就不用那么麻烦。一、修改IP地址：1、修改前，先看看你的网线是插在哪个网卡的，用ifconfig查看哪个网卡在用，lo口除外；2、我用的是eth3网卡，所以下面的以eth3网卡为例，
Sublime Text 4 4126 可用 ୧⍢⃝୨ LonelyCoder Sublime Text sublime text 编辑器
网上找的，做个记录，最新的4126可用！！妥妥的—–BEGINLICENSE—–MifengUserSingleUserLicenseEA7E-1184812C0DAA9CD6BE825B5FF9356921750523AEDF59D3FA3BD6C96F8D338663F1CCCEA1C25BE4D25B1C4CC5110C20E5246CC42D232C83BC99CCC420E32890CB
高级 Java 并发：模式和最佳实践小蜗牛慢慢爬行 java 开发语言
并发性是现代软件开发的基石，它使应用程序能够同时执行多个任务并高效利用系统资源。Java是一种多功能且功能强大的编程语言，它已经发展到包含强大的并发支持，使开发人员能够创建高性能、可扩展的应用程序。本文深入介绍了Java中的高级并发模式和最佳实践，使开发人员能够掌握应对复杂并发挑战和优化其应用程序的知识。1.Java并发基础知识基本并发概念Java中的并发性首先要了解基本构建块：线程和Runnab
途经两次遇到Guideline 4.3(a) - Design - Spam的问题如何解决东风吹醒梦中人 iOS苹果应用开发前端 unity ios 游戏
V1.02版本被拒绝：4.3(a)2021.11.09艰苦奋斗了几个月，好不容量先前做了大量修改，第一次上传后，结果最不想见到的4.3还是出现了。是4.3(a)，说明还没过机器审核这一关。以下是被拒绝的4.3原原文：ReviewEnvironmentSubmissionID:bfee2486-11c0-04ef-094d-2842fb50cd47Reviewdate:November04,2024
线性插值 aisi8242
感觉我正在日益沦为一个搬运工...线性插值是指这样一个问题：给定整数$n,m$，以及一个$n$次多项式$f$在$0,1,2,\dots,n-1$处的点值，即$f(0),f(1),f(2),\dots,f(n-1)$，希望能在关于$n$的线性时间内求出$f(m)$。$n\leq10^6,m\leq10^{18}$。利用多项式多点插值并求一次点值可以做到\(O(n\lo
数据存储设计面试：了解数据库分区、分片、索引小蜗牛慢慢爬行数据库 mysql 面试
快速掌握：分片将您的数据分布到多个服务器，以实现可扩展性和更好的性能。分区将单个数据库内的表划分为更小的部分（分区），从而提高查询性能和可管理性。索引创建数据结构以加速某些列的数据检索，从而提高查询性能，但代价是额外的存储和写入开销。数据库分片分片是一种在多个服务器或数据库之间水平划分数据的方法，这样每个服务器（或“分片”）都包含整个数据集的一个子集。此技术用于提高数据库的可扩展性和性能，尤其是在
我的软件架构师——Java 职位面试经历。小蜗牛慢慢爬行 java 面试开发语言职场和发展后端 spring boot spring
最近，我参加了一家领先的服务型公司的软件架构师（Java）职位的面试。我在这里分享了一些面试官问我的问题。我只列出了与Java相关的问题，因为本文主要关注Java。面试官问我有关AWS、Docker、Kubernetes、Kafka、ElasticSearch、SQL/NoSQL和设计模式的问题。ClassNotFoundException和NoClassDefFoundError有什么区别？当您
掌握 Spring Boot 中的 WebClient：何时以及为何使用它而不是 RestTemplate 小蜗牛慢慢爬行 spring boot 后端 java 开发语言 spring
在开发SpringBoot应用程序时，与RESTfulWeb服务进行通信是一项常见需求。从历史上看，开发人员已将RestTemplate用于此目的。然而，随着反应式编程的出现和对更高效资源利用的需求，WebClient已成为首选。本文探讨了RestTemplate和WebClient之间的差异，并通过实际示例强调了为什么WebClient更适合现代应用程序。何时使用RestTemplate？Res
全网最全谷粒商城记录_06、环境-使用vagrant快速创建linux虚拟机——3、linux虚拟机初始化、启动、连接、退出、正常关机、再次启动登录被开发耽误的大厨学生可免费】虚拟机 VirtualBox Vagrant Linux
目录3、vagrant快速给VirtualBox里边创建一个Linux虚拟机（1）初始化一个虚拟机（2）启动虚拟环境（3）连接虚拟机（4）退出连接的虚拟机（5）虚拟机退出-正常关机***（6）以后再次，只需简单操作：虚拟机右键启动或vagrantup命令启动、vagrantssh连接虚拟机启动虚拟机-方式1【不推荐】启动虚拟机-方式2【推荐】【快速创建linux虚拟机，详细介绍】我们先要安装一个L
全网最全谷粒商城记录_06、环境-使用vagrant快速创建linux虚拟机——2、vagrant镜像仓库、下载、安装、验证被开发耽误的大厨学生可免费】虚拟机 VirtualBox Vagrant Linux
目录二、VirtualBox里边安装虚拟的Linux系统1、vagrant镜像仓库、vagrant下载2、vagrant安装、验证【快速创建linux虚拟机，详细介绍】我们先要安装一个Linux虚拟机来简化开发，比如redis、mysql、rabbitMQ等等，我们后端项目开发真实环境，都是装在Linux里面的。二、VirtualBox里边安装虚拟的Linux系统1、vagrant镜像仓库、vag
c/c++ 左值右值 Tiantangbujimo7 基础 c语言 c++java
左值(Lvalue):定义：表达式结束后依然存在的持久对象。有名字、有持久性的表达式，它是既能够出现在等号左边，也能出现在等号右边的变量。右值(Rvalue):定义：表达式结束后就不再存在的临时对象。临时的、将亡的值。一般是不可寻址的常量，或在表达式求值过程中创建的无名临时对象，短暂性的。左值和右值主要的区别之一是左值可以被修改，而右值不能。intnumber;number=1在这段代码中numb
Linux(Centos 7.6)目录结构详解豆是浪个 linux centos 运维
Linux(Centos7.6)是一个操作系统，其核心设计理念是将一切资源抽象为文件，即一切皆文件。比如系统中的硬件设备硬盘、网络接口等都被视为文件。Windows系统一般是分为C、D、E盘。而Linux(Centos7.6)是以斜线"/"作为文件系统的开始目录，我们一般叫"根目录"，然后以根目录为起始点成树状图进行分布。1.Linux(Centos7.6)目录结构查看1.1.使用ls/ll命令查
Apache SeaTunnel 2.3.9 正式发布：多项新特性与优化全面提升数据集成能力数据库
近日，ApacheSeaTunnel社区正式发布了最新版本2.3.9。本次更新新增了`Helm集群部署、Transform支持多表、Zeta新API、表结构转换、任务提交队列、分库分表合并、列转多行`等多个功能更新！作为一款开源、分布式的数据集成平台，本次版本通过新增功能、性能优化与问题修复，为开发者与企业用户带来了更加全面的支持。2.3.9版本下载：https://seatunnel.apach
小白也能懂的Vite + React组件开发完全指南前端
学习前端开发，你可能会听说过很多工具和框架，其中Vite和React无疑是炙手可热的明星。Vite凭借其闪电般的速度和优秀的开发体验，迅速成为了许多开发者的首选构建工具；而React，作为目前最流行的JavaScript库之一，以其组件化、声明式编程的特性，简化了复杂的Web应用开发。这篇教程将带你快速掌握AI写代码工具Vite和React组件开发的核心技能，让你从小白也能轻松入门，独立完成简单的
Python_线性插值胡小记 python
1、语法解释线性插值主要用到的是numpy中的interp函数interp(x,xp,fp,left=None,right=None,period=None)其中x为要插值点的横坐标，xp为x的坐标值（必须是递增），fp为y的坐标值left是可选择参数，如果x小于xp，则会默认返回xp[0]对应的fp值，right同理。period可设定横坐标的周期，该选项打开时，则忽略left和right。具体
亮相AICon，火山引擎边缘云揭秘边缘AI Agent探索与实践边缘计算智能硬件ai开发
12月13-14日，AICon全球人工智能开发与应用大会在北京成功举办。火山引擎边缘智能技术负责人谢皓受邀出席大会，以《AIAgent在边缘云的探索与实践》为主题，与全球AI领域的资深专家，共同深入探讨大模型落地、具身智能、多模态大模型、AIAgent等前沿技术如何推动行业变革、引领未来发展。火山引擎边缘智能技术负责人谢皓指出，随着AI时代的到来，边缘智能由传统的物联网、智慧物联，逐渐演变成智能体
Golang学习笔记_28——工厂方法模式（实例） LuckyLay Golang学习笔记 golang 学习笔记工厂方法模式
Golang学习笔记_26——通道Golang学习笔记_27——单例模式Golang学习笔记_28——工厂方法模式工厂方法模式（实例）packagefactory_method_demoimport"fmt"//Order接口，定义订单的基本操作typeOrderinterface{CalculateTotal()float64Display()}//RegularOrder是普通订单结构体typ
如何用selenium来链接并打开比特浏览器进行自动化操作（1）写python的鑫哥爬虫实战进阶 selenium pyppeteer puppeteer 比特浏览器比特指纹浏览器链接打开
前言本文是该专栏的第76篇，后面会持续分享python爬虫干货知识，记得关注。本文，笔者将基于“比特浏览器”，通过selenium来实现链接并打开比特浏览器，进行相关的“自动化”操作。值得一提的是，在本专栏之前，笔者有详细介绍过“使用selenium或者pyppeteer（puppeteer）来链接并打开指纹浏览器AdsPower”的方法和详细教程。笔者将相关文章的链接，整理如下（对此领域，感兴趣
【2022年的STM32】 01-开发环境上手初体验 mcucpp STM32 stm32 单片机 arm mcu 嵌入式
概述最近基于NXPS32K1完成博客专栏，决定看一下好多年未使用ST的MCU，看其是否在开发环境、驱动、芯片特性上更好用了呢？S32K1博客专栏开发环境STM32的开发环境有很多EclipseARMEMbedKeilIARSystemsSTM32CUBEIDESTM32CUBE这里我们选择ST官方基于eclipse的免费STM32CUBEIDE，下载地址：STM32CUBEDownloadSTM3
基于纵横交叉算法优化的最小交叉熵图像多阈值分割 python 图像算法打怪图像分割算法 python 开发语言
基于纵横交叉算法优化的最小交叉熵图像多阈值分割python文章目录基于纵横交叉算法优化的最小交叉熵图像多阈值分割python1.最小交叉熵阈值分割原理2.基于纵横交叉优化的多阈值分割3.算法结果：4.参考文献：5.Python代码摘要：本文介绍基于最小交叉熵的图像分割，并且应用纵横交叉算法进行阈值寻优。1.最小交叉熵阈值分割原理1993年，Li等人将交叉熵的概念引入到图像处理领域，提出了基于一维灰
Linux 安装 MySQL 8 数据库（图文详细教程）格姗知识圈 Linux MySQL linux mysql centos
本教程手把手教你如何在Linux安装MySQL数据库，以CentOS7为例。1.下载并安装MySQL官方的YumRepositorywget-i-chttps://repo.mysql.com//mysql80-community-release-el7-1.noarch.rpm使用上面的命令就直接下载了安装用的YumRepository，大概25KB的样子，然后就可以直接yum安装了。yum-y
LLaMA-Factory 基于 LoRA 的 SFT 指令微调及相关功能梳理 Ambition_LAO 深度学习人工智能机器学习
1.数据准备微调数据的格式为Alpaca或ShareGPT格式，需进行以下步骤：自定义数据集转换：将原始数据集转换成指定格式（JSON格式）。示例数据：{"instruction":"写一个商品文案","input":"类型#裤*版型#宽松","output":"宽松的阔腿裤吸引了大量明星的喜爱，设计感十足。"}数据注册：修改data/dataset_info.json文件，将数据集注册到系统中。
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

LDA模型学习之（三）走过的弯路

你可能感兴趣的:(LDA模型学习之（三）走过的弯路)