菜菜2022

【Python】LDA模型中文文本主题提取丨可视化工具pyLDAvis的使用

主题模型LDA的实现及其可视化pyLDAvis

无监督提取文档主题——LDA模型
1.1 准备工作
1.2 调用api实现模型
LDA的可视化交互分析——pyLDAvis
2.1 安装pyLDAvis
2.2 结合gensim调用api实现可视化
p.s. 保存结果为独立网页
p.p.s. 加快prepare速度？
2.3 如何分析pyLDAvis可视化结果
2.3.1. 每个主题表示什么意义？
2.3.2 每个主题有多么普遍？
2.3.3 主题之间有什么关联？
无监督提取文档主题——LDA模型
这个模型具体介绍、应用场景什么的就不谈了，你知道它能从一堆的文本中给你反馈出规定主题数的词语聚类就可以了。

由于是无监督算法，意味着你不需要去准备训练集，不用去苦逼地打标签，在数据准备阶段任务量至少省掉了一半啊。

而作为数学小白，其中具体原理如无必要我一向是不愿深究的，只要有人证明可行，那我拿来就用。聪明的脑袋要各尽其用嘛(笑

但也许我之后始终逃不掉要学习原理吧，先把原理解释放在这里，之后需要时再看。

故而本篇主要介绍的是如何上手实现及如何分析结果，这才是Data Scientist该干的事嘛

1. 无监督提取文档主题——LDA模型

1.1 准备工作

书归正传。以本次工作为例，我需要分析爬取到500名用户每人50页微博，大概500* 50* 10=250000条微博文本的主题情况。也就是说想看看这些人的微博主要是在关心些什么，他们共同关注哪些方面。

编程环境：
python 3.6 + pycharm 2018,
LDA实现使用的包是gensim，
分词还是用我们的老朋朋朋朋友jieba.

数据准备：
爬到的原始数据存在csv中，我想的是将所有的微博文本分行读到一个txt中，然后分词去停用词，就达到gensim的输入标准了。

分词前：

分词后：

【code】
用于处理原始文本。

def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

# 对句子进行分词
def seg_sentence(sentence):
    sentence = re.sub(u'[0-9\.]+', u'', sentence)
    jb.add_word('光线摄影学院')		# 这里是加入用户自定义的词来补充jieba词典。
    jb.add_word('曾兰老师')			# 同样，如果你想删除哪个特定的未登录词，就先把它加上然后放进停用词表里。
    jb.add_word('网页链接')
    jb.add_word('微博视频')
    jb.add_word('发布了头条文章')
    jb.add_word('青春有你')
    jb.add_word('青你')
    sentence_seged = jb.cut(sentence.strip())
    stopwords = stopwordslist('stopWords/stopwords.txt')  # 这里加载停用词的路径
    outstr = ''
    for word in sentence_seged:
        if word not in stopwords and word.__len__()>1:
            if word != '\t':
                outstr += word
                outstr += " "
    return outstr


inputs = open('input/like_mi10_user_all_retweet.txt', 'r', encoding='utf-8')

outputs = open('output1/mi10_user_retweet_fc.txt', 'w',encoding='utf-8')
for line in inputs:
    line_seg = seg_sentence(line)  # 这里的返回值是字符串
    outputs.write(line_seg + '\n')
outputs.close()
inputs.close()

1.2 调用api实现模型

准备数据两小时，接口调用三分钟，等待结果两小时。

gensim很友好，词典、词袋模型、lda模型都是一句话搞定。

【code】

from gensim import corpora
from gensim.models import LdaModel
from gensim.corpora import Dictionary


train = []

fp = codecs.open('output1/mi10_user_retweet_fc.txt','r',encoding='utf8')
for line in fp:
    if line != '':
        line = line.split()
        train.append([w for w in line])

dictionary = corpora.Dictionary(train)

corpus = [dictionary.doc2bow(text) for text in train]

lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=20, passes=60)
# num_topics：主题数目
# passes：训练伦次
# num_words：每个主题下输出的term的数目

for topic in lda.print_topics(num_words = 20):
    termNumber = topic[0]
    print(topic[0], ':', sep='')
    listOfTerms = topic[1].split('+')
    for term in listOfTerms:
        listItems = term.split('*')
        print('  ', listItems[1], '(', listItems[0], ')', sep='')

最后的输出是

0:
  "北京" (0.024)
  "疫情" ( 0.021)
  "中国联通" ( 0.019)
  "领券" ( 0.019)
  "购物" ( 0.016)
  "新冠" ( 0.016)
  "专享" ( 0.012)
  "元券" ( 0.012)
  "确诊" ( 0.012)
  "上海" ( 0.011)
  "优惠" ( 0.011)
  "肺炎" ( 0.010)
  "新闻" ( 0.010)
  "病例" ( 0.010)
  "汽车"( 0.009)
1:
  "小米" (0.133)
  "Redmi" ( 0.019)
  "新浪" ( 0.019)
  "智慧" ( 0.018)
  "雷军" ( 0.014)
  "众测" ( 0.012)
  "体验" ( 0.012)
  "智能" ( 0.012)
  "MIUI" ( 0.012)
  "电视" ( 0.012)
  "红米" ( 0.011)
  "空调" ( 0.009)
  "产品" ( 0.009)
  "品牌" ( 0.009)
  "价格"( 0.008)
2:
  "抽奖" (0.056)
  "平台" ( 0.032)
  "评测" ( 0.022)
  "生活" ( 0.013)
  "红包" ( 0.013)
  "关注" ( 0.012)
  "这条" ( 0.012)
  "视频" ( 0.012)
  "工具" ( 0.011)
  "获得" ( 0.011)
  "有效" ( 0.011)
  "进行" ( 0.010)
  "恭喜" ( 0.010)
  "用户" ( 0.010)
  "公正"( 0.010)
 .....

这种。他只会返回给你规定主题数下的多少词，每个词后面的小数可认为是这个词属于这个主题的概率，主题下所有词的概率和为1；而这个主题应该是什么，就要靠你人工后面分析来定义了。

那，盯着这一堆冷冰冰的词语和数字，也许你能通过概率衡量出这个词和这个主题的关系，但你能看出不同主题之间的关系吗？你能看出一个词和其他主题的关系吗？

有点困难。这时就要引出我们的LDA可视化分析工具了。

2. LDA的可视化交互分析——pyLDAvis

先上效果图：

2.1 安装pyLDAvis

pip install pyldavis

2.2 结合gensim调用api实现可视化

pyLDAvis支持三种包内lda模型的直接传入：sklearn、gensim、graphlab，好像也可以自己算。这里当然紧接上文直接用gensim得到的lda模型了。
pyLDAvis也很友好，同样一句话完成实现：

import pyLDAvis.gensim

'''插入之前的代码片段'''

d=pyLDAvis.gensim.prepare(lda, corpus, dictionary)

'''
lda: 计算好的话题模型

corpus: 文档词频矩阵

dictionary: 词语空间
'''

pyLDAvis.show(d)		#展示在浏览器
# pyLDAvis.displace(d) #展示在notebook的output cell中

数据量很大，运行时间稍长。

p.s. 保存结果为独立网页

同时，如果你希望能够将这个结果保存为独立网页以便分享或放到web系统中，那么可以这样

d=pyLDAvis.gensim.prepare(lda, corpus, dictionary)

pyLDAvis.save_html(d, 'lda_pass10.html')	# 将结果保存为该html文件

就不用每次都等好久时间跑结果了。。

p.p.s. 加快prepare速度？

是的，这个可视化过程真的很慢。。我用time来计时了，测试时为节省时间，gensim只训练一遍，耗时58s，然后等待pyLDAvis的渲染。。等了足足一个多小时吧？4200s…才终于出来了。
然后保存为网页很快。

d=pyLDAvis.gensim.prepare(lda, corpus, dictionary, mds='mmds')

酱紫。
实际测试了，可以说，没有效果。。。。。

同时这个选择算法的参数还可以为tsne，不同算法的区别还是看文档吧。

2.3 如何分析pyLDAvis可视化结果

出来的这个页面，说复杂也不复杂，左边的气泡分布是不同主题，右边就是主题内前30个特征词了。浅蓝色的表示这个词在整个文档中出现的频率（权重），深红色的表示这个词在这个主题中所占的权重。右上角可以调节一个参数λ，其作用接着往下看。

于是我们最后回答LDAvis作者开发这个工具所要解决的三个问题：

2.3.1. 每个主题表示什么意义？

通过鼠标悬浮在左边的气泡上，我们可以选择查看具体的某个主题。选定后，右侧面板会相应地显示出跟这个主题相关的词汇，通过总结这些词汇表达的意义，我们就可以归纳出该主题的意义。

同时，哪个词对主题的权重更高呢？某个词语主题的相关性，就由λ参数来调节。

如果λ接近1，那么在该主题下更频繁出现的词，跟主题更相关；
如果λ越接近0，那么该主题下更特殊、更独有（exclusive）的词，跟主题更相关（有点TF-IDF的意思了）。

所以我们可以通过调节λ的大小来改变词语跟主题的相关性，探索更加sense的主题意义。

2.3.2 每个主题有多么普遍？

在跑完主题建模之后，我们就可以知道每个主题出现的频率。LDAvis的作者将这个数字，用圆圈的大小来表示，同时也按顺序标号为1~n。所以气泡的大小及编号即表示主题出现的频率。

2.3.3 主题之间有什么关联？

这里作者用多维尺度分析，提取出主成分做维度，将主题分布到这两个维度上，主题相互之间的位置远近，就表达了主题之间的接近性。气泡距离采用的是JSD距离，（应该）可认为是主题间的差异度，气泡有重叠说明这两个话题里的特征词有交叉。

知道这些后，就是看词说话了。看看这些词应该是在说些什么东西，提炼出不同的topic来，这才是有实际应用价值的结果。若无最后的结果输出，前面所做的一切都是废纸一张。

先总结到这里吧，抛去理论层面，应该是够用了。

你可能感兴趣的:(#,Python学习笔记,LDA,pyLDAvis,LDA文本主题提取可视化)

【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论全栈追梦人大模型 #提示工程 transformer 架构深度学习
Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？1.1从RNN到Transformer：一场效率革命场景：咖啡厅里两位开发者的对话实习生小雨：“学长，为什么现在都用Transformer？RNN不是也能处理文本吗？”资深工程师老张：（掏出纸巾画图）“想象RNN是个严格的图书管
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑 Echo_Wish Python 进阶人工智能
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑在AI圈子里有一句“老话”：真正的世界，是非结构化的。图像、音频、视频、文本、传感器原始数据……这些在数据库里没个字段、没个主键的家伙，占据了全世界80%以上的数据量。咱们都喜欢说“数据是新时代的石油”，但很少人说：非结构化数据，就是粘稠未提炼的原油——处理它，才是最累的活。这篇文章，我不想跟你讲那些“炫技”的论文和模型，而是从一个一线AI工程师的
Mac 安装使用 Oh-my-zsh（持续更新）运维阿峰 MacOS macos
文章目录1.介绍（1）zsh介绍（2）Oh-my-zsh介绍2.oh-my-zsh安装3.配置oh-my-zsh（1）配置主题（2）安装插件zsh官网：https://ohmyz.sh/1.介绍（1）zsh介绍zsh是一种shell（命令解释器），它兼容bash（另一种常见的shell）。zsh相比系统自带的bash有以下几个优点：Tab补全功能强大，在输入命令、命令参数以及文件路径时都能够自动补
Python实例题：基于 KNN 算法的手写数字识别
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于KNN算法的手写数字识别要求：实现一个基于K-NearestNeighbors(KNN)算法的手写数字识别系统。支持以下功能：使用MNIST数据集训练和测试模型实现KNN分类算法可视化手写数字样本评估模型性能（准确率、混淆矩阵等）添加用户交互界面，允许用户绘制数字并进行识别。解题思路：使用sklearn加载MNIST数据
Python实例题：基于遗传算法的旅行商问题求解狐凄实例 python 开发语言
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于遗传算法的旅行商问题求解要求：使用遗传算法解决旅行商问题（TSP）。支持以下功能：随机生成城市坐标或导入预定义城市实现遗传算法的基本操作（选择、交叉、变异）可视化进化过程和最终路径统计进化过程中的适应度变化允许用户调整遗传算法参数（种群大小、迭代次数、交叉率、变异率等）。解题思路：用列表表示城市访问顺序作为染色体。使用欧
AI日报-20250627：谷歌Gemma 3n发布，百亿参数只需2G内存！荣耀启动IPO冲刺2000亿估值！大数据AI-ZRL AI日报人工智能业界资讯自然语言处理
1、黑马FLUX.1-Kontext开源！文本一键PS超越GPT-image-1，AI修图新标杆2、谷歌Gemma3n震撼发布：2G内存跑100亿参数多模态模型，端侧AI迎来革命！3、90后清华博士打造AI厨师！获数千万融资，拿下全国首张机器人食品经营证4、蚂蚁CGM代码图模型震撼开源：44%修复率登顶SWE-Bench，碾压所有开源模型5、快手Keye-VL大模型震撼开源！视频理解能力秒杀人类，
AI绘画背后的技术：Stable Diffusion原理详解与实战 AI学长带你学AI ai
AI绘画背后的技术：StableDiffusion原理详解与实战关键词：StableDiffusion、扩散模型、AI绘画、潜在空间、文本生成图像摘要：本文将带你揭开AI绘画“魔法”背后的核心技术——StableDiffusion的神秘面纱。我们会用“给小学生讲故事”的方式，从生活中的例子出发，逐步解释扩散模型的底层逻辑、StableDiffusion的关键创新，并用Python代码实战演示如何生
open3d 使用 RANSAC 算法拟合平面扶子 python 点云处理平面 python open3d 经验分享点云拟合平面
1、功能介绍：一个python代码演示了如何使用open3d和numpy来完成一个完整的点云平面拟合任务。它包括以下几个主要部分：生成符合某一平面方程的随机点云数据、使用RANSAC算法对这些点云进行平面拟合、可视化原始点云和平面拟合结果2、代码部分：importnumpyasnpimportopen3daso3d#生成随机点云np.random.seed(42)n_points=100#假设这些
pycharm——djiango之数据迁移，终端操作 Pop– python
首先在pycharm中找到terminal(终端)，输入指令：pythonmanage.pymakemigrations之后你会看到如下图：这表示创建成功。接着输入指令：pythonmanage.pymigrate就能看到好多ok，你在数据库中也能看到很多表你可以在终端打开数据库查看表，也可以使用客户端的可视化界面查看，还可以在pycharm中右边的database里边打开查看，如下图：之后你就可
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
MySQL之全场景常用工具链 AA-代码批发V哥 MySQL mysql 数据库运维
MySQL之全场景常用工具链一、基础连接与客户端工具1.1mysql命令行客户端1.2MySQLWorkbench：官方可视化1.3NavicatPremium二、管理与开发工具2.1phpMyAdmin：Web端管理首选2.2HeidiSQL：轻量Windows客户端三、性能优化工具3.1EXPLAIN：查询优化3.2SHOWPROFILE：细粒度性能分析3.3慢查询日志：捕获性能痛点四、备份与
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
从数据抓取到分析：用Python爬虫获取、清洗与可视化数据程序员威哥 python 爬虫 c++
在数据科学领域，数据的获取、清洗与分析是整个数据处理过程中的关键步骤。随着互联网上数据的不断增多，使用Python爬虫抓取网站数据并进行分析已成为数据科学家和分析师的常见任务。本篇文章将通过具体的实例，展示如何使用Python从零开始抓取数据，清洗数据，并进行数据分析和可视化。1.数据抓取：用Python爬虫获取网页数据1.1选择爬虫工具Python提供了多个强大的爬虫框架和库，常用的工具包括：r
AD20学习笔记——BOM表输出 Fz@ EDA学习学习笔记
BOM表输出脚本链接GitHub上-lianlian33/InteractiveHtmlBomForAD网盘链接链接：https://pan.baidu.com/s/1uGpwDyWKNgzghY5EH1Aj8A?pwd=72tx提取码：72tx1、下载文件并解压2、复制文件路径3、将脚本导入AD①点击设置中的ScriptingSystem中的GlobalProjects，选择从文件夹安装。②粘贴
Qt：QCustomPlot库简介十秒耿直拆包选手 C and C++Qt and Pyside QCustomPlot学习 qt c++QCustomPlot
QCustomPlot是一个基于Qt框架的轻量级C++绘图库，专为高效绘制二维图表（如曲线图、柱状图、金融图表等）而设计。相比QtCharts模块，它以高性能和高度可定制性著称，尤其适合需要实时数据可视化的科学计算、工业监控和金融分析场景。核心特性概览特性说明轻量高效仅需2个头文件+1个源码文件，零外部依赖实时性能优化处理百万级数据点，支持OpenGL加速多图层系统支持无限图层叠加，独立坐标系交互
OpenCV实战：图像颜色识别与提取、掩膜制作
前言在计算机视觉和图像处理领域，颜色识别是一项基础而重要的技术。无论是交通标志识别、工业分拣还是美颜滤镜开发，都离不开对特定颜色的处理。本文将带你全面掌握使用OpenCV进行颜色识别的关键技术，包含完整的代码实现和原理讲解。一、颜色空间基础1.1RGB颜色空间在图像处理中，最常见的就是RGB颜色空间。RGB颜色空间是我们接触最多的颜色空间，是一种用于表示和显示彩色图像的一种颜色模型。RGB代表红色
串行工作室：实时数据可视化工具，让嵌入设备数据一目了然！
在当今快速发展的技术世界中，如何高效处理嵌入式设备数据是许多开发者面临的重大挑战。本文将为大家介绍一个名为SerialStudio的工具，通过它，你可以实现嵌入式设备数据的可视化，无论是在教育、业余项目还是专业开发中，它都是一个不可多得的得力助手。SerialStudio简介SerialStudio是一款开放核心的跨平台遥测仪表板和实时数据可视化工具，它能够通过串口、蓝牙低能耗（BLE）、MQTT
Python编程实战：爬虫与数据可视化的全过程草莓味儿柠檬
本文还有配套的精品资源，点击获取简介：本项目通过Python编程实现网络数据爬取和数据可视化，适合初学者深入了解Python。我们将涵盖基础语法、网络爬虫技术、数据处理、可视化技术、文件操作和错误处理等关键知识点，最终完成从爬取各省降水量数据到可视化展示的全过程。1.Python基础语法使用Python作为一门流行的编程语言，因其简洁和易读性被广泛应用于网络爬虫、数据处理和可视化等领域。本章将帮助
上位机知识篇---CRLF Atticus-Orion 微处理器原理与应用篇上位机知识篇上位机操作篇单片机嵌入式硬件微处理器原理与应用串口
串口通信中的CRLF：概念、原理与应用详解一、CRLF的定义与本质CRLF是两个ASCII控制字符的组合，用于表示文本行的结束，在串口通信中作为数据帧的分隔符。其具体含义为：CR（CarriageReturn）：回车符，ASCII码为0x0D（十进制13），早期打字机中表示“将打印头移至行首”；LF（LineFeed）：换行符，ASCII码为0x0A（十进制10），表示“将打印头移至下一行”。组合
基于python的公众号文章爬取思路（总结版）大数据小学僧 python 开发语言爬虫微信公众平台
目录一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接口直连模式（微信公众平台API）2.网页解析模式（搜狗微信搜索）3.第三方API模式（如清博大数据）四、可视化界面实现五、数据存储方案六、高级技巧七、注意事项八、推荐工具链一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接
使用 Simulink 来实现一个简化的电动汽车动力总成控制系统模型 xiaoheshang_123 手把手教你学 MATLAB 专栏 MATLAB 开发项目实例 1000 例专栏数据结构 simulink matlab
目录一、引言教程目标二、准备工作三、实现步骤详解✅步骤1：创建Simulink模型✅步骤2：添加电机与控制器模型✅步骤3：电池管理系统（BMS）✅步骤4：能量回收系统✅步骤5：连接各模块并设置仿真参数示例连线代码：设置仿真参数：✅步骤6：结果可视化✅步骤7：完整框图结构示意（文字版）四、运行仿真并测试效果五、结论与拓展方向✅本章收获：后续建议拓展方向：手把手教你学Simulink——电动车辆的动力
如何设计一款现代化风格的博客主题程序呢？ LeleBlog - 现代化Typecho博客主题独立开发者阿乐原创深度学习人工智能算法源代码管理学习方法技术美术
文章目录LeleBlog-Typecho主题目录主题介绍✨主题特性主题架构安装教程使用指南主题设置基本设置首页设置公告设置界面元素侧边栏设置生日倒计时社交链接友情链接与信息文章编辑兼容插件❓常见问题配套主题插件更多干货1.如果我的博客对你有帮助、如果你喜欢我的博客内容，请“点赞”“✍️评论”“收藏”一键三连哦！LeleBlog-Typecho主题一款为Typecho开发的现代化、功能丰富的博客主题
AIDeepSeekLe - Typecho AI摘要生成插件独立开发者阿乐原创人工智能数据库 ai AI写作
文章目录生成文章标题的方法标题优化技巧功能特点安装方法配置说明使用方法手动生成摘要自动生成摘要摘要显示插件优势框架设计核心文件工作流程数据存储常见问题生成文章标题的方法理解文章的核心主题和关键信息，确保标题能准确概括内容。分析目标读者群体，根据受众的兴趣和需求调整标题风格。使用简洁有力的词语，避免冗长或复杂的表达，保持标题清晰易懂。考虑使用疑问句或数字列表等吸引眼球的句式，增加标题的吸引力。标题优
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
大语言模型中的思维链提示：解锁高效互动的秘密 t0_54program 大数据与人工智能语言模型人工智能自然语言处理个人开发
在当今的人工智能领域，大语言模型（LLMs）已然成为一颗耀眼的明星，它经过海量训练，能够理解并生成人类语言，在编程等诸多领域助力人们完成日常任务。然而，若想与这些模型实现高效沟通，掌握正确的请求方式至关重要，而思维链提示（Chainofthoughtprompting）便是与LLMs互动时最为高效的技术之一。什么是提示（Prompting）？LLMs基于海量数据集进行训练，以理解并生成类人文本。其
Promptify与ReActAgent frostmelody 人工智能
一、Promptify定位：NLP任务的「自动化流水线」1.解决什么问题？传统LLM应用开发痛点：反复调试：需手工编写/调整prompt格式（如调整分隔符、示例数量）兼容性差：不同模型需重写适配代码输出不稳定：非结构化文本需额外解析Promptify用标准化流水线解决上述问题，将复杂prompt工程简化为三行代码：model=OpenAI(api_key)#选择模型prompter=Prompte
数据标注师学习内容汇总试着数据标注师学习数据标注师
目录文本标注图像标注语音标注文本标注词性标注1词性标注2实体标注关系标注事件标注1事件标注2意图标注关键词标注分类标注问答标注对话标注图像标注拉框标注关键点标注2D标注3D标注线标注目标跟踪标注OCR标注图像分类标注语音标注语音切割转写语音校对标注拼音和停顿标注
E IO流.java 是紫焅呢 26字母学习：java入门篇 java 开发语言学习方法 visual studio code 后端
前言：I/O（输入/输出）操作是构建各类应用程序的基石之一。Java提供了功能强大且灵活的I/O流机制，用于处理数据的读取与写入，无论是简单的文本文件操作，还是复杂的网络数据传输，都离不开I/O流的支持。目录一、初识JavaI/O流数据的“传送带”二、字节流操作从读取到写入的实战1.读取文件（字节流）2.写入文件（字节流）三、字符流操作读写文本文件的简便之道1.读取文件（字符流）2.写入文件（字符
庙算兵棋推演AI开发初探（7-神经网络训练与评估概述）超自然祈祷智能决策人工智能神经网络深度学习
前面我们提取了特征做了数据集、设计并实现了处理数据集的神经网络，接下来我们需要训练神经网络了，就是把数据对接好灌进去，训练后查看预测的和实际的结果是否一致——也就是训练与评估。数据解析提取数据编码为数据集设计神经网络-->>神经网络训练与评估神经网络一个重要指标是收敛，就是用可以逼近任意函数的神经网络是否可以逼近你数据集中隐含的模式。再重复一遍【特征工程】与【神经网络】的区别：前者就像人发现了牛顿
经济学神图：洛伦兹曲线大千AI助手人工智能 Python #OTHER 决策树人工智能 DecisionTree 算法洛伦兹曲线基尼
洛伦兹曲线（LorenzCurve）是衡量社会收入或财富分配不平等程度的经典可视化工具，由美国统计学家马克斯·洛伦兹（MaxOttoLorenz）于1905年提出。它不仅是理解基尼系数的核心基础，也是经济学、社会学中分析资源分配公平性的关键图表。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！往期文
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他