木华生

从文本中提取单词生成单词本

词频统计及单词提取

对一段英文文本做词频统计，提取单词，查词，最终生成一个单词本，生成的单词本可以导入Anki中学习。

问题分析

考虑到单词的变形，分词后先做词形还原，之后再进行词频统计。去除掉较为简单的单词后，调用金山词霸API查询词义，下载发音音频，生成单词本。同时，用PyQt5做了一个简单的GUI。效果如下：

打包后生成的软件见: https://pan.baidu.com/s/1fuVdKJWqUqM97jUgTyFMrg 提取码: pstg
核心代码如下：

# -*- coding: utf-8 -*-
'''
分词，提词的主程序
先词形还原，再词频统计
去掉简单的单词后，生成单词本
'''
import requests,re,threading,traceback,os
from bs4 import BeautifulSoup
from tqdm import tqdm
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
from nltk import pos_tag
lemmatizer = WordNetLemmatizer()
Max_lookup_connections = 5
Max_download_audio_connections = 10
class vocabulary(object):
    def __init__(self,file,learned_words_file = 'learned_words.txt',save_path='',download_audio=False):
        '''
        :param: file: 待处理的文本
        :param: learned_words_file: 已学会的简单的单词本
        :param: save_path: 要保存的路径，默认程序文件下
        :param: download_autio:是否下载音频，默认为false
        '''
        #生成保存路径
        self.file = file
        if save_path:
            if not os.path.isdir(save_path):
                os.makedirs(save_path)
        else:
            save_path = './'
        self.learned_words_file = learned_words_file 
        self.save_path=save_path
        self.name = os.path.basename(file).split('.')[0]
        self.save_filename = self.save_path + os.sep + self.name + '_vocabulary.txt'
        self.download_audio_flag = download_audio

    def run(self):
        try:
            raw_text,text = self.get_content(self.file)#获取文本，原始文本用以提供例句
            words = self.lemmatizing(text)#单词变体还原，词形还原
            self.word_counts = self.counts(words)#计数
            words = self.remove_words(words)#去除简单的，已熟知的单词
            look_up_result = self.get_look_up_result(words,raw_text)#查词
            self.write_words(look_up_result)
            if self.download_audio_flag:
                self.download_audio(look_up_result)
            return look_up_result
        except:
            traceback.print_exc()
            return None
    def get_content(self,file):
        '''
        获取文本内容，输入文件名，返回字符串。
        '''
        with open(file,'r',encoding='utf-8') as f:
            raw_text = f.read()
        text = raw_text.lower()
        for ch in '''`~!@#$%^&*()_+-={}|[]\\:"?>”<;'“—‘’.…/,''':
            text = text.replace(ch,' ')
        return raw_text,text
    def lemmatizing(self,text):
        '''
        词形还原，输入字符串，返回单词列表
        '''
        words = text.split()
        print('words:',len(words))
        lemm_words = []
        with tqdm(total = len(words),desc='lemmatizing') as fbar:
            for i in range(len(words)):
                j = i+1
                self.get_lemmed_one(words[i],lemm_words)
                if j%1000==0:
                    fbar.update(1000)
        #print('lemm_words: ',len(lemm_words))
        return lemm_words
    def get_lemmed_one(self,word,lemm_words):
        try:
            tag = pos_tag([word])#标注单词在文本中的成分 
            #需要用nltk.download('averaged_perceptron_tagger')下载资源
            pos = self.get_pos(tag[0][1])#转为词性
            if pos:
                lemm_word = lemmatizer.lemmatize(word,pos)#词形还原，还原词根
                lemm_words.append(lemm_word)
            else:
                lemm_words.append(word)
        except:
            print(word)
    def get_pos(self,tag):
        #需要用nltk.download('wordnet')下载资源
        if tag.startswith('J'):
            return wordnet.ADJ
        if tag.startswith('V'):
            return wordnet.VERB
        if tag.startswith('N'):
            return wordnet.NOUN
        if tag.startswith('R'):
            return wordnet.ADV
        else:
            return ''
    def counts(self,words):
        '''
        词频统计，输入单词列表，输出词频,返回字典{单词:词频}
        '''
        #print(len(words))
        counts = {}
        for word in words:
            counts[word] = counts.get(word,0) +1
        items = list(counts.items())
        items.sort(key=lambda x:x[1],reverse=True)
        print('set words:',len(counts))
        #for i in range(20):
        #    word,count = items[i]
        #    print('{0:<10}{1:>5}'.format(word,count))
        return counts
    def remove_words(self,words):
        learned_words=[]
        try:
            with open(self.learned_words_file,'r',encoding='utf-8') as f:
                for line in f:
                    line = line.replace('\n','')
                    learned_words.append(line)
        except:
            learned_words=[]
        finally:
            words = list(set(words) - (set(learned_words)))
            print('removed_words:',len(words))
            return words
    def look_up_one(self,word):
        #查询单个单词，返回：key(单词),ps（音标）,pron（音频url）,pos（词性）,acceptation（释义）
        #调用金山词霸开放平台API
        #http://dict-co.iciba.com/api/dictionary.php?w=moose&key=4EE27DDF668AD6501DCC2DC75B46851B
        url = 'http://dict-co.iciba.com/api/dictionary.php?w={}&key=4EE27DDF668AD6501DCC2DC75B46851B'.format(word)
        #print(url)
        try:
            resp = requests.get(url)
            resp.encoding = 'utf-8'
            soup = BeautifulSoup(resp.text,'html.parser')
            key = soup.key.string
            ps = '[{}]'.format(soup.ps.string)
            pron = soup.pron.string
            pos_list = soup.select('pos')
            pos = pos_list[0].string
            acceptation_list = soup.select('acceptation')
            acceptation = pos_list[0].string + ' ' + acceptation_list[0].string.replace('\n','').replace('\r','')
            for i in range(1,len(pos_list)):
                acceptation = acceptation + '' + pos_list[i].string + ' '  + acceptation_list[i].string.replace('\n','').replace('\r','') + ''
            return (key,ps,pron,pos,acceptation)
        except:
            #print(url)
            #traceback.print_exc()
            return None
    def get_sen(self,word,text):
        #获取原文例句：
        pattern= '\\..*?{}.*?\\.'.format(word) #问题：大单词包含该小单词
        match =re.search(pattern,text)
        if match:
            return match.group(0)[2:]
        else:
            return ' '

    def get_look_up_result(self,words,text):
        '''
        查词，返回字典列表，key(单词),ps（音标）,pron（音频url）,pos（词性）,acceptation（释义）
        key: 单词，count: 词频，ps: 音标，pron: 音频url，pos:词性，sen:原文例句，
        '''
        data = []
        threads=[]
        semaphore = threading.Semaphore(Max_lookup_connections)
        with tqdm(total = len(words),desc='Looking Up') as fbar:
            for i in range(len(words)):
                j = i+1
                word = words[i]
                #self.look_up(word,text,data,semaphore)
                semaphore.acquire()
                t = threading.Thread(target=self.look_up,args=(word,text,data,semaphore))
                threads.append(t)
                t.start()
                if j%100==0:
                    fbar.update(100)
            for t in threads:
                t.join()
        print('vocabulary:',len(data))
        #print(data[:10])
        return data
    def look_up(self,word,text,data,semaphore):
        '''
        查词，返回字典列表，key(单词),ps（音标）,pron（音频url）,pos（词性）,acceptation（释义）
        key: 单词，count: 词频，ps: 音标，pron: 音频url，pos:词性，sen:原文例句，
        '''
        if self.look_up_one(word):
            datum = {}
            key,ps,pron,pos,acceptation=self.look_up_one(word)
            sen = self.get_sen(word,text)
            count = self.word_counts.get(key,0)
            datum['key'] = key
            datum['count'] = count
            datum['ps'] = ps
            datum['pron'] = pron
            datum['pos'] = pos
            datum['acceptation'] = acceptation
            datum['sen'] = sen
            data.append(datum)
        semaphore.release()
    def write_words(self,data):
        with open(self.save_filename,'w',encoding='utf-8') as f:
            for datum in data:
                pron = '[sound:{}.mp3]'.format(datum['key']) 
                text = '{}\t{}\t{}\t{}\t{}\n'.format(datum['key'],datum['ps'],pron,datum['acceptation'],datum['sen'])
                f.write(text)

    def download_audio_one(self,key,url):
        '''下载单词发音音频'''
        resp = requests.get(url)
        filepath = self.save_path + os.path.sep + 'audio'
        if not os.path.isdir(filepath):
            os.mkdir(filepath)
        filename = filepath + os.sep + key + '.mp3'
        if not os.path.isfile(filename):
            with open(filename,'wb') as f:
                f.write(resp.content)
    def download_audio_one_thread(self,key,url,semaphore):
        '''下载单词发音音频'''
        resp = requests.get(url)
        filepath = self.save_path + os.path.sep + 'audio'
        filename = filepath + os.sep + key + '.mp3'
        if not os.path.isfile(filename):
            with open(filename,'wb') as f:
                f.write(resp.content)
        semaphore.release()
    def download_audio(self,data):
        filepath = self.save_path + os.path.sep + 'audio'
        if not os.path.isdir(filepath):
            os.mkdir(filepath)
        threads = []
        semaphore = threading.Semaphore(Max_download_audio_connections)
        len_words = len(data)
        with tqdm(total = len_words,desc='Downloading sudio') as fbar:
            for i in range(len_words):
                j = i+1
                key = data[i]['key']
                url = data[i]['pron']
                semaphore.acquire()
                t = threading.Thread(target=self.download_audio_one_thread,args=(key,url,semaphore))
                threads.append(t)
                t.start()
                if j%100==0:
                    fbar.update(100)
            for t in threads:
                t.join()
if __name__=='__main__':
    from pandas import DataFrame
    file = 'Bad Blood - John Carreyrou_1.txt'
    work =  vocabulary(file,save_path = '')
    data = work.run()
    #pf = DataFrame(data)
    #print(pf)

生成GUI代码为：

# -*- coding: utf-8 -*-
from PyQt5.QtWidgets import QApplication,QMainWindow,QFileDialog,QTableWidgetItem
from PyQt5.QtGui import QFont,QColor
from PyQt5.QtCore import Qt,QDir
from 文本提取单词_UI import Ui_MainWindow

from vocabulary_2 import vocabulary
from pandas import DataFrame
import traceback
import threading
import os
class MainWindow(QMainWindow,Ui_MainWindow):
    def __init__(self,parent=None):
        super(MainWindow,self).__init__(parent)
        self.setupUi(self)
        self.file = ''
        self.learned_word_file = ''
        self.savepath = './'

        self.setWindowTitle('文本提词')

        #连接信号与槽
        self.pushButton_openfile.clicked.connect(self.openfile)#打开文本文件(utf-8)
        self.pushButton_savepath.clicked.connect(self.change_save_path)#改变保存路径
        self.pushButton_learnedfile.clicked.connect(self.openlearnedfile)#打开简单词汇文件（utf-8）
        self.pushButton_start.clicked.connect(self.run)#生成单词本
        self.tableWidget.cellClicked.connect(self.listen_one_new)#播放发音
        self.pushButton_download_audio.clicked.connect(self.download_audio)

    def openfile(self):
        #打开文件
        filename, _ = QFileDialog.getOpenFileName(self,'Open file','D:\\','Txt files(*.txt)')
        #print(filename)
        self.label_openfile.setText(filename)
        self.file = filename
    def change_save_path(self):
        #修改保存路径
        directory = QFileDialog.getExistingDirectory(self,'选取文件夹',self.savepath)
        self.savepath = QDir.toNativeSeparators(directory)# 路径以windows支持的显示方式进行显示。
        self.label_savepath.setText(self.savepath)
    def openlearnedfile(self):
        filename, _ = QFileDialog.getOpenFileName(self,'Open file','D:\\','Txt files(*.txt)')
        self.label_learnedfile.setText(filename)
        self.learned_word_file = filename
    def run(self):
        self.statusBar().showMessage('正在查词......')
        self.vocabulary = vocabulary(file=self.file,learned_words_file=self.learned_word_file,save_path=self.savepath)
        data = self.vocabulary.run()
        if data:
            self.show_tablewidget(data)
            self.vocabulary.write_words(self.data)
    def show_tablewidget(self, dict_data):
        '''在tableWidget显示dict_data'''
        tableWidget = self.tableWidget
        '''排序'''
        df = DataFrame(dict_data).sort_values(by='count',ascending = False)
        _temp = df.to_dict('index')
        dict_data = list(_temp.values())
        self.data = dict_data
        '''tableWidget的初始化'''
        list_col = ['key','count','ps','pron','pos','acceptation','sen']
        len_col = len(list_col)
        len_index = len(dict_data)
        tableWidget.setRowCount(len_index)#设置行数
        tableWidget.setColumnCount(len_col)#设置列数
        tableWidget.setHorizontalHeaderLabels(['单词', '词频', '音标','发音','词性','释义','例句']) # 设置垂直方向上的名字
        tableWidget.setVerticalHeaderLabels([str(i) for i in range(1, len_index + 1)]) # 设置水平方向上的名字
        '''填充数据'''
        for index in  range(len_index):
            for col in range(len_col):
                name_col = list_col[col]
                if name_col == 'pron':
                    item = QTableWidgetItem('播放')
                    item.setTextAlignment(Qt.AlignCenter)
                    font = QFont()
                    font.setBold(True)
                    font.setWeight(75)
                    item.setFont(font)
                    item.setBackground(QColor(218, 218, 218))
                    item.setFlags(Qt.ItemIsUserCheckable | Qt.ItemIsEnabled)
                    tableWidget.setItem(index, col, item)
                else:
                    tableWidget.setItem(index,col,QTableWidgetItem(str(dict_data[index][name_col])))
        tableWidget.resizeColumnsToContents()
        tableWidget.setColumnWidth(5, 500)
    def listen_one_new(self,row,column):
        if column == 3:
            download_one = self.data[row]
            listen_thread = threading.Thread(target = self.listen_one_new_thread,args=(download_one,),daemon=True)
            listen_thread.start()
    def listen_one_new_thread(self,download_one):
        key = download_one['key']
        url = download_one['pron']
        self.vocabulary.download_audio_one(key,url)
        filename = self.savepath + os.path.sep + 'audio' + os.sep + key + '.mp3'
        print(os.path.abspath(filename))
        os.system(os.path.abspath(filename))
    def download_audio(self):
        self.statusBar().showMessage('音频下载中...')
        try:
            self.vocabulary.download_audio(self.data)
            self.statusBar().showMessage('音频下载成功')
        except:
            self.statusBar().showMessage('音频下载失败')

if __name__=='__main__':
    import sys
    app = QApplication(sys.argv)
    window = MainWindow()
    window.show()
    sys.exit(app.exec_())

UI代码为：

# -*- coding: utf-8 -*-

# Form implementation generated from reading ui file '文本提取单词.ui'
#
# Created by: PyQt5 UI code generator 5.11.3
#
# WARNING! All changes made in this file will be lost!

from PyQt5 import QtGui, QtWidgets
from PyQt5.QtCore import QRect, QMetaObject,QCoreApplication
from PyQt5.QtWidgets import QWidget,QVBoxLayout,QHBoxLayout,QPushButton,QLabel,QSpacerItem,QSizePolicy,QTableWidget,QStatusBar
class Ui_MainWindow(object):
    def setupUi(self, MainWindow):
        MainWindow.setObjectName("MainWindow")
        MainWindow.resize(833, 594)
        self.centralwidget = QWidget(MainWindow)
        self.centralwidget.setObjectName("centralwidget")
        self.verticalLayout = QVBoxLayout(self.centralwidget)
        self.verticalLayout.setObjectName("verticalLayout")
        self.horizontalLayout = QHBoxLayout()
        self.horizontalLayout.setObjectName("horizontalLayout")
        self.pushButton_openfile = QPushButton(self.centralwidget)
        self.pushButton_openfile.setObjectName("pushButton_openfile")
        self.horizontalLayout.addWidget(self.pushButton_openfile)
        self.label_openfile = QLabel(self.centralwidget)
        self.label_openfile.setText("")
        self.label_openfile.setObjectName("label_openfile")
        self.horizontalLayout.addWidget(self.label_openfile)
        spacerItem = QSpacerItem(40, 20, QSizePolicy.Expanding, QSizePolicy.Minimum)
        self.horizontalLayout.addItem(spacerItem)
        self.pushButton_start = QPushButton(self.centralwidget)
        self.pushButton_start.setObjectName("pushButton_start")
        self.horizontalLayout.addWidget(self.pushButton_start)
        self.verticalLayout.addLayout(self.horizontalLayout)
        self.horizontalLayout_2 = QHBoxLayout()
        self.horizontalLayout_2.setObjectName("horizontalLayout_2")
        self.pushButton_savepath = QPushButton(self.centralwidget)
        self.pushButton_savepath.setObjectName("pushButton_savepath")
        self.horizontalLayout_2.addWidget(self.pushButton_savepath)
        self.label_savepath = QLabel(self.centralwidget)
        self.label_savepath.setText("")
        self.label_savepath.setObjectName("label_savepath")
        self.horizontalLayout_2.addWidget(self.label_savepath)
        spacerItem1 = QSpacerItem(40, 20, QSizePolicy.Expanding, QSizePolicy.Minimum)
        self.horizontalLayout_2.addItem(spacerItem1)
        self.pushButton_learnedfile = QPushButton(self.centralwidget)
        self.pushButton_learnedfile.setObjectName("pushButton_learnedfile")
        self.horizontalLayout_2.addWidget(self.pushButton_learnedfile)
        self.label_learnedfile = QLabel(self.centralwidget)
        self.label_learnedfile.setText("")
        self.label_learnedfile.setObjectName("label_learnedfile")
        self.horizontalLayout_2.addWidget(self.label_learnedfile)
        spacerItem2 = QSpacerItem(40, 20, QSizePolicy.Expanding, QSizePolicy.Minimum)
        self.horizontalLayout_2.addItem(spacerItem2)
        self.pushButton_download_audio = QPushButton(self.centralwidget)
        self.pushButton_download_audio.setObjectName("pushButton_download_audio")
        self.horizontalLayout_2.addWidget(self.pushButton_download_audio)
        self.verticalLayout.addLayout(self.horizontalLayout_2)
        self.tableWidget = QTableWidget(self.centralwidget)
        self.tableWidget.setObjectName("tableWidget")
        self.tableWidget.setColumnCount(0)
        self.tableWidget.setRowCount(0)
        self.verticalLayout.addWidget(self.tableWidget)
        MainWindow.setCentralWidget(self.centralwidget)
        self.statusbar = QStatusBar(MainWindow)
        self.statusbar.setObjectName("statusbar")
        MainWindow.setStatusBar(self.statusbar)

        self.retranslateUi(MainWindow)
        QMetaObject.connectSlotsByName(MainWindow)

    def retranslateUi(self, MainWindow):
        _translate = QCoreApplication.translate
        MainWindow.setWindowTitle(_translate("MainWindow", "MainWindow"))
        self.pushButton_openfile.setText(_translate("MainWindow", "打开文件"))
        self.pushButton_start.setText(_translate("MainWindow", "开始"))
        self.pushButton_savepath.setText(_translate("MainWindow", "保存路径"))
        self.pushButton_learnedfile.setText(_translate("MainWindow", "需要剔除的单词"))
        self.pushButton_download_audio.setText(_translate("MainWindow", "下载音频"))

JavaScript基础-事件基础難釋懷 javascript 开发语言
在现代Web开发中，交互性是网站用户体验的重要组成部分。通过使用JavaScript，我们可以捕获用户的操作并作出响应，实现动态网页效果。这一切都离不开事件（Events）的概念。本文将介绍JavaScript中事件的基础知识，包括事件类型、如何绑定事件处理器以及一些常见的实践技巧。一、什么是事件？在浏览器环境中，事件是由浏览器生成的通知，表明某种情况已经发生。这些情况可能是用户交互（如点击按钮）
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
Flutter IconButton完全指南：高效使用与性能优化秘籍帅次 Flutter flutter android ios android studio macos kotlin swift
目录一、引言二、IconButton的基本用法三、进阶技巧3.1自定义形状与背景3.2带文本的IconButton（使用Column组合）3.3自定义交互反馈3.4动态图标切换3.5组合式按钮（图标+文字）四、高级应用4.1与主题深度整合4.2手势扩展（长按/双击）4.3动画增强点击效果五、性能与最佳实践5.1避免重建5.1.1声明常量图标5.1.2带参数的常量图标5.1.3常量图标按钮5.1.4
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
基于云效Flow落地自动化构建——构建集群云效DevOps平台场景实践云效云效Flow 构建器构建集群研发团队研发管理
基于云效Flow落地自动化构建，构建集群，云效流水线Flow是持续交付的载体，通过构建自动化、集成自动化、验证自动化、部署自动化，完成从开发到上线过程的持续交付。通过持续向团队提供及时反馈，让交付过程高效顺畅，基于云效Flow自动化构建工具，构建集群操作群指南。立即体验云效构建集群，云效Flow支持用户个性化的构建场景，提供三种类型的构建集群的能力支持。用户在流水线编排时，可以为任务设置不同的构建
【面试问题】Java 接口与抽象类的区别刘小炮吖i Java Java后端开发面试题 java 开发语言面试
引言在Java面向对象编程中，接口（Interface）和抽象类（AbstractClass）是两个重要的抽象工具。它们都能定义未实现的方法，但设计目标和使用场景截然不同。本文将通过语法、特性和实际案例，深入解析两者的核心区别。一、基础概念回顾抽象类（AbstractClass）定义：使用abstract关键字声明的类，包含抽象方法（无实现）和具体方法（有实现）。特点：不能被实例化，必须通过子类继
施磊老师高级c++(一) Zhuai-行淮施磊老师cpp c++开发语言
对象被优化后,才是高效的c++编程文章目录对象被优化后,才是高效的c++编程1.对象使用背后调用了哪些方法2.函数调用过程中对象背后调用方法3.总结三条对象优化的规则4.CMyString的代码问题5.添加带右值引用参数的拷贝构造和赋值函数6.String类在vector上的应用--面试题7.move移动语义和forword类型完美转发move移动语义的作用代码:**问题:**解决办法:最终代码:
3.5 Spring Boot邮件服务：从基础发送到模板邮件进阶 Sendingab Spring boot 从入门到精通零基础7天精通Spring Boot spring boot python 后端
SpringBoot邮件服务：从基础发送到模板邮件进阶引言在现代企业级应用中，邮件服务是不可或缺的基础能力。从用户注册验证、密码重置，到订单通知、系统告警，再到营销推广等场景，邮件始终扮演着关键角色。SpringBoot通过spring-boot-starter-mail模块，将JavaMail的复杂配置简化为几行代码即可实现的便捷操作。本文将手把手带您实现从基础文本邮件发送到高级模板邮件的完整开
TCP 通信流程图 U_p_ 计算机网络知识网络服务器 windows
下面给出一个详细的TCP通信流程图，演示客户端（Client）与服务器（Server）之间通过TCP协议进行通信时的各个步骤。这里假设：服务器IP：192.168.1.100，监听80端口客户端IP：192.168.1.200，使用随机分配的端口（示例中为50000）下面的流程图按三次握手、数据交互、四次挥手的顺序展示。为便于阅读，采用ASCII画出大致示意。┌──────────────────
机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
matsim开发教程若木胡大数据信息可视化
以下是基于MATSim的二次开发教程指南，结合交通仿真框架的核心功能和开发实践，提供从环境搭建到高级开发的完整路径：一、MATSim简介MATSim（Multi-AgentTransportSimulation）是一个基于Java的开源交通仿真框架，专注于大规模多智能体（Agent）交通行为模拟，支持动态需求建模、路径规划优化、政策评估等应用场景。二、开发环境搭建1.基础依赖JavaJDK11+：
Tree of Thought Prompting（思维树提示）大数据追光猿大模型人工智能大数据深度学习语言模型计算机视觉
TreeofThoughtPrompting（思维树提示）是一种新兴的提示工程技术，旨在通过模拟人类解决问题时的多步推理过程，提升大型语言模型（LLM）在复杂任务中的表现。与传统的线性提示方法不同，思维树提示将问题分解为多个可能的推理路径，并以树状结构探索这些路径，从而找到最优解或生成更高质量的结果。这种方法特别适用于需要多步推理的任务，例如数学问题求解、逻辑推理、规划和创造性写作等场景。它结合了
【Leetcode】12. 整数转罗马数字 Leuanghing leetcode 算法 python
一、题目描述七个不同的符号代表罗马数字，其值如下：罗马数字是通过添加从最高到最低的小数位值的转换而形成的。将小数位值转换为罗马数字有以下规则：如果该值不是以4或9开头，请选择可以从输入中减去的最大值的符号，将该符号附加到结果，减去其值，然后将其余部分转换为罗马数字。如果该值以4或9开头，使用减法形式，表示从以下符号中减去一个符号，例如4是5(V)减1(I):IV，9是10(X)减1(I)：IX。仅
清晰易懂的Python安装与配置教程 Tee xm python 开发语言
初学者也能看懂的Python安装与配置教程本教程将手把手教你安装Python，并配置国内镜像源和自定义依赖包缓存位置，即使你是零基础小白，也能轻松完成！一、准备工作操作系统：Windows10/11、macOS或Linux。下载工具：浏览器（推荐Chrome或Edge）。存储空间：至少预留500MB可用空间。二、安装Python1.下载Python访问Python官网下载页面：https://ww
S32K144外设实验（二）：ADC单通道单次采样（软件触发）上层精灵的赞美诗 #S32K144的外设基础实验单片机嵌入式硬件 eclipse mcu 笔记
文章目录1.概述1.1理论回顾1.1.1时钟系统1.1.2采样通道1.2实验目的2.配置与代码编写1.概述1.1理论回顾S32K144的ADC应该说是特别灵活，笔者采用循序渐进的方式来学习使用这个很重要的外设。在《入门笔记系列》专栏中对用户手册进行了翻译和解读，这里在回顾一下ADC的基本功能，第一次实验我们不使用过于复杂的触发方式。只使用一个通道来理解S32K144的ADC。1.1.1时钟系统首先
并查集实现算法 C嘎嘎嵌入式开发算法算法服务器 c++
畅通工程2题目描述：某省调查城镇交通状况，得到现有城镇道路统计表，表中列出了每条道路直接连通的城镇。省政府“畅通工程”的目标是使全省任何两个城镇间都可以实现交通（但不一定有直接的道路相连，只要互相间接通过道路可达即可）。问最少还需要建设多少条道路？输入描述：测试输入包含若干测试用例。每个测试用例的第1行给出两个正整数，分别是城镇数目N(#include#include#include#includ
Pydantic模型继承解析：从字段继承到多态模型
title:Pydantic模型继承解析：从字段继承到多态模型date:2025/3/19updated:2025/3/19author:cmdragonexcerpt:涵盖字段继承、属性覆盖、多态模型等关键机制。将掌握类型安全的继承体系构建方法，实现企业级数据校验方案，避免传统面向对象继承的常见陷阱。categories:后端开发FastAPItags:Pydantic模型继承字段覆盖机制多态数
在Ubuntu上安装MEAN Stack的4个步骤 ubuntu
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
ESP8266 与 ARM7 接口-LPC2148 创建 Web 服务器以控制 LED David WangYang ESP8266项目服务器运维
ESP8266与ARM7接口-LPC2148创建Web服务器以控制LEDESP8266Wi-Fi收发器提供了一种将微控制器连接到网络的方法。它被广泛用于物联网项目，因为它便宜、体积小且易于使用。在本教程中，我们将ESP8266Wi-Fi模块与ARM7-LPC2148微控制器连接，并创建一个Web服务器来控制连接到LPC2148的LED。工作流程将如下所示：从LPC2148向ESP8266发送AT命
Spring Boot 应用的接口访问从 HTTP 改为 HTTPS day day day ... http spring boot https
LINUX1.生成SSL证书使用工具（如`keytool`或`openssl`）生成SSL证书。以下以`keytool`为例：keytool-genkeypair-aliasmydomain-keyalgRSA-keysize2048-storetypePKCS12-keystorekeystore.p12-validity3650-输入密码并填写证书信息。-生成的`keystore.p12`文件
AttributeError: partially initialized module ‘cv2‘ has no attribute ‘_registerMatType‘ (most likely hunter206206 python pyopencv python
这个错误表明在导入cv2（OpenCV）模块时，发生了循环导入问题，导致模块未能正确初始化。具体来说，cv2模块在初始化过程中尝试调用_registerMatType方法，但由于循环导入，该方法尚未定义。以下是可能的原因和解决方法：1.OpenCV安装问题可能是OpenCV安装不完整或损坏。可以尝试重新安装OpenCV。解决方法：使用pip重新安装OpenCV：pipuninstallopencv
docker实现Nginx
在Ubuntu上使用Docker搭建Nginx服务器是一种高效、灵活的方式。以下将详细介绍从安装Docker到配置和运行Nginx容器的全过程，帮助你快速实现Nginx服务的部署与管理。目录安装Docker获取Nginx镜像运行Nginx容器访问Nginx配置Nginx持久化数据工作流程总结️注意事项⚠️1.安装Docker在开始之前，确保你的系统是最新的，并且安装了必要的依赖包。sudoapt-
如何创建自定义回调处理器 bBADAS python 开发语言
在现代AI开发中，回调是一个强大的工具，它允许我们在特定事件触发时执行自定义逻辑。本文将深入探讨如何为LangChain创建自定义的回调处理器，从而实现更加灵活的模型交互。技术背景介绍在使用AI模型时，尤其是在处理自然语言生成任务时，可能需要对生成的每个标记（token）进行处理。LangChain提供了一些内置的回调处理器，但为了满足特定的需求，创建自定义回调处理器是非常有必要的。核心原理解析创
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
深入解析：React中的信号组件与细粒度更新
引言在主流的前端开发框架中，无论是React、Vue还是Svelte，核心都是围绕着更高效地进行UI渲染展开的。为了实现高性能，基于DOM总是比较慢这个假设前提，其最核心的要解决的问题有两个：响应式更新细粒度更新为了将响应式更新、细粒度更新优化到极致，各种框架是八仙过海，各显神通。以最流行的React和Vue为例，首先两者均引入了VirtualDOM的概念。Vue的静态模板编译，通过编译时的静态分
信息系统运行管理员教程4--信息系统软件运维 LRX_198927 信息系统运行管理运维数据库
第四章信息系统软件运维信息系统软件是信息系统运行的核心，其运维的目的是保证信息系统软件能正常而可靠地运行，并能使系统不断得到改善和提高，以充分发挥作用。第1节信息系统软件运维概述1.信息系统软件运维的概念信息系统软件运维是指信息系统软件在开发完后投入使用后，对信息系统软件进行的改正性维护、适应性维护、完善性维护、预防性维护等软件工程活动。2.信息系统软件的可维护性及维护类型软件可维护性的度量可以从
Lombok常用注解 AWen_X Java常用框架注解 java 开发语言
Lombok常用注解Lombok是一个Java库，通过注解的方式帮助开发者减少样板代码的编写，提高开发效率。本文将Lombok常用注解分类整理，并提供详细说明和使用示例。目录构造器相关注解字段相关注解方法相关注解代码简化注解异常处理注解日志相关注解实用工具注解高级用法注解配置与扩展构造器相关注解@NoArgsConstructor作用：生成一个无参构造器。示例：@NoArgsConstructor
蓝桥杯pythonB组备赛暴力执码蓝桥杯职场和发展
P1003[NOIP2011提高组]铺地毯题目描述为了准备一个独特的颁奖典礼，组织者在会场的一片矩形区域（可看做是平面直角坐标系的第一象限）铺上一些矩形地毯。一共有n张地毯，编号从1到n。现在将这些地毯按照编号从小到大的顺序平行于坐标轴先后铺设，后铺的地毯覆盖在前面已经铺好的地毯之上。地毯铺设完成后，组织者想知道覆盖地面某个点的最上面的那张地毯的编号。注意：在矩形地毯边界和四个顶点上的点也算被地毯
解决 Python 中 `cv2` 模块部分初始化导致的 `AttributeError` Leuanghing python 开发语言
解决Python中cv2模块部分初始化导致的AttributeError在Python开发中，尤其是使用OpenCV库进行图像处理时，可能会遇到一些令人困惑的错误。今天，我们就来探讨一个常见的错误：AttributeError:partiallyinitializedmodule'cv2'hasnoattribute'gapi_wip_gst_GStreamerPipeline'，并提供一个有效的
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

从文本中提取单词生成单词本

词频统计及单词提取

问题分析

你可能感兴趣的:(从文本中提取单词生成单词本)