风月雅颂

机器学习——中文分词

【说明】文章内容来自《机器学习——基于sklearn》，用于学习记录。若有争议联系删除。

1、简介

中文分词是指将汉字序列按照一定规则逐个切分为词序列的过程。在英文中，单词间以空格为自然分隔符，分词时自然以空格为单位进行切分，而中文分词则需要依靠技术和方法寻找类似英文中空格作用的分隔符。

示例：

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
data = cv.fit_transform(['我来到济南山东大学'])
print('单词数:{}'.format(len(cv.vocabulary_)))
print('分词:{}'.format(cv.vocabulary_))
print(cv.get_feature_names_out())
print(data.toarray())

【运行结果】

【结果分析】

程序无法对中文句子进行分词,将整个句子当成了一个词。中文与英文不同,英文的单词之间有空格作为天然的分隔符,而中文却没有。因此，“我来到济南山东大学”需要添加空格进行分隔,将文本内容变成“我来到济南山东大学”。

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
data = cv.fit_transform(['我 来到 济南 山东大学'])
print('单词数:{}'.format(len(cv.vocabulary_)))
print('分词:{}'.format(cv.vocabulary_))
print(cv.get_feature_names_out())
print(data.toarray())

【运行结果】

2、jieba分词库

当文本内容很多，不可能采用空格进行分词，可以使用jieba分词库进行处理。

安装：

pip install jieba

jieba分词库支持3中分词模式：

全模式(full mode):把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义问题。
精确模式(default mode):试图将句子最精确地切开,适用于文本分析。
搜索引擎模式(cut_for_search mode):在精确模式的基础上，对长词再次切分,提高召回率,适用于搜索引擎分词。

2.1 全模式

语法：

jieba.cut(str, cut_all=True)

示例：

import jieba
seg_list = jieba.cut('我来到济南山东大学', cut_all = True)
print('full mode:'+'/'.join(seg_list))

2.2 精确模式

语法：

jieba.cut(str, cut_all = False)

示例：

import jieba
seg_list = jieba.cut('我来到济南山东大学', cut_all = False)
print('full mode:'+'/'.join(seg_list))

2.3 搜索引擎模式

语法：

jieba.cut_for_search(str)

示例：

import jieba
seg_list = jieba.cut_for_search('我来到济南山东大学')
print('full mode:'+'/'.join(seg_list))

3、自定义词典

当分词结果不符合开发者的预期时，可以通过自定义的词典包含jieba词库里没有的词，从而提高分词正确率。自定义词典有如下两种方式。

3.1添加词典文件

添加词典文件，定义分词最小单位，文件要有特定格式，并且采用UTF-8编码。语法如下：

jieba.load_userdict(file_name)

示例：

import jieba 
seg_list = jieba.cut('许元铭老师是python技术讲师',cut_all = True)
print('/'.join(seg_list))

【运行结果】

【结果分析】“许/元/铭”被分割为‘许’‘元’‘铭’，不符合开发者预期。添加自定义词典，在E盘根目录下，新建userdict.txt文件，另存为——选择UTF-8编码。内容遵循如下规则：

一个词占一行；每一行分为3部分，分别为词语、词频（可省略）和词性（可省略），用空格隔开。顺序不可颠倒。如“许元铭 3 n”。

示例：

import jieba 
jieba.load_userdict('E:\\userdict.txt')
seg_list = jieba.cut('许元铭老师是python技术讲师',cut_all = True)
print('/'.join(seg_list))

【运行结果】

3.2 动态修改词频

调节单个词语的词频，使其能（或者不能）被分出来。语法如下：

jieba.suggest_freq(segment, tune = True)

示例：

import jieba 
jieba.suggest_freq('许元铭', tune= True)
seg_list1 = jieba.cut('许元铭老师是python技术讲师',cut_all = True)
print('/'.join(seg_list1))

【运行结果】

4、词性标注

每个词语都有词性，如“许元铭”是n（名词），“是”是v（动词），等等。词性标注命令如下：

jieba.posseg.cut()

示例：

import jieba.posseg as pseg
words = pseg.cut('许元铭老师是python技术讲师')
for word,flag in words:
    print('%s %s' % (word, flag))

【运行结果】

5、断词位置

断词位置用于返回每个分词的起始和终止位置，语法如下：

jieba.Tokenizer()

示例：

import jieba
result = jieba.tokenize('许元铭老师是python技术讲师')
print('默认模式为：')
for tk in result:
    print('word %s\t\t start: %d \t\t end: %d'%(tk[0],tk[1],tk[2]))

【运行结果】

6、基于TF-IDF算法的关键词抽取

基于TF-IDF算法计算文本中词语的权重，命令如下：

jieba.analyse.extract_tags(line, topk = 20, withWeigt = False, allowPOS=())

【参数说明】

Lines：待提取的文本
topk:返回TF/IDF权重最大的关键词个数，默认为20
withWeight:是否一并返回关键词权重值，默认为False
allowPOS :仅包括指定词性的词，默认为空，即不筛选。

示例：

import jieba.analyse as analyse
lines = '许元铭老师是python技术讲师'
keywords = analyse.extract_tags(lines,topK = 20, withWeight = True, allowPOS = ())
for item in keywords:
    print('%s= %f '%(item[0],item[1]))

【运行结果】

7、自定义IDF

jieba给每个分词标出IDF，如果希望某个关键词的权重突出（或降低），可以将IDF设定的高一些（或低一些）。jieba的IDF一般为9~12，自定为2~5。
创建自定IDF文件，在D盘根目录下创建idf.txt文件，内容遵守如下规则：
一个词占一行；每一行分为两个部分，分别是词和权重，用空格分开。顺序不可颠倒，文件采用UTF-8编码。

示例：

import jieba 
import jieba.analyse as analyse
lines = '许元铭老师是python技术讲师'
print('default idf' + '-'*40)
keywords = analyse.extract_tags(lines, topK = 10, withWeight = True, allowPOS = ())
for item in keywords:
    print('%s= %f'%(item[0],item[1]))
print('set_idf_path'+'-'*40)
jieba.analyse.set_idf_path('e:/idf.txt')
keywords = analyse.extract_tags(lines, topK = 10,withWeight = True,allowPOS = ())
#print('topK = TF/IDF, TF= %d'%len(keywords))
for item in keywords:
    # print('s=%f'%(item[0].item[1]))
    print('%s TF=%f,IDF = %f topK=%f\
          '%(item[0],item[1],len(keywords) * item[1],item[1]*len(keywords)*item[1]))

【运行结果】

8、排列最常出现的分词

将每个分词当成Key，将其在文中出现的次数作为value，最后进行降序排序

示例：

import jieba
text = '许元铭老师是python技术讲师，许元铭老师是软件测试技术讲师'
dic = {}
for ele in jieba.cut(text):
    if ele not in dic:
        dic[ele] = 1
    else:
        dic[ele] = dic[ele] + 1
for w in sorted(dic,key = dic.get, reverse = True):
    print('%s %i'%(w,dic[w]))

【运行结果】

9、停用词表

停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为 Stop Words（停用词）。
这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。

文件链接：https://pan.baidu.com/s/1ojTmZnVJ-Ynoy0ZqfxRDUA
提取码：p68r

示例：使用jieba分析刘欣慈小说《三体》中出现次数最多的词。《三体》保存在E:\\santi.txt中，采用UTF-8编码。

import jieba
txt = open('e:\\santi.txt',encoding= 'utf-8').read()

words = jieba.lcut(txt)
counts = {}
for word in words:
    counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key = lambda x:x[1], reverse = True)
for i in range(30):
    word, count = items[i]
    print('{0:<10}{1:>5}'.format(word, count))

【运行结果】

9.1 添加停用词表

文件链接：https://pan.baidu.com/s/14ZSKwv4PT5XC3QqQ1ynHBw
提取码：gxyt

修改代码：

import jieba
txt = open('e:\\santi.txt',encoding = 'utf-8').read()
#加载停用词表
stopwords = [line.strip() for line in open('stopwords.txt',encoding = 'utf-8').\
             readlines()]
words = jieba.lcut(txt)
counts = {}
for word in words:
    #不在停用词表中
    if word not in stopwords:
        #不统计字数为1的词
        if len(word)==1:
            continue
        else:
            counts[word]=counts.get(word,0)+1
items = list(counts.items())
items.sort(key = lambda x:x[1],reverse= True)
for i in range(30):
    word, count = items[i]
    print('{:<10}{:>7}'.format(word,count))

【运行结果】

9.2 引入jieba和停用词表，进行中文特征提取。

from sklearn.feature_extraction.text import CountVectorizer
import jieba
text = '今天天气真好，我要去西安大雁塔玩，玩完之后，游览兵马俑'
#进行jieba分词，精确模式
text_list = jieba.cut(text, cut_all=False)
text_list = ','.join(text_list)
context = []
context.append(text_list)
print(context)
con_vec = CountVectorizer(min_df = 1, stop_words = ['之后','玩完'])
X = con_vec.fit_transform(context) 
feature_name = con_vec.get_feature_names_out()#类别名称
print(feature_name)
print(X.toarray())

【运行结果】

你可能感兴趣的:(机器学习-基于sklearn,中文分词,自然语言处理,python,机器学习)

2024年自学网络安全（黑客技术）网安kk web安全网络安全网络安全学习
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
在 Python 中执行 BASH 命令——在同一进程中潮易 python bash chrome
在Python中执行BASH命令——在同一进程中在Python中执行BASH命令，可以使用`os.system()`或`subprocess`模块。以下是两种方法的详细步骤：方法一：使用`os.system()````pythonimportos#执行一个bash命令，例如显示当前目录下的所有文件command="ls"output=os.system(command)print("Command
Python 爬虫实战：全球公司财报数据抓取与财务健康分析西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，数据已成为企业决策、投资分析和市场研究的关键要素。公司财报数据作为企业经营状况的重要反映，对于投资者、分析师以及企业管理者来说具有极高的价值。通过获取和分析全球公司的财报数据，我们可以深入了解企业的财务健康状况，为投资决策提供有力支持。本文将详细介绍如何使用Python爬虫技术抓取全球公司财报数据，并进行财务健康分析。二、爬虫环境搭建在开始爬取数据之前，我们需要先搭建好P
基于Matlab的大气湍流光束传输特性的研究 pk_xz123456 算法深度学习 matlab 开发语言
以下是一个基于Matlab实现大气湍流光束传输特性研究的详细代码及解释。%定义参数N=512;%网格点数L0=10;%外尺度(m)l0=0.01;%内尺度(m)Cn2=1e-14;%大气折射率结构常数(m^(-2/3))k=2*pi/0.6328e-6;%波数(m^(-1))z=1000;%传输距离(m)w0=0.1;%束腰半径(m)%生成随机相位屏[phase_screen]=generate_
Linux的权限巷子里的童年ya linux 运维服务器 centos
基本权限与归属读取：允许查看内容-readr写入：允许修改内容-writew可执行：允许运行和切换-excutex1、对于文本文件：r读取权限：cat、less、grep、head、tailw写入权限：vim、>、>>x可执行权限：Shell与Python\Go2、对于目录：r读取权限：ls命令查看目录内容w写入权限：能够创建、删除、修改等目录的内容x执行权限：能够cd切换到此目录下（进入此目录）
大模型微调方法之Delta-tuning 空白II 大语言模型论文解读微调方法介绍微调方法 delta-tuning 论文解读大语言模型
大模型微调方法之Delta-tuning大模型微调方法自从23年之后可谓是百花齐放，浙大有团队在8月将关于大模型微调方法的综述上传了ArXiv。论文将微调方法总结为等几个类别。本次讨论的1大模型业务分类当前的大模型行业可谓百花齐放，自然语言处理（naturallanguageprocessing,NLP）、计算机视觉（computervision,CV）、音频处理（audioprocessing,
Python 学习笔记1 - 认识Python Scora_liu Python 学习笔记 python
一、什么是Python1989年圣诞节期间，荷兰数学和计算机科学研究学会的GuidovanRossum（吉多.范罗苏姆）决心开发一个新的解释程序，作为ABC语言的替代品。这门ABC语言的替代语言被取名为Python,命名来自Guido爱看的的电视剧MontyPython'sFlyingCircus（蟒蛇马戏团）。二、什么是Python（⭐⭐）Python是一门解释型语言。计算机不能识别任何除了机器
HarmonyOS NEXT 基于原生能力获取视频缩略图
大家好，我是V哥。不得不佩服HarmonyOSNEXT原生能力的强大，如果你想在鸿蒙APP开发中获取视频缩略图，不用依赖第三方库，就可以高效和稳定的实现，AVMetadataHelper就是一个好帮手，下面V哥整理实现步骤的代码，帮助你快速理解，开整。想要学习鸿蒙开发，一定绕不开学习ArkTS语言，V哥写了三本鸿蒙开发之路的书，第一本《鸿蒙HarmonyOSNEXT开发之路卷1ArkTS篇》已上市
鸿蒙开发：正则中的match和matchAll
前言本文基于Api13关于正则表达式，其实之前也撰写过相关文章，但没有对match和matchAll做过详细的分析，虽然都是用于常见的字符串匹配，但是在使用方式上还是具有一定的区别；大家记住一点，正则表达式适用于所有的编程语言，可能有些语法和使用方式有些不同，但基本的原理是一样的。我们先看下源码：match：将字符串与正则表达式匹配，并返回一个包含该搜索结果的数组。/***Matchesastri
深度对比：Chrome扩展框架 Crx.js vs. Plasmo vs. WXT 前端chrome
浏览器扩展开发领域正在快速进化。本文将从GitHub人气、上手体验、云服务支持、MVVM框架兼容性、工程化能力和社区生态六大维度，完整呈现三大框架的差异,并分析各自更适合的场景。框架GitHub统计社区表现技术特点Plasmo11k+StarsDiscord/GitHub活跃讨论持续稳定迭代（周均5次更新）WXT6.2kStars频繁出现技术对标讨论基于Vite的现代化架构Crx.js较低星标数生
从零开始学AI——1 人工智能
前言最近总算有想法回到学习上来，这次就拿AI开刀吧。本系列叫从零开始学AI不是骗人的，我对AI的了解几乎就是道听途说，所以起了这么一个标题，希望学完从0变1（？此外，我应该不会特别关注代码实现上的内容，因为我对python也是一窍不通。本笔记为学习周志华老师《机器学习》（西瓜书）的个人学习记录，内容基于个人理解进行整理和再阐述。由于理解可能存在偏差，欢迎指正。引用模块说明：在笔记中，我会使用引用模
Python 正则表达式超详细解析：从基础到精通 2201_75491841 python 正则表达式开发语言
Python正则表达式超详细解析：从基础到精通一、引言在Python编程的广阔领域中，文本处理占据着极为重要的地位。而正则表达式，作为Python处理文本的强大工具，能够帮助开发者高效地完成诸如查找、替换、提取特定模式字符串等复杂任务。无论是在数据清洗、网页爬虫，还是日志分析、自然语言处理等应用场景中，正则表达式都展现出了无可比拟的优势。本文将深入且全面地剖析Python正则表达式，从最基础的概念
Python如何实现粒子效果如烟雾、火焰、雨滴等. openwin_top python编程示例系列二 python 开发语言
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位在Panda3D中实现粒子效果主要依赖于其内置的粒子系统。这个系统允许开发者创建各种动态的视觉效果，如烟雾、火焰、雨滴等。下面我将详细介绍如何在Panda3D中添加一个简单的粒子效果。步骤1:准备粒
（一）stm32F411RE点亮板上LED——基于HAL库（微控第一周MCU验收） yxt230791 stm32 嵌入式硬件单片机
近期有点懒，还是先直接上链接通过网盘分享的文件：led.rar链接:https://pan.baidu.com/s/1GUI7wd9dtNwqPhpS9GfLag提取码:XDer--来自百度网盘超级会员v2的分享
Python中的机制：全局解释锁和回收机制林十一npc Python语言 python 开发语言
Python中的机制：全局解释锁和回收机制一、全局解释锁GIL1.基础原理全局解释锁：是CPython中引入的一种机制，确保同一时刻保持一个线程执行Python的字节码。锁的粒度：GIL是全局唯一的锁，线程在执行Pyhton代码前必须要获取GIL,执行完毕后进行释放。线程切换：CPython解释器通过固定间隔（如python字节码指令或遇到I/O操作），释放GIL,触发线程切换。底层实现GIL的实
基于ssm的药房管理系统 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于ssm的药房管理系统作者：禅与计算机程序设计艺术1.背景介绍1.1药房管理系统的重要性在现代医疗体系中,药房管理系统扮演着至关重要的角色。高效、准确、安全的药品管理不仅关系到患者的健康,更是医院运营的重要一环。传统的人工管理模式已经难以满足日益增长的医疗需求,因此,开发一套功能完善、易于操作的药房管理系统势在必行。1.2SSM框架的优势SSM(Spring、SpringMVC、MyBatis)
大模型的应用与微调：如何调用 LLM？从 OpenAI API 到本地部署晴天彩虹雨 AI 大模型 ai 语言模型 gpt 人工智能
本篇文章将详细介绍如何调用大语言模型（LLM），涵盖OpenAIAPI、DeepSeek、Manus、通义千问等模型的调用方式，并探讨如何在本地部署LLM进行推理。1.调用OpenAIAPI（GPT系列）OpenAI提供了RESTfulAPI供开发者调用GPT系列模型。示例：使用Python调用OpenAIAPIimportopenaiopenai.api_key="your_api_key"re
python实现简易任务管理器 Roc-xb python 服务器 linux
本章教程，主要利用python实现一个简单的任务管理器，可以快速结束任务进程。目录一、实例代码二、效果演示一、实例代码#!/usr/bin/python#-*-coding:UTF-8-*-"""@author:Roc-xb"""#encoding:utf-8importsubprocessdefexecute_cmd(command):subprocess.run('chcp65001',she
【html5期末大作业】基于HTML仿QQ音乐官网网站 IT-司马青衫 html html5 课程设计
精彩专栏推荐文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主作者主页:【主页——获取更多优质源码】web前端期末大作业：【毕设项目精品实战案例(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码：【Echarts大屏展示大数据平台可视化(150套)】HTML+CSS+JS实例代码：【️HTML+CSS+JS实例代码
基于人工智能的扫阅卷和数据分析服务需求文档 YiWait 人工智能人工智能数据分析数据挖掘
基于人工智能的扫阅卷和数据分析服务需求文档一、项目背景在教育领域，传统的人工阅卷方式效率低下、主观性强且易出错，难以满足大规模考试及频繁测评的需求。随着人工智能技术的飞速发展，基于人工智能的扫阅卷和数据分析服务应运而生。该服务利用先进的图像识别、自然语言处理等技术，实现试卷扫描、自动阅卷、成绩统计以及深度数据分析，为教育机构、学校提供高效、准确、全面的测评解决方案，助力教学质量提升和教育决策优化。
【图片合并PDF】多个文件夹里的图片合并PDF，一次性批量合并多个文件夹里的图片转成PDF，基于WPF完成方案分享平安喜乐-开开心心 PDF处理类 pdf wpf 多个文件夹图片合并PDF 图片转PDF的批量操作方法
一、项目背景在日常工作和生活中，我们经常需要将多个文件夹中的图片合并成一个PDF文件。例如，整理旅行照片、制作项目报告、归档文档等场景。手动逐一将图片转换为PDF并合并非常耗时且容易出错。因此，开发一个自动化工具来批量处理多个文件夹中的图片并将其合并为一个PDF文件，可以大大提高工作效率。本项目旨在开发一个基于WPF（WindowsPresentationFoundation）的桌面应用程序，用户
微信小程序和uni-app的区别 cccv工程师微信小程序 uni-app notepad++
开发语言和框架：Uni-app：Uni-app使用Vue.js框架进行开发，利用Vue的语法和生命周期函数，开发者可以使用熟悉的前端技术栈。微信小程序：微信小程序使用自己的框架，基于WXML（类似于HTML）和WXSS（样式语言）进行开发，需要学习微信小程序独有的语法和组件。平台支持：Uni-app：Uni-app是一个跨平台开发框架，可以将一套代码编译成多个平台的应用，包括微信小程序、H5、Ap
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
基于Redis geo地理位置的物流路线规划系统实现方案 xiyubaby.17 缓存 redis
物流路线规划系统实现方案一、系统架构图数据存储层数据处理层业务服务层客户端RedisGEOPostgreSQL图数据库地理编码服务实时交通处理路线优化引擎距离计算服务路径规划服务订单管理服务物流管理系统司机APP客户门户客户端API网关业务服务层数据处理层数据存储层二、核心模块实现1.地理模型定义publicclassLocation{privateStringid;privateStringad
vue-charts的使用，导入，配置，及常见错误一蓑烟雨，一任平生 vue3 vue.js echarts javascript
vue-charts作用：在使用echarts生成图表时，经常需要做繁琐的数据类型转化、修改复杂的配置项，v-charts的出现正是为了解决这个痛点。基于Vue2.0和echarts封装的v-charts图表组件，只需要统一提供一种对前后端都友好的数据格式设置简单的配置项，便可轻松生成常见的图表。第一步:下载npmiv-chartsecharts-S第二部:导入同时配置import{CanvasR
Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
本地生活服务APP开发，市场发展全新商业机遇冠品网络科技大数据软件开发本地生活服务本地生活APP APP开发
随着移动互联网的快速发展，人们的消费和生活习惯发生了巨大改变，本地生活服务市场迎来了发展爆发期！从外卖、团购等，人们越来越依赖通过手机APP解决日常生活中的各种需求。对于企业而言，一款完善、多样、便捷的本地生活服务APP是市场发展趋势的必然选择。本地服务APP核心功能1、导航定位系统基于用户地理位置，为用户精准推荐附近商家和服务，用户可以就近选择需要的商品，提升用户体验。2、商家展示系统会提供商家
Python实现微博关键词爬虫才华是浅浅的耐心 python 新浪微博爬虫
1.背景介绍随着社交媒体的广泛应用，微博上的海量数据成为了很多研究和分析的重要信息源。为了方便获取微博的相关内容，本文将介绍如何使用Python编写一个简单的爬虫脚本，从微博中抓取指定关键词的相关数据，并将这些数据保存为Excel文件。本文将以关键词“樊振东”为例，展示从微博抓取该关键词相关数据的全过程。废话不多说，先上结果图。2.项目实现思路该爬虫通过向微博的搜索接口发送HTTP请求，获取与指定
使用 Python 实现批量发送电子邮件才华是浅浅的耐心 python 爬虫开发语言
引言：在日常工作中，我们可能会遇到需要批量发送邮件的场景，例如通知、营销邮件或测试邮件。如果手动发送，不仅效率低下，还容易出错。今天，我将分享一个使用Python实现的自动化邮件发送脚本，通过读取Excel文件中的发件人和收件人信息，轻松完成批量邮件发送任务。功能概述这个脚本的主要功能包括：从Excel文件中读取发件人信息（邮箱和授权码）和收件人信息（邮箱）。根据发件人邮箱的域名，自动匹配SMTP
python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他