王小王-123

机器学习之自然语言处理——中文分词jieba库详解（代码+原理）

文本分类概述
- 文本分类的应用
- 文本分类的挑战
- 文本分类的算法应用
文本分类所需知识
- - 中文分词神器-jieba
  - - jieba分词的三种模式
    - 词性标注
    - 载入词典（不分词）
    - 词典中删除词语（不显示）
    - 停用词过滤
    - 调整词语的词频
  - 关键词提取
  - - 基于TF-IDF算法的关键词提取
    - 基于 TextRank 算法的关键词抽取
  - 返回词语在原文的起止位置（论文常用算法）
  - 词频统计（附智能程序）
- 每文一语

文本分类概述

文本分类的应用

在大数据时代，网络上的文本数据日益增长。采用文本分类技术对海量数据进行科学地组织和管理显得尤为重要。

文本作为分布最广、数据量最大的信息载体，如何对这些数据进行有效地组织和管理是亟待解决的难题。

文本分类是自然语言处理任务中的一项基础性工作，其目的是对文本资源进行整理和归类，同时其也是解决文本信息过载问题的关键环节。

文本分类按照任务类型的不同可划分为问题分类、主题分类以及情感分类。

常用于数字化图书馆、舆情分析、新闻推荐、邮件过滤等领域，为文本资源的查询、检索提供了有力支撑，是当前的主要研究热点之一。

问题分类在问答系统 ( Question AnsweringSystem) 中起着重要作用，提高问题分类的准确率有助于构建更加鲁棒的 QA 系统。

在图书情报领域，专利、图书、期刊论文、学术新闻等跨类型学术资源的自动组织与分类是数字化图书馆的关键技术，有利于工业企业、科研院所的研究人员更快地掌握各类前沿动态。

随着移动互联网的发展，人们获取信息的方式发生了变化，由单纯的信息检索转变为“搜索 + 推荐”的双引擎模式。但无论是搜索还是推荐，其背后都离不开机器对内容的理解能力。

文本作为网络上分布最广、数据量最大的信息载体，准确的分类标签为资源检索和新闻资讯的个性化推荐提供了有力支撑，使得推荐的信息能够尽可能地满足千人千面的用户需求。

情感分类(情感极性分析) 是文本分类的重要分支。如在社交媒体中，对用户评论的情感倾向进行分析( 积极、消极等) 。情感极性分析能帮助企业理解用户消费习惯、分析热点话题和危机舆情监控，为企业提供有力的决策支持。此外，情感分析技术还可以用在商品和服务领域。例如对产品、电影、图书评论的情感分类。

智能手机的普及促进了在线即时消息和短信使用的增长。将文本分类技术应用于邮件检测和短信过滤任务，可以帮助人们快速筛选有用信息。

文本分类的挑战

(1) 数据标注瓶颈。
数据和算法是推动人工智能向前发展的主要动力。高质量的标记数据有助于提升文本分类的准确率。然而，网络上存在大量杂乱无章的无标签数据，依赖人工标注的成本高，效率低。无监督数据的特征学习和半监督学习自动标注过程中的噪音剔除是当前的研究热点和难点。

(2) 深度学习的可解释性。
深度学习模型在特征提取，语义挖掘方面有着独特的优势，在文本分类任务中取得了不俗的成绩。然而，深度学习是一个黑盒模型，其训练过程难以复现，隐语义和输出结果的可解释性较差。例如，结合迁移学习理论的文本分类方法，初始预训练的语言模型学习到哪些知识，在参数迁移、特征迁移、针对目标域的训练数据和分类任务进行微调时，保留了哪些特征，我们很难了解。这使得模型的改进与优化失去了明确的指引，也大大加深了研究人员调参的难度。

(3) 跨语种或多语种的文本分类。
在经济全球化的大背景下，跨语言的文本分类在跨国组织和企业中的应用越来越多。将在源语言中训练的分类模型应用于另一种语言( 目标语言) 的分类任务，其挑战性在于源语言数据的特征空间与目标语言数据之间缺乏重叠。各国的语言、文字包含不同的语言学特征，这无疑加大了跨语言文本分类的难度。

当前，基于机器翻译技术的跨语言文本分类方法过于依赖双语词典和平行语料，在一些小语种上的表现较差。通过跨语言文本表示技术和迁移学习方法训练得到独立于语言的分类模型是未来的重点研究方向。

目前自然语言的处理，在文本分类上的技术研究，已经不断地在成熟发展，这方面的生态也在不断地扩张和壮大。

文本分类的算法应用

(1) 对传统方法进行优化如常用机器学习模型的改进; 传统的机器学习算法、特征提取方法与深度学习模型的融合。

(2) 新理论、新方法的提出如将图卷积神经网络( Graph Convolutional Networks ) 应用于文本分类任务。

(3) 引入知识库、知识图谱等结构化的外部知识，优化文本表示和预训练的语言模型，进而提升文本分类的性能。

目前相对于比较成熟的还是机器学习构建文本分类，也比较的简单易懂，在逻辑上通过基本的算法调整，在算法上结合逻辑的优化，机器学习和深度学习将在自然语言处理有着极大地生长空间！

文本分类所需知识

中文分词神器-jieba

汉字具有源远流长的文化底蕴，如何利用逻辑性极强的机器来理解具有诗情画意的中文汉字，我们都知道在古代是没有标点符号的，那么人们是通过什么来进行断句的呢？

古文从来没有标点，古人读书，首先要学会“句读”，所以“习六书，明句读”是读书人的基本功。简而言之就是根据文章的意思和固定的格式以及对应的词义进行断句。这也要求知识分子需要从小锻炼自己的读书能力，随着时代的发展和进步，人们的生活步伐必须要跟进社会的进步，标点符号慢慢的走进了人们的视野，“16世纪时,小马努蒂乌斯提出了一套正规的标点符号系统。主要符号源于希腊语法家们所用的小点,但常常改变其含义。

断句在自然语言处理中，显得十分重要，因为我们需要根据文本分词组成的一个大的迭代对象进行词的向量化，所以我们介绍一种python第三方库——jieba，中文分词的神器！

Jieba库是优秀的中文分词第三方库，中文文本需要通过分词获得单个的词语。

Jieba库的分词原理：利用一个中文词库，确定汉字之间的关联概率，汉字间概率大的组成词组，形成分词结果。除了分词，用户还可以添加自定义的词组。

jieba分词的三种模式

精确模式：就是把一段文本精确地切分成若干个中文单词，若干个中文单词之间经过组合，就精确地还原为之前的文本。其中不存在冗余单词。

全模式：将一段文本中所有可能的词语都扫描出来，可能有一段文本它可以切分成不同的模式，或者有不同的角度来切分变成不同的词语，在全模式下，Jieba库会将各种不同的组合都挖掘出来。分词后的信息再组合起来会有冗余，不再是原来的文本。

搜索引擎模式：在精确模式基础上，对发现的那些长的词语，我们会对它再次切分，进而适合搜索引擎对短词语的索引和搜索。也有冗余。
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。

该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

使用搜索引擎模型，有限公司被分词为：有限公司

jieba库的一般函数

案例：

cut()函数有4个参数：

第一个参数：待分词文本

cut_all：设置使用全模式(True)还是精确模式(False)；默认False
use_paddle：控制是否使用Paddle模式进行分词
HMM：控制是否使用HMM模式识别新词

use_paddle参数可以设置开启paddle模式

import jieba
import paddle
str1 = '我来到了西北皇家理工学院，发现这儿真不错'
#jieba.enable_paddle()   已经停用
paddle.enable_static()
seg_list = jieba.cut(str1, use_paddle=True)  #使用paddle模式进行分词
print('Paddle模式分词结果：', '/'.join(seg_list))

'''
Paddle模式分词结果： 
我/来到/了/西北/皇家/理工学院/，/发现/这儿/真不错
'''

一般的，lcut比较的常用，大多用于分词

词性标注

通常中文里面的词性大多都已经在下面列举出来了

import jieba
import jieba.posseg as pseg
#jieba.enable_paddle()
str2 = '上海自来水来自海上'
seg_list = pseg.cut(str2, use_paddle=True)  #使用posseg进行分词
for seg, flag in seg_list:
    print(seg, flag)

上海 ns
自来水 l
来自 v
海上 s

载入词典（不分词）

可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率

这个文件需要自己根据自己的使用场景进行测试，这里提供一个

ieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径

词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。

有需要的可以点击此处下载

file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。

词频省略时使用自动计算的能保证分出该词的词频。

jieba.add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

jieba.suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。

注意：自动计算的词频在使用 HMM 新词发现功能时可能无效

jieba.add_word('铃儿响叮当')
jieba.add_word('让世界充满爱')
jieba.add_word('迅雷不及掩耳之势')
lcut_res = jieba.lcut(test_content, cut_all=True, HMM=False)
print('[添加自定义词语]：', lcut_res)

[添加自定义词语]：

[‘迅雷’, ‘迅雷不及’, ‘迅雷不及掩耳’, ‘不及’, ‘掩耳’, ‘掩耳盗铃’,‘铃儿响叮当’, ‘响叮当’, ‘叮当’, ‘当仁不让’, ‘不让’, ‘让世界充满爱’, ‘世界’, ‘充满’, ‘爱’, ‘之’, ‘势’]

add_word()有三个参数，分别是添加的词语、词频和词性，词频和词性可以省略。

添加自定义词语后，自定义词语如果能匹配到，就会返回到分词结果中。如果自定义词语在待分词语句中没有连续的匹配结果，分词结果中不会体现。

词典中删除词语（不显示）

jieba.del_word('不及')
jieba.del_word('不让')
jieba.del_word('之')
lcut_res = jieba.lcut(test_content, cut_all=True, HMM=False)
print('[删除词语]：', lcut_res)

[删除词语]：

[‘迅雷’, ‘迅雷不及’, ‘迅雷不及掩耳’, ‘掩耳’, ‘掩耳盗铃’, ‘儿’, ‘响叮当’, ‘叮当’,‘当仁不让’, ‘世界’, ‘充满’, ‘爱’, ‘之’, ‘势’]

删除的词语一般是语气助词、逻辑连接词等，这些词对于文本分析没有实际意义，反而会成为干扰。

在设置删除的词语后，结果中不再有删除的词语，但对于单个字，会独立成词，所以删除后在结果中也还存在。

怎么理解这句话呢，我们看看一个实际的例子！

import jieba
jieba.load_userdict('用户词典.txt')
jieba.del_word('一低头')
seg_list = jieba.cut('心灵感应般地蓦然回首，才能撞见那一低头的温柔；也最是那一低头的温柔，似一朵水莲花不胜凉风的娇羞；也最是那一抹娇羞，才能让两人携手共白首。')
print('删除自定义词时的精确模式分词结果：\n', '/'.join(seg_list))

删除自定义词时的精确模式分词结果：

心灵感应/般地/蓦然回首/，/才能/撞见/那一/低头/的/温柔/；/也/最/是/那/一/低头/的/温柔/，/似/一朵/水莲花/不胜/凉风/的/娇羞/；/也/最/是/那/一抹/娇羞/，/才能/让/两人/携手/共/白首/。

一低头，动态删除，但是没有意味着我把“一低头”真正的在这个词库里面删除了，而是分解了，组合为其他的词组了

停用词过滤

当然，这里我们还可以是用过滤词，也就是停用词进行对一些无用删除，过滤，就像下面的这个一样

#启动停用词过滤
import jieba
with open('stopwords.txt', 'r+', encoding = 'utf-8')as fp:
    stopwords = fp.read().split('\n')  #将停用词词典的每一行停用词作为列表中的一个元素
word_list = []  #用于存储过滤停用词后的分词结果
text = '商务部4月23日发布的数据显示，一季度，全国农产品网络零售额达936.8亿元，增长31.0%；电商直播超过400万场。电商给农民带来了新的机遇。'
seg_list = jieba.cut(text)
for seg in seg_list:
    if seg not in stopwords:
        word_list.append(seg)
print('启用停用词过滤时的分词结果：\n', '/'.join(word_list))

有需要的可以点击此处下载

调整词语的词频

调整词语的词频，调整其在结果中被分出来的可能性，使分词结果满足预期。

分两种情况，一种是将分词结果中的一个长词拆分成多个词，另一种是将分词结果中的多个词组成一个词。

lcut_res = jieba.lcut(test_content, cut_all=False, HMM=False)
print('[设置前]：', lcut_res)
jieba.suggest_freq('让世界充满爱', True)
lcut_res = jieba.lcut(test_content, cut_all=False, HMM=False)
print('[设置后]：', lcut_res)

[设置前]： [‘迅雷不及’, ‘掩耳盗铃’, ‘儿’, ‘响’, ‘叮’, ‘当仁不让’, ‘世界’, ‘充满’, ‘爱’, ‘之’, ‘势’]
[设置后]： [‘迅雷不及’, ‘掩耳盗铃’, ‘儿’, ‘响叮当’, ‘仁’, ‘不’, ‘让世界充满爱’, ‘之’, ‘势’]

再来一个案例，让理解变得更加深刻：


 他/认为/未来/几年/健康/产业/在/GDP/中将/占/比/第一/。

#修改词频
import jieba
str3 = '他认为未来几年健康产业在GDP中将占比第一。'
jieba.suggest_freq(('中', '将'), True)   #修改词频  强制“中将”
jieba.suggest_freq('占比', True)         #强制让“占比”作为一次词
seg_list = jieba.cut(str3, HMM=False)
print('精确模式分词结果：\n', '/'.join(seg_list))


 他/认为/未来/几年/健康/产业/在/GDP/中/将/占比/第一/。

我们的思路有很多种，比如我们可以将这些不需要分词，使用jieba.addword()加入到里面，但是有时候的效果并不好，如果我们采用这样的模式，可能效果更加的好！

例如：

方法有很多，“条条大路通罗马”，需要的时候可以多去尝试一下，这些方法，看效果最终谁比较的凸出明显！

关键词提取

关键词提取使用jieba中的analyse模块，基于两种不同的算法，提供了两个不同的方法。

基于TF-IDF算法的关键词提取

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
withWeight 为是否一并返回关键词权重值，默认值为 False

allowPOS 仅包括指定词性的词，默认值为空，即不筛选
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件
jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径
jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径

案例代码

import jieba.analyse
sentence='''在克鲁伊夫时代，巴萨联赛中完成四连冠，后三个冠军都是在末轮逆袭获得的。在91//92赛季，巴萨末轮前落后皇马1分，结果皇马客场不敌特内里费使得巴萨逆转。一年之后，巴萨用几乎相同的方式逆袭，皇马还是末轮输给了特内里费。在93/94赛季中，巴萨末轮落后拉科1分。巴萨末轮5比2屠杀塞维利亚，拉科则0比0战平瓦伦西亚，巴萨最终在积分相同的情况下靠直接交锋时的战绩优势夺冠。神奇的是，拉科球员久基齐在终场前踢丢点球，这才有巴萨的逆袭。
巴萨上一次压哨夺冠，发生在09/10赛季中。末轮前巴萨领先皇马1分，只要赢球就夺冠。末轮中巴萨4比0大胜巴拉多利德，皇马则与对手踢平。巴萨以99分的佳绩创下五大联赛积分记录，皇马则以96分成为了悲情的史上最强亚军。
在48/49赛季中，巴萨末轮2比1拿下同城死敌西班牙人，以2分优势夺冠。52/53赛季，巴萨末轮3比0战胜毕巴，以2分优势力压瓦伦西亚夺冠。在59/60赛季，巴萨末轮5比0大胜萨拉戈萨。皇马巴萨积分相同，巴萨靠直接交锋时的战绩优势夺冠。'''
print(jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()))
print(jieba.analyse.extract_tags(sentence, topK=20, withWeight=True, allowPOS=()))
print(jieba.analyse.extract_tags(sentence, topK=20, withWeight=True, allowPOS=('i','n','f','s','t')))

['巴萨', '末轮', '皇马', '夺冠', '赛季', '拉科', '内里费', '积分', '逆袭', '瓦伦西亚', '优势', '大胜', '联赛', '相同', '战绩', '交锋', '四连冠', '多利德', '落后', '克鲁伊夫']
[('巴萨', 1.2181461971020409), ('末轮', 0.7319245409938775), ('皇马', 0.5362676344), ('夺冠', 0.42225835063265305), ('赛季', 0.39762426810693874), ('拉科', 0.2471207792387755), ('内里费', 0.18912486601360545), ('积分', 0.1691336641957143), ('逆袭', 0.16264989799863944), ('瓦伦西亚', 0.16264989799863944), ('优势', 0.15362255099918368), ('大胜', 0.12660622859646256), ('联赛', 0.12398892393455782), ('相同', 0.12255595193938776), ('战绩', 0.12077275008340135), ('交锋', 0.11605496086870748), ('四连冠', 0.09456243300680273), ('多利德', 0.09456243300680273), ('落后', 0.09077944490340135), ('克鲁伊夫', 0.08708888002244898)]
[('末轮', 2.2989937505576923), ('皇马', 1.5159873510923079), ('赛季', 1.1240532194561537), ('内里费', 0.5346414481538462), ('优势', 0.43427913455538464), ('战绩', 0.34141527427423074), ('交锋', 0.32807844707115386), ('压哨', 0.2298993750557692), ('赢球', 0.2298993750557692), ('力压', 0.2298993750557692), ('终场', 0.22506640528076924), ('战平', 0.22120735344615383), ('悲情', 0.21173665180961537), ('点球', 0.20620430426153843), ('佳绩', 0.19894864597115386), ('客场', 0.1913352679498077), ('球员', 0.1652386529725), ('冠军', 0.14683416229307691), ('战胜', 0.14229592272), ('领先', 0.13591626767673076)]

# 基于TF-IDF算法的关键词提取
from jieba import analyse
text = '记者日前从中国科学院南京地质古生物研究所获悉，该所早期生命研究团队与美国学者合作，在中国湖北三峡地区的石板滩生物群中，发现了4种形似树叶的远古生物。这些“树叶”实际上是形态奇特的早期动物，它们生活在远古海洋底部。相关研究成果已发表在古生物学国际专业期刊《古生物学杂志》上。'
keywords = analyse.extract_tags(text, topK=10, withWeight=True, allowPOS=('n', 'v'))
print(keywords)

[('古生物学', 0.783184303024), ('树叶', 0.6635900468544), ('生物群', 0.43238540794400004), ('古生物', 0.38124919198039997), ('期刊', 0.36554014868720003), ('石板', 0.34699723913040004), ('形似', 0.3288202017184), ('研究成果', 0.3278758070928), ('团队', 0.2826627565264), ('获悉', 0.28072960723920004)]

基于 TextRank 算法的关键词抽取

两种方法的区别是默认提取的词性不同

当然算法不同，结果可能有差异

jieba.analyse.textrank(sentance, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

# 基于TextRank算法的关键词提取
from jieba import analyse
text = '记者日前从中国科学院南京地质古生物研究所获悉，该所早期生命研究团队与美国学者合作，在中国湖北三峡地区的石板滩生物群中，发现了4种形似树叶的远古生物。这些“树叶”实际上是形态奇特的早期动物，它们生活在远古海洋底部。相关研究成果已发表在古生物学国际专业期刊《古生物学杂志》上。'
keywords = analyse.textrank(text, topK=10, withWeight=True, allowPOS=('n', 'v'))
print(keywords)

[('古生物学', 1.0), ('树叶', 0.8797803471074045), ('形似', 0.6765568513591282), ('专业', 0.6684901270801065), ('生物', 0.648692596888148), ('发表', 0.6139083953888275), ('生物群', 0.59981945604977), ('期刊', 0.5651065025924439), ('国际', 0.5642917600351786), ('获悉', 0.5620719278559326)]

返回词语在原文的起止位置（论文常用算法）

返回词语在原文的起止位置使用jieba中的Tokenize模块，实际调用时使用tokenize()方法。
注意，输入参数只接受 unicode

print('默认模式')
for tk in jieba.tokenize(u'华夏文明是一个经久不衰的文明'):
    print("word %s\t start: %2d \t end:%2d" % (tk[0],tk[1],tk[2]))

print('搜索模式')
for tk in jieba.tokenize(u'华夏文明是一个经久不衰的文明', mode='search'):
    print("word %s\t start: %2d \t end:%2d" % (tk[0],tk[1],tk[2]))

默认模式
word 华夏	 start:  0 	 end: 2
word 文明	 start:  2 	 end: 4
word 是	     start:  4 	 end: 5
word 一个	 start:  5 	 end: 7
word 经久不衰 start:  7 	 end:11
word 的	     start: 11 	 end:12
word 文明	 start: 12 	 end:14

***********************************

搜索模式

word 华夏	 start:  0 	 end: 2
word 文明	 start:  2 	 end: 4
word 是	     start:  4 	 end: 5
word 一个	 start:  5 	 end: 7
word 经久	 start:  7 	 end: 9
word 不衰	 start:  9 	 end:11
word 经久不衰 start:  7 	 end:11
word 的	     start: 11 	 end:12
word 文明	 start: 12 	 end:14

词频统计（附智能程序）

import jieba
text = '蒸馍馍锅锅蒸馍馍，馍馍蒸了一锅锅，馍馍搁上桌桌，桌桌上面有馍馍。'
with open('stopwords.txt', 'r+', encoding = 'utf-8')as fp:
    stopwords = fp.read().split('\n')    #加载停用词
word_dict = {}                           #用于存储词频统计结果的词典
jieba.suggest_freq(('桌桌'), True)        #让“桌桌”作为一个词
seg_list = jieba.cut(text)
for seg in seg_list:
    if seg not in stopwords:
        if seg in word_dict.keys():
            word_dict[seg] += 1     #存在则词频+1
        else:
            word_dict[seg] = 1      #不存在则存入键值对
print(word_dict)

{'蒸': 3, '馍馍': 5, '锅锅': 1, '一锅': 1, '锅': 1, '搁': 1, '桌桌': 2, '上面': 1}

这里博主也写好了一个智能词云算法，包括生成词云和词频，并且可以自定义展示的词组的格式，一键化输入，只需要用户输出文本路径即可（首先需要将文本复制到txt文件中，然后在讲绝对路径输入即可），看依稀下面的演示视频吧！需要的可以自己点击下面的链接下载！

点击此处下载

智能分词算法

分词完成之后，后续就是如何使用分词好的结果进行构建词向量了！

每文一语

你要相信你走过的每一步都算数！

你可能感兴趣的:(自然语言处理,机器学习,中文分词,jieba,python)

如何用python读取流量包谛听汪网络
要用Python读取流量包，你可以使用网络编程库，例如scapy或pyshark。使用scapy，你需要安装它并导入scapy库。然后，你可以使用sniff()函数捕获流量包。例如：fromscapy.allimport*defpacket_callback(packet):print(packet.show())#使用默认的网卡捕获流量包sniff(prn=packet_callback)#使用
python抓包库大流量数据对比_justniffer抓取流量大法 weixin_39849254
Understandyourselfinordertobetterunderstandingothers知己方能解人本篇简单介绍一款流量抓取神器—justniffer，其能在线抓取流量也能离线分析数据包。justniffer与网络抓包神器wireshark相比，用法更为简单且对网络影响较小。面对海量的流量，我们需要经常从中分析出恶意请求，从而去做好防御，因此我在此记录justniffer的一些基础
python scapy模块_python使用scapy模块实现ping扫描漆园吏 python scapy模块
关于scapyScapy是一个可以让用户发送、侦听和解析并伪装网络报文的Python程序。这些功能可以用于制作侦测、扫描和攻击网络的工具。换言之，Scapy是一个强大的操纵报文的交互程序。它可以伪造或者解析多种协议的报文，还具有发送、捕获、匹配请求和响应这些报文以及更多的功能。Scapy可以轻松地做到像扫描(scanning)、路由跟踪(tracerouting)、探测(probing)、单元测试
浅谈Python项目开发&管理老胡的储物柜 java python 编程语言大数据 linux
本文主要探讨的是个人在Python项目开发&管理这块的一些经验之谈，经过在团队实践后主要内容总结如下：基础环境管理编码标准&规范化远程开发项目脚手架????环境管理使用Anaconda和Pipenv共同管理Python项目环境环境管理这块是个很普遍的问题，其面临的问题如下：如何对不同项目，任意Python版本的环境进行管控如何对不同项目，内外网Python依赖库进行管控（有些包是公司内部开发，那么
python操作mysql 码农~明哥 python python android
前言在Python3中，我们可以使用mysqlclient或者pymysql三方库来接入MySQL数据库并实现数据持久化操作。二者的用法完全相同，只是导入的模块名不一样。我们推荐大家使用纯Python的三方库pymysql，因为它更容易安装成功。下面我们仍然以之前创建的名为hrs的数据库为例，为大家演示如何通过Python程序操作MySQL数据库实现数据持久化操作。接入MySQL首先，我们可以在命
使用Scikit-learn实现支持向量机分类器清水白石008 python Python题库 scikit-learn 支持向量机 python
使用Scikit-learn实现支持向量机分类器引言支持向量机（SupportVectorMachine,SVM）是一种强大的监督学习算法，广泛应用于分类和回归任务。SVM的核心思想是通过寻找一个最佳的超平面来分隔不同类别的数据点。本文将详细介绍如何使用Python的Scikit-learn库实现一个支持向量机分类器，包括数据准备、模型训练、评估和可视化等步骤。1.支持向量机的基本原理支持向量机的
基于Python实现微信表情轰炸机实现与界面设计程序熊. python 微信开发语言
实现效果：介绍：本教程将向您展示如何使用Python和Tkinter库创建一个微信表情轰炸机。该程序将允许用户选择表情包并设置轰炸次数和间隔时间，然后自动在微信对话框中发送表情。本教程还包含了一个用户界面，使用户可以方便地选择和配置轰炸参数。环境配置：Python3.xTkinter库pynput库（用于键盘和鼠标控制）项目分布：主窗口：包含输入框、列表框、按钮等控件，用于用户输入轰炸参数和选择表
Python 上位机开发 c实例 python
Python上位机开发第一节：入门介绍在这第一节中，我们将对Python上位机开发进行一个初步的了解和探索。首先，什么是上位机？上位机通常是指可以与下位机（如单片机、传感器等硬件设备）进行通信和交互，实现数据采集、控制指令发送以及数据处理和展示的计算机程序。Python作为一种高级编程语言，在开发上位机方面具有诸多优势。它拥有丰富的第三方库，使得开发过程变得相对简单和高效。例如，PySerial库
设计模式-策略模式 whale fall 设计模式设计模式策略模式
策略模式（StrategyPattern）是一种行为设计模式，它定义了一系列算法（策略），并将每个算法封装起来，使得它们可以互相替换。策略模式让算法的变化独立于使用算法的客户端。即将不同的算法封装成独立的策略类，然后在运行时根据需求选择具体的策略进行操作。下面是一个使用Python实现策略模式的示例。1.定义策略接口首先，定义一个策略接口（在Python中通常是一个抽象基类），该接口描述所有策略类
python list列表删除指定元素的四种方法 whale fall python进阶 python
在Python中，要删除列表中的某个元素，可以使用几种不同的方法，具体取决于你希望如何删除该元素。以下是一些常见的方法：1.使用remove()方法remove()方法会删除列表中第一次出现的指定元素。如果该元素不存在，会引发ValueError错误。my_list=[1,2,3,4,5]#删除值为3的元素my_list.remove(3)print(my_list)输出：[1,2,4,5]2.使
python 根据元素值获取span 大紫菜 python java android javascript 数据库
我整理的一些关于【网页内容,HTML,python】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/eDOcp1用Python根据元素值获取在实际的网页开发与数据抓取中，我们经常需要根据元素的值来获取对应的HTML标签，比如。本文将教你如何用Python实现这一功能。本文将详细阐述整个处理的流程，并展示具体的代码示例。流程概览下面是根据元素值获取的主要
python span 抓取_python – Beautifulsoup获取span内容 weixin_39755952 python span 抓取
我已经解析了html页面：使用beautifulsoupuser_page=urllib2.urlopen(user_url)souping_page=bs(user_page)badges=souping_page.body.find('div',attrs={'class':'badges'})在此之后我的徽章对象看起来像这样：93856现在我想从中提取示例9金徽章,38个银徽章,我试图使用b
微信信息轰炸【简易版】老师好，我是刘同学力扣 python
本版本的微信信息轰炸仅能在电脑端使用：简单讲解下其中的原理:在程序中输入我们想要信息轰炸的信息，然后模拟键盘输入。其实我们就是使用了python的库pynput,模拟输入文字和信息，不多说，上代码frompynput.keyboardimportKey,Controlleraskey_clfrompynput.mouseimportController,Buttonimporttimedefkey
基于Python的一个串口程序上位机 DEMO qq_26991191 python 开发语言 pyqt 单片机
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、程序基本功能二、全部代码,代码直接复制可用1.全部代码总结前言`一个简单的串口程序-上位机,基于Python,pyqt5代码实现.需要安装sys,pyqt5.`一、程序基本功能这个程序可以自动搜索电脑上已经连接的端口,自由设置端口,码率,开关串口.接收数据,发送数据.二、全部代码,代码直接复制可用1.全部代码代码如下（
python定位span里面的文字 egzosn python 前端 javascript 开发语言 ecmascript
在网页开发和数据抓取过程中，我们经常需要从HTML页面中提取信息，尤其是span元素中的文本。span标签是一个行内元素，通常用于包装一小段文本或其他元素。在Python中，我们可以通过使用BeautifulSoup或lxml等库来解析HTML并提取span标签中的文本。本文将介绍如何使用Python定位并提取span元素中的文字，并展示一些常见的用法和示例。一、安装相关依赖在开始之前，我们需要安
sorted() 函数：排序的利器 01_6 深度学习计算机视觉opencv 数据结构 opencv 计算机视觉人工智能图像 python
目录一、sorted()函数简介二、函数使用示例示例1：对列表进行排序示例2：对字符串进行排序示例3：指定排序键三、参数详细介绍1、key参数2、reverse参数四、高级用法1、自定义排序键函数2、多级排序五、总结一、sorted()函数简介sorted()函数是Python中的内置函数，用于对可迭代对象进行排序。它的基本语法如下：sorted(iterable,key=None,reverse
Python定位Span标签中的文字：实战指南傻啦嘿哟 python 开发语言
目录一、准备工作二、基本流程三、代码示例四、案例分析五、进阶技巧处理多个标签：根据其他属性定位：结合XPath：使用Selenium：六、注意事项七、总结在网页数据抓取和信息提取的过程中，经常需要定位并获取HTML中特定标签的内容。其中，标签是一个常见的内联元素，用于对文本进行分组或应用样式。本文将详细介绍如何使用Python来定位并提取标签中的文字，通过具体的代码示例和案例，帮助读者快速掌握这一
chatgpt赋能python：如何配置Python中的NumPy？ yakuchrisfor ChatGpt chatgpt python numpy 计算机
如何配置Python中的NumPy？如果您是一名Python程序员，那么您可能已经听说过NumPy。NumPy是一个强大的Python库，可用于处理大型多维数组和矩阵，以及用于数值计算和科学计算。因此，NumPy是数据科学中的黄金库，而它的安装是Python编程环境必不可少的一部分。什么是NumPy？NumPy是Python语言的一个扩展程序库，它支持大量的高级数学函数，以及可以高效地操作大型数组
把Python的pip源修改为国内亦安✘ python 开发语言
我们在用pip下载时访问的是国外pip源超级慢，因此可将源改为国内的镜像，就能飞速的下载,可临时修改，也可永久修改国内pip源：豆瓣http://pypi.douban.com/华中理工大学http://pypi.hustunique.com/山东理工大学http://pypi.sdutlinux.org/中国科学技术大学http://pypi.mirrors.ustc.edu.cn/阿里云htt
Python中如何获取HTTP请求的Response Body 傻啦嘿哟关于python那些事儿 python http 开发语言
目录一、引言二、使用urllib库获取ResponseBody1.基本用法2.发送POST请求三、使用requests库获取ResponseBody1.安装requests库2.基本用法3.发送POST请求4.处理JSON响应四、高级用法1.处理请求头2.设置超时3.处理Cookies五、案例：爬取网页内容六、总结在Python中进行网络编程和Web开发时，经常需要发送HTTP请求并处理服务器返回
Python pip更换国内源王阿菜 python
1.Pycharm内更换File-->Settings-->Project:*****-->PythonInterpreter点击加号-->MangeRepositories选择PIP的地址，修改成国内源-->保存2.Windows上修改在本机的user目录下新建一个pip目录，新建文件pip.ini，代码如下：[global]index-url=https://pypi.tuna.tsinghu
python 合并word文件_merge: 利用Python，合并多个MarkDown文档，并将其转化为Word文档。... weixin_39562606 python 合并word文件
merge项目介绍利用Python，合并多个MarkDown文档，并将其转化为Word文档。这样可以利用事先做好的word文档样式，一定程度上实现word文档的内容与样式分离，减少使用word时重复设置格式的烦恼。安装教程需要安装pandoc，并能全局运行。brewinstallpandoc需要安装python3。brewinstallpython3将merge.py复制到合适路径，并给予运行权限
python post body_python写http post请求的四种请求体 weixin_39606575 python post body
HTTP协议规定POST提交的数据必须放在消息主体(entity-body)中，但协议并没有规定数据必须使用什么编码方式。常见的四种编码方式如下：1、application/x-www-form-urlencoded这应该是最常见的POST提交数据的方式了。浏览器的原生form表单，如果不设置enctype属性，那么最终就会以application/x-www-form-urlencoded方式提
Tox-uv：Python测试环境搭建的新利器码农工具百宝箱码农小工具 python uv 人工智能
在Python开发中，测试环境的搭建是一个不可或缺的环节。传统的虚拟环境管理工具如virtualenv和pip虽然功能强大，但在某些场景下可能存在性能瓶颈。为了解决这一问题，tox-uv应运而生，它是一个tox插件，旨在用uv工具替代virtualenv和pip，以提升测试环境搭建的性能。Tox-uv简介tox-uv是一个创新的tox插件，它通过使用uv工具来创建和管理虚拟环境，从而提高了Pyth
ESP8266开发环境搭建 D_kity ESP8266 iot 物联网 c语言
1、工具安装sudoapt-getinstallgccgitwgetmakelibncurses-devflexbisongperfpythonpython-serial2、下载编译工具or64-bitLinux:https://dl.espressif.com/dl/xtensa-lx106-elf-gcc8_4_0-esp-2020r3-linux-amd64.tar.gzfor32-bitL
pip 修改国内源 sftxlin pip
在Windows系统中修改Python的pip源，可以让你更快地安装Python包，特别是在中国地区，使用国内的源可以显著提高下载速度。下面是详细的步骤：打开命令提示符按下Win+R键，输入cmd，然后按下回车，打开命令提示符。创建或修改pip配置文件在命令提示符中输入以下命令，以创建或修改pip配置文件：arduinoCopycodepipconfigsetglobal.index-urlhtt
Python 修改 pip 源为国内源人生嘚节奏 python pip 开发语言
1.临时换源：#清华源pipinstallmarkdown-ihttps://pypi.tuna.tsinghua.edu.cn/simple#阿里源pipinstallmarkdown-ihttps://mirrors.aliyun.com/pypi/simple/#腾讯源pipinstallmarkdown-ihttp://mirrors.cloud.tencent.com/pypi/simp
新的Python库、项目管理工具——uv CS创新实验室 Python python uv 开发语言
uv是一个由Astral团队开发的高性能Python包和项目管理工具。Astral团队也是广受欢迎的Ruff（一个极速的Pythonlinter）的开发者。uv的目标是成为Python生态中的“一站式”工具，取代传统的工具链（如pip、pip-tools、virtualenv、poetry等），同时提供更快的速度和更强大的功能。uv的核心优势在于其极快的速度和多功能性。它基于Rust编写，充分利用
Python将Markdown格式转为HTML：轻松实现博客文章的自动化处理木头左 python办公自动化 python html 自动化
哈喽，大家好，我是木头左！引言编写一篇高质量的博客文章并非易事，尤其是在排版和格式方面。Markdown作为一种轻量级的标记语言，为博主们提供了一种简洁、高效的写作方式。而Python作为一门强大的编程语言，可以帮助将Markdown格式的文本转换为HTML，从而实现博客文章的自动化处理。安装所需库要实现Markdown转HTML的功能，需要安装两个Python库：markdown和html。可以
[Python] MacOS 修改 pip 源为国内源 Cassius_Zeo python python macos pip
Step1：创建.pip文件夹mkdir~/.pipStep2:设置国内源（如果你是python3,需将pip修改为pip3）--清华源pipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghua.edu.cn/simple--阿里源pipconfigsetglobal.index-urlhttps://
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin