51CTO博客

【完结福利】 Python 实现实时文件监控

在我们的业务运维过程中，监控是无处不在的。我们需要对业务的运行状态，数据库的运行状态，Nginx的运行状态等等做监控。一旦有业务故障，或者业务即将发生故障的时候提前通知我们的运维或者开发人员。这样才能把损失和风险降到最低。

多维度详解
手把手入门
《从头解锁Python运维》，专栏完结福利，开启限时拼团>>>

当然要查看业务的运行状态是否正常，我们一般从以下几个方面来判断：

（1）业务接口的状态码是否正常

（2）业务接口的返回内容是否正常

（3）业务端口是否正常

（4）对业务程序的生成的日志内容进行判断

当然上面的4个判断准则，我们一般可以通过如下几个方法进行逐一实现：（当然这只是我们公司的实现思路举例）

（1）业务接口的状态码监控

1.1 我们可以通过Zabbix 的web监测来判断业务的状态码，并编写触发器实现监控告警。
1.2 我们也可以通过Zabbix的自定义Key，然后写脚本去添加监控项以及触发器实现监控告警。
1.3 Prometheus的blackbox_exporter 实现接口的状态码监控。

（2）业务接口的返回内容监控

2.1 我们可以通过Zabbix 的web监测来判断业务的状态码，并编写触发器实现监控告警。
2.2 我们也可以通过Zabbix的自定义Key，然后写脚本去添加监控项以及触发器实现监控告警。
2.3 Prometheus的blackbox_exporter 的fail_if_body_not_matches_regexp 等配置实现监控。

（3）业务端口监控

3.2 创建 zabbix的模板，使用zabbix的net.tcp.listen[port] 实现TCP端口监控。
3.2 我们也可以通过Zabbix的自定义Key，然后写脚本去添加监控项以及触发器实现监控告警。
3.3 Prometheus的blackbox_exporter实现。

（4）对业务程序的生成的日志内容进行判断

4.1 通过编写脚本,tail -C 50M xxx.log... 然后结合zabbix实现日志内容监控告警。
4.2 我们把所有日志（包括前置机Nginx的日志）都收集ELFK/ELK系统中，通过编写查询ElasticSearch的指定索引（当然这个指定索引是通过参数传入进来的）进行告警监控。并结合Zabbix实现定时查询并告警。
编写守护进程对日志内容进行告警，不依赖任何第三方的监控系统。

Python实现实时文件监控几种方案

上面介绍了常用的监控方法的实现。如果使用第三方的监控系统去实现日志内容的告警的话多少有一点延迟性，如果对于非常重要的业务，我们更加需要的是能实时监控日志内容并监测到异常就能告警出来。

本文讲如何使用Python去实现实时文件监控并告警。首先我们来看看下面的一个具体需求（只是一个举例）：

我们有一个支付的Java微服务，进程名为pay-1.0.0.jar, 它是个微服务。同时它会打2个日志：

pay-api_all.log：这个日志是info和error都会记录。
pay-api_error.log：这个日志只会记录error日志。

现在我们需要监控 pay-api_error.log 日志一旦出现wechat 就告警。（也就是一旦微信支付失败立马邮件告警）

对于这个需求，我们来分析一下我们要做的具体步骤：

第一步: 编写好告邮件告警函数或者导入类。

第二步：我们要能实时监测文件，能实时的读到日志文件内容的最近一条的内容，这个监测进程是后台进程。

第三步：一旦最后一条日志出现出现wechat 立马触发告警的函数。

开始我们的代码

我们先准备邮件发送类S_mail.py 代码如下：

#coding:utf-8
import smtplib
from email.mime.text import MIMEText

class SendEMail(object):
    # 定义第三方 SMTP 服务
    def __init__(self):
        self.mail_host = "smtp.exmail.qq.com"  # SMTP服务器
        self.mail_user = "[email protected]"  # 用户名
        self.mail_pass = "aapwd"  # 密码
        self.sender = '[email protected]'  # 发件人邮箱
        self.smtpObj = smtplib.SMTP_SSL(self.mail_host, 465)
        self.smtpObj.login(self.mail_user, self.mail_pass)  # 登录验证

    def sendmail(self, receivers, title, content):
        message = MIMEText(content, 'plain', 'utf-8')  # 内容, 格式, 编码
        message['From'] = "{}".format(self.sender)
        message['To'] = ",".join(receivers)
        message['Subject'] = title
        try:
            self.smtpObj.sendmail(self.sender, message['To'].split(','), message.as_string())  # 发送
            print("mail has been send successfully.")
        except smtplib.SMTPException as e:
            print(e)

if __name__ == '__main__':
    sm = SendEMail()
    sm.sendmail(['[email protected]'], '主题', '正文')

邮件发送类的代码，在之前的章节中已经讲过了，这里不再解释代码。为了测试方便，我们直接把邮件类，代码以及日志放在同一个文件夹下测试。

$ tree /home/www
/home/www
├── pay-api_error.log
├── S_mail.py
└── v1.py

0 directories, 3 files

下面我们来实现文件监测的逻辑。

方案一之调用Linux的tailf实现

我们知道Linux的tailf命令可以实时获取文件的内容，我们尝试调用Linux的Shell去实现，我们暂且命名为v1.py，代码如下：

import subprocess
from S_mail import SendEMail

# 定义变量
logfile = "pay-api_error.log"
cmd = 'tailf -1 {0}'.format(logfile)
key_word="wechat"

pp = subprocess.Popen(cmd,stdout=subprocess.PIPE,stderr=subprocess.PIPE,shell=True)
while True:
    line = pp.stdout.readline().strip()
    line = line.decode()  #编码成字符串
    if key_word in line:
        print("有{0},发送告警".format(key_word))
        sm = SendEMail()
        sm.sendmail(['[email protected]'], '主题', '正文')

代码解析：

第1-2行：导入subprocess 用于调用shell，from S_mail import SendEMail 用于导入邮件类。

第4-7行：定义变量，包括shell命令，文件路径以及关键字。

第10-17行：调用shell去执行，strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。

line = pp.stdout.readline().strip() 得到是byte类型，我们需要将它decode转成字符串类型。然后再去判断这个字符串有没有关键字然后再触发告警。

我们测试一下：

$ echo "aa" >> pay-api_error.log 
$ echo "wechat" >> pay-api_error.log   
$ python3 v1.py 
有wechat,发送告警
发送成功

当然我们可以使用nohup丢到后台去执行。

nohup python3 v1.py  &

方案二之使用Python的File方法

采用 python 对文件的操作来实现，用文件对象的 tell(), seek() 方法分别得到当前文件位置和要移动到的位置，我们暂且命名为v2.py，代码如下：

#!/usr/bin/env python
import time
from S_mail import SendEMail

file = open("pay-api_error.log")
key_word="wechat"

while True:
    where = file.tell()
    line = file.readline()
    if not line:
        time.sleep(1)
        file.seek(where)
    else:
        if line.find(key_word) >=0 :
            sm = SendEMail()
            sm.sendmail(['[email protected]'], '主题', '正文')
            print(line)

解析：

第2行：导入time模块，为了后续休眠1s用。

第8行：因为要成为后台进程，这里使用while True 永远为真的形式丢到后台。

第9行： file.tell() 方法返回文件的当前位置，即文件指针指向当前位置。

第10行： file.readline() 方法用于从文件读取整行，包括 "\n" 字符

第11-13行：如果文件里没有写入内容，我们就让休眠1秒。并且file.seek(),并且移动指针到这个位置。

第14-18行：如果文件有内容的话，在字符串line里看能不能找到关键字key_word，当然你也可以用 v1的代码xx in line 代替，效果都是一样的。都是为了判断字符串是否还有指定的字符。如果有指定的字符实例化邮件里，然后调用里面的邮件发送函数。

我们测试一下：

$ echo "cc" >> pay-api_error.log     
$ echo "wechat" >> pay-api_error.log 
$ python3 v2.py 
发送成功
wechat

方案三之使用Python的生成器方法

利用 python 的 yield 来实现一个生成器函数，然后调用这个生成器函数，这样当日志文件有变化并且含有关键字的时候就调用邮件发送类进行告警。我们暂且命名为v3.py，具体的功能代码实现如下：

#!/usr/bin/env python
import time
from S_mail import SendEMail

# 定义变量
file_path="pay-api_error.log"
key_word="wechat"

def follow(thefile):
    thefile.seek(0,2)
    while True:
        line = thefile.readline()
        if not line:
            time.sleep(1)
            continue
        yield  line

if __name__ == '__main__':
    logfile = open(file_path,'r')
    logline_xx = follow(logfile)
    for line in logline_xx:
        if key_word in line:
            sm = SendEMail()
            sm.sendmail(['[email protected]'], '主题', '正文')
            #print(line)

解析：

第10-17行： seek() 函数接收 2 个参数：file.seek(off, whence=0 )，从文件中移动 off 个操作标记（文件指针），正数往结束方向移动，负数往开始方向移动。如果设定了 whence 参数，就以 whence 设定的起始位为准，0 代表从头开始，1 代表当前位置，2 代表文件最末尾位置。

line = thefile.readline() 用于读取文件内容，如果没有内容的话执行休眠并跳过本轮循环，然后进行下一轮循环。yield line 表示如果有内容的话就输出文件内容。这是一个生成器。

第20-21行：读取文件内容并执行follow函数。

第22-25行： for循环遍历生成器的内容，使用if条件句，如果有关键字key_word就发送邮件

执行结果如下：

$echo "cc" >> pay-api_error.log 
$echo "wechat" >> pay-api_error.log 
$ python3 v3.py 
发送成功

方案四之使用第三方库pyinotify实现

pyinotify模块用来监测文件系统的变化，依赖于Linux内核的inotify功能，inotify是一个事件驱动的通知器，其通知接口从内核空间到用户空间通过三个系统调用。pyinotify结合这些系统调用，提供一个顶级的抽象和一个通用的方式来处理这些功能。在代码开始之前，我们先来看看pynotify的用法。

安装文档: https://pypi.org/project/pyinotify/

官方文档： https://github.com/seb-m/pyinotify

API文档： http://seb.dbzteam.org/pyinotify/

pip3  install pyinotify   # 安装方法

##创建目录用于后续测试
mkdir /media/tmp

Notifier是pyinotify模块最重要的类，用来读取通知和处理事件，默认情况下，Notifier处理事件的方式是打印事件。

Notifier类在初始化时接受多个参数，但是只有WatchManager对象是必须传递的参数，WatchManager对象保存了需要监视的文件和目录，以及监视文件和目录的哪些事件，Notifier类根据WatchManager对象中的配置来决定如何处理事件。我们做一个简单的测试，暂且命名测试代码为 test.py。

#!/usr/bin/env python3
import pyinotify
path="/media/tmp"
wm = pyinotify.WatchManager()              # 创建WatchManager对象
wm.add_watch(path,pyinotify.ALL_EVENTS)  # 添加要监控的目录，以及要监控的事件，这里ALL_EVENT表示所有事件

notifier = pyinotify.Notifier(wm)          # 交给Notifier进行处理
notifier.loop()                            # 循环处理事件

直接结果如下：

$ touch /media/tmp/b
$ python3 test.py

事件标志：

pyinotify 仅仅是对 inotify 的Python封装，inotify提供了多种事件，基本上事件名称和含义都是相同的。常用的事件标志有：

事件标志	事件含义
IN_ACCESS	被监控项目或者被监控目录中的文件被访问，比如一个文件被读取
IN_MODIFY	被监控项目或者被监控目录中的文件被修改
IN_ATTRIB	被监控项目或者被监控目录中的文件的元数据被修改
IN_CLOSE_WRITE	一个打开切等待写入的文件或者目录被关闭
IN_CLOSE_NOWRITE	一个以只读方式打开的文件或者目录被关闭
IN_OPEN	文件或者目录被打开
IN_MOVED_FROM	被监控项目或者目录中的文件被移除监控区域
IN_MOVED_TO	文件或目录被移入监控区域
IN_CREATE	在所监控的目录中创建子目录或文件
IN_DELETE	在所监控的目录中删除目录或文件
IN_MOVE	文件被移动,等同于IN_CLOSE_NOWRITE

上面列举的是事件的标志位，我们可以用'与'来关联监控多个事件。

multi_event = pyinotify.IN_OPEN | pyinotify.IN_CLOSE_NOWRITE

到此基础知识就讲解到这里，我们来开始我们的代码，我们先来一个简单的，先看能不能通过这个库监测到文件的内容。暂且命名我们的代码为v4-1.py。

#!/usr/bin/env python
import pyinotify
import time
import os

class ProcessTransientFile(pyinotify.ProcessEvent):
  def process_IN_MODIFY(self, event):
    line = file.readline()
    if line:
      print(line) # 已经有内容

filename = '/media/tmp/test.txt'
file = open(filename,'r')

#找到文件的大小并移动到末尾
st_results = os.stat(filename)
st_size = st_results[6]
file.seek(st_size)

wm = pyinotify.WatchManager()
notifier = pyinotify.Notifier(wm)
wm.watch_transient_file(filename, pyinotify.IN_MODIFY, ProcessTransientFile)

notifier.loop()

代码解析：

1-4行：导入需要使用的类库。

第6行：定制化事件处理类，注意是继承关系。

第7行：定义process_IN_MODIFY 函数，函数名称必须为process_事件名称，event表示事件对象。

第8行： line = file.readline() 每次读取一行，返回的是一个字符串对象。

第9-10行： if条件句，如果有内容就打印文件内容。

第12行：定义文件的路径。

第13行：打开文件，其中r 表示以只读方式打开文件。文件的指针将会放在文件的开头，这是也是默认模式。

第16行： os.stat() 方法用于在给定的路径上执行一个系统 stat 的调用。结果如下（以下是ipython的执行结果）：

In [3]: st_results = os.stat("/media/tmp/test.txt")                                                                                           
In [4]: print(st_results)                                                                                                                     
os.stat_result(st_mode=33188, st_ino=917693, st_dev=64769, st_nlink=1, st_uid=1144, st_gid=40001, st_size=15, st_atime=1589537157, st_mtime=1589537157, st_ctime=1589537157)

In [5]: print(st_results[6])                                                                                                                  
15

In [6]: print(type(st_results))

上面的结果和Linux的命令一致如下,，返回的内容是Size的大小：

$ stat test.txt 
  File: ‘test.txt’
  Size: 15              Blocks: 8          IO Block: 4096   regular file
Device: fd01h/64769d    Inode: 917693      Links: 1
Access: (0644/-rw-r--r--)  Uid: ( 1144/knight.zhou)   Gid: (40001/      sa)
Access: 2020-05-15 18:05:57.554290444 +0800
Modify: 2020-05-15 18:05:57.554290444 +0800
Change: 2020-05-15 18:05:57.554290444 +0800
 Birth: -

第18行： file.seek() 方法用于移动文件读取指针到指定位置。

第20行：创建监控实例。

第21行: notifier = pyinotify.Notifier(wm) 用于绑定一个事件。

第22行： wm.watch_transient_file(filename, pyinotify.IN_MODIFY, ProcessTransientFile) 表示添加监控的对象，我们使用的标志事件为IN_MODIFY （被监控项目或者被监控目录中的文件被修改）。

最后notifier.loop() 运行监控。

执行结果如下：

$touch /media/tmp/test.txt
$echo "bb" >> test.txt
$echo "cc" >> test.txt
$ python3  v4-1.py 
bb
cc

上面的基本功能是实现了，我们现在来结合我们的需求来实现我们的代码。我们暂且命名我们的最终代码为v4-last.py。

#!/usr/bin/env python
import pyinotify
import time
import os
from S_mail import SendEMail

## 定义变量
key_word="wechat"

class ProcessTransientFile(pyinotify.ProcessEvent):
  def process_IN_MODIFY(self, event):
    line = file.readline()
    if key_word in line:
      print("有{0},发送告警".format(key_word))
      sm = SendEMail()
      sm.sendmail(['[email protected]'], '主题', '正文')

filename = '/media/tmp/pay-api_error.log'
file = open(filename,'r')

#找到文件的大小并移动到末尾
st_results = os.stat(filename)
st_size = st_results[6]
file.seek(st_size)

wm = pyinotify.WatchManager()
notifier = pyinotify.Notifier(wm)
wm.watch_transient_file(filename, pyinotify.IN_MODIFY, ProcessTransientFile)

notifier.loop()

代码解析：

第14-17行：判断读取的每一行里是否有关键字，有关键字就发送邮件。

其余代码功能和之前的一样。

执行结果如下：

$ echo "xx" > pay-api_error.log     
$ echo "wechat" >> pay-api_error.log 
$ python3 v4-last.py 
有wechat,发送告警
发送成功

总结

实时监控文件，我们介绍了以上4种方法去实现，个人觉得第4种方法更加科学。就像我们搭建RSYNC服务器一样，如果想实时同步文件，我们一般结合 rsync+inotify 去实现。虽然这种方法难以理解一点但还是推荐使用。

多维度详解
手把手入门
《从头解锁Python运维》，专栏完结福利，开启限时拼团>>>

Python 自动排班表格（代码分享）趣享先生 Python案例分享专栏 python 开发语言
✅作者简介：2022年博客新星第八。热爱国学的Java后端开发者，修心和技术同步精进。个人主页：JavaFans的博客个人信条：不迁怒，不贰过。小知识，大智慧。当前专栏：Java案例分享专栏✨特色专栏：国学周更-心性养成之路本文内容：Python自动排班表格（代码分享）前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录前言问题描述解决步骤1
Python使用matplotlib可视化相关性分析热力图图heatmap、使用seaborn中的heatmap函数可视化相关性热力图（Correllogram） Data+Science+Insight 数据科学从0到1 python 机器学习数据挖掘数据分析人工智能
Python使用matplotlib可视化相关性分析热力图图heatmap、使用seaborn中的heatmap函数可视化相关性热力图（Correllogram）目录Python使用matplotlib可视化相关性分析热力图图heatmap、使用seaborn中的heatmap函数可视化相关性热力图（Correllogram）#导入需要的包和库、matplotlib和seaborn可视化图像的全局
Python：第三方库衍生星球 python 第三方库
1.第三方Python库库名用途pip安装指令NumPy矩阵运算pipinstallnumpyMatplotlib产品级2D图形绘制pipinstallmatplotlibPIL图像处理pipinstallpillowsklearn机器学习和数据挖掘pipinstallsklearnRequestsHTTP协议访问pipinstallrequestsJieba中文分词pipinstalljieba
python如何将数据生成excel_Python如何将数据导出excel的技巧分享 weixin_39528697
本篇文章主要介绍了python技能之导出excel的实例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧本文介绍了python技能之导出excel的实例代码，正好能用到，写出来分享给大家作为一个数据分析师，下面的需求是经常会遇到的。从数据库或者现有的文本文件中提取符合要求的数据，做一个二次处理，处理完成后的数据最终存储到excel表格中供其他部门的人继续二次分析。在
Python数据处理之导入导出Excel数据 master_chenchengg python 能力提升面试宝典技术 IT信息化
Python数据处理之导入导出Excel数据开启数据之旅：为什么Python是Excel数据处理的最佳拍档？准备工作：让Python与Excel握手言欢数据入境：把Excel表格里的宝藏带入Python世界数据出境：将Python分析结果优雅地送回Excel家园玩转数据：用Python对Excel数据进行清洗、转换和分析自动化魔法：编写Python脚本实现Excel数据处理自动化跨界合作：整合其他
第一天：爬虫介绍朱剑君 Python爬虫训练营爬虫 python
每天上午9点左右更新一到两篇文章到专栏《Python爬虫训练营》中，对于爬虫有兴趣的伙伴可以订阅专栏一起学习，完全免费。键盘为桨，代码作帆。这趟为期30天左右的Python爬虫特训即将启航，每日解锁新海域：从Requests库的浪花到Scrapy框架的深流，从反爬迷雾中的破局到数据清洗的澄澈。我们拆解网页结构如同解读星图，让XPath与正则表达式化作导航罗盘。每个深夜的代码调试，终将凝结成破晓时的
第三天：爬取数据-urllib库. 朱剑君 Python爬虫训练营 python 爬虫
每天上午9点左右更新一到两篇文章到专栏《Python爬虫训练营》中，对于爬虫有兴趣的伙伴可以订阅专栏一起学习，完全免费。键盘为桨，代码作帆。这趟为期30天左右的Python爬虫特训即将启航，每日解锁新海域：从Requests库的浪花到Scrapy框架的深流，从反爬迷雾中的破局到数据清洗的澄澈。我们拆解网页结构如同解读星图，让XPath与正则表达式化作导航罗盘。每个深夜的代码调试，终将凝结成破晓时的
使用Seaborn绘制相关性热力图认真写代码i python 开发语言 Python
使用Seaborn绘制相关性热力图相关性热力图是一种常用的可视化工具，用于显示变量之间的相关性。在Python中，Seaborn是一个功能强大且易于使用的数据可视化库，可以轻松地创建相关性热力图。在本文中，我们将学习如何使用Seaborn的heatmap函数来绘制相关性热力图。首先，我们需要安装Seaborn库。你可以使用以下命令通过pip安装Seaborn：pipinstallseaborn安装
python编程入门学习（3）——自用笔记徐少19 python入门 python
目录第五章：if语句一个简单的示例条件测试if语句使用if语句处理列表第六章：字典一个简单的字典使用字典遍历字典嵌套在列表中存储字典在字典中存储列表在字典中存储字典第五章：if语句一个简单的示例#if语句示例cars=['bmw','audi','toyota','subaru']forcarincars:ifcar=='bmw':print(car.upper())else:print(car.
《一文吃透！NLTK与SpaCy，自然语言处理的神兵利器》人工智能深度学习
在人工智能的璀璨星空中，自然语言处理（NLP）无疑是最为耀眼的领域之一。它让机器能够理解、处理和生成人类语言，极大地推动了智能交互的发展。而在Python的NLP工具库中，NLTK和SpaCy就像两把锋利的宝剑，各自散发着独特的光芒。今天，就让我们深入探究这两款工具的使用技巧与优势，为你的NLP之旅增添强大助力。一、NLTK：自然语言处理的瑞士军刀NLTK（NaturalLanguageToolk
Python 第三方库 PyQt5 的安装狐凄实例学习开发语言
目录前言PyQt5安装不同操作系统PyQt5安装一、Windows系统二、macOS系统三、Linux系统（以Ubuntu为例）安装PyQt5可能会遇到的问题一、环境相关问题二、依赖问题三、网络问题四、安装工具问题五、运行时问题六、环境配置问题七、安装源问题八、检查错误信息九、运行时错误十、尝试不同的安装方法问题解决环境相关问题一、Python版本兼容性问题二、操作系统特定问题三、依赖库问题四、环
opencv全面详解教程听忆. 机器学习深度学习计算机视觉人工智能
opencv全面详解教程1.OpenCV简介2.安装OpenCV2.1使用pip安装（适用于Python）2.2通过conda安装2.3从源码编译（高级）3.OpenCV基本操作3.1读取和显示图像3.2保存图像3.3视频处理4.图像处理操作4.1调整大小和裁剪4.2颜色空间转换4.3图像平滑（滤波）4.4边缘检测5.形态学操作6.特征检测与匹配6.1角点检测（Harris）6.2SIFT、SUR
ta-lib使用 lvming-elena C++大数据
ta-lib介绍TA-Lib，全称“TechnicalAnalysisLibrary”,即技术分析库，是Python金融量化的高级库，涵盖了150多种股票、期货交易软件中常用的技术分析指标，如MACD、RSI、KDJ、动量指标、布林带等等。TA-Lib可分为10个子板块：OverlapStudies(重叠指标)，MomentumIndicators(动量指标)，VolumeIndicators(交
利用Python进行数据清洗与预处理：Pandas的高级用法步入烟尘 python 数据库开发语言
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
Python Pandas数据清洗之缺失数据处理 python慕遥 Pandas python pandas 开发语言
大家好，在数据分析和处理过程中，缺失数据是常见且不可避免的现象。无论是在数据收集、传输或存储的过程中，数据集可能会出现部分丢失。缺失数据的存在不仅会影响数据的完整性，还可能对后续的数据分析和建模造成不利影响。为了保证数据质量，合理处理缺失数据至关重要。Python的Pandas库提供了强大的工具，能够高效处理数据中的缺失值，特别是通过插值和填充技术来弥补数据的缺失。本文将介绍如何使用Pandas处
TA-Lib：Python金融分析核心库使用指南一筐猪的头发丝
本文还有配套的精品资源，点击获取简介：TA-Lib是一个广泛应用于金融分析领域的库，它包含多种技术分析指标，适用于股票、期货和外汇等金融产品的技术分析。通过这个库，开发者可以利用Python编程语言进行历史市场数据的技术分析，包括趋势指标、振荡器、成交量分析以及形态识别等。TA-Lib还支持自动化交易系统的开发、投资组合优化和风险管理，是金融专业人士和数据分析师不可或缺的工具。1.TA-Lib库概
利用Python pandas 数据清洗详细教程小白教程 python 运维数据库 python pandas 开发语言
文章目录前言一、环境搭建1.下载Python2.安装Python3使用pip安装Pandas二、使用步骤1.读取数据2.处理缺失值3.处理重复值4.处理异常值5.数据类型转换6.处理不一致的数据前言pandas是Python数据处理与分析的得力工具，功能强大，是数据从业者进行数据清洗的首选。本教程将系统介绍用pandas进行数据清洗，涵盖数据读取、缺失值与重复值处理、异常值修正、数据类型转换等要点
Python 报错分析：IndexError: list index out of range 小馒头学python 问题 python 开发语言
在Python编程中，IndexError:listindexoutofrange是一个常见的错误，通常发生在我们尝试访问超出列表（或其他可迭代对象）有效范围的索引时。这个错误通常会让初学者感到困惑，但实际上它是很直观的，只要理解了列表的索引机制，我们就能轻松避免它。本文将带你深入了解这个错误的原因，并展示如何通过几个实际的例子来解决它。1.什么是IndexError:listindexoutof
WSL中安装python环境详解小蘑菇二号 python
在WindowsSubsystemforLinux(WSL)上安装Python环境，按照以下步骤操作：确认WSL已安装并更新：首先，确保已经安装了WSL，并且您的WSL环境已经更新至最新状态。打开WSL终端：打开Windows的开始菜单，找到并启动WSL发行版（例如Ubuntu）。确认Python已安装：在WSL终端中，输入python3--version来确认Python是否已安装，并查看其版本
Python图形界面 Tkinter入门6 数据库sqlite3 mango大侠 Python python 数据库 sqlite3 tkinter
6.1数据库sqlite3基础fromtkinterimport*importsqlite3importosroot=Tk()root.title('数据库sqlite3操作')root.geometry('400x400')#sqlite3-------------------------------------------------##检查数据库文件是否存在，不存在就创建，user表：ifn
小学python教材电子版_【python爬虫】中小学人教版教材下载（调用IDM） weixin_39981185 小学python教材电子版
根据楼主的python改的。就没做成运行文件，代码如下：新手勿喷。#!/usr/bin/envpython3#encoding:utf-8'''@author:zengyun@software:tool@application:@file:down.py@time:2020/2/2115:46@desc:'''importrequests,bs4fromtqdmimporttqdm#获取文件名称和
flask实现mysql连接池_如何在python flask中使用mysql.connection数据库池 weixin_39710396 flask实现mysql连接池
Traceback(mostrecentcalllast):File"/home/myuser/virtualenv/py2.7-myapp-server-logger/lib/python2.7/site-packages/flask/app.py",line1836,in__call__returnself.wsgi_app(environ,start_response)File"/home/
AWS上基于Llama 3模型检测Amazon Redshift里文本数据的语法和语义错误的设计方案 weixin_30777913 数据仓库云计算 aws llama
一、技术栈选型核心服务：AmazonRedshift：存储原始文本和检测结果AmazonBedrock：托管Llama370B模型AWSLambda：无服务计算（Python运行时）AmazonS3：中间数据存储AWSStepFunctions：工作流编排辅助工具：psycopg2：RedshiftPython连接器boto3：AWSSDKforPythonPandas：数据批处理JSONSche
Python爬虫实战教程——如何抓取社交媒体用户信息（以Twitter和Instagram为例） Python爬虫项目 2025年爬虫实战项目 python 爬虫媒体开发语言信息可视化
1.引言社交媒体平台如Twitter和Instagram每天都会生成大量的用户内容，包括文本、图片、视频等。对于数据分析师和研究人员来说，抓取社交媒体平台的数据是进行趋势分析、情感分析、用户行为分析等工作的基础。本文将介绍如何通过Python爬虫技术抓取Twitter和Instagram的用户信息。我们将详细探讨如何使用最新的技术栈和API来实现社交媒体数据的抓取，并结合具体的代码示例，帮助您快速
pptx文档提取信息 DreamBoy_W.W.Y 知识图谱 python
目录一、前言二、python-pptx提取核心代码三、LibreOffice转换pdf再提取的核心代码一、前言pptx文档提取解析常用的库。如果只需要解析.pptx的文本、表格、图片，推荐使用python-pptx（开源，轻量级）。如果需要高性能、支持.ppt、动画、格式转换，推荐Aspose.Slides（收费）。如果需要PPTX转PDF或者HTML，适用于Linux服务器，推荐LibreOff
python 如何解析PDF文件，并将其翻译为其他语言 openwin_top python编程示例系列 pdf python
要解析PDF文件并将其翻译为其他语言，可以使用Python中的PyPDF2库和baidu_trans库。以下是解析PDF文件并将其翻译为其他语言的基本步骤：安装PyPDF2和baidu_trans库pipinstallPyPDF2baidu_trans可以使用PyPDF2库中的PdfFileWriter和PdfFileMerger类。以下是将翻译后的文本重新组织为PDF文档的代码示例：import
python flask django在线投票系统 md14i 专注分享bishe530 python flask django
文章目录具体实现截图项目技术介绍论文写作思路核心代码部分展示可定制开发功能创新亮点django项目示例源码/演示视频获取方式具体实现截图项目技术介绍Python版本：python3.7以上框架支持：flask/django开发软件：PyCharm数据库：mysql数据库工具：Navicat浏览器：谷歌浏览器(PycharmFlaskDjangoVuemysql)论文写作思路第一部分绪论，主要介绍所
python系列：使用Python快速读取PDF中的表单数据以及error处理坦笑&&life #python python pdf 数据库
使用Python快速读取PDF中的表单数据以及error处理使用Python快速读取PDF中的表单数据安装PythonPDF库Python读取PDF表单数据1、一次性读取多种PDF表单的数据2、读取特定PDF表单的数据python读取PDF文件中文本、表格、图片python读取PDF文件中文本、表格、图片一、文本读取二、图片读取三、表格读取问题AttributeError:'PdfPageBase
Python如何用pdfplumber读取解析pdf文件 ToMiky明明 python pdf 开发语言
1.首先安装pdfplumber库：pipinstallpdfplumber2.如果安装失败，首先应该升级pip，用低版本的pip可能导致pdfplumber安装不成功：python-mpipinstall--upgradepip#coding:utf-8importpdfplumberwithpdfplumber.open('./test.pdf')aspdf:#遍历每个页面forpageinp
Python利用伪代码制作一个简单的登录系统千帆过尽皆不是 python 开发语言
一.代码所需知识1.1伪代码伪代码（Pseudocode）是一种非正式的，用于描述模块结构图的语言。人们在实现一个算法时，尤其是对于那些熟练于不同编程语言的程序员要理解一个算法功能时可能很难，因为程序语言的形式限制了程序员对程序关键部分的理解。所以伪代码就应运而生了，伪代码提供了更多的设计信息。1.2for...else...循环在for...else...的循环中，很多人以为进入了for的循环后
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

【 完结福利 】 Python 实现实时文件监控

Python实现实时文件监控几种方案

开始我们的代码

方案一之调用Linux的tailf实现

方案二之使用Python的File方法

方案三之使用Python的生成器方法

方案四之使用第三方库pyinotify实现

总结

你可能感兴趣的:(python)

【完结福利】 Python 实现实时文件监控