weixin_30439131

某易52G泄露数据入库

前段时间下载了网上流传的 52G葫芦娃 ，解压之后，是txt文件。

　　　　　　　　网上流传的52G葫芦娃

　　　　　　　　文件列表

花了点时间，写了个脚本把数据入库。第一次用python写东西，写的不好请指正！

因为数据量很大，运行需要很长时间。在我的破电脑上，跑了一天才入库完成。

献上代码：

# coding=utf-8

import os
import time
import pymysql.cursors
import re
import threading
from queue import Queue
from queue import Empty

# 程序会根据邮箱前的账号长度生成不同的表
# 如：[email protected]，会存入 email_8 这个表
# 生成的表有 5 个字段：
# id 主键自增序号
# email 邮箱账号 ，如 zhangsan
# password 密码
# email_type 邮箱类型，163 表示 163.com， 126 表示126.com，其他存全名
# remark 备注，源数据有些包含了 昵称，MD5 等等其他信息


# 错误日志存放位置，必须是文件夹，会生成多个文件，保存未成功处理的数据
error_log_dir = "I:\\3_data\\error"

# 原始数据位置，程序会遍历此文件夹下的所有文件
data_file_path = "I:\\3_data\\52G葫芦娃"

# 缓冲区大小，超出后会提交到数据库
buf_size = 50000

# 提交队列大小，超过后会阻塞
queue_size = 15

# 表名称前缀
table_name = "email_"

# 单个错误日志文件最大行数
max_log_line_num = 400000

separators = ("------", "-----", "----", ",", "\t", "|", "       ", "      ", "     ", "    ", "   ", "  ", " ")

# 数据库连接信息
connection = pymysql.connect(host='127.0.0.1',
                             user='root',
                             password='123456',
                             db='163_email',
                             port=3306,
                             charset='utf8')


class DataTransfer:

    def __init__(self, _data_submit):
        self.__handler_dict = {}
        self.data_num = 0
        self.data_submit = _data_submit

    def transfer_data(self, account, password, email_type, remark):
        self.data_num = self.data_num + 1
        handler = self.__get_handler(account)
        handler.handle_data(account, password, email_type, remark)

    def flush(self):
        handlers = sorted(list(self.__handler_dict.values()), key=lambda x: x.table_name)

        for handler in handlers:
            handler.flush()

        print("\n 共插入数据  {0}  条\n".format(self.data_num))
        for handler in handlers:
            print(" {0} 表插入数据  {1}  条".format(handler.table_name, handler.data_size))

    def __get_handler(self, account):
        account_length = len(account)

        if 6 <= account_length <= 14:
            fw = account[0].lower()
            ascii_fw = ord(fw)

            if 48 <= ascii_fw <= 52:
                fw = "04"
            elif 53 <= ascii_fw <= 57:
                fw = "59"
            elif 97 <= ascii_fw <= 100:
                fw = "ad"
            elif 101 <= ascii_fw <= 104:
                fw = "eh"
            elif 105 <= ascii_fw <= 108:
                fw = "il"
            elif 109 <= ascii_fw <= 112:
                fw = "mp"
            elif 113 <= ascii_fw <= 116:
                fw = "qt"
            elif 117 <= ascii_fw <= 119:
                fw = "uw"
            elif 120 <= ascii_fw <= 122:
                fw = "xz"
            else:
                fw = "00"

            tn = "{0}_{1}".format(account_length, fw)
        else:
            tn = str(account_length)

        if tn not in self.__handler_dict:
            self.__handler_dict[tn] = DataHandler(account_length, table_name + tn, self.data_submit)
        return self.__handler_dict.get(tn)


class DataHandler:
    CREATE_STATEMENT = "CREATE TABLE IF not exists `{0}` ( " \
                       "`id` int(11) NOT NULL AUTO_INCREMENT, " \
                       "`email` char({1}) DEFAULT NULL, " \
                       "`password` varchar(40) DEFAULT NULL, " \
                       "`email_type` varchar(40) DEFAULT NULL, " \
                       "`remark` varchar(100) DEFAULT NULL, " \
                       "PRIMARY KEY (`id`), " \
                       "UNIQUE KEY `id_UNIQUE` (`id`) " \
                       ") ENGINE=InnoDB DEFAULT CHARSET=utf8"

    INSERT_STATEMENT = "INSERT INTO {0}(email, password, email_type, remark) VALUES (%s, %s, %s, %s)"

    def __init__(self, _length, _table_name, _data_submit):
        self.__data_buf = []
        self.__data_buf_count = 0
        self.data_size = 0
        self.length = _length
        self.table_name = _table_name
        self.data_submit = _data_submit
        self.__insert_statement = DataHandler.INSERT_STATEMENT.format(self.table_name)

        sql = DataHandler.CREATE_STATEMENT.format(self.table_name, self.length)
        print("+++++++++++++++++++++++    创建表：{0}    +++++++++++++++++++++++".format(self.table_name))
        self.data_submit.submit_task(sql, None)

    def handle_data(self, account, password, email_type, remark):
        self.data_size = self.data_size + 1
        self.__data_buf.append([account, password, email_type, remark])
        self.__data_buf_count = self.__data_buf_count + 1
        if self.__data_buf_count >= buf_size:
            self.flush()

    def flush(self):
        if not self.__data_buf_count:
            return
        try:
            i = self.data_submit.submit_task(self.__insert_statement, self.__data_buf)

            print("---------   提交入库任务：  {0}  条数据入表  {1} ，当前队列长度 {2}  ---------".format(self.__data_buf_count, self.table_name, i))
            self.__data_buf_count = 0
            self.__data_buf = []
        except Exception as e:
            error_log.log_exception(e)
            if self.__data_buf_count > 0:
                for m in self.__data_buf:
                    error_log.log_db_error("{0},{1},{2},{3}".format(m[0], m[1], m[2], m[3]))
                self.__data_buf_count = 0
                self.__data_buf = []


class DataSubmit(threading.Thread):

    def __init__(self, _connection):
        super(DataSubmit, self).__init__()
        self.connection = _connection
        self.queue = Queue(queue_size)
        self.r = True
        self.cursor = self.connection.cursor()
        self.start()

    def exit_task(self):
        self.r = False
        try:
            self.join()
            self.connection.commit()
        finally:
            self.cursor.close()
            self.connection.close()

    def run(self):
        while self.r or not self.queue.empty():
            try:
                _task = self.queue.get(timeout=1)
            except Empty:
                continue
            try:
                if _task[1]:
                    self.cursor.executemany(_task[0], _task[1])
                else:
                    self.cursor.execute(_task[0])
                self.connection.commit()
            except Exception as e:
                print("{0} -- {1}".format(_task[0], _task[1]))
                error_log.log_exception(e)

    def submit_task(self, sql, param):
        self.queue.put([sql, param])
        return self.queue.qsize()


class FileDataReader:

    def __init__(self, root_dir, _line_handler):
        self.root_dir = root_dir
        self.line_handler = _line_handler

    def read_start(self):
        self.__read_dir(self.root_dir)

    def __read_dir(self, file_dir):
        if os.path.isdir(file_dir):
            for filename in os.listdir(file_dir):
                path = os.path.join(file_dir, filename)
                if os.path.isdir(path):
                    self.__read_dir(path)
                else:
                    self.__read_file(path)
        else:
            self.__read_file(file_dir)

    def __read_file(self, path):
        print("-------------   文件处理中：{0}   -------------".format(path))
        file = open(path)
        line = ""
        line_num = 0
        while True:
            line_num += 1
            try:
                line = file.readline()
            except Exception as e:
                error_log.log_read_error("ERROR:{0} , file = {1} , line_num = {2}".format(e, path, line_num))
            if line:
                line = line.strip()
                if line:
                    self.line_handler.handle(line)
            else:
                break


class LineHandler:

    EMAIL_REGEXP = r"^([\w\.-]+)@([\w\.-]+)\.([\w\.]{2,6})$"

    # denglinglu    |    46eeeb68107c0b8fe54c9d47a8c71d0e    |    [email protected]    |        3681994
    R1 = r"^.+\t\|\t[a-z0-9]{32}\t\|\t.+\t\|\t\t.+$"

    def __init__(self, _error_log, _data_transfer):
        self.error_log = _error_log
        self.data_transfer = _data_transfer

    def handle(self, line):
        handle = False
        separator = ""
        for s in separators:
            if s in line:
                separator = s
                break

        if separator:
            if separator == "," and line.endswith(","):
                line = line[0:-1]
            if separator == "----" and line.endswith("----"):
                line = line[0:-4]

            if re.match(LineHandler.R1, line):
                line = line.replace("\t|\t\t", "\t").replace("\t|\t", "\t")
            arr = line.split(separator)
            length = len(arr)
            if length == 2:
                handle = True
                self.handle_split_2(arr[0].strip(), arr[1].strip(), line)
            elif length == 3:
                handle = True
                self.handle_split_3(arr[0].strip(), arr[1].strip(), arr[2].strip(), line)
            elif length == 4:
                handle = True
                self.handle_split_4(arr[0].strip(), arr[1].strip(), arr[2].strip(), arr[3].strip(), line, separator)
            elif length == 5:
                handle = True
                self.handle_split_5(arr[0].strip(), arr[1].strip(), arr[2].strip(), arr[3].strip(), arr[4].strip(), line, separator)

        if not handle:
            # 太短或太长的行 直接吞掉
            if 10 <= len(line) < 200:
                error_log.log_format_error(line)

    def handle_split_2(self, word1, word2, line):
        password = word2
        if "@" in word1:
            # [email protected] 对应这种情况 ---- 邮箱-密码
            account_type = self.split_email(word1)
            if not account_type:
                self.error_log.log_email_format_error(line)
                return
            account = account_type[0]
            email_type = account_type[1]
            self.post(account, password, email_type, None, line)
        else:
            # ls407994769----407994769 对应这种情况 ---- 账号-密码
            # [email protected] 要排除这种脏数据
            account = word1
            if "@" in password:
                self.error_log.log_format_error(line)
                return
            self.post(account, password, None, None, line)

    def handle_split_3(self, word1, word2, word3, line):
        # 昵称 -- 密码 -- 邮箱
        # [email protected]  对应这种
        password = word2
        remark = word1
        account_type = self.split_email(word3)
        if not account_type:
            self.error_log.log_email_format_error(line)
            return
        account = account_type[0]
        email_type = account_type[1]
        self.post(account, password, email_type, remark, line)

    def handle_split_4(self, word1, word2, word3, word4, line, separator):
        if word1 and word2 and word3 and word4:
            if "@" in word2 and len(word3) == 32:
                # 昵称 -- 邮箱 -- MD5 -- 密码
                # zqzsky12345----zqzsky1@163.com----e10adc3949ba59abbe56e057f20f883e----123456  对应这种
                password = word4
                remark = word1 + "--" + word3
                account_type = self.split_email(word2)
                if not account_type:
                    self.error_log.log_email_format_error(line)
                    return
                account = account_type[0]
                email_type = account_type[1]
                self.post(account, password, email_type, remark, line)
            elif len(word2) == 32 and "@" in word3:
                # 昵称 -- MD5 -- 邮箱 -- 密码
                # zqzsky12345----zqzsky1@163.com----e10adc3949ba59abbe56e057f20f883e----123456  对应这种
                password = word4
                remark = word1 + "--" + word2
                account_type = self.split_email(word3)
                if not account_type:
                    self.error_log.log_email_format_error(line)
                    return
                account = account_type[0]
                email_type = account_type[1]
                self.post(account, password, email_type, remark, line)
            else:
                self.error_log.log_format_error(line)

        elif separator == "\t" and word1 and word2 and not word3 and word4:
            # 昵称 -- 邮箱 -- 空 -- 密码
            # [email protected] ----6021159
            password = word4
            remark = word1
            account_type = self.split_email(word2)
            if not account_type:
                self.error_log.log_email_format_error(line)
                return
            account = account_type[0]
            email_type = account_type[1]
            self.post(account, password, email_type, remark, line)
        else:
            self.error_log.log_format_error(line)

    def handle_split_5(self, word1, word2, word3, word4, word5, line, separator):
        if separator == "\t" and word1 and word2 and word3 and not word4 and word5:
            # 昵称 -- MD5 -- 邮箱 -- 空 -- 密码
            # libing879768    056094b080db1e3062a35a8a588079f5    [email protected]        libing  对应这种
            if len(word2) != 32:
                self.error_log.log_format_error(line)
                return
            password = word5
            remark = word1 + "--" + word2
            account_type = self.split_email(word3)
            if not account_type:
                self.error_log.log_email_format_error(line)
                return
            account = account_type[0]
            email_type = account_type[1]
            self.post(account, password, email_type, remark, line)
        else:
            self.error_log.log_format_error(line)

    def post(self, account, password, email_type, remark, line):
        if not self.valid_account(account):
            self.error_log.log_account_length_error(line)
            return
        if not self.valid_password(password):
            self.error_log.log_password_length_error(line)
            return
        if not self.valid_email_type(email_type):
            self.error_log.log_email_type_length_error(line)
            return
        if not self.valid_remark(remark):
            self.error_log.log_remark_length_error(line)
            return
        self.data_transfer.transfer_data(account, password, email_type, remark)

    def split_email(self, email):
        if re.match(LineHandler.EMAIL_REGEXP, email):
            arr = email.split("@")

            # 因为数据中 163.com 和 126.com 是最多的，所以，省一点是一点
            if arr[1] == "163.com" or arr[1] == "163.COM":
                email_type = "163"
            elif arr[1] == "126.com" or arr[1] == "126.COM":
                email_type = "126"
            else:
                email_type = arr[1]

            return [arr[0], email_type]
        else:
            return None

    def valid_account(self, account):
        # 邮箱账号长度限制在 2 -- 40
        return account and 2 <= len(account) <= 40

    def valid_password(self, password):
        # 密码长度限制在 6 -- 40
        return password and 6 <= len(password) <= 40

    def valid_email_type(self, email_type):
        # 邮箱类型长度限制在 3 -- 40
        return not email_type or 3 <= len(email_type) <= 40

    def valid_remark(self, remark):
        # 备注长度限制在 3 -- 20
        return not remark or len(remark) <= 100


class DataErrorLog:

    READ_ERROR = "read_error"
    FORMAT_ERROR = "format_error"
    EMAIL_FORMAT_ERROR = "email_format_error"
    ACCOUNT_LENGTH_ERROR = "account_length_error"
    PASSWORD_LENGTH_ERROR = "password_length_error"
    EMAIL_TYPE_LENGTH_ERROR = "email_type_length_error"
    REMARK_LENGTH_ERROR = "remark_length_error"
    DB_ERROR = "db_error"
    EXCEPTION = "exception"

    def __init__(self, log_dir):
        self.log_dir = log_dir
        if not os.path.exists(log_dir):
            os.makedirs(log_dir)

        if not os.path.isdir(log_dir):
            os.remove(log_dir)
            os.makedirs(log_dir)

        self.__read_error_handler = ErrorLogHandler(log_dir, DataErrorLog.READ_ERROR)
        self.__format_error_handler = ErrorLogHandler(log_dir, DataErrorLog.FORMAT_ERROR)
        self.__email_format_error_handler = ErrorLogHandler(log_dir, DataErrorLog.EMAIL_FORMAT_ERROR)
        self.__account_length_error_handler = ErrorLogHandler(log_dir, DataErrorLog.ACCOUNT_LENGTH_ERROR)
        self.__password_length_error_handler = ErrorLogHandler(log_dir, DataErrorLog.PASSWORD_LENGTH_ERROR)
        self.__email_type_length_error_handler = ErrorLogHandler(log_dir, DataErrorLog.EMAIL_TYPE_LENGTH_ERROR)
        self.__remark_length_error_handler = ErrorLogHandler(log_dir, DataErrorLog.REMARK_LENGTH_ERROR)
        self.__db_error_handler = ErrorLogHandler(log_dir, DataErrorLog.DB_ERROR)
        self.__exception_handler = ErrorLogHandler(log_dir, DataErrorLog.EXCEPTION)

    def log_read_error(self, error):
        self.__read_error_handler.handle_log(error)

    def log_format_error(self, error):
        self.__format_error_handler.handle_log(error)

    def log_email_format_error(self, error):
        self.__email_format_error_handler.handle_log(error)

    def log_account_length_error(self, error):
        self.__account_length_error_handler.handle_log(error)

    def log_password_length_error(self, error):
        self.__password_length_error_handler.handle_log(error)

    def log_email_type_length_error(self, error):
        self.__email_type_length_error_handler.handle_log(error)

    def log_remark_length_error(self, error):
        self.__remark_length_error_handler.handle_log(error)

    def log_db_error(self, error):
        self.__db_error_handler.handle_log(error)

    def log_exception(self, e):
        text = "{0}:{1}".format(time.strftime('%H:%M:%S', time.localtime(time.time())), e)
        self.__exception_handler.handle_log(text)
        print(text)

    def close(self):
        self.__read_error_handler.close()
        self.__format_error_handler.close()
        self.__email_format_error_handler.close()
        self.__account_length_error_handler.close()
        self.__password_length_error_handler.close()
        self.__email_type_length_error_handler.close()
        self.__remark_length_error_handler.close()
        self.__db_error_handler.close()
        self.__exception_handler.close()


class ErrorLogHandler:

    MAX_FILE_LINE = max_log_line_num

    def __init__(self, dir_path, name):
        self.file_count = 0
        self.line_count = 0
        self.total_line_count = 0

        self.dir_path = dir_path
        self.name = name
        self.file = None

    def handle_log(self, log):
        if not self.file or self.line_count >= ErrorLogHandler.MAX_FILE_LINE:
            self.file_count = self.file_count + 1
            self.line_count = 0
            self.file = self.__new_file("{0}_{1}".format(self.name, self.file_count))

        print(log, file=self.file)
        self.line_count = self.line_count + 1
        self.total_line_count = self.total_line_count + 1

    def __new_file(self, filename):
        self.close()
        p = os.path.join(self.dir_path, filename)
        if os.path.exists(p):
            os.remove(p)
        print("**********   创建日志文件：{0}   **********".format(p))
        return open(p, 'a')

    def close(self):
        if self.file:
            self.file.close()


start = int(round(time.time() * 1000))
print("##############   buf_size = {0}   ##############".format(buf_size))
print("##############   queue_size = {0}   ##############".format(queue_size))
print("##############   table_name = {0}   ##############".format(table_name))
print("##############   max_log_line_num = {0}   ##############".format(max_log_line_num))
print("##############   error_log_dir = {0}   ##############".format(error_log_dir))
print("##############   data_file_path = {0}   ##############".format(data_file_path))
print("##############   separators = {0}   ##############".format(separators))

data_submit = DataSubmit(connection)
data_transfer = DataTransfer(data_submit)
error_log = DataErrorLog(error_log_dir)
line_handler = LineHandler(error_log, data_transfer)
file_data_reader = FileDataReader(data_file_path, line_handler)

try:
    file_data_reader.read_start()
    data_transfer.flush()
finally:
    data_submit.exit_task()
    error_log.close()

    end = int(round(time.time() * 1000))
    ms = end - start
    hh = int(ms / (60 * 60 * 1000))
    mm = int((ms % (60 * 60 * 1000)) / (60 * 1000))
    ss = int(((ms % (60 * 60 * 1000)) % (60 * 1000)) / 1000)
    print("\n   处理完成，用时 {0}时 {1}分 {2}秒  \n".format(hh, mm, ss))

　　　　修改下文件位置，就可以跑起来了。注意，跑之前，mysql 所在分区至少预留 100G的空间，并且，关闭mysql日志功能。否则，根本就没法用。

　　　　buf_size 数值不要设置过大，不然分分钟就爆内存。

　　　　思路很简单，一行一行的读，分析出账号密码，其他信息当做备注，然后入库。源数据格式不统一，趟了好几次坑之后，才摸清大概的几种格式。

　　　　读数据是很快的，分析数据也不是性能瓶颈。性能瓶颈在mysql入库，所以单独起了个线程用来入库，保证全部时间都在入库，不让分析数据占用时间。

　　　　如果内存足够，可以把buf_size放大点，一次入库多点，可以提升效率。

　　　　由于数据量实在太大，将邮箱账号按长度分表，如 8 个字符的账号存入表 email_8 。光分长度，数据量还是太大，查询效率太低，所以，又分了首字母，具体就看代码吧。

　　　　源数据当中，有部分是脏数据，没法处理，或者需要手动修改后才能处理，统一都保存至错误文件里面。

入库之后，生成的表太多了，手工没法使用，所以，还需要个存储过程：

DELIMITER $$
CREATE DEFINER=`root`@`localhost` PROCEDURE `query_account`(IN account_in varchar(255))
BEGIN
    declare t varchar(255);  # 表前缀
    declare t_name varchar(255); # 表名称
    declare account_len int;    # 输入要查询的账号长度
    declare fw varchar(10);
    declare fw_ascii int;
    
    set t = "email_";
    
    acc:BEGIN
        if account_in is null then leave acc;
        end if;
        set account_in = trim(account_in);
        
        set account_len = length(account_in);
        if account_len < 2 or account_len > 40 then leave acc;
        end if;
        
        if account_len >= 6 and account_len <= 14 then
            BEGIN
                set fw = lower( left(account_in, 1) );
                set fw_ascii = ord(fw);
                
                if fw_ascii >= 48 and fw_ascii <=52 then set fw = "04";
                elseif fw_ascii >= 53 and fw_ascii <=57 then set fw = "59";
                elseif fw_ascii >= 97 and fw_ascii <=100 then set fw = "ad";
                elseif fw_ascii >= 101 and fw_ascii <=104 then set fw = "eh";
                elseif fw_ascii >= 105 and fw_ascii <=108 then set fw = "il";
                elseif fw_ascii >= 109 and fw_ascii <=112 then set fw = "mp";
                elseif fw_ascii >= 113 and fw_ascii <=116 then set fw = "qt";
                elseif fw_ascii >= 117 and fw_ascii <=119 then set fw = "uw";
                elseif fw_ascii >= 120 and fw_ascii <=122 then set fw = "xz";
                else set fw = "00";
                end if;
                set t_name = concat(t, account_len, "_", fw);
            END;
        else
            set t_name = concat(t, account_len);
        end if;
        
        set @v_sql=concat('select * from ', t_name, ' where email = ?');
        prepare stmt from @v_sql;
        SET @a = account_in;
        EXECUTE stmt USING @a;
        deallocate prepare stmt;
        
    END acc;
    
END$$
DELIMITER ;

存储过程使用方法：

call query_account('helloworld')

转载于:https://www.cnblogs.com/youngwang/p/10152340.html

【机器学习】多模态AI——融合多种数据源的智能系统 2的n次方_ 人工智能
随着人工智能的快速发展，单一模态（如文本、图像或语音）已经不能满足复杂任务的需求。多模态AI（MultimodalAI）通过结合多种数据源（如文本、图像、音频等）来提升模型的智能和表现，适用于多样化的应用场景，如自动驾驶、医疗诊断、跨语言翻译等。一、多模态AI简介多模态AI是一种将不同形式的数据（如文本、图像、音频等）融合在一起的技术，旨在让模型从多个维度感知和理解信息。这种融合使得AI系统能够从
2.6 聚焦：Word Embedding 少林码僧 AI大模型应用实战专栏 word embedding
聚焦：WordEmbeddingWordEmbedding（词嵌入）是一种将词语转化为低维向量表示的技术，使得词语在数学空间中具有语义上的相似性。它是自然语言处理（NLP）中不可或缺的一部分，为文本数据提供了强大的表示能力。与传统的基于词频的词袋模型（Bag-of-Words）相比，WordEmbedding能够捕捉到词语之间更深层的语义和上下文信息。1.词嵌入的定义与作用WordEmbeddin
计算机创造的奇迹——C语言 UnwaterBreathing C c语言开发语言
一.简介C语言是一种较早的程序设计语言，诞生于1972年的贝尔实验室。1972年，DennisRitchie设计了C语言，它继承了B语言的许多思想，并加入了数据类型的概念及其他特性。尽管C语言是与UNIX操作系统一起被开发出来的，但它不只支持UNIX。C是一种通用（广泛可用）的编程语言。程序设计语言实与编译器是一体的，C编译器有著名的GCC（GNUCompilerCollection）等。广泛应用
为什么你的网站总是有安全漏洞 16年上任的CTO 网络安全安全漏洞网络安全 web安全安全性测试前端服务器
目录一、什么是安全漏洞二、安全漏洞的一般表象1.网站瘫痪2.链接指向篡改3.数据篡改4.挂入黑链5.信息泄露6.横向攻击7.流量损耗8.其他现象三、造成安全漏洞的原因1.SQL注入漏洞2.验证码前端校验3.表单重复提交4.文件上传格式校验不合格5.第三方框架的固有漏洞6.密码缺省7.端口开放太多8.Options不过滤9.XSS，CSRF漏洞10.X-Frame-Options劫持11.HTTP获
Python3.13来了！编程爱好者必看 Python之栈人工智能 python 开发语言
Python3.13于近期发布，其中包含大量重要更新。Python作为机器学习、数据科学和人工智能领域使用最广泛的编程语言，一直在不断发展，以满足这些领域日益增长的需求。最新发布的Python3.13提供了多项具有影响力的改进，旨在提高性能和生产力，对于从事ML和AI项目的开发人员来说是一个重要的里程碑。Python在ML和AI领域的主导地位主要归功于它的简单性、广泛的库支持和庞大的社区。然而，随
Docker部署nnunetv2简洁教程 Tiandaren 模型部署 docker 容器运维 pytorch 人工智能深度学习 python
前言：感觉一些教程没必要说那么多，直接贴出重点的配置文件。如果有不懂的，可以把此文档丢给gpt，配合自己的环境一同服用。首先，在nnunet路径下创建一个Dockerfile。由于我已经完成了nnUNet的训练，所以不需要将相关数据全部上传到容器中，而是只保留源码。#使用适当的基础镜像（如pytorch官方镜像）FROMpytorch/pytorch:latest#更新apt-get并安装必要的工
Python 操作 Elasticsearch 全指南：从连接到数据查询与处理 XMYX-0 python elasticsearch jenkins
文章目录Python操作Elasticsearch全指南：从连接到数据查询与处理引言安装`elasticsearch-py`连接到Elasticsearch创建索引插入数据查询数据1.简单查询2.布尔查询更新文档删除文档和索引删除文档删除索引批量插入数据处理分页结果总结Python操作Elasticsearch全指南：从连接到数据查询与处理引言在大数据分析与搜索应用中，Elasticsearch是
Oracle数据库恢复时要建库吗_Oracle数据ASM实例不能mount怎么恢复数据 weixin_39624461
一、数据库故障描述今天给大家分享一个Oracle数据库故障数据恢复案例，数据库故障表现为ASM磁盘组掉线，ASM实例不能mount。数据库管理员自己尝试进行简单的数据库修复后没有成功，于是联系到北京当地的数据恢复公司进行数据库的数据恢复操作。二、数据库故障分析方法数据库数据恢复工程师首先对底层的磁盘进行分析，通过分析组成ASM磁盘组的磁盘将ASM元数据提取出来进行进一步的分析。通过数据库工程师进一
mysql+binlog+查看+加密,mysql查看binlog日志疯疯疯狂的野兔
MySQL的二进制日志可以说是MySQL最重要的日志了，它记录了所有的DDL和DML(除了数据查询语句)语句，以事件形式记录，还包含语句所执行的消耗的时间，MySQL的二进制日志是事务安全型的。一般来说开启二进制日志大概会有1%的性能损耗(参见MySQL官方中文手册5.1.24版)。二进制有两个最重要的使用场景:其一：MySQLReplication在Master端开启binlog，Mster把它
利用Amazon S3实现灾备和多区域部署：多活全面解决方案 ivwdcwso 运维灾备云计算 aws s3 高可用
1.引言在现代云计算环境中，实现高可用性和灾难恢复是至关重要的。AmazonS3作为一种可靠的对象存储服务，为构建多活（Multi-Active）架构提供了强大支持。本文将详细探讨如何利用AmazonS3实现灾备和多区域部署的多活全面解决方案。2.多活架构概述多活架构是一种高可用性设计，其中多个区域或数据中心同时处理请求，而不是传统的主备模式。这种架构可以提供：更高的可用性更好的性能和低延迟imp
SpringBoot集成Netty实战：构建高效TCPUDP通信服务端【物联网开发必备】 m0_74825678 面试学习路线阿里巴巴 spring boot 物联网后端
SpringBoot集成Netty实现TCP/UDP通信协议【优化版】引言在现代物联网(IoT)应用中，设备与服务器之间的实时通信至关重要。Netty作为一个高性能的网络应用框架，与SpringBoot的集成可以简化开发过程，并提高应用性能。本文将详细介绍如何在SpringBoot中集成Netty，实现TCP和UDP通信协议。通讯协议在设计通讯协议时，我们考虑了数据的完整性和命令的明确性。以下是我
使用 MySQL 从 JSON 字符串提取数据 m0_74825678 面试学习路线阿里巴巴 mysql json oracle
使用MySQL从JSON字符串提取数据在现代数据库管理中，JSON格式因其灵活性而广泛使用。然而，当数据存储在JSON中时，我们经常需要将其转换为更易于处理的格式。本篇文章将通过一个具体的SQL查询示例，展示如何从存储在MySQL中的JSON字符串提取数据并重新格式化。1.背景知识JSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，易于阅读和编写，同时也易于机器
Python中Cache的使用爬虫俗手小马达 python 开发语言缓存
文章目录一、缓存的基础概念二、基础使用三、进阶使用四、外部缓存工具五、缓存的注意事项一、缓存的基础概念缓存（Cache）是一种在应用程序中提升性能的技术，它通过将一些数据临时存储在快速访问的存储介质（如内存）中，以减少数据的重复计算或重复读取。通常，缓存用于存储一些昂贵计算或IO密集型操作的结果，从而加快程序的执行速度。在Python中，缓存通常用于函数的输出、API请求的结果、数据库查询、文件读
WPS不登录无法使用基本功能的解决方案愚公移山填海经验分享
前言WPS不登录无法使用基本功能的原因通常是为了同步数据、提供更多高级功能或满足软件授权要求。‌然而，一些用户可能出于隐私或便捷性的考虑，不愿意登录账号。在这种情况下，WPS可能会限制未登录用户的使用权限，导致工具栏变灰，无法使用基本功能。‌解决方法1.使用配置工具进行重置修复‌打开WPS配置工具，进入高级设置界面。选择“重置修复”选项，然后点击“重置工具栏”。完成修复后，重启WPS软件以确保设置
mongodb清理删除历史数据程序员
批量清理mongodb历史数据清理程序的原来目前项目组上很多平台上线历史数据积压，导致入库查询数据缓慢，历史数据有些已经归档，进行历史数据清理删除。之前临时写shell脚本，太简陋，重新使用Python进行改造，新增备份功能，和配置文件删除指定字段和时间范围内数据。代码篇#!/usr/local/python3/bin/python3importconfigparser,logging.confi
R语言的面向对象编程 2501_90183952 包罗万象 golang 开发语言后端
R语言的面向对象编程在现代编程中，面向对象编程（Object-OrientedProgramming，OOP）是一种重要的编程范式，它通过将数据和操作数据的函数结合在一起，来提高代码的重用性和可维护性。在R语言中，面向对象编程并不是一开始就被引入的，但随着其发展，R逐渐支持了多种面向对象编程的系统，例如S3、S4以及R6等。本文将深入探讨R语言的面向对象编程，介绍其基本概念、特点以及在实际应用中的
2024金三银四必备：Java后端开发面试总结【25个技术专题】 2401_89790869 java 面试开发语言
16、List和Map、Set的区别？17、数组和链表分别比较适合用于什么场景，为什么？18、说说ConcurrentHashMap19、Java中ArrayList和LinkedList区别？20、TreeMap（可排序）21、请用两个队列模拟堆栈结构？22、Map中的key和value可以为null？23、数据结构基础之双向链表24、HashMap的底层实现25、ConcurrentHashM
如何建设和维护数据仓库：深入指南数据库数据库开发
摘要数据仓库是企业数据管理的核心，它不仅支持决策制定，还能提供深入的数据分析。本文将详细介绍如何从零开始建设和维护一个高效、可靠的数据仓库，涵盖设计、实施、监控和优化的全过程。通过具体的代码示例和最佳实践，帮助读者深入理解数据仓库的构建和管理。引言数据仓库是企业数据管理的心脏，它集中存储和管理来自不同来源的数据，支持复杂的查询和分析。随着数据量的爆炸性增长，如何高效地建设和维护数据仓库成为企业面临
Hana 到 PostgreSQL 数据迁移同步
简述SAPHana与PostgreSQL已成为许多企业常用的两款重要数据库，实现这两者之间高效稳定的数据传输也是许多企业的诉求之一。本文将介绍如何使用国产数据迁移同步工具CloudCanal构建一条Hana到PostgreSQL的数据同步链路。技术点表级别CDC表CloudCanal在实现Hana源端增量同步时，最初采用的是单CDC表的模式，即所有订阅表的增量数据（插入、更新、删除）通过触发器统一
Python 3.13性能大提升：免费多线程时代来临敖行客 Allthinker python java 开发语言爬虫
在编程的世界里，Python一直以其简洁、易读和强大的功能而备受青睐。随着技术的不断进步，Python的每一个新版本都带来了新的惊喜和改进。而Python3.13无疑是其中的一颗璀璨明星。在一个数据驱动的世界里，Python已经成为了一种无处不在的编程语言，它的性能和功能的提升始终是开发者们关注的热点。随着大数据、人工智能、云计算等技术的飞速发展，对编程语言性能的要求也在不断提高。在这样的背景下，
web前端常见的面试题总结 2401_84436095 程序员前端
script.src=url+‘?’+data+‘callback=’+funcNamedocument.body.appendChild(script);//这里得到请求的数据，在回调函数中执行处理window[funcName]=function(data){callback(data)}}//使用jsonp(‘http:127.0.0.1:3000/api’,{},function(res)
用JavaScript实现找不同小游戏算是难了 javascript 开发语言前端 websocket
目录倒计时的实现找不同实现对canvas的初始化实现画布的分割,父盒子>子盒子>canvas找不同逻辑的判断实现图片的导入DOM节点的监听声明两个需要监听的节点禁用页面点击事件的函数DOM监听实现勋章分数增加和生命的减少减命逻辑死亡响应websocket交互定义给后端发送的数据包断线重连最后,调用封装好的websocket创建初始之物，其行必丑代码写的非常繁琐,有很多细节在复盘的时候也会想不起来为
深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化网络安全研发随想 rnn gpt lstm
从简单的RNN到复杂的LSTM/GRU,再到引入注意力机制,研究者们一直在努力解决序列建模的核心问题。每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。1.从n-gram到循环神经网络(RNN)的诞生1.1N-gram模型在深度学习兴起之前,处理序列数据主要依靠统计方法,如n-gram模型。N-gram是一种基于统计的语言模型,它的核心思想是:一
前端如何实现分页忆宸_1 js 前端 js
前言虽然在实际开发中，大多数分页都是由后端处理，但还是有小部分场景需要前端来实现分页。实现并不难，仅作为记录，方便下次拿来直接使用。准备数据源数据源可以是从后端获取的数据列表，也可以是前端模拟的数据集。将数据源格式处理成数组即可。//模拟50条数据constlist=Array.from({length:50},(_,index)=>`Item${index+1}`);计算总页数计算总页数需要知道
合并两个img栅格影像——arcgis yngsqq arcgisGIS arcgis
合并两个img格式栅格数据时，有时会被边缘的黑框覆盖，采用以下方法可解决此问题：因黑色背景的rgb值为0，0，0，在两个影像重合部位的像素选max（最大值）可避免提取黑色背景。（因有影像的像素点rgb值肯定比0大）。输出位置选指定文件夹，数据集名称及对应的后缀可自己设置。
uniapp 开发 h5 授权微信登录（静默和非静默）陈龙龙的陈龙龙 uni-app uni-app 微信前端 html javascript
具体流程：进入h5➡️静默登录➡️请求登录接口➡️必要时候调起登录组件➡️点击按钮进行非静默登录➡️再次请求登录接口➡️获取到所有用户数据一、封装登录functionauthLogin:(callback)=>{constthat=this;//判断是否是在微信环境下运行if(utils.isWechat()){consttoken=window.localStorage.getItem('__t
数据传输中遇到问题要怎么解决 sanx18 网络数据库
在数据传输过程中遇到问题时，可以采取以下几种解决方案：1.**使用可靠的传输协议**：选择稳定性和可靠性高的传输协议，如HTTPS、SFTP、FTPS等，它们提供了加密和安全的数据传输机制。2.**创建冗余备份**：在不同的存储设备中保存数据的多个副本，即使在传输过程中发生故障或错误，也可以从备份中恢复数据。云存储服务和网络存储设备是实现冗余备份的常见选择。3.**数据压缩和加密**：通过压缩减少
Redis性能优化小马不敲代码数据库 redis 缓存数据库
性能优化避免慢查询命令当发现redis性能变慢的时候，可以通过redis日志，或者是latencymonitor工具，查询变慢的请求，根据请求对应的具体命令以及官方文档，确认下是否采用了复杂度高的查询，如果确实存在大量的慢查询命令则优化用其他高效的命令替代eg：当需要返回一个set中的所有成员时，使用sscan多次迭代返回代替smembers（避免一次返回大量数据，造成线程阻塞）当需要执行排序、并
深入探索C#中Newtonsoft.Json库的高级进阶之路步、步、为营 c#json php
引言在C#开发的广袤天地中，数据的序列化与反序列化是构建高效、灵活应用程序的关键环节。而Newtonsoft.Json库，作为这一领域的璀璨明星，以其强大的功能和出色的性能，成为了众多开发者的首选工具。它不仅仅是一个简单的JSON处理库，更是一把能够解锁复杂数据处理场景的万能钥匙。无论是在构建WebAPI时，需要将服务器端的对象快速转换为JSON格式，以便在网络中传输；还是在处理复杂的配置文件，需
月之暗面今日发布k1.5多模态思考模型百态老人笔记人工智能
月之暗面k1.5多模态思考模型的问世一、月之暗面k1.5多模态思考模型介绍2025年1月20日，月之暗面发布了k1.5多模态思考模型。这一模型在基准测试成绩方面展现出了非凡的性能，它实现了SOTA（state-of-the-art）级别的多模态推理和通用推理能力。多模态推理即模型能够对多种类型的数据（如文本、图像等）进行整合分析推理，通用推理能力则表明它可以广泛应用于多种任务场景进行有效的逻辑推理
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

某易52G泄露数据入库

你可能感兴趣的:(某易52G泄露数据入库)