breaksoftware

0基础学习PyFlink——用户自定义函数之UDTAF

大纲

UDTAF
TableAggregateFunction的实现
- 累加器
- - 定义
  - 创建
  - 累加
- 返回
- - 类型
  - 计算
完整代码

在前面几篇文章中，我们分别介绍了UDF、UDTF和UDAF这三种用户自定义函数。本节我们将介绍最后一种函数：UDTAF——用户自定义表值聚合函数。

UDTAF

UDTAF函数即具备了UDTF的特点，也具备UDAF的特点。即它可以像《0基础学习PyFlink——用户自定义函数之UDTF》介绍的UDTF那样可以返回任意数量的行作为输，又可以像《0基础学习PyFlink——用户自定义函数之UDAF》介绍的UDAF那样通过聚合的数据（多组）计算出一个值。
举一个例子：我们拿到一个学生成绩表，每行包括：

学生姓名
英语成绩
数学成绩
年级

现在我们需要把这张表调整为：

学生姓名
成绩
科目
科目年级平均成绩
年级

将一行中的“英语成绩”和“数学成绩”，拆成“成绩”和“科目”，相当于把一行数据拆解成多行，如上图左侧“张三”只有一行，而右侧有两行“张三”信息。这种拆解操作就需要T类型的用户自定义函数，比如UDTF和UDTAF。
而我们需要计算一个年级一科的平均成绩，比如1年级英语的平均成绩，则需要按年级聚合之后再做计算。这个就需要A类型的用户自定义函数，比如UDAF和UDTAF。
同时要满足上述两种技术方案的就是UDTAF。我们先看下主体代码，它和《0基础学习PyFlink——用户自定义函数之UDAF》中的很像。但是有两个重要区别：
要设置成in_streaming_mode模式，否则会报错；
udtaf要修饰一个对象，而非一个方法；

def calc():
    config = Configuration()
    # write all the data to one file
    config.set_string('parallelism.default', '1')
    env_settings = EnvironmentSettings \
        .new_instance() \
        .in_streaming_mode() \
        .with_configuration(config) \
        .build()
    
    t_env = TableEnvironment.create(env_settings)
    
    row_type_tab_source = DataTypes.ROW([DataTypes.FIELD('name', DataTypes.STRING()), DataTypes.FIELD('english', DataTypes.FLOAT()), DataTypes.FIELD('math', DataTypes.FLOAT()), DataTypes.FIELD('grade', DataTypes.STRING())])
    students_score = [
        ("张三", 80.0, 60.0, "1"),
        ("李四", 75.0, 95.0, "1"),
        ("王五", 90.0, 90.0, "2"),
        ("赵六", 85.0, 70.0, "2"),
        ("孙七", 60.0, 0.0, "3"),
    ]
    tab_source = t_env.from_elements(students_score, row_type_tab_source)
    
    split_class = udtaf(SplitClass())
    tab_source.group_by(col('grade')) \
        .flat_aggregate(split_class) \
        .select(col('*')) \
        .execute().print()

TableAggregateFunction的实现

用于计算的类要继承于TableAggregateFunction，即UDTAF中的TAF。

class SplitClass(TableAggregateFunction):
    _class_keys = ["english", "math"]

我们需要通过get_result_type告诉框架，UDTAF函数返回的是什么类型的数据。一般我们都是构造一个行类型——ROW，然后定义其每个字段的值和类型：

name：string类型，用户姓名；
score：float类型，考分；
avg score：float类型，科目年级平均分数；
class：sting类型，科目名称；

累加器

accumulator（累加器）是用于参与计算的中间数据。比如这个案例中，我们会向让accumulator保存拆解后的数据（即一行拆解成多行后的数据），然后再计算各年级每科的平均成绩。

定义

    def get_accumulator_type(self):
        return DataTypes.ARRAY(DataTypes.ROW([DataTypes.FIELD("name", DataTypes.STRING()), DataTypes.FIELD("score", DataTypes.FLOAT()), DataTypes.FIELD("class", DataTypes.STRING())]))

因为只是为了保存展开的数据，于是我们只用定义均值计算之前的字段：

name：string类型，姓名；
score：float类型，分数；
class：string类型，科目名称；

创建

刚开始时，我们让其是一个空数组，对应上定义中的ARRAY类型。

    def create_accumulator(self):
        return []

累加

我们对科目进行遍历，进行行的拆分。即将(“张三”, 80.0, 60.0, “1”)拆解成(“张三”, 80.0, “english”)和(“张三”, 60.0, “math”)这样的两组数据。

    def accumulate(self, accumulator, row):
        for i in self._class_keys:
            accumulator.append(Row(row["name"], row[i], i))

返回

类型

    def get_result_type(self):
        return DataTypes.ROW([DataTypes.FIELD("name", DataTypes.STRING()), DataTypes.FIELD("score", DataTypes.FLOAT()), DataTypes.FIELD("avg score", DataTypes.FLOAT()), DataTypes.FIELD("class", DataTypes.STRING())])

可以看到result_type（返回类型）和accumulator_type（累加器类型）是不一样的（也可以一样，主要看怎么计算规则）。前者比后者多了“学科年级平均分”（avg score），这就更加接近我们希望获得的最终结果。
这些字段和我们目标字段只差一个grade（年级）。因为原始表中有grade，且我们会通过grade聚类，所以最终我们可以获得这个信息，而不用在这儿定义。
需要注意的是，虽然表值类型函数返回的是一组数据（若干Row），但是这儿只是返回Row的具体定义，而不是ARRAY[Row]。

计算

    def emit_value(self, accumulator):
        rows = []
        for i in self._class_keys: 
            total = 0.0
            student_count = 0
            for y in accumulator:
                # y[2] y[]"class"]
                if i == y[2]:
                    # y[1] y["score"]
                    total = total + y[1]
                    student_count = student_count + 1
            avg_score = total / student_count
            for y in accumulator:
                if i == y[2]:
                    rows.append(Row(y[0], y[1], avg_score, y[2]))
        for x in rows:   
            yield x

这个函数会在最后执行，它会通过累加器中的数据计算“学科年级平均分”，然后构造和“返回类型”一直的Row到rows数组中。最后通过yeild关键字返回一个生成器，我们可以将其看成还是一组Row，即拆解后的结果。

最后我们看下结果

+----+--------------------------------+--------------------------------+--------------------------------+--------------------------------+--------------------------------+
| op |                          grade |                           name |                          score |                      avg score |                          class |
+----+--------------------------------+--------------------------------+--------------------------------+--------------------------------+--------------------------------+
| +I |                              1 |                           张三 |                           80.0 |                           77.5 |                        english |
| +I |                              1 |                           李四 |                           75.0 |                           77.5 |                        english |
| +I |                              1 |                           张三 |                           60.0 |                           77.5 |                           math |
| +I |                              1 |                           李四 |                           95.0 |                           77.5 |                           math |
| +I |                              2 |                           王五 |                           90.0 |                           87.5 |                        english |
| +I |                              2 |                           赵六 |                           85.0 |                           87.5 |                        english |
| +I |                              2 |                           王五 |                           90.0 |                           80.0 |                           math |
| +I |                              2 |                           赵六 |                           70.0 |                           80.0 |                           math |
| +I |                              3 |                           孙七 |                           60.0 |                           60.0 |                        english |
| +I |                              3 |                           孙七 |                            0.0 |                            0.0 |                           math |
+----+--------------------------------+--------------------------------+--------------------------------+--------------------------------+--------------------------------+
10 rows in set

完整代码

from pyflink.common import Configuration
from pyflink.table import (EnvironmentSettings, TableEnvironment, Schema)
from pyflink.table.types import DataTypes
from pyflink.table.table_descriptor import TableDescriptor
from pyflink.table.expressions import lit, col
from pyflink.common import Row
from pyflink.table.udf import udf,udtf,udaf,udtaf,TableAggregateFunction
import pandas as pd
from pyflink.table.udf import UserDefinedFunction
from typing import List

class SplitClass(TableAggregateFunction):
    _class_keys = ["english", "math"]

    def emit_value(self, accumulator):
        rows = []
        for i in self._class_keys: 
            total = 0.0
            student_count = 0
            for y in accumulator:
                if i == y[2]:
                    total = total + y[1]
                    student_count = student_count + 1
            avg_score = total / student_count
            for y in accumulator:
                if i == y[2]:
                    rows.append(Row(y[0], y[1], avg_score, y[2]))
        return rows

    def create_accumulator(self):
        return []

    def accumulate(self, accumulator, row):
        for i in self._class_keys:
            accumulator.append(Row(row["name"], row[i], i))

    def get_accumulator_type(self):
        return DataTypes.ARRAY(DataTypes.ROW([DataTypes.FIELD("name", DataTypes.STRING()), DataTypes.FIELD("score", DataTypes.FLOAT()), DataTypes.FIELD("class", DataTypes.STRING())]))  

    def get_result_type(self):
        return DataTypes.ROW([DataTypes.FIELD("name", DataTypes.STRING()), DataTypes.FIELD("score", DataTypes.FLOAT()), DataTypes.FIELD("avg score", DataTypes.FLOAT()), DataTypes.FIELD("class", DataTypes.STRING())])

    
def calc():
    config = Configuration()
    # write all the data to one file
    config.set_string('parallelism.default', '1')
    env_settings = EnvironmentSettings \
        .new_instance() \
        .in_streaming_mode() \
        .with_configuration(config) \
        .build()
    
    t_env = TableEnvironment.create(env_settings)
    
    row_type_tab_source = DataTypes.ROW([DataTypes.FIELD('name', DataTypes.STRING()), DataTypes.FIELD('english', DataTypes.FLOAT()), DataTypes.FIELD('math', DataTypes.FLOAT()), DataTypes.FIELD('grade', DataTypes.STRING())])
    students_score = [
        ("张三", 80.0, 60.0, "1"),
        ("李四", 75.0, 95.0, "1"),
        ("王五", 90.0, 90.0, "2"),
        ("赵六", 85.0, 70.0, "2"),
        ("孙七", 60.0, 0.0, "3"),
    ]
    tab_source = t_env.from_elements(students_score, row_type_tab_source)
    
    split_class = udtaf(SplitClass())
    tab_source.group_by(col('grade')) \
        .flat_aggregate(split_class) \
        .select(col('*')) \
        .execute().print()
    
if __name__ == '__main__':
    calc()

你可能感兴趣的:(大数据,数据库,flink,sql,python)

华为OD机试E卷 - 分糖果（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java python javascript c++华为OD2025A卷华为od
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明从糖果盒中随意抓一把糖果，每次小明会取出一半的糖果分给同学们。当糖果不能平均分配时，小明可以选择从糖果盒中（假设盒中糖果足够）取出一个糖果或放回一个糖果。小明最少需要多少次（取出、放回和平均分配均记一次），能将手中糖果分至只剩一颗。输入描述抓取的糖果数（<10000000000）：15输出描述最少分至一颗糖果的次数
（Python基础篇）字符串的操作 EternityArt 基础篇 python 开发语言算法
目录引言一、字符串的基本定义与访问（一）字符串的定义（二）字符串的索引与切片二、字符串的常用操作方法（一）字符串的拼接与重复（二）字符串的大小写转换（三）字符串的去除空白（四）字符串的查找与替换（五）字符串的分割与连接（六）字符串的判断方法三、字符串的格式化（一）使用%运算符（二）使用str.format()方法（三）使用f-字符串（Python3.6+）四、字符串的不可变性五、总结引言在Pyth
华为OD机试 2025B卷 - 小明减肥(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD2025B卷华为OD机试华为机试2025B卷华为OD机试2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明有n个可选运动，每个运动有对应卡路里，想选出其中k个运动且卡路里和为t。k，t，n都是给定的。求出可行解数量输入描述第一行输入ntk第一行输入每个运动的卡路里按照空格进行分割备注00,00输出描述求出可行解
【华为OD机试真题 2025B卷】130、最多获得的短信条数、云短信平台优惠活动 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java javascript 华为OD机试真题 c语言最多获得的短信条数
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
【华为OD机试真题 2025B卷】128、判断一组不等式是否满足约束并输出最大差 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java 华为OD机试真题 c语言 javascript
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
AntDesignPro动态路由配置全攻略 bemyrunningdog 前后端
目录AntDesignPro前后端动态路由配置指南(TypeScript+Java)一、整体架构二、Java后端实现1.数据库设计(MySQL)2.实体类定义3.DTO对象4.服务层实现5.控制器三、前端实现(TypeScript)1.定义路由类型2.路由转换器3.应用配置(app.tsx)4.路由加载优化四、权限控制整合1.Java端权限检查2.前端权限整合五、部署优化方案六、生产环境建议七、完
Java高级工程师面试模拟：高并发电商秒杀系统设计与技术解析搞Java的小码农 Java技术场景题 Java 面试技术面试后端开发 Spring Redis Kafka
《Java高级工程师面试模拟：高并发电商秒杀系统设计与技术解析》场景设定面试地点：某互联网大厂的现代化办公区，面试室宽敞明亮，面试官坐在主位，表情严肃而专注，小兰则坐在对面，自信满满但内心略显紧张。第1轮：Java核心、基础框架与数据库问题1：Java中的ConcurrentHashMap是如何保证线程安全的？面试官：小兰，ConcurrentHashMap是Java中常用的线程安全集合，请简单说
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
Python Pandas库超详细教程：从入门到精通实战指南 stormsha Python python pandas 开发语言 python3.11 数据分析
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录Pyt
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
从UI设计到数字孪生实战：构建智慧教育的个性化学习平台
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：数字孪生重构智慧教育的技术范式在教育数字化转型加速推进的背景下，传统在线教育正面临"个性化不足、学习体验单一、效果评估滞后"的瓶颈。教育部数据显示，采用数字孪生技术的智慧教育平台，学生学习效率平均提升35
一天一道Sql题(day03) huihui450 sql 数据库
将两个SELECT语句结合起来（一）_牛客题霸_牛客网思路：本题主要考查unionall连接两个sql语句，没什么难度union(all)：要求列的顺序、数据类型和列数保持一致。区别就是不加all会对连接的结果去重。unionall不会去重sql:select*fromOrderItemswherequantity=100unionallselect*fromOrderItemswhereprod
MsSql 其他（2） hello 早上好 #面试汇总-MySql 数据库 mysql
✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨Mysql中的MVCC一、MVCC的核心目标与设计背景MVCC（Multi-VersionConcurrencyControl，多版本并发控制）是InnoDB存储引擎为实现高并发事务处理而设计的核心机制。其核心目标是：在不牺牲事务隔离性的前提下，通过“读不阻塞写，写不阻塞读”的方式，大幅提升数据库的并发性能。传统数据库的并发控制依赖锁机制（如读锁、写锁），但锁会导致读
python中的元类Metaclass ReedSun python python
python中的元类Metaclass理解元类之前需要学习的知识如果说让我们创建一个类，最先想到的肯定是用class创建，当我们使用class创建类的时候，python解释器自动创建这个对象，但是python同样也提供了手动处理的方法来创建类，这就是用python的自建函数type()。我们所熟知的type()函数的作用是返回一个参数的类型，但是实际上，它也有一种完全不同的能力，即接受一个类的一些
python 元类的继承_Python学习_13_继承和元类五伤先生 python 元类的继承
继承继承的含义就是子类继承父类的命名空间，子类中可以调用父类的属性和方法，由于命名空间的查找方式，当子类中定义和父类同名属性或者方法时，子类的实例调用的是子类中的属性，而不是父类，这就形成了python中的多态：defSuperClass:defa_method:passdefSubClass(SuperClass):defa_method:passobj=SubClass()obj.a_meth
PHP/Laravel + Vue3 + MySQL组合版本参考
以下是基于技术栈流行度、稳定性和开发效率综合评估的推荐版本组合1.后端技术栈PHP8.3最新稳定版，支持JIT编译，性能较PHP8.1提升15%+，完美兼容Laravel框架。扩展要求：openssl、pdo_mysql、mbstring（Laravel强制依赖）。Laravel11.x2024年发布，支持PHP8.2-8.3，提供轻量级应用骨架和更快的路由缓存。关键特性：原生支持Docker沙盒
PHP/Laravel + Vue3 + MySQL + Docker 项目搭建全流程指南（Al总结版未测试未编辑）野生yumeko php laravel mysql
PHP/Laravel+Vue3+MySQL+Docker项目搭建全流程指南一、环境准备（仅需Docker）安装DockerDesktopWindows/macOS：下载DockerDesktop并安装。Linux：安装docker-ce和docker-compose-plugin。#Ubuntu示例sudoaptupdate&&sudoaptinstalldocker-cedocker-comp
网络安全用什么编程语言_网络安全的5种最佳编程语言程序员羊羊 web安全网络安全开发语言数据库
网络安全用什么编程语言要成为网络安全专家，要取得成功，需要多种技能。全方位的专业人员可以放心地实施和监视安全措施，以保护计算机系统免受攻击和未经授权的访问。总部位于巴西的Python专家Henrique教人们如何使用该语言创建应用程序，他强调“除了紧跟网络安全领域的最新动态，您还需要熟悉各种编程语言。”这里有5种最佳编程语言，可帮助您提高网络安全职业的学习能力。1.C和C++C和C++是网络安全专
Python面试题：使用Python进行元编程：元类和元编程技巧
在Python中，元编程是一种编程技巧，它涉及到代码本身的结构和行为的编程。元编程允许你编写能够操作、修改或生成代码的代码。最常见的元编程技术包括使用元类、装饰器和类装饰器。以下是对Python元编程的详细讲解，包括元类和一些常用的元编程技巧。1.元类（Metaclasses）1.1定义和概念元类是用来创建类的类。换句话说，元类定义了类的行为，就像类定义了对象的行为一样。在Python中，type
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户_用户每日登陆脉脉会访问app不同的模块,现有两个表表1记录了每日脉脉活跃用户的ui(1)
文章目录每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户每日语录第25题：1.需求列表1.初级题:每日活跃用户思路分析(1)创建表(2)思路答案获取加技术群讨论附表文末SQL小技巧后记每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大
Python元类基础知识示例深度剖析，从新手小白成为Python编程高手只存在于虚拟的King python 开发语言深度学习学习经验分享计算机网络程序人生
文章目录引言一、什么是元类？二、元类的工作原理三、如何定义元类四、元类的应用场景五、元类的注意事项六、结论关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道引言Python是一种强大的编程语言，一部
SpringBoot3+Vue3+AntDesign无人机场台管理系统 | 小蚂蚁云小蚂蚁开源后端 vue 架构低代码
项目介绍基于SpringBoot3、SpringSecurity、MybatisPlus、Vue3、TypeScript、Vite、AntDesign、MySQL等技术栈实现的单体前后端分离后台管理系统；后端基于Java语言采用SpringBoot3、SpringSecurity、MybatisPlus、MySQL等主流技术栈，前端基于Vue3、TypeScript、Vite等技术栈实现，采用An
stm32 micropython vscode_VS Code 上最硬核的 MicroPython 插件 weixin_39968309 stm32 micropython vscode
介绍VSCode上最硬核的MicroPython插件——RT-ThreadMicroPython，为MicroPython开发提供了强大的开发环境，主要特性如下：设备快速连接(串口、网络、USB)支持基于MicroPython的代码智能补全与语法检查支持MicroPythonREPL交互环境提供丰富的代码示例与demo程序提供工程同步功能支持下载单个文件或文件夹至开发板支持在内存中快速运行代码文件
Python对JSON数据操作
在Python中，对JSON数据进行增删改查及加载保存操作，主要通过内置的json模块实现。一、基础操作1.加载JSON数据•从文件加载使用json.load()读取JSON文件并转换为Python对象（字典/列表）：importjsonwithopen('data.json','r',encoding='utf-8')asf:data=json.load(f)•从字符串加载使用json.load
【转载】python json
概念序列化（Serialization）：将对象的状态信息转换为可以存储或可以通过网络传输的过程，传输的格式可以是JSON、XML等。反序列化就是从存储区域（JSON，XML）读取反序列化对象的状态，重新创建该对象。JSON（JavaScriptObjectNotation）：一种轻量级数据交换格式，相对于XML而言更简单，也易于阅读和编写，机器也方便解析和生成，Json是JavaScript中的
Python os库完全指南：文件操作必备晨曦543210 Python启航之路 python 开发语言
一、简介Python的os库。这个库主要用于和操作系统交互，比如管理文件、目录、运行系统命令等。二、导入库importos三、基础操作获取当前工作目录current_dir=os.getcwd()print("当前目录:",current_dir)切换目录os.chdir("/path/to/new/directory")列出目录内容files=os.listdir()#不传参数则默认当前目录pr
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
Python JSON操作完全指南
目录一、简介二、JSON和Python的对应关系三、核心函数1.json.dumps()：将Python对象→JSON字符串2.json.loads()：将JSON字符串→Python对象3.json.dump()：将Python对象→JSON文件4.json.load()：从JSON文件→Python对象四、常见错误处理1.JSON解析错误2.类型不支持错误五、总结六、常用函数1️⃣json.d
多线程导出excel高并发_表格存储：使用TableStoreWriter进行高并发、高吞吐的数据写入-阿里云开发者社区... rayyangul 多线程导出excel高并发
概述表格存储(原OTS)的一大特性是能够支撑海量数据的高并发、高吞吐率的写入，特别适合日志数据或物联网场景(例如轨迹追踪或溯源)数据的写入和存储。这些场景的特性是，会在短时间内产生大量的数据需要消化并写入数据库，需要数据库能够提供高并发、高吞吐率的写入性能，需要满足每秒上万行甚至上百万行的写入吞吐率。针对这些场景，我们在存储层做了很多的优化(本篇文章不赘述)，同时在SDK接口层也做了一些优化，专门
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他