一二三四0123

Spark 学习-1 (python)

Spark 官方文档快速入门指南

Spark架构 -Spark教程

1. 基本概念

RDD（resilient distributed dataset）弹性分布式数据集，对分布式数据和计算的基本抽象。

每个 Spark 应用 由一个 驱动器程序（driver program）发起集群上的并行操作，驱动器程序一般要管理多个 执行器（executor）节点。

当我们在集群上执行一个操作，不同的节点会对文件不同部分展开计算。

驱动器程序 发起集群上的并行操作，定义了集群上的分布式数据集，进行相关操作。包含了一个 main 函数。

驱动器程序通过一个 SparkContext 对象访问 Spark。这个对象代表对计算集群的一个连接。

我们可以用 SparkContext 创建RDD。

Spark 会自动动将函数发送到各个执行器器节点上，我们可以在单一的驱动器程序中编辑，并让代码自动运行在多个节点上。

2. Spark 执行 Python 脚本

Spark 执行 Python 需要将应用写成 Python 脚本，使用 bin/spark-submit 脚本提交运行。

Spark 对数据的操作大致可以分为 1. 创建 RDD 2. 转化已有 RDD 3. 调用 RDD 操作

转化是由一个 RDD 生成一个新的 RDD ，转化是对 RDD 进行一个操作返回结果到驱动器程序或外部存储系统。

bin/spark-submit my_script.py

一般 Spark 程序按照如下方式工作：

（1）从外部数据创建 RDD

（2）对 RDD 进行转化，定义的新的 RDD

（3）告诉 RDD 需要被重用的中间结果执行 persist () 操作

（4）触发计算

2.1 自行初始化 SparkContext

导入 Spark 包，先创建一个 SparkConf 对象配置应用，然后基于 SparkConf 创建一个 SparkContext 对象。

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
# setMaster 集群URL：告诉Spark如何连接到集群。local 单机单线程
# setAppName 应用名，连接到集群时候在集群管理器用户界面找应用
sc = SparkContext(conf = conf)

关闭方法： stop() / System.exit(0) / sys.exit()

2.2 创建、转化、操作RDD

2.2.1 创建

RDD（resilient distributed dataset）弹性分布式数据集，一个不可变的分布式对象集合。

可以分为：（1）读取外部数据集。（2）在驱动器城区里分发对象合集。

将一个已有的集合传给 SparkContext。例如：

lines = sc.paralleize(["pandas", "i like pandas"])

lines = sc.textFile("/path/to/README.md")

2.2.2 创建

用户可以在任何时候定义新的 RDD 但是 Spark 只会惰性计算，当我们调用转化操作时，不会立即执行。默认情况下 Spark 的 RDD 会在每次对他们进行行动操作时重新计算，如果需要在多个行动中重用一个 RDD 可以用 RDD.persist() 让 Spark 缓存 RDD 到内存，反复查询和分析。

Spark 对转化和操作的执行方式不同，需要明确使用的操作的类型。

返回值判断：转化操作返回 RDD ，行动操作返回其他数据类型。

转化操作不会改变已有的 RDD 数据，而是返回一个全新的 RDD。后续仍可使用原始 RDD。

另外 Spark 会用谱系图记录 RDD 之间的依赖关系。

2.2.3 操作

行动操作会生成计算结果，强制执行求值必须用到的 RDD 的转化操作。

3. 向 Spark 传递函数（Python）

（1）传递比较短的函数，lamabda 表达式

word = rdd.filter(lambda s: "error" in s)

def containsError(s):
    return "error" in s
word = filter(containsError)

注意传递函数会把函数所在的对象也序列化传出去，把整个对象发送到工作节点。应该把需要的字段从对象中取出来作为局部变量，传递局部变量。

class WordFunctions(object):
    ...
    def getMatchesNoReference(self, rdd):
        query = delf.query
        return rdd.filter(lambda x:query in x)

4. 常见的转化和行动操作

4.1 转化操作

map(func) 接受一个函数，用于处理RDD中的每个元素，将返回结果作为结果RDD中对应元素的值。

map() 解析字符串，返回 Double 值。

filter(func) 接收一个函数，将RDD中满足该函数的元素放入新的RDD返回。
flatMap(func) 每个输入项可以映射到零个或多个输出项，因此函数返回序列而不是单个项。

类似 map() 对每个元素应用，但返回是一个返回值序列的迭代器。输出的 RDD 不是由迭代器组成，而是一个包含各个迭代器可访问的所有元素的 RDD。常用于将一个输入字符串切分为单词。返回的是一个由各列表中的元素组成的 RDD，而不是一个由列表组成的RDD。

lines = sc.parallelize(["hello world", "hi"])
words = lines.flatMap(lambda line: line.split(" "))
words.first() // 返回"hello"

（返回：{"hello", "word", "hi"}，而不是 { ["hello", "world"], ["hi"] } 。）

mapPartitions(func) 类似于map，但是在RDD的每个分区(块)上单独运行，因此当在类型T的RDD上运行时， 函数必须是Iterator => Iterator 类型。

mapPartitionsWithIndex(func) 类似于mapPartitions，为函数提供了一个表示分区索引的整数值，因此当在类型T的RDD上运行时，func必须是类型(Int，Iterator )=> Iterator 。

sample(withReplacement, fraction, seed) 使用给定的随机数生成器种子对数据进行采样，并且有或没有替换。

union(otherDataset) 返回一个包含源数据集和参数中元素的并集的新数据集。（不去重）

intersection(otherDataset) 返回一个包含源数据集和参数中的元素的交集的新的RDD。（去重，对单个RDD也去重，需要混洗数据）

subtract(otherDataset) 返回一个只存在于第一个RDD而不存在第二个RDD中元素组成的RDD。（需要数据混洗）

distinct([numPartitions]) 返回一个新数据集，其中只包含源数据集的不同元素的新RDD。

注意，开销很大，需要将所有数据通过网络进行数据混洗。

groupByKey([numPartitions]) 当在(K，V)对的数据集上调用时，它返回(K，Iterable)对的数据集。
reduceByKey(func, [numPartitions]) 当调用(K，V)对的数据集时，返回(K，V)对的数据集，其中使用给定的reduce函数func聚合每个键的值，该函数必须是类型(V，V)=>V。
aggregateByKey(xeroValue)(seqOp, combOp, [numPartitions]) 当调用(K，V)对的数据集时，返回(K，U)对的数据集，其中使用给定的组合函数和中性“零”值聚合每个键的值。
sortByKey([ascending], [numPartitions]) 返回按键按升序或降序排序的键值对的数据集，如在布尔ascending参数中所指定。
join(otherDataset, [numPartitions]) -当调用类型(K，V)和(K，W)的数据集时，返回(K，(V，W))对的数据集以及每个键的所有元素对。通过leftOuterJoin，rightOuterJoin和fullOuterJoin支持外连接。
cogroup(otherDataset, [numPartitions]) 调用类型(K，V)和(K，W)的数据集时，返回(K，(Iterable，Iterable))元组的数据集。此操作也称为groupWith。
cartesian(otherDataset) 计算笛卡尔积，返回所有可能的（a，b）对，a是源RDD元素，b来自另一个RDD。在我们希望考虑所有可能的组合的相似度时有用。（大规模数据开销大）
pipe(command, [envVars]) 通过shell命令管道RDD的每个分区，例如，一个Perl或bash脚本。
coalesce(numPartitions) 将RDD中的分区数减少到numPartitions。
repartition(numPartitions) 随机重新调整RDD中的数据，以创建更多或更少的分区，并在它们之间进行平衡。
repartitionAndSortWithPartitions(partitioner) 根据给定的分区器对RDD进行重新分区，并在每个生成的分区中键对记录进行排序。

4.2 行动操作

reduce(func)接收一个函数func作为参数(这个函数接受两个参数并返回一个)来操作两个相同元素类型的RDD数据并返回一个同类型的新元素，常用于元素的聚合操作。

sum = rdd.reduce(lambda x, y: x + y)

fold(zero)(func)与reduce()类似，接收一个函数func作为参数(这个函数接受两个参数并返回一个)，再加上一个“初始值”作为每个分区第一次调用的结果，初始值应该是提供的操作的单位元素，函数对这个初始值进行多次计算不会改变计算结果。
aggregate(zeroValue)(seqOp,combOp)需要提供一个“初始值”，返回值不必与所操作的RDD类型相同。通过一个函数将RDD中的元素合并起来放入累加器，第二个函数将累加器合并。

sumCount = nums.aggregate((0.0),
                (lambda acc, value: (acc[0] + value, acc[1] + 1),
                (lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1]))))
return sumCount[0] / float(sumCount[1])

collect( )将数据集的所有元素作为数组返回到驱动程序中。在过滤器或其他返回足够小的数据子集的操作之后，这通常很有用。
count( )返回数据集中的元素数。
countByValue( )返回各元素在RDD中出现的次数。
first( )它返回数据集的第一个元素(类似于take(1))。
take(n)返回RDD中的n个元素，尝试访问尽量少的区域。
top(n)返回RDD前几个元素。
takeSample(withReplacement, num, [seed])它返回一个数组，对数据采样有或没有替换。
takeOrdered(n, [ordering])从RDD中按照提供的顺序返回最前面的n个元素。
saveAsTextFile(path)用于将数据集的元素作为文本文件(或文本文件集)写入本地文件系统，HDFS或任何其他Hadoop支持的文件系统的给定目录中。
saveAsSequenceFile(path)用于在本地文件系统，HDFS或任何其他Hadoop支持的文件系统中的给定路径中将数据集的元素编写为Hadoop SequenceFile。
saveAsObjectFile(path)用于使用Java序列化以简单格式编写数据集的元素，然后可以使用SparkContext.objectFile()加载。
countByKey( )仅适用于类型(K，V)的RDD。因此，它返回(K，Int)对的散列映射与每个键的计数。
foreach(func)它对RDD中的元素进行操作而不把结果返回到驱动器程序，用JSON格式把数据发送到网络服务器。

5. 持久化（缓存）

为了避免多次计算同一个 RDD ，可以让Spark对数据进行持久化存储一个RDD。Spark的缓存是容错的。在任何情况下，如果RDD的分区丢失，它将使用最初创建它的转换自动重新计算。

我们可以为 RDD 选择不同的持久化级别。

_2 把持久化的数据分成两份存储。

unpersist( ) 手动把持久化的RDD从缓存中移除。

你可能感兴趣的:(spark,学习,python)

蚂蚁集团可转正实习算法岗内推-自然语言飞300 业界资讯自然语言处理
具备极佳的工程实现能力，精通C/C++、Java、Pvthon、Perl等至少一门语言:对目前主流的深度学习平台:tensorflow、pytorch、mxnet等，至少对其中一个有上手经验;熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题，有大数据处理的实战经验;有强烈求知欲，对人工智能领域相关技术有热情，内推链接：https://u.ali
深圳传音控股AI算法岗内推飞300 人工智能 python java 业界资讯
1扎实的数学基础，熟练掌握机器学习相关的数学知识。2熟悉常用的机器学习算法，掌握常用的深度学习模型与编程实践。3熟悉Pytorch或TensorFlow等深度学习框架，有一定项目经验。4良好的沟通协调能力，执着的专业精神。5参与部门AI创新项目，包括自动化测试平台、BPM流程管理等项目开发登录链接：transsion.zhiye.com/campus/jobs填写我的推荐码：EVHPB3投递，简历
【北上广深杭大厂AI算法面试题】深度学习篇...MobileNet 系列网络发展与高效性分析（附代码）（二）努力毕业的小土博^_^ AI算法题库人工智能算法深度学习卷积神经网络
【北上广深杭大厂AI算法面试题】深度学习篇…MobileNet系列网络发展与高效性分析（附代码）（二）【北上广深杭大厂AI算法面试题】深度学习篇…MobileNet系列网络发展与高效性分析（附代码）（二）文章目录【北上广深杭大厂AI算法面试题】深度学习篇...MobileNet系列网络发展与高效性分析（附代码）（二）MobileNet系列网络发展与高效性分析（附代码）4.MobileNetV2（2
小白必看！2025 网络安全保姆级学习路线来啦~ 白帽黑客-晨哥学习 web安全安全数据库 php
关键词：网络安全入门、渗透测试学习、零基础学安全、网络安全学习路首先咱们聊聊，学习网络安全方向通常会有哪些问题1.初学者常见问题1.1如何开始学习网络安全？问题：网络安全领域广泛，初学者往往不知道从哪里入手。解答：从基础知识开始：学习计算机网络、操作系统、编程语言（如Python、Bash）。了解网络安全的基本概念，如加密、认证、漏洞、攻击类型等。使用在线资源（如Cybrary、OWASP）或书籍
华为OD-不限经验，急招，机考资料，面试攻略，不过改推，捞人 2301_79125642 java
超星(学习通)-Java后端一面网易互娱40min（感觉是G了）一篇不太像面经的面经2023总结，前端大二上进小红书秋招面经第一波海康红外图像算法实习（微影）面经测试工程师社招-测试面试题大厂在职傻屌。TPlink图像算法工程师一二三面经深圳海康红外图像算法实习（微影）面经TPLink提前批面经（已OC）传统车辆转规控算法岗秋招记录腾讯TEG测试与质量管理全记录瑞幸Java开发校招一面腾讯金融科技
Docker中GPU的使用指南俞兆鹏云原生实践 docker 容器运维
在当今的计算领域，GPU（图形处理单元）已经成为了加速各种计算密集型任务的关键硬件，特别是在深度学习、科学模拟和高性能计算等领域。Docker作为流行的容器化平台，允许开发者将应用程序及其依赖打包成一个可移植的容器，在不同的环境中运行。当需要在Docker容器中利用GPU的计算能力时，我们需要进行一些特定的配置和设置。本文将详细介绍如何在Docker中使用GPU，从环境准备到实际应用，帮助你充分利
大模型最新面试题系列：训练篇之模型监控与调试人肉推土机大模型最新面试题集锦大全面试人工智能 pytorch AI编程语言模型
1.训练过程中需要监控哪些关键指标？如何设置报警阈值？关键指标损失函数值：包括训练损失和验证损失，反映模型在训练和验证数据上的拟合程度。准确率：分类任务中的预测正确样本占总样本的比例，评估模型的预测能力。召回率和F1值：在二分类或多分类任务中，用于更全面地评估模型性能，特别是在正负样本不均衡的情况下。学习率：监控学习率的变化，确保其处于合适的范围，避免学习率过大导致模型不稳定或过小导致训练收敛过慢
服务器、群晖，飞牛NAS等部署Whisper ASR教程来啦！让我们的Nas轻松实现音频转文字服务！ xiaoqiangclub 群晖助手服务器 whisper 音视频 ASR 语音转文字实用教程
文章目录介绍演示环境服务器/群晖/飞牛NAS部署WhisperASR，语音识别soeasy！准备部署使用Python调用示例注意事项⚓️相关链接⚓️介绍最近有人私信我，有没有什么办法能在NAS上搞个语音识别服务，实现将语音或开会录音自动转成文字？那么今天我们就一起来看看如何在服务器或群晖/飞牛等Nas上部署一个语音转文字的服务，让我们的NAS瞬间变身“听译”大师！演示环境本文演示环境如下：群晖系统
【华为OD机试真题E卷】54、统一限载货物数最小值 | 机试真题+思路参考+代码解析（C++、Java、Py） KFickle Java Py）华为od c++java 华为OD机试真题统一限载货物数最小值
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题D、E卷，每题都使用C++，Java，Python语言进行解答，每个题目的思路分析都非常详细，持续更新，支持在线OJ刷题，订阅后评论获取权限，有代码问题随时解答，代码仅供学习参考一、题目题目描述火车站附近
地球科学数据学习笔记---流向与风向、浪向 fried-ghost 地球科学数据学习笔记学习笔记数据分析
一、流向（current）流向一般指流体前进的方向、去向，一般以正北方向为正，例如流体从南流向北，则流向为0°，其示意图如下二、风向与浪向风向与浪向一般都指来向，与流向相反，例如风从南吹向北，则为南风，风向为180°。气象数据中一般会将风速数据存成u、v两个分量（雷达数据除外），u分量表示纬向风，v分量表示经向风。u为正，表示西风，风向为270°；v为正，表示南风，风向为180°。示意图如下所示，
基于NLP的客户意见分析：从数据到洞察 Echo_Wish Python 算法 Python 笔记自然语言处理人工智能
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
使用Python构建去中心化社交网络：打破信息垄断的新思维 Echo_Wish Python！实战！python 去中心化网络
使用Python构建去中心化社交网络：打破信息垄断的新思维大家好，我是你们的技术伙伴Echo_Wish。今天，我们来探讨如何使用Python构建一个去中心化的社交网络。在这个以数据为王的时代，中心化平台掌控着大量用户数据，这不仅对隐私保护带来挑战，也容易形成信息垄断。而去中心化的社交网络，通过分布式技术，将数据的控制权交还用户，打破信息垄断，提升隐私安全性。本文将详细介绍如何使用Python实现这
python数据集_保存和使用python绘制多个数据集 weixin_39640085 python数据集
Iraninonemoreproblem-Ihavemultiplefileswiththefollowingformat:FreqAB10001.20.00141001.20.00013101.20.0012allfilesareinthesamefolder;uptonowIamabletoreadallfiles,dothecalculationsIwant,andthensaveonela
深入理解Kettle：ETL工具的学习与实践未知方程无解
本文还有配套的精品资源，点击获取简介：Kettle（Spoon）是Pentaho公司开发的开源ETL工具，用于数据整合和数据仓库建设。本学习笔记着重于Kettle的核心——转换引擎，详细探讨其数据处理的各个步骤，包括数据的输入、转换、输出以及工作原理，提供了一系列的学习资源和实践操作指南，旨在帮助学习者深入理解并掌握Kettle的转换引擎，从而提升数据处理能力。1.Kettle（Spoon）简介与
c语言共用体变量赋值,（C语言）共用体union的用法举例王麑 c语言共用体变量赋值
以前在学校学习C语言的时候一直搞不懂那个共用体union有什么用的。工作之后才发现它的一些妙用，现举例如下：1.为了方便看懂代码。比如说想写一个3*3的矩阵，可以这样写：[注：下面用红色部分标记的地方是后来添加上去的，谢谢yrqing718的提醒！]structMatrix{union{struct{float_f11,_f12,_f13,_f21,_f22,_f23,_f31,_f32,_f33
用Python画一只溜达小狗——turtle库基础入门编程大本营 python python
一只脑门有点方的小狗，其实还可以把脑门和后脑勺完善一下，更圆润一些。但这样也挺可爱，就保有这样不完美但独一无二的它吧。绘制过程主要就是拼接和调整圆弧，尽量做到过度自然。小狗的绘制主要使用了turtle库的circle()函数，初接触时可能会略有不适应，但用起来之后会发现它很强大！对circle()函数用法还不熟悉的同学可参考这篇博客：《如何用Python画一只兔子——turtle库circle()
Python Turtle绘图：重现汤姆劈树的经典瞬间栗子风暴 Python的Turtle绘画 python 开发语言
PythonTurtle绘图：重现汤姆劈树的经典瞬间前言往期绘画>>点击进所有绘画效果图代码前言《汤姆与杰瑞》（TomandJerry）是我们小时候经常看的一部经典的动画作品。自播出以来就受到了广大观众的喜爱和追捧。它不仅成为了一部经典的动画作品，还衍生出了众多周边产品和续集作品。该动画获得了七项奥斯卡大奖，成为了华纳旗下当之无愧的看家明星。其中汤姆飞行劈树的画面记忆犹新，让我们使用Python的
Python Turtle召唤童年：喜羊羊与灰太狼之喜羊羊绘画栗子风暴 Python的Turtle绘画 python 开发语言
PythonTurtle召唤童年：喜羊羊与灰太狼之喜羊羊绘画前言往期绘画>>点击进所有绘画效果图代码前言小时候，每次打开电视，看到喜羊羊机智对抗灰太狼的情景，总能让人捧腹大笑，回忆满满。今天，我们用Python的turtle模块，带大家一起重温这份童年快乐！通过简单的代码与绘图，我们将把喜羊羊生动地呈现在屏幕上。往期绘画>>点击进所有绘画序号链接01用Python与Turtle创作属于你的“冰墩墩
Python Turtle召唤童年：小猪佩奇的涂鸦乐园栗子风暴 Python的Turtle绘画 python 开发语言
PythonTurtle召唤童年：小猪佩奇的涂鸦乐园前言往期绘画>>点击进所有绘画效果图代码前言欢迎来到《佩奇的画笔世界》！这里是一个充满色彩与欢笑的创意天地，在这个博客里，我们将跟随小猪佩奇一起，拿起画笔，探索属于她的卡通世界。每一笔、每一画，都是对童真与快乐的表达，都是一次绘画与创造的冒险。你是否也曾被小猪佩奇的简单而纯粹的可爱风格所吸引？在这里，我们不仅会画出佩奇的故事，还会将她的每个表情、
Bert模型学习笔记文三路张同学其他 bert 学习深度学习
Bert模型学习笔记Fromhttps://www.bilibili.com/video/BV1Ey4y1874yemmm讲实话这个视频太简单了，不建议看。可以看看李沐的视频：https://www.bilibili.com/video/BV1PL411M7eQ这篇文章主要是四个部分：bert的整体架构如何做预训练mlm+nsp如何微调bert(没看)代码解析(没看)Bert架构基础架构是Tran
Python数据可视化 Pyecharts 制作 Scatter3D 3D散点图 Mr数据杨 Python 数据可视化数据可视化 python 数据分析 echarts
三维散点图是展示具有三个维度数据的有效工具，通过对数据点在三维空间中的分布进行可视化，可以直观地观察数据间的关系与趋势。借助pyecharts库的Scatter3D类，用户能够快速生成3D散点图，并自定义图表的各项参数，使图表更加符合展示需求。结合强大的视觉映射和交互功能，三维散点图不仅提升了数据分析的精度，还增强了用户与数据之间的互动性。文章目录Scatter3D：3D散点图Demo总结Scat
AdaBoost算法 Mr终游机器学习算法决策树
目录一、核心原理：二、算法步骤三、关键优势：四.局限与解决五、代码示例（鸢尾花数据集）AdaBoost（AdaptiveBoosting）是一种经典的集成学习算法，通过组合多个弱分类器（如决策树）来构建强分类器。其核心思想是通过迭代优化残差（错误）和动态调整样本权重，逐步提升模型性能。以下是对AdaBoost的简明总结和关键要点：一、核心原理：提升法：通过顺序训练多个弱分类器，每轮专注修正前一个模
【华为OD技术面试手撕真题】113、组合总和 | 手撕真题+思路参考+代码解析（C & C++ & Java & Python & JS） KJ.JK 华为OD技术面试手撕真题华为od 面试 c语言华为od机试E卷华为od机试真题组合总和
文章目录一、题目题目描述样例1二、代码参考C语言思路C语言代码C++语言思路C++代码Java语言思路Java代码Python语言思路Python代码JS语言思路JS代码作者：KJ.JK个人博客首页：KJ.JK专栏介绍：本专栏更新每年华为OD机试的高频手撕代码题，每个题目都会使用五种语言进行解答（C&C++&Java&Python&JS），思路分析都非常详细，争取实现最低的时间复杂度和高通过率，每
HarmonyOS：如何实现自定义的Tabs,TabContent内部实现如何动态配置 zzialx 鸿蒙专栏 harmonyos 华为 android
前言：最近做开发任务的时候，想把Tabs自定义了，并且动态配置TabContent里面的内容，不是写死一样的，这个问题困扰了很长时间，试过**@BuilderParam**（类似于vue的插槽）传组件方式的，但是**@BuilderParam只能传一个，我想要传递的是一个数组，找了很多Api最后找到了WrappedBuilder[]**这种方式。废话不多说，直接上代码，因为大部分的学习者都是先看代
python: DDD using postgeSQL and SQL Server geovindu Python python java 前端数据库 postgresql sqlserver mssql
postgreSQL注意：#psycopg2驱动的连接字符串#engine=create_engine('postgresql://post:geovindu@localhost:5433/TechnologyGame')#Session=sessionmaker(bind=engine)#使用psycopg3驱动的连接字符串#engine=create_engine('postgresql+ps
Bert学习笔记缓释多巴胺。大模型相关知识语言模型 bert
一、Bert架构BERT使用了双向的TransformerGPT使用从左到右的单向信息ELMo把单独训练的从左到右及从右到左的LSTM模型进行合并二、Bert预训练任务2.1遮蔽语言模型MLM任务：随机屏蔽（masking）部分输入token，然后只预测那些被屏蔽的token。问题：预训练任务与微调任务不一致原因：在finetuning期间从未看到[MASK]token，预训练和finetunin
R语言机器学习系列-随机森林回归代码解读 Mrrunsen R语言大学作业机器学习回归 r语言
回归问题指的是因变量或者被预测变量是连续性变量的情形，比如预测身高体重的具体数值是多少的情形。整个代码大致可以分为包、数据、模型、预测评估4个部分，接下来逐一解读。1、包部分，也就是加载各类包，包括随机森林包randomForest，数据相关包tidyverse、skimr、DataExplorer，模型评估包caret。2、数据部分，主要是读取数据，处理缺失值，转换变量类型。3、模型部分。为了对
llama-factory 记录嘟嘟Listing llama
GitHub-hiyouga/LLaMA-Factory:UnifiedEfficientFine-Tuningof100+LLMs&VLMs(ACL2024)安装gitclonehttps://github.com/hiyouga/LLaMA-Factory.gitcondacreate-nllama_factorypython=3.10condaactivatellama_factorycdL
用 Python Turtle 绘制一只可爱的小狗：用代码捕捉狗狗的萌态栗子风暴 Python的Turtle绘画 python 开发语言
用PythonTurtle绘制一只可爱的小狗：用代码捕捉狗狗的萌态前言往期绘画>>点击进所有绘画效果图代码前言小狗，作为人类最忠实的朋友之一，总是以它们可爱的模样和活泼的性格，赢得了无数人的喜爱。从呆萌的小狗眼神到摇晃的尾巴，每一处细节都充满了温暖和快乐。今天，我们将用PythonTurtle模块，绘制一只可爱的小狗，捕捉它那份纯真与活力。往期绘画>>点击进所有绘画序号链接01用Python与Tu
如何在 Conda 环境中使用 PySide6 将 .ui 文件转换为 .py 文件元素之窗 conda ui
如何在Conda环境中使用PySide6将.ui文件转换为.py文件在PyQt或PySide6开发中，通常会使用QtDesigner设计UI界面，并生成.ui文件。但为了在Python代码中使用这些UI设计，我们需要将.ui文件转换为.py文件。本文将介绍如何在Conda环境中使用PySide6进行转换。1.确保Conda环境已激活在PowerShell或命令行中，首先激活你的Conda环境，例如
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "13241153187@163.com" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他