-柚子皮-

hive:创建自定义python UDF

由于Hadoop框架是用Java编写的，大多数Hadoop开发人员自然更喜欢用Java编写UDF。然而，Apache也使非Java开发人员能够轻松地使用Hadoop，这是通过使用Hadoop Streaming接口完成的!

Java-UDF vs. Python-UDF

Java 实现 UDF，需要引用包含 Hive API 的外部 jar 包，而 Python 无需引起其他外部包；
Java 实现 UDF 后，需要打包后才可被 HiveQL 调用，而通过 Python 实现 UDF 后，可以在 HiveQL 中直接被调用；
Java 实现 UDF，对读入和输出数据方式没有要求，实现的 UDF 可以输入一条记录的指定列数据，输出结果可以直接在 HiveQL 的 WHERE 中用于判断条件使用；Python 实现的 UDF，对读入和输出数据方式有特殊要求，需要对 HiveQL 中表的指定列数据批量读入，然后一对一地批量输出，因此，通过 Python 实现的 UDF 可以结合子查询使用。

Python-UDF开发流程

脚本示例

employees.py:

# -*- coding: utf-8 -*-

import sys

for line in sys.stdin:
line = line.strip()
(emp_id,emp_name) = line.split('\t')
"{}\t{}".format(emp_id, emp_name + '，亲')

Note: py代码最好都加上# -*- coding: utf-8 -*-

输入输出流

通过 Python 实现 Hive 的 UDF，Python 脚本需要以sys.stdin和print的方式读入和输出。Python 实现的 UDF，需要批量的读入数据，并一对一的批量输出。

如果udf代码中通过print输出的数据中通过\t分割的数据个数小于 hive的接收字段，则后面的字段都会是null。

错误输出流

py udf中stdout是数据流，不是输出流。

要输出信息，需要将log打印到stderr中。

方式1：

print('cnt:{}'.format(cnt), file=sys.stderr)

方式2：
def log(msg):
t = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
sys.stderr.write('{} {}\n'.format(t, msg))
sys.stderr.flush()

hive中使用

需要将自定义Python数据处理文件添加到路径中，然后在查询中应用transform函数。

示例1：

add file /path/employees.py;
select
    transform(emp_id, emp_name) using 'python employees.py' as (emp_id, emp_name)
from
    employees;

其中， SELECT 中的 columns 是 FROM 中 table 的列名，而 AS 中的 columns 是经过 USING 中 Python 脚本 python_script 计算返回的列名。

使用transform的时候不能查询别的列。

示例2.1：

2.1相对2.2可能还好点，因为没有了后面join的资源消耗。
如果主要是cpu密集计算，内存不紧张，2.1更好。

ADD ARCHIVE hdfs://path/python.zip;
ADD FILE HDFS路径/.../dir;

select    
    TRANSFORM(
        uuid,
        a,b,c,d
        txt
    ) USING 'python.zip/bin/python dir/process.py' as (
        uuid string,
        ....
        label bigint
    )
from t1;

示例2.2：

也可以把主键id和要处理的列传进去一起返回，再通过主键id去join原表。

这样内存用的少点，不过join可能会更耗时。

ADD ARCHIVE hdfs://path/python.zip;
ADD FILE HDFS路径/.../dir;
select * 
from t1
join(
    select
        TRANSFORM(
            uuid,
            txt
        ) USING 'python.zip/bin/python dir/process.py' as (
            uuid string,
            label bigint
        )
    from t1
) t2 on t1.uuid = t2.uuid

[使用Python编写Hive UDF]

Note:

1 使用默认的py可能只需要：
ADD FILE /path-to-my-script/my_python_code.py;
USING '/path-to-my-script/my_python_code.py'

也可能是py代码里面指定了#!/usr/local/bin/python。

[How to create a custom UDF for Hive using Python - Cloudera Community - 248486]

2 如果未配置py可能出错：Log Type: syslog_attempt_***
Caused by: java.io.IOException: Cannot run program "py_env.zip/bin/python": error=2, No such file or directory
解决：ADD ARCHIVE hdfs://.../snapshot/py_env.zip;

其它输入参数

model_path = sys.argv[1]

自定义py环境构建

也可以自己构建py环境：
ADD ARCHIVE hdfs://path/python.zip;
然后通过using 'python.zip/bin/python employees.py'来使用指定py环境。

ADD ARCHIVE hdfs://.../pyenv.tar.gz; # 环境压缩包可放到git代码同目录，只要是可访问即可。
USING 'pycpu.tar.gz/bin/python dir/inferrence.py'

构建python包的方式可能有：
1 如果平台支持，直接写requirement文件自动安装并构建包。
2 本地打包成压缩包再上传。Note: conda打包可参考，建议重新创建py环境，只构建必须用的包。[打包运行环境conda-pack]

Note: 不要使用add file，这种添加不会自动将压缩包解压，只能通过add archive。否则出错Caused by: java.io.IOException: Cannot run program "dir/pyenv.tar.gz/pyenv.tar/bin/python": error=20, Not a directory

读取目录

方式1（推荐）：

先上传文件或者git地址到hdfs，都放在HDFS路径/*下。
直接在hive中读入目录，注意目录在命令中的写法形式

ADD FILE HDFS路径/.../models; -- 注意这里的basedir=models
select
TRANSFORM (id, text) using 'py_env.zip/bin/python inference.py models/submodel/onnx' as id, label, score -- 这里的文件需要带上basedir
Note:
1 使用ADD FILEs和ADD FILE貌似没啥区别，ADD FILE也可以加整个目录。
2 当然也可以ADD FILE hdfs://.../onnx;...inference.py onnx'...。不过必须保证add file的最后一级目录要写到using字符串命令里面，否则读取不到数据。
3 transformers模型读取时如果读取不到目录里面的文件，就可以报错：AutoConfig.from_pretrained
There was a problem when trying to write in your cache folder (/home/.cache/huggingface/hub). You should set the environment variable TRANSFORMERS_CACHE to a writable directory.
PermissionError: [Errno 13] Permission denied: '/home/.cache'[Accessible location for cache folder]或者Caused by: org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException): Path is not a file

4 pyudf中目录读取

Note: python代码中如果要读取文件，文件名都需要带上basedir，如这里是models/***。
log("str(os.getcwd()):\n" + str(os.getcwd()))
log("model_path:\n" + model_path)
for root, ds, fs in os.walk(os.getcwd()):
for f in fs:
log(os.path.join(root, f))
str(os.getcwd()):
/***/hadoop/yarn/***/appcache/application_***/container_***
model_path:
models/submodel/onnx
walk整个os.getcwd()目录的结果：
/***/hadoop/yarn/***/appcache/application_***/container_***/launch_container.sh
/***/hadoop/yarn/***/appcache/application_***/container_***/container_tokens
/***/hadoop/yarn/***/appcache/application_***/container_***/tez-conf.pb
/***/hadoop/yarn/***/appcache/application_***/container_***/hive-exec-***.jar
/***/hadoop/yarn/***/appcache/application_***/container_***/inference.py
/***/hadoop/yarn/***/appcache/application_***/container_***/user-resource/warehouse-udf-dist.jar
Note: walk整个目录没看到model_path，可能是在jar包或者conf指定的某个目录下吧。

方式2：
将目录压缩成zip文件，在hive中读入zip文件，再在代码里面解压
import zipfile
model_path = sys.argv[1]
zip_obj = zipfile.ZipFile(model_path, 'r')
zip_obj.extractall('model_name')
zip_obj.close()
model_path = 'model_name'

[zipfile --- 使用ZIP存档 — Python 3.11.4 文档]

方式3：也可以打包成zip文件后直接通过目录调用
如将py文件(或所在文件夹dir/subdir/)直接打包成zip，然后应该是自动解压的，直接通过目录调用py文件就可以。
ADD ARCHIVE hdfs://***snapshot.zip;
TRANSFORM(***) USING '***/python snapshot.zip/dir/subdir/***.py'

代码中相对import

类似上面的[py udf读取目录-方式1]
ADD FILE HDFS路径/.../basedir;
select
TRANSFORM (txt) using 'py_env.zip/bin/python basedir/process.py' as txt, aug_txt
此时process.py是可以直接import basedir目录下的其它目录的。

这里直接import sub_dir.***即可。不需要像读取目录一样，非要basedir/sub_dir/***。
否则出错：ModuleNotFoundError: No module named '***'

带文件带输入参数lr二分类示例

ADD ARCHIVE hdfs://path/python3.zip;
ADD FILE hdfs://path/lr_binary_parameter.json;
ADD FILE hdfs://path/lr_predict.py;
SELECT
TRANSFORM(id,f1,f2,f3)
USING 'python3.zip/python36/bin/python lr_predict.py lr_binary_parameter.json binary'
AS (id BIGINT,lr_score DOUBLE);

[Scikit-learn：分类classification_-柚子皮-的博客-CSDN博客]

debugs

Caused by: java.io.IOException: Broken pipe
这个错误其实可能是任何py代码中的错误。主要去看log里面的Log Type: stderr。

from:hive:创建自定义python UDF_python实现hive自定义函数_-柚子皮-的博客-CSDN博客

ref:

你可能感兴趣的:(Database,hive,python,udf)

python基础编程-Day02(作业) 猫侠（Python学习自用账号） python 考研
1、退休用户输入年龄，如果年龄超过60岁，输出：可以退休了。答案：age=input('yourage:')ifint(age)>60:print("可以退休了")2、小伙子，加油干用户输入年龄，如果年龄超过60岁，输出："可以退休了"，否则，输出："小伙子，加油干！"答案：age=input('yourage:')ifint(age)>60:print("可以退休了")else:print("小
python eml解析_【Python】CDO分析eml文件、发送mail（outlook Express COM对象） weixin_39640265 python eml解析
importwin32com.clientobjEmail=win32com.client.Dispatch('CDO.Message')#objEmail.Configuration.Fields.Item("http://schemas.microsoft.com/cdo/configuration/smtpserverport")=25#objEmail.Configuration.Fiel
python eml解析_提取邮件（eml格式）保存为html-python | 学步园 weixin_39820158 python eml解析
#-*-coding:utf-8-*-__author__='[email protected]'importosimportsysimportemailimporterrnoimportmimetypesPATH=os.path.abspath(os.path.dirname(sys.argv[0]))ITEM_PATH=PATH+"\item"PATH_DATA=os.path.abspat
用Python把2024年的豆瓣广播生成词云图 NuageL python 开发语言
突发奇想想对自己的2024进行分析。于是决定把豆瓣广播变成词云，学习一下词云的制作方法分为几步：1.获取数据，爬取2024的豆瓣广播#引入requests和BeautifulSoupimportrequestsfrombs4importBeautifulSoupbase_url="我的豆瓣主页网址/p?="headers={'User-Agent':'Mozilla/5.0(WindowsNT10
Windsurf cursor vscode+cline 与Python快速开发指南老大白菜 python vscode python ide
Windsurf简介Windsurf是由Codeium推出的全球首个基于AIFlow范式的智能IDE，它通过强大的AI助手功能，显著提升开发效率。Windsurf集成了先进的代码补全、智能重构、代码生成等功能，特别适合Python开发者使用。Python环境配置1.Conda安装下载Miniconda访问Miniconda官网选择对应系统的安装包（Windows/Linux/MacOS）下载最新版
华为OD2024机试最新E卷题库-(A+B+C+D+E) 蜗牛快快快快跑华为od 算法数据结构贪心算法排序算法动态规划
在这个精心策划的专栏中，我们聚焦于华为OD2024机试的最新E卷题库，涵盖JS、C、C++、Java与Python五大编程语言，旨在为挑战者提供全面而深入的备战资源。这里不仅有精选的实战题目，还有详尽的解题思路与代码实现，帮助你掌握核心算法，理解数据结构，提升编程技巧。以下是每个卷宗的详细，可以通过直接点击试卷链接查看练习试卷编号备注OD-E卷原题+个人代码+思路解析，95%以上的通过率，方便大家
【Spring Security Oauth2】构建授权服务器(三)：使用数据库存储客户端信息 apple_csdn 数据库 spring 服务器 springcloud
一、环境准备1、回顾【SpringSecurityOauth2】构建授权服务器(一)：内存模式2、Sql脚本createdatabased_study_oauth2charactersetutf8;used_study_oauth2;--auto-generateddefinitioncreatetableoauth_client_details(client_idvarchar(255)notn
AI：180-如何利用Python进行图像处理和计算机视觉任务一键难忘精通AI实战千例专栏合集 python 图像处理计算机视觉
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~一.探索Python在图像处理和计算机视觉任务中的应用随着人
python requests json_python json requests request 模块 weixin_39782355 python requests json
1、json通过Python的json模块，可以将字符串形式的json数据转化为字典，也可以将Python中的字典数据转化为字符串形式的json数据。之前使用这个模块时，都是随用随查，浅尝辄止，对模块的功能了解不深。随着使用次数的增加，我对这个功能完善的模块有了更多的了解，记录如下。json.loads将字符串装换成python基本数据类型json.dumps将python数据类型转换成字符串方式
python图形化界面开发工具_七个python gui图形界面开发框架 weixin_39653717 python图形化界面开发工具
Kivy这是一个非常有趣的项目，基于OpenGLES2，支持Android和iOS平台的原生多点触摸，作为事件驱动的框架，Kivy非常适合游戏开发，非常适合处理从widgets到动画的任务。如果你想开发跨平台的图形应用，或者仅仅是需要一个强大的跨平台图形用户开发框架，Kivy都是不错的选择。Pyforms诞生只有两年的Pyforms是一个Python2.7/3.x跨环境图形应用开发框架，模块化和代
pythonrequests发送数据_对python requests发送json格式数据的实例详解 weixin_39652869
requests是常用的请求库，不管是写爬虫脚本，还是测试接口返回数据等。都是很简单常用的工具。这里就记录一下如何用requests发送json格式的数据，因为一般我们post参数，都是直接post，没管post的数据的类型，它默认有一个类型的，貌似是application/x-www-form-urlencoded。但是，我们写程序的时候，最常用的接口post数据的格式是json格式。当我们需要
python json requests request 模块 weixin_33868027 json python
1、json通过Python的json模块，可以将字符串形式的json数据转化为字典，也可以将Python中的字典数据转化为字符串形式的json数据。之前使用这个模块时，都是随用随查，浅尝辄止，对模块的功能了解不深。随着使用次数的增加，我对这个功能完善的模块有了更多的了解，记录如下。json.loads将字符串装换成python基本数据类型json.dumps将python数据类型转换成字符串方式
Python的Json方法 weixin_34293059 json python javascript ViewUI
Json简介：Json，全名JavaScriptObjectNotation，是一种轻量级的数据交换格式。Json最广泛的应用是作为AJAX中web服务器和客户端的通讯的数据格式。现在也常用于http请求中，所以对json的各种学习，是自然而然的事情。dumps方法将字典数据类型转换为json字符串类型例子：importjsonm={'a':123,'b':'hahaha'}json_str=js
Python中的lambda函数彬彬侠 Python基础 lambda 匿名函数 Python
Python中的lambda函数lambda函数是Python中的一种匿名函数，它使用关键字lambda定义。lambda函数通常用于需要短小函数的场景，尤其是在需要函数作为参数的时候。1.lambda函数的基本语法lambdaarguments:expression参数说明：arguments：函数的参数（可以有多个）。expression：一个表达式，该表达式的值将作为lambda函数的返回值
Python使用JSON 桂亭亭 python python json 开发语言
案例1dumps将python中的字典数据编码为JSON字符串字符串importjsontest_dict={'one':1,'two':{2.1:['a','b']}print(test_dict)print(type(test_dict))#dumps将数据转换成字符串json_str=json.dumps(test_dict)print(json_str)print(type(json_st
【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现）科研_G.E.M. python pytorch 算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望2运行结果3参考文献4Python代码实现⛳️赠与读者‍做科研，涉及到一个深在的
用Python编写桌面应用GUI的几种框架对比我就是全世界 ai编程
1.PythonGUI框架概述1.1PythonGUI开发的重要性在现代软件开发中，图形用户界面（GUI）是用户与应用程序交互的主要方式。一个直观、易用的GUI可以极大地提升用户体验，使得应用程序更加受欢迎和易于使用。Python作为一种广泛使用的编程语言，其强大的生态系统和丰富的库支持使得开发者能够轻松创建功能丰富的GUI应用程序。PythonGUI开发的重要性体现在以下几个方面：用户体验：良好
Mongo数据库简介 chqj_163
作者：[佚名]-发布：2010-11-1810:16:59-来源：无忧技术网转载http://www.liqwei.com/database/other/2010/778.shtmlMongo是一个高性能，开源，无模式的文档型数据库，它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。Mongo使用C++开发，提供了以下功能：◆面向集合的存储：适合存储对象及JSON形式的数据。◆动态查询：
【2024年华为OD机试】(A卷,100分)- 单向链表中间节点（Java & JS & Python&C/C++）妄北y 算法汇集笔记总结(保姆级)华为od java javascript python c语言链表
一、问题描述题目描述求单向链表中间的节点值，如果奇数个节点取中间，偶数个取偏右边的那个值。输入描述第一行链表头节点地址后续输入的节点数n后续输入每行表示一个节点，格式节点地址节点值下一个节点地址(-1表示空指针)输入保证链表不会出现环，并且可能存在一些节点不属于链表。输出描述单向链表中间的节点值用例输入000104000003-1000105123091145160000012309711451输
【数据库】MongoDB深度解析与Python操作指南：从安装到实战操作全覆盖易辰君数据库数据库 mongodb
目录前言一、MongoDB的特点二、Mongo的核心概念三、MongoDB的优劣势四、使用场景五、MongoDB与其他数据库的对比六、如何安装MongoDB七、数据库指令操作（一）基本数据库操作（1）连接MongoDB（2）显示所有数据库（3）选择数据库（4）显示当前数据库（二）集合操作（1）显示集合列表（2）创建集合（3）删除集合（三）文档（数据）操作（1）插入文档（2）查询文档（3）更新文档（
python基础-推荐8个常用的Python GUI图形界面开发框架小尤笔记数据库 python Python基础开发语言爬虫
在Python中，GUI（图形用户界面）开发框架为开发者提供了创建交互式应用程序的工具。以下是八款常用的PythonGUI图形界面开发框架及其简要代码讲解：CSDN大礼包：《2024年最新全套学习资料包》免费分享1.Tkinter简介：Tkinter是Python的标准GUI库，它提供了一个简单的方式来创建窗口、对话框等GUI元素。Tkinter被整合到当前所有主要操作系统的Python安装程序中
sqoop导出orc数据至mysql,将Sqoop导入为OrC文件终有尽头
IsthereanyoptioninsqooptoimportdatafromRDMSandstoreitasORCfileformatinHDFS?Alternativestried:importedastextformatandusedatemptabletoreadinputastextfileandwritetohdfsasorcinhive解决方案AtleastinSqoop1.4.5t
做性能测试时，导入locust类库时，报错ValueError: path is on mount 'E:', start on mount 'C:' 菜鸟和大白谁厉害错误集锦
一、报错信息：CollectinglocustUsingcachedhttps://files.pythonhosted.org/packages/46/2e/18d4e363e76ec8f407ed018594f474d5669b3bca3977c4c664940fff95d5/locust-0.0.tar.gzCollectinglocustio(fromlocust)Usingcachedh
sqoop从orc文件到oracle,Sqoop import as OrC file 余革革
问题IsthereanyoptioninsqooptoimportdatafromRDMSandstoreitasORCfileformatinHDFS?Alternativestried:importedastextformatandusedatemptabletoreadinputastextfileandwritetohdfsasorcinhive回答1:AtleastinSqoop1.4.
Hadoop---(6)Sqoop（数据传输） Mr Cao sqoop 大数据
6.SqoopSqoop是一个用于hadoop数据和结构化数据之间转换的工具。全称SQL-TO-HADOOP.它可以把hadoop数据，包括hive和hbase存储的数据转化为结构化数据也就是数据库的数据，也可以把关系型数据库数据转化为hadoop数据这些转换操作全是通过Hadoop的MapTask来完成的，并不会涉及到Reduce操作。这是因为我们只是进行数据的拷贝，并不会对数据进行处理或者计算
python（scikit-learn）实现k均值聚类算法嘿哈哈哈哈哈哈机器学习聚类 python 算法机器学习人工智能
k均值聚类算法原理详解示例为链接中的例题直接调用python机器学习的库scikit-learn中k均值算法的相关方法fromsklearn.clusterimportKMeansimportnumpyasnpimportmatplotlib.pyplotaspltx=np.array([[0,2],[0,0],[1,0],[5,0],[5,2]])#计算k均值聚类kmeans=KMeans(n_
Sqoop 支持 ORC 文件格式吃鱼的羊 sqoop
ORC介绍ORC文件格式是Hive0.11.0版本引入的一种文件格式。ORC的引入是为了解决其他Hive文件格式的局限性。使用ORC文件格式提升Hive读取、写入及处理数据的性能。与RCFile对比，ORC文件格式有很多优点：每个Task只输出一个文件，降低NameNode的负载。Hive数据类型支持，包括：datetime、decimal以及复杂数据类型（struct、list、map、unio
试了下Cursor，感觉程序员工种危险了 java
大家好，我是汤师爷~今年8月份，AI编程工具Cursor在开发者社区彻底火了。在Twitter平台上，Cloudflare副总裁分享了一段视频，展示了一个令人震惊的案例。他年仅8岁的女儿，仅用CursorAI这款工具，在短短45分钟内，就成功构建了一个功能完整的聊天机器人。最近，另一个案例进一步证实了AI编程的潜力。内容创作者、UP主@AI进化论-花生，完全没有编程经验，仅凭CursorAI编程工
微调特定于域的搜索的文本嵌入：附Python代码详解人工智能
微调特定于域的搜索的文本嵌入：附Python代码详解阅读时长：20分钟发布时间：2025-02-02近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】嵌入模型将文本表示为具有语义意义的向量。尽管它们可以很容易地用于无数的用例（例如检索、分类），但通用嵌入模型在特定领域的任务上可能表现不佳。
Python小案例：数字炸弹游戏（优化版） Marilynhom #Python基础案例 python 游戏 windows
优化内容上次所写的数字炸弹案例中所留了的bug： a.两次死循环，其实可以只用一次的；☑ b.如果其中一个人输入的数据是无效的后游戏将会重新开始，规则上来讲是直接淘汰该玩家☑本次利用列表坐标name_Nub叠加，和一个continue就解决了，具体代码如下：#数字炸弹游戏#1、首先由用户输入一个范围猜取的范围初始值start_Value、end_Value和一个数字作为炸弹Bombs；star
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他