Loasn

windows 平台上使用 pyarrow 连接 hdfs 详细教程

Index

windows 平台上使用 pyarrow 连接 hdfs 详细教程
- 连接教程
- 踩坑记录
- - 进入支线：编译 hdfs.dll
  - - 进入支线的支线：编译 OpenSSL
    - - 多个 OpenSSL 的设置问题
      - 意想不到的大坑
  - 回到支线，编译 hdfs.dll
  - 回到主线
  - 最后的一个小波澜，缺失 winutils

windows 平台上使用 pyarrow 连接 hdfs 详细教程

因篇幅太长，因此先直接说结论，若有兴趣知道这个结论是怎么来的，可以跳到章节：踩坑记录，中进行细节上的阅览。

转载请注明出处，蟹蟹。

连接教程

使用 pip 安装 pyarrow 。
下载 JDK ，解压后设置环境变量 JAVA_HOME 和 JDK_HOME 指向解压后的路径。
下载 hadoop 的预发布压缩包，并解压。解压后设置环境变量 HADOOP_HOME 指向解压后的路径。
下载与步骤 3 对应的 hadoop 源码包，准备编译 windows 平台上的 hdfs.dll 文件。
在解压后的 hadoop 源码 hadoop-2.9.2-src\hadoop-hdfs-project\hadoop-hdfs-native-client\src 下，存在 CMakeLists.txt 文件，使用该 CMake 文件进行编译，以此编译出 sln 文件。
- 若在编译过程中出现报错：JVM_ARCH_DATA_MODEL 未定义，则可在编译命令中加入以下参数 -DJVM_ARCH_DATA_MODEL=64 （指定 java 的平台版本，存疑）。
- 若在编译过程中出现报错：OpenSSL_ROOT_DIR not defined (missing: OpenSSL_include_dir) ，则需进行第六步。
（若步骤 5 出现了报错，则进行该步骤，否则可跳过）根据 OpenSSL 的官方编译文档，在本机上编译，以此得到 include 文件夹。
使用 Visual Studio 打开 CMake 编译出的 sln 文件。打开后设置为 Release 和对应的平台版本（x64/x32）后，在解决方案中选中 hdfs ，右键后点击生成；即可在当前目录下的 bin 文件夹中得到编译后的 dll 文件。（举个例子：./bin/Release/hdfs.dll）
将生成的 hdfs.dll, hdfs.exp, hdfs.lib 三个文件放置在一个新的文件夹中，并设置环境变量 ARROW_LIBHDFS_DIR 指向该路径。
在winutils上下载对应版本的 hadoop 文件夹，将 bin 文件夹里面的文件拷贝覆盖到原有 hadoop\bin 文件夹。

每次连接前使用 set_hadoop_classpath 函数设置环境变量后即可使用。

import os
import subprocess
from pyarrow import fs

# Thanks to: https://stackoverflow.com/a/66651006
def set_hadoop_classpath():

	if 'hadoop' in os.environ.get('CLASSPATH', ''):
		return

	if 'HADOOP_HOME' in os.environ:
		hadoop_bin = os.path.normpath(os.environ['HADOOP_HOME']) + "/bin/" # '{0}/bin/hadoop'.format(os.environ['HADOOP_HOME'])
	else:
		hadoop_bin = 'hadoop'

	os.chdir(hadoop_bin)
	hadoop_bin_exe = os.path.join(hadoop_bin, 'hadoop.cmd')
	print(hadoop_bin_exe)
	classpath = subprocess.check_output([hadoop_bin_exe, 'classpath', '--glob'])
	os.environ['CLASSPATH'] = classpath.decode('utf-8')

set_hadoop_classpath()
hdfs = fs.HadoopFileSystem('xxx.xxx.xxx.xxx', 12345)

踩坑记录

踩坑踩得头破血流 _(:з」∠)_

安装 pyarrow ，尝试运行模板代码时，首先爆了 unload jvm 的错误。

from pyarrow import fs

hdfs = fs.HadoopFileSystem('xxx.xxx.xxx.xxx', 12345)

查阅源码，发现其运行时会去查找 jvm.dll 或者 libjvm.so 这两个文件，且其搜索依赖于环境变量。于是下载 java 并设置 JAVA_HOME 和 JDK_HOME 为 jdk 所在路径后即可解决问题。

hdfs_internal.cc

再次运行，这次爆 unload libhdfs.dll 错误，翻阅源码，确认 hdfs.dll 存在于 Path 路径下。
经反复设置和重启，确认路径无误，遂开始怀疑是 hdfs.dll 的问题。
查阅源码，发现其使用 C++ 代码调用 LoadLibraryW 这个 windows api 进行 DLL 的加载

hdfs_internal.cc

遂编写 C++ 程序尝试手动加载 DLL 以验证是否为 DLL 的问题。

#include 
#include 
#include 


int main() {
	std::wstring dllPath = L"D:\\winutils-master\\hadoop-2.9.2\\bin\\hdfs.dll";

	auto handle = LoadLibraryW(dllPath.c_str());
	if (handle != NULL) {
		printf("Not Null!\n");
		FreeLibrary(handle);
	}
	else {
		auto errorNo = GetLastError();
		printf("That is Null!\nError code: %d\n", errorNo);
	}

	system("pause");

	return 0;
}

经多次测试后（不同的版本，不同的路径，不同的编译平台(x64 or x32)），发现 winutils 中的 hdfs.dll 皆无法正常加载。
查看加载 DLL 失败时的错误代码：126

经查阅资料发现，126 错误可能有多个原因: https://blog.csdn.net/FlushHip/article/details/96167157

使用 ProcessMonitor 去监控 Visual Studio 编译出来的程序加载时的操作。

发现其尝试加载 MSVCR100.dll 失败。然而搜索文件时却发现 msvcr100.dll 确实存在于 system32 ，且该路径确实存在于 Path 变量中。
再次搜索发现一个关于 system32 的版本设定 https://stackoverflow.com/questions/21283863/msvcp100-dll-not-found-error-even-when-it-is-installed
遂判断其要加载的可能是 32 位的 DLL ，于是将路径 C:\Windows\SysWOW64 加入到环境变量 Path 下，得以解决。

再次运行 Test.exe 发现，其仍无法正常加载 DLL ，这时候返回的错误码为 193 ，查阅得知其含义为：不是有效的 win32 应用程序。
通过反复生成不同平台和调整路径后发现仍然无法正常加载 DLL ，开始怀疑是不是 DLL 有问题，于是开始尝试自己编译 hadoop 或者 hdfs.dll 。

进入支线：编译 hdfs.dll

查阅 Hadoop 的官方 wiki 得知，hdfs 的相关 dll 可以单独编译，便从官网上下载 hadoop-2.9.2 的源码开始尝试编译。

下载后查看文件，目录 hadoop-hdfs-project/hadoop-hdfs-native-client/src 下存在 CmakeLists.txt 和 sln 文件，说明其需要使用 Cmake 进行编译，于是下载安装 CMake 去尝试编译。

开始编译后首个遇到的问题就是报错，JVM_ARCH_DATA_MODEL 未定义。翻阅完整个网上都无法找到关于这个变量的说明，询问朋友后得知这个参数好像是用来指定平台版本的；遂尝试填入参数 -DJVM_ARCH_DATA_MODEL=64 ，顺利解决（编译时所使用的电脑为 x64 ）。

然后又遇到了第二个报错: OpenSSL_ROOT_DIR not defined (missing: OpenSSL_include_dir)

搜索文件后发现，虽然在安装 git 时自动安装了 openssl 的一些 bin 文件，但是却没有对应的头文件；所以需要自己去编译。

进入支线的支线：编译 OpenSSL

翻阅 OpenSSL 的官方编译文章: https://github.com/openssl/openssl/blob/master/NOTES-WINDOWS.md 进行软件的下载和编译。

编译的过程没什么难度，将编译软件都下载下来，安装并设置好对应的环境变量即可顺利安装。
唯一值得稍微一提的是，使用 VS+Perl+NASM 编译时的最后一步需要以管理员权限启动 VS 的编译命令行。

多个 OpenSSL 的设置问题

编译完后，在 Path 中设定 OpenSSL 的根路径后，再次开始尝试使用 CMake 编译 hdfs 。依旧报错：OpenSSL_ROOT_DIR not defined (missing: OpenSSL_include_dir)

开始的时候怀疑是不是编译过程中出了什么问题，又重新编译了好几次进行确认，但都没发现问题。
这时候开始怀疑是不是版本的问题，抱着试一试的心态敲下了 where openssl ，竟发现存在有四个路径指向 OpenSSL 。
第一个是刚编译后手动指定的路径，第二个是安装 Perl 时，安装过程中自动设定的路径。第三个是很久之前安装 Git 时，git 安装并设定的路径。第四个是 MinGW64 的 bin 目录下路径。

然后问题来到了，如何确定现在生效的是哪一个 OpenSSL 。一顿 Google 后，发现可以使用 win+r ，然后输入 openssl 运行 OpenSSL ，在新生成的窗口上会显示 OpenSSL 的运行路径，以此确认现在生效的是哪个路径下的 OpenSSL 。

意想不到的大坑

在环境变量中调整 Path 里各个搜索路径的优先级后；现在第一个查找到的 OpenSSL 路径为我们最新编译好的路径。
这时候再次去编译，结果仍是熟悉的报错：OpenSSL_ROOT_DIR not defined (missing: OpenSSL_include_dir)
再次去网上搜索线索，无果后尝试着在命令中手动指定 OpenSSL 的路径；依旧无效，报错。
尝试使用 GUI 去设定 OpenSSL 的路径，防止手动输入命令时对空格进行的转义出错，无效，仍然报错。
一点点阅读 Cmake 的 FindOpenSSL 函数源码，一点点去检查 CMakeCache.txt ，还是没有得到任何能解决问题的有效信息。
因为在这里折腾了快一天，这时候的心态已经是快崩溃了的；本着最后的一点希望，怀疑是 OpnSSL 在 windows 上编译的默认路径存在空格，无论会不会转义都会出错。于是重新编译了 OpenSSL，并手动设置生成路径，防止其出空格。
结果就是这个破罐子破摔似的想法，居然还真是正确答案。

在 OpenSSL 的路径上没有空格时，CMake 才能正常编译。

回到支线，编译 hdfs.dll

经 CMake 编译后，会在 CMakeLists.txt 文件所在目录下生成后缀为 sln 的 Visual Studio 解决方案文件，使用 Visual Studio 打开后，直接在项目上右键点击生成即可。

回到主线

根据文档 https://arrow.apache.org/docs/python/filesystems.html#filesystem-hdfs
将刚刚生成的 hdfs.dll, lib, exp 文件放置在一个新的文件夹中，并新建名为 ARROW_LIBHDFS_DIR 的环境变量指向这个值。
因为觉得 winutils 给出的 dll 可能有问题，所以又将 hadoop 换成了官网上下载的预发布二进制包。

再次运行代码，结果又弹出了新的错误。

$ python Desktop/go.py
Environment variable CLASSPATH not set!
getJNIEnv: getGlobalJNIEnv failed
Environment variable CLASSPATH not set!
getJNIEnv: getGlobalJNIEnv failed
C:/arrow/cpp/src/arrow/status.cc:137: Failed to disconnect hdfs client: IOError: HDFS hdfsFS::Disconnect failed. Detail: [errno 255] Unknown error
Traceback (most recent call last):
  File "C:\Users\xxx\Desktop\go.py", line 26, in 
    hdfs = fs.HadoopFileSystem('10.10.10.101', 9000)
  File "pyarrow\_hdfs.pyx", line 96, in pyarrow._hdfs.HadoopFileSystem.__init__
  File "pyarrow\error.pxi", line 144, in pyarrow.lib.pyarrow_internal_check_status
  File "pyarrow\error.pxi", line 115, in pyarrow.lib.check_status
OSError: HDFS connection failed

根据错误语句 Environment variable CLASSPATH not set! 得知，是 pyarrow 文档中提到的 CLASSPATH 未设置。使用文档中提到的命令

Linux: export CLASSPATH=`$HADOOP_HOME/bin/hadoop classpath --glob`
Windows: %HADOOP_HOME%/bin/hadoop classpath --glob > %CLASSPATH%

进行设置后发现命令无效，遂手动复制 hadoop classpath --glob 命令输出的结果至环境变量中。

再次运行后发现 CLASSPATH not set 的错误消失了，但却又出现了新的错误。

loadFileSystems error:

(unable to get stack trace for java.lang.NoClassDefFoundError exception: ExceptionUtils::getStackTrace error.)

hdfsBuilderConnect(forceNewInstance=0, nn=172.25.40.171, port=9001, kerbTicketCachePath=(NULL), userName=(NULL)) error:

(unable to get stack trace for java.lang.NoClassDefFoundError exception: ExceptionUtils::getStackTrace error.)

一番搜索后发现，这个答案中提到的错误代码和刚刚出现的非常相像

https://developer.aliyun.com/article/497425

文中提到的 FileSystem 类在 share\lib\command-configure.jar 中，将 jar 路径添加至 CLASSPATH 就可以解决问题。
但是上面的操作中已经将 hadoop 输出的 jar 包路径全都添加至 CLASSAPTH 中了，这个路径理应也是存在于 CLASSPATH 中的。
抱着怀疑的心态去检查了 CLASSPATH 的路径列表，发现 CLASSPATH 的字符串被截断了，字符串中只有前面的十几个包的路径。

又是一番艰苦的搜索后发现，在 Windows 上，单个环境变量的长度限制为 2047 个字符，全部环境变量的总长度为 32767 个字符。
尝试用路径引用，即使用 %VARNAME% 来代替大多数变量中的共同路径，发现其长度即使缩减了，但仍远远超出 2047 个字符。
本以为系统的限制是没法绕过的，这几天的努力痛苦只能付诸东流，却在无意间想起了这个回答

https://stackoverflow.com/a/66651006

第一次看见这回答时，心想的是。pyarrow 的源码中，连接 HDFS 时使用的是编译后的 C++ 动态链接库，这些类库应该是直接从系统中读取的环境变量；用的这个代码修改 Python 的环境变量字典有什么用。
然后回想起到时候却突然想到了另一种可能；如果，如果 C++ 载入的环境变量不是通过 Windows API ，而是通过更为方便的 Python 获取，然后传入 C++ 中这种方式呢？如果是这样的话，
那么修改环境变量字典可能会真的有用？！！

结果的话~ 如果不成功这篇文章也不会发出来了是吧 XD

PS: 其实这里对环境变量的传递环节依旧存在一些疑问，但是没有多余的闲暇时间去查阅相关资料和源码了。

若有人能在评论区分享些相关的文章笔记的话，感激不尽。

最后的一个小波澜，缺失 winutils

因为之前换成了 hadoop 的预发布二进制包的缘故，其预发布时的编译平台是 Linux ，所以是无法在 Windows 上运行的，会提示缺失 winutils.exe
这时候直接将 winutils 中下载下来的 bin 文件夹覆盖到 hadoop 目录下就好了。

winutils: https://github.com/cdarlint/winutils

看到代码正常运行跑通的那一刻，整个人都泪目了，感觉能踩的坑都踩了，终于是跑通了啊Ｔ▽Ｔ

你可能感兴趣的:(hadoop,大数据,hdfs,python)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不