jialun0116

Spark Sql 和DataFrame总结

Spark Sql 和DataFrame总结

1. Spark SQL概述
2. DataFrame
- 2.1 DataFrame概述
- 2.2 DataFrame vs RDD 区别
- 2.3 Pandas DataFrame vs Spark DataFrame
3. DataFrame 操作
- 3.1 创建DataFrame
- - 3.1.1 从RDD创建DataFrame
  - 3.1.2 从CSV文件创建DataFrame
  - 3.1.3连接数据库
  - 3.1.4 读取json数据
- 3.2 DataFrame操作
- 3.3 综合案例
4. 用DataFrame对数据进行去重、缺失值处理、异常值处理

1. Spark SQL概述

它是spark中用于处理结构化数据的一个模块
功能跟hive类似，最早shark, 为了解决hive速度慢的问题
Spark SQL 和 Spark Core的关系（RDD）与 hive 和 MapReduce关系类似
Spark SQL 优势
- 代码少
- spark SQL操作数据的两种方式
  - 通过sql语句
  - 自带了DataFrame的API
- 速度快（对比直接写RDD代码）
  - SparkSQL API 转换成RDD的时候会做执行优化(catalyst优化器、钨丝计划、代码生成器)
  - 优化引擎转化的RDD代码比自己写的效率更高
DataFrame 在操作结构化数据的时候
- 引入了schema（表结构）
- off-heap 突破虚拟机的限制，能够使用操作系统层面上的内存
- 解决了RDD序列化、反序列化开销大，频繁创建和销毁对象造成大量的GC(Garbage Collection) 垃圾回收机制的缺点
- 丢失了RDD编译时进行类型检查，具有面向对象编程的特点的优点

2. DataFrame

2.1 DataFrame概述

是RDD为基础的分布式数据集，类似于传统关系型数据库的二维表，dataframe记录了对应列的名称和类型
DataFrame是一个分布式的行集合dataset[ROW]
基于RDD的
- Immuatable 不可变的只能生成新的RDD
- Lazy Evaluations
  - transformation 延迟执行
  - action 执行了action之后transformation才会触发
- Distributed 分布式
- dataframe和dataset统一，dataframe只是**dataset[ROW]**的类型别名。由于Python是弱类型语言，只能使用DataFrame

2.2 DataFrame vs RDD 区别

RDD是分布式的对象的集合，Spark并不知道对象的详细模式信息；DataFrame相当于是一个带着schema(提供由列组成的详细模式信息)的RDD
DataFrame还引入了off-heap,意味着可以使用JVM堆以外的内存
RDD是分布式的Java对象的集合。DataFrame是分布式的Row对象的集合
解决了RDD序列化、反序列化开销大，频繁创建和销毁对象造成大量的GC(Garbage Collection) 垃圾回收机制的缺点
丢失了RDD编译时进行类型检查，具有面向对象编程的特点的优点
DataFrame提供比RDD更丰富的算子，能够提升执行效率，减少数据读取以及执行计划的优化
通过DataFrame API或SQL处理数据，会自动经过Spark 优化器Catalyst的优化，即使你写的程序或SQL不仅高效，也可以运行的很快。

2.3 Pandas DataFrame vs Spark DataFrame

单机 VS 分布式集群并行计算
Spark DataFrame 延迟执行
Spark DataFrame 不可变
Pandas DataFrame API 更丰富

3. DataFrame 操作

3.1 创建DataFrame

启动spark集群

cd ~/bigdata/spark/sbin
./start-master.sh - h 192.168.19.137
./start-slave.sh spark://192.168.19.137
source active py365
jupyter notebook --ip 0.0.0.0 --allow-root

配置环境 python和java解释器

import os
JAVA_HOME = '/root/bigdata/jdk'
PYSPARK_PYTHON = "/miniconda2/envs/py365/bin/python"
os.environ["JAVA_HOME"] = JAVA_HOME
os.environ["PYSPARK_PYTHON"] = PYSPARK_PYTHON
os.environ["PYSPARK_DRIVER_PYTHON"] = PYSPARK_PYTHON

from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession

创建DataFrame需要一个spark session 与创建RDD需要spark context

SPARK_APP_NAME = "dataframetest"
SPARK_URL = "spark://192.168.19.137:7077"

conf = SparkConf()    # 创建spark config对象
config = (
  ("spark.app.name", SPARK_APP_NAME),    # 设置启动的spark的app名称，没有提供，将随机产生一个名称
  ("spark.executor.memory", "6g"),    # 设置该app启动时占用的内存用量，默认1g
  ("spark.master", SPARK_URL),    # spark master的地址
  ("spark.executor.cores", "4"),    # 设置spark executor使用的CPU核心数
conf.setAll(config)

# 利用config对象，创建spark session
spark = SparkSession.builder.config(conf=conf).getOrCreate()

3.1.1 从RDD创建DataFrame

from pyspark.sql import SparkSession
from pyspark.sql import Row

spark = SparkSession.builder.appName('test').getOrCreate()
# DataFrame -> RDD
sc = spark.sparkContext 
l = [('Ankit',25),('Jalfaizy',22),('saurabh',20),('Bala',26)]
rdd = sc.parallelize(l)
#为数据添加列名 注意row对象
people = rdd.map(lambda x: Row(name=x[0], age=int(x[1])))
#RDD->DataFrame
schemaPeople = spark.createDataFrame(people)

df = spark.createDataFrame(Row对象的RDD)

3.1.2 从CSV文件创建DataFrame

df = spark.read.format('csv').option('header','true').load('/iris.csv')
#显示数据结构
df.printSchema()
#显示前10条数据
df.show(10)
#统计总量
df.count()
#列名
df.columns

3.1.3连接数据库

jdbcDF = spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/db_name").option("dbtable","table_name").option("user","xxx").option("password","xxx").load()

3.1.4 读取json数据

from pyspark.sql import SparkSession
from pyspark.sql.types import *

jsonString = [
  """{ "id" : "01001", "city" : "AGAWAM",  "pop" : 15338, "state" : "MA" }""",
  """{ "id" : "01002", "city" : "CUSHMAN", "pop" : 36963, "state" : "MA" }"""
]
spark =  SparkSession.builder.appName('json_demo').getOrCreate()
sc = spark.sparkContext
jsonRDD = sc.parallelize(jsonString)

#定义结构类型 不带嵌套
#StructType：schema的整体结构，表示JSON的对象结构
#XXXStype:指的是某一列的数据类型
jsonSchema = StructType() \
  .add("id", StringType(),True) \
  .add("city", StringType()) \
  .add("pop" , LongType()) \
  .add("state",StringType())
  
# 带嵌套 ArrayType
jsonSchema = StructType([
  StructField("id", StringType(), True),
  StructField("city", StringType(), True),
  StructField("loc" , ArrayType(DoubleType())),
  StructField("pop", LongType(), True),
  StructField("state", StringType(), True)
])
# 读取表结构
reader = spark.read.schema(jsonSchema)
jsonDF = reader.json(jsonRDD)
jsonDF.printSchema()
jsonDF.show()
jsonDF.filter(jsonDF.pop>4000).show(10)

3.2 DataFrame操作

增加或替换一列

df.withColumn('列名',数值).show()

删除一列

df.drop('列名').show()

统计信息

df.describe().show()
#计算某一列的描述信息
df.describe('cls').show()

提取部分列

df.select('列名','列名').show()

基本统计功能

df.select('列名').distinct().count()

分组统计

# 分组统计 groupby(colname).agg({'col':'fun','col2':'fun2'})
df.groupby('列名').agg({'列名':'mean','列名':'max'}).show()

# avg(), count(), countDistinct(), first(), kurtosis(),
# max(), mean(), min(), skewness(), stddev(), stddev_pop(),
# stddev_samp(), sum(), sumDistinct(), var_pop(), var_samp() and variance()

自定义方法并重命名

# 自定义的汇总方法
import pyspark.sql.functions as fn
#调用函数并起一个别名
df.agg(fn.count('SepalWidth').alias('width_count'),fn.countDistinct('cls').alias('distinct_cls_count')).show()

拆分数据集

trainDF, testDF = df.randomSplit([0.6, 0.4])

采样数据

#第一个参数withReplacement：是否有放回的采样
#第二个参数fraction：采样比例
#第三个参数seed：随机种子
sdf = df.sample(False,0.2,100)

查看两个数据集在类别上的差异

#查看两个数据集在类别上的差异 subtract，确保训练数据集覆盖了所有分类
diff_in_train_test = testDF.select('cls').subtract(trainDF.select('cls'))
diff_in_train_test.distinct().count()

交叉表

df.crosstab('cls','SepalLength').show()

udf

udf：自定义函数

 创建udf，udf函数需要两个参数：
 1. Function
 2. Return type (in my case StringType())
 在RDD中可以直接定义函数，交给rdd的transformatioins方法进行执行
 在DataFrame中需要通过udf将自定义函数封装成udf函数再交给DataFrame进行调用执行

3.3 综合案例

#================== 综合案例 + udf================
# 测试数据集中有些类别在训练集中是不存在的，找到这些数据集做后续处理
from pyspark.sql.types import StringType
from pyspark.sql.functions import udf

trainDF,testDF = df.randomSplit([0.99,0.01])

diff_in_train_test = trainDF.select('cls').subtract(testDF.select('cls')).distinct().show()
#首先找到这些类，整理到一个列表
not_exist_cls = trainDF.select('cls').subtract(testDF.select('cls')).distinct().rdd.map(lambda x :x[0]).collect()

#定义一个方法，用于检测
def should_remove(x):
    if x in not_exist_cls:
        return -1
    else :
        return x

check = udf(should_remove,StringType())
resultDF = trainDF.withColumn('New_cls',check(trainDF['cls'])).filter('New_cls <> -1')

resultDF.show()

4. 用DataFrame对数据进行去重、缺失值处理、异常值处理

详见链接

你可能感兴趣的:(大数据,推荐系统,大数据,python,spark,dataframe)

使用Python实现的Excel像素画
简介：本项目主要使用python语言，将图片转为Excel，图片中的每一个像素转化为Excel中的每一个单元格。主要使用pillow和xlsxwriter这两个模块。项目使用一个python文件即可。一：项目功能和流程介绍项目的主要功能：就是将一张人脸图像，画在Excel表格上，图片的每一个像素点对应Excel的一个格子，俗称像素画。流程：创建Excel表，并设置行高和列宽打开图片遍历图片每一个像
python高并发web框架_Python3中tornado高并发框架 weixin_39788969 python高并发web框架
1.单线程tornado.web：基础web框架模块tornado.ioloop：核心IO循环模块，高效的基础。封装了:1.asyncio协程，异步处理2.epoll模型：水平触发（状态改变就询问，select(),poll()），边缘触发（一直询问，epoll()）3.poll模型：I/O多路复用技术4.BSD（UNIX操作系统中的一个分支的总称）的kqueue（kueue是在UNIX上比较高效
基于python的文字识别系统_基于Python的图片文本识别系统的研究 weixin_39683368 基于python的文字识别系统
龙源期刊网http://www.qikan.com.cn基于Python的图片文本识别系统的研究作者：韩琳来源：《科学与财富》2019年第20期近年来随着计算机技术的不断发展，OpticalCharacterRecognition（光学字符识别，简称“OCR”）应用的领域更加的广泛，而图片文字识别就是其中重要的一个。目前图片文字识别的准确率并没有达到100%，这也成为了图片文字识别发展领域的一大瓶
基于python的图像识别_基于PYTHON的图片文字识别
文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。一般包括以下几个过程：图像输入、图像前处理、预识别：1图像输入：对于不同的图像格式，有着不同的存储格式，不同的压缩方式，目前有OpenCV、CxImage等开源项目。2预处理：主要包括二值化，噪声去除，倾斜较正等。2.1二值化：对摄像头拍摄的图片，大多数是彩色图像，彩色图像所含信息量巨大，对于图片的内容，我们可以简单的分为前景与背景，为
【云原生】Helm来管理Kubernetes集群的详细使用方法与综合应用实战景天科技苑云原生K8S 零基础到进阶实战云原生 kubernetes 容器 Helm k8s k8s集群
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，linux，she
极限挑战：用知识蒸馏压缩模型，实时推荐系统在50ms内完成推荐
极限挑战：用知识蒸馏压缩模型，实时推荐系统在50ms内完成推荐标题极限挑战：用知识蒸馏压缩模型，实时推荐系统在50ms内完成推荐TagAI,知识蒸馏,实时推荐,模型压缩,技术挑战,高性能描述面对实时推荐系统必须在50ms内完成推荐这一极限条件，AI研发工程师团队在数据量从GB级飙升至PB级的巨大冲击下，展现出极高的技术实力和创新能力。团队通过引入先进的模型压缩和优化技术，成功在性能和精度之间找到了
Python类中魔术方法(Magic Methods)完全指南：从入门到精通盛夏绽放 python 开发语言
文章目录Python类中魔术方法(MagicMethods)完全指南：从入门到精通一、魔术方法基础1.什么是魔术方法？2.魔术方法的特点二、常用魔术方法分类详解1.对象创建与初始化2.对象表示与字符串转换3.比较运算符重载4.算术运算符重载5.容器类型模拟6.上下文管理器7.可调用对象三、高级魔术方法1.属性访问控制2.描述符协议3.数值类型转换四、魔术方法最佳实践五、综合案例：自定义分数类Pyt
Python面向对象编程(OOP)详解：通俗易懂的全面指南盛夏绽放 python 开发语言有问必答
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录Python面向对象编程(OOP)详解：通俗易懂的全面指南一、OOP基本概念1.什么是面向对象编程？2.OOP的四大支柱3.核心概念对比表二、类和对象1.类(Class)vs对象(Object)2.类结构详解三、OOP三大特性详解1.封装(Encapsulation)2.继承(Inherita
〖Python 数据库开发实战 - Redis篇②〗- Linux系统下安装 Redis 数据库哈哥撩编程 #⑤ -数据库开发实战篇 Python全栈白宝书 python 数据库数据库开发实战 linux安装redis
订阅Python全栈白宝书-零基础入门篇可报销！白嫖入口-请点击我。推荐他人订阅，可获取扣除平台费用后的35%收益，文末名片加V！说明：该文属于Python全栈白宝书专栏，免费阶段订阅数量4300+，购买任意白宝书体系化专栏可加入TFS-CLUB私域社区。福利：加入社区的小伙伴们，除了可以获取博主所有付费专栏的阅读权限之外，还有机会加入星荐官共赢计划，详情请戳我。作者：不渴望力量的哈士奇(哈哥)，
python分布式爬虫打造搜索引擎--------scrapy实现 weixin_30515513 爬虫 python 开发工具
http://www.cnblogs.com/jinxiao-pu/p/6706319.html最近在网上学习一门关于scrapy爬虫的课程，觉得还不错，以下是目录还在更新中，我觉得有必要好好的做下笔记，研究研究。第1章课程介绍1-1python分布式爬虫打造搜索引擎简介07:23第2章windows下搭建开发环境2-1pycharm的安装和简单使用10:272-2mysql和navicat的安装
上传文件csv并解析list_基于PyQt5表格控件TableWidget的csv文件内容显示
(70后红太阳2020年4月写于成都)一、配置环境开发环境：Win7；开发工具：Python3.8.2IDLE，QtDesigner5.13.2；Python安装目录：D:python；文件保存目录：D:python基于PyQt5表格控件TableWidget的csv文件内容显示；路径配置：在cmd下，运行path=%path%;Dpythonpython38-32scripts;D:python
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
Django项目运行报错：ModuleNotFoundError: No module named ‘MySQLdb‘
解决方法：在__init__.py文件下，新增下面这段代码importpymysqlpymysql.install_as_MySQLdb()注意：确保你的python有下载pymysql库，没有的话可以使用pipinstallpymysql安装原理：用pymysql来代替mysqlLab__init__.py文件大致位置在：
[Py026]Snakefile灵活传递param 安哥生个信
snakemake是用python编写的，最近串流程用的比较频繁，所以也归纳在python实用技巧里面。现在需要实现的一个功能是——根据每一个input自身的特点，返回一个值（可能是固定，也可能是随机）；然后将这个返回值传递给下面的运行代码。举例：现在有两个fastq文件20192.fastq.gz20193.fastq.gz，需要通过seqkit转换为fasta文件；如果文件名是奇数，则转换出来
Python日志终极指南：深入探索logging日志管理模块 c01dkit python python 开发语言
在任何一个严谨的软件开发项目中，日志（Logging）都是不可或缺的一环。它不仅是调试代码的利器，更是线上问题追踪、性能分析和数据监控的重要依据。相比于随处可见的print()语句，Python内置的logging模块提供了更为强大、灵活且标准化的解决方案。[1][2]这篇博客将带你由浅入深，全面掌握logging模块的使用，从基础配置到高级技巧，再到企业级项目的最佳实践。一、告别print()：
python大数据论文_大数据环境下基于python的网络爬虫技术 weixin_39775976 python大数据论文
软件开发大数据环境下基于python的网络爬虫技术作者/谢克武，重庆工商大学派斯学院软件工程学院摘要：随着互联网的发展壮大，网络数据呈爆炸式增长，传统捜索引擎已经不能满足人们对所需求数据的获取的需求，作为搜索引擎的抓取数据的重要组成部分，网络爬虫的作用十分重要，本文首先介绍了在大数据环境下网络爬虫的重要性，接着介绍了网络爬虫的概念，工作原理，工作流程，网页爬行策略，python在编写爬虫领域的优势
【Python爬虫(26)】Python爬虫进阶：数据清洗与预处理的魔法秘籍奔跑吧邓邓子 Python爬虫 python 爬虫开发语言数据清洗预处理
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、数据清洗的重要性二、数据清洗的常见任务2.1去除噪声数据2.2
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
如何通过linux黑窗口实现对远程服务器的操作
①选择合适的云平台进行设备的租用并复制好远程设备的IP地址②使用管理员权限打开黑窗口③输入命令连接远程的设备：ssh用户名@服务器IP地址，此时得到的是一个什么都没有的设备④由于该设备什么都没有，故先：sudoaptupdate，然后安装gcc编译器：sudoaptinstallbulid-essential，再然后安装python：sudoaptinstallpython-3.8，再然后安装mi
Redis——API的理解和使用莫问以
一、全局命令1、查看所有键keys*下面插入了3对字符串类型的键值对：127.0.0.1:6379>sethelloworldOK127.0.0.1:6379>setjavajedisOK127.0.0.1:6379>setpythonredis-pyOKkeys*命令会将所有的键输出：127.0.0.1:6379>keys*1)"python"2)"java"3)"hello"2、键总数dbsi
PYTHON对接第三方验证码短信接口短信接口开发
PYTHON短信接口对接demo#接口类型：互亿无线触发短信接口，支持发送验证码短信、订单通知短信等。#账户注册：请通过该地址开通账户http://user.ihuyi.com/?DKimmu#注意事项：#（1）调试期间，请使用用系统默认的短信内容：您的验证码是：【变量】。请不要把验证码泄露给其他人。#（2）请使用APIID及APIKEY来调用接口，可在会员中心获取；#（3）该代码仅供接入互亿无线
Redis性能测试：工具、参数与实战示例 Seal^_^ 数据库专栏 #数据库--Redis redis 数据库 Redis性能测试
Redis性能测试：工具、参数与实战示例1.Redis性能测试概述2.redis-benchmark基础使用2.1基本语法2.2简单示例3.性能测试参数详解4.实战测试示例4.1基础测试4.2指定命令测试4.3带随机key的测试4.4大数据测试4.5管道测试5.性能测试流程图6.测试结果分析与优化建议6.1结果解读6.2优化建议7.高级测试场景7.1持久化影响测试7.2集群测试7.3长时间稳定性测
第二十四篇 Requests+BeautifulSoup，秒抓网站信息！你的智能信息收集器！爱分享的飘哥日常效率自动化 beautifulsoup Python爬虫 Requests 数据抓取办公自动化信息收集
python爬虫序言：手动复制粘贴网页数据？效率太低了1.网页数据抓取基础：HTTP请求与网页结构速览1.1HTTP请求：浏览器如何和网页交互？1.2网页结构：HTML，信息的载体2.Requests库：发送网络请求的利器2.1安装与基础用法：你的第一个HTTP请求2.2处理请求头与参数：模拟浏览器访问3.BeautifulSoup：解析网页的利器3.1安装与基础用法：快速解析HTML内容3.2精
Redis 安全加固：从密码保护到高级安全配置 Seal^_^ 数据库专栏 #数据库--Redis redis 安全数据库 Redis 安全加固
Redis安全加固：从密码保护到高级安全配置一、Redis安全概述二、密码认证配置1.设置Redis密码临时设置（重启后失效）永久设置（修改配置文件）2.密码认证流程3.Python连接示例三、网络层安全加固1.绑定内网IP2.修改默认端口3.防火墙配置四、危险命令禁用1.禁用敏感命令2.命令禁用前后对比五、高级安全配置1.TLS加密传输2.客户端证书认证3.ACL细粒度权限控制（Redis6.0
2025年各细分产业链企业数据(汽车、数字经济、食品、制造业) 经管数据库汽车智能手机数据分析
本数据包含2025年及之前的所有上中下游企业信息，67个细分产业。汽车专区、数字经济专区、数字创意专区、未来产业专区、高端装备专区、新能源专区、食品农业专区、传统制造业专区等71个文件。汽车专区：充电桩制造动力电池汽车材料制造汽车制造汽车制造设备汽车座椅制造驱动电机制造燃料电池汽车制造燃料电池系统制造新能源汽车制造智能驾驶智能视觉数字经济专区：5g边缘计算大数据类服务器光通信集成电路区块链人工智能
【python库对比】路径专题 os.path和pathlib对比尚未想好 python高频库对比 python 开发语言 vscode
专栏收录：python高频库对比本专栏将持续更新在工程领域高频使用的python库之间的对比文章概览：简单介绍路径处理常用的python库及特点对比os.path和pathlib的异同结合代码示例说明两个库的差异.补充：os.path和pathlib高频使用接口见os.path和pathlib高频使用接口及示例1.简介Python中处理路径的库有很多，其中一些常用的包括：os.path模块：os.
如何解决pip安装报错ModuleNotFoundError: No module named ‘flask’问题万粉变现经纪人全栈Bug解决方案专栏 pip flask python pycharm scrapy pandas 后端
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘flask’问题摘要在使用PyCharm进行Python开发时，常常需要通过pip安装第三方包以满足项目依赖。但在控制台执行pipinstallflask后，依旧可能出现ModuleNotFoundError:Nomodulenamed
如何解决pip安装报错ModuleNotFoundError: No module named ‘sqlalchemy’问题万粉变现经纪人全栈Bug解决方案专栏 pip pandas python pycharm scipy beautifulsoup numpy
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘sqlalchemy’问题摘要在使用PyCharm控制台执行pipinstallsqlalchemy后，仍然在代码中提示ModuleNotFoundError:Nomodulenamed'sqlalchemy'，让许多开发者头疼。本文将
selenium后续！！ paid槮 selenium 测试工具
小项目案例:实现批量下载网页中的资源根据15.3.2小节中的返回网页内容可知,用户只有获取了网页中的图片url才可以将图片下载到*在使用selenium库渲染网页后,可直接通过正则表达式过滤出指定的网页图片，从而实现批量下载接下来以此为思路来实现一个小项目案例。项目任务实现批量下载人民邮电出版社官网中与Python相关的图书封面图片。项目实步骤步骤1，获取人民邮电出版社官网中与Python相关的图
C#语法基础总结（超级全面）（二） inwith C#语法基础 c#开发语言
文章目录c#语法基本元素关键字操作符（operator）类型转换标识符（Identifier）语句try语句迭代语句（循环语句）索引器文本（字面值）五大数据类型引用类型：值类型：变量、对象与内存装箱和拆箱类类的实例化类的三大成员（属性、方法、事件）属性（property）方法（函数）方法参数值参数引用参数输出参数数组参数具名参数可选参数扩展方法（this参数）方法的重载构造器（constructo
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他