小胖猫的随时随地

大数据2020题库

【滴滴】

选择题（知识点）
1参数估计与假设检验的区别与联系
2 R语言中均值差异检验/t检验（基本统计分析）
3 ANOVA与机器学习
4 常用的线性回归模型
5 SPSS：T检验，方差分析，非参检验，卡方检验的使用要求和适用场景
6 SPSS离散的统计变量的显著性分析firednab,Wilcoxon
7 特征选择-方差分析

编程题

python3解一元一次方程。
题目
输入一串字符串表示一个一元一次方程，计算结果。
eg：10x-2x-8=x+7+4x

思路
1、将等号右边的减到左边，即替换=为’-(’，最后表达式加上’)’;
2、此题给出的x和数字之间没有乘号，我们现在所有x前面加上*号；
3、考虑到系数为1、-1和左括号后的x前不应该有乘号，我们将这些地方的乘号去除；
4、用python的eval函数可以生成表达式，将变量=1j带入得到结果，此时会得到real+imag j这样的一个结果，可以发现如果把j替换为x，令这个式子为0就是我们想要的最简的方程，结果x=j=(-real)/imag。

CODE

def solve(eq,var='x'):
  eq1 = eq.replace("=","-(")+")"
  eq1 = eq1.replace("x","*x")
  eq1 = eq1.replace("+*x","+x")
  eq1 = eq1.replace("-*x","-x")
  eq1 = eq1.replace("(*x","(x")
  print(eq1)
  c = eval(eq1,{
     var:1j})
  return -c.real/c.imag

test = '10x-2x-8=x+7+4x'
print(solve(test))

【途牛】

不定项选择
本套试卷共一个部分，共20题，每题5分，总分100分。
每题至少有1个正确选项，多选、少选或错选不得分。
请认真阅读每道题目，并按题目要求进行作答。
1.默认知识点多选题一般5分得分5分
SQL中，执行四舍五入的是哪个数值函数?
A: A.CEIL
B: B.FLOOR
C: C.TRUNC
D: D.ROUND
正确答案：D

2.默认知识点多选题一般5分得分0分
下列属于ORACLE的物理存储结构的是
A: A.数据文件
B: B.日志文件
C: C.参数文件
D: D.控制文件
正确答案：A,B,D

3.默认知识点多选题一般5分得分5分
在vi中退出不保存的命令是
A: A. :q
B: B. :w
C: C. :wq
D: D. :q!

正确答案：D

4.默认知识点多选题一般5分得分0分
关于SecondaryNameNode 哪项是正确的？
A: A.它是 NameNode 的热备
B: B.它对内存没有要求
C: C.它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间
D: D.SecondaryNameNode 应与 NameNode 部署到一个节点

正确答案：A,C

5.默认知识点多选题一般5分得分5分
下面哪个用户不是ORACLE缺省安装后就存在的用户
A: A.SYSDBA
B: B.SYSTEM
C: C.SCOTT
D: D.SYS

正确答案：A

6.默认知识点多选题一般5分得分5分
事务的持续性是指
A: A.事务一旦提交，对数据库的改变是永久的
B: B.事务包括的所有操作要么都做，要么不做
C: C.一个事务内部的操作及使用的数据对并发的其他事务是隔离的
D: D.事务必须是使数据库从一个致性状态变到另一个致性状态

正确答案：A

7.默认知识点多选题一般5分得分5分
DDL（data definitionlanguage）是数据定义语言,下面哪个不属于
A: A. Alter
B: B. Create
C: C. Update
D: D. Drop

正确答案：C

8.默认知识点多选题一般5分得分5分
HBase 依赖什么提供强大的计算能力
A: A.Zookeeper
B: B.Chubby
C: C.RPC
D: D.MapReduce

正确答案：D

9.默认知识点多选题一般5分得分5分
以下数据结构中不属于线性数据结构的是
A: A.队列
B: B.线性表
C: C.二叉树
D: D.栈

正确答案：C

10.默认知识点多选题一般5分得分5分
下面哪个Linux命令可以一次显示一页内容
A: A. pause
B: B. cat
C: C. more
D: D. grep

正确答案：C

11.数理逻辑多选题一般5分得分5分
毕业典礼后，某宿舍三位同学把自己的毕业帽扔了，随后每个人随机地拾起帽子，三个人中没有人选到自己原来带的帽子的概率是
A: A.1/2
B: B.1/3
C: C.1/4
D: D.1/6

正确答案：B

12.机器学习多选题一般5分得分5分
以下哪些方法可以直接来对文本分类？
A: A. Kmeans
B: B. 决策树
C: C. 支持向量机
D: D. KNN

正确答案：B,C,D

13.机器学习多选题一般5分得分5分
一般，k-NN最近邻方法在哪种情况下效果较好
A: A.样本较多但典型性不好
B: B.样本较少但典型性好
C: C.样本呈团状分布
D: D.样本呈链状分布

正确答案：B

14.机器学习多选题一般5分得分0分
在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题
A: A. 增加训练集量
B: B. 减少神经网络隐藏层节点数
C: C. 删除稀疏的特征
D: D. SVM算法中使用高斯核/RBF核代替线性核

正确答案：D

15.机器学习多选题一般5分得分0分
在决策树分割结点的时候，下列关于信息增益说法正确的是？
A: A.纯度高的结点需要更多的信息来描述它
B: B.信息增益可以用”1比特-熵”获得
C: C.如果选择一个属性具有许多特征值, 那么这个信息增益是有偏差的
D: D.信息增益率对属性特征值的数量没有偏好

正确答案：B,C

16.机器学习多选题一般5分得分0分
下列哪个不属于常用的文本分类的特征选择算法？
A: A. 卡方检验值
B: B. 互信息
C: C. 信息增益
D: D. 主成分分析

正确答案：D

17.机器学习多选题一般5分得分5分
四个点坐标为(1,1),(1,0),(-1,-1),(-1,0),用 SVM 分类的决策边界是
A: y = x
B: x = 0
C: y = -x
D: y = 0

正确答案：B

18.机器学习多选题容易5分得分5分
关于特征选择，下列对 Ridge 回归和 Lasso 回归说法正确的是？
A: Ridge 回归适用于特征选择
B: Lasso 回归适用于特征选择
C: 两个都适用于特征选择
D: 以上说法都不对

正确答案：B

19.默认知识点多选题较难5分得分5分
一句sql包含以下关键词，(1):select (2):from (3):where (4):group by (5):having (6):order by,请问执行顺序是怎么样的？
A: A.(2)(3)(1)(4)(5)(6)
B: B.(2)(1)(3)(4)(5)(6)
C: C.(2)(3)(1)(5)(4)(6)
D: D.(2)(3)(4)(5)(1)(6)

正确答案：D

20.机器学习多选题较难5分得分5分
在 n 维空间中（n > 1），下列哪种方法最适合用来检测异常值？
A: 正态概率图
B: 箱形图
C: 马氏距离
D: 散点图

正确答案：C

【大华】(答案待核对)

1 以下数据库哪个为非关系型数据库
A ORACLE
B DB2
C REDIS
D MYSQL
正确答案：C

2 下列哪项是集群的最主要瓶颈
A CPU
B 网络
C 磁盘IO
D 内存
正确答案：C

3 关于触发器叙述正确的是
A 触发器是自动进行的，可以在一定条件下触发
B 触发器不可同步数据库的相关表进行级联更改
C SQL Server不支持DDL触发器
D 触发器不属于存储过程

4关于int a[3][4]=0，说法正确的是
数据a中每个元素均被初始化为0

5一个机器人玩抛硬币的游戏，一直不停抛一枚不均匀的硬币，A和B两面，概率分别为3/4和1/4。问第一次出现连续的两个A面的时候，期望是
28/9
假设T为扔的次数（期望），如果扔到B，则重新开始，继续扔。
第一次扔到B,重新扔，即1/4*(1+T)。
第一次扔到A,第二次扔到B，重新扔，即3/41/4（2+T）;2+T是结束游戏次数。
第一次扔到A,第二次扔到A,结束游戏。3/43/42；2为结束游戏次数。
所以T=1/4*(1+T)+3/41/4(2+T)+3/43/42;算得为T=28/9.

6 中文同义替换时，用到Word2vec,说法错误的是
A Word2vec结果符合当前语料环境
B Word2vec基于概率统计
C 得到都是语义上的同义词
D 受限于训练语料的数据和质量
正确答案：C

7 N-Gram被定义为N个关键词组合在一起，给定“浙江大华技术股份有限公司”，可以产生多少个二元组短语（Bigram）
A 6
B 9
C 10
D 11

8 如果神经网络中使用线性激活函数，那么是否还能表征异或函数
A 可以
B 不可以

9 若一课二叉树的前序遍历为a,e,b,d,c，后续遍历为b,c,d,c,e,a，则根节点的孩子节点为
A e,c
B e,b
C 只有e
D 不确定

10 10个不同的玩具，分给3个人，每个人至少要得到一个，有多少不同分法
A 33
B 34
C 35
D 36
正确答案：C

问答题
1 数仓–Hive-面试之简述UDF/UDAF/UDTF是什么，各自解决问题及应用场景
UDF会经常写，UDAF不经常写，但是会经常被面试问到

UDF
User-Defined-Function 自定义函数、一进一出；

背景

系统内置函数无法解决实际的业务问题，需要开发者自己编写函数实现自身的业务实现诉求。
应用场景非常多，面临的业务不同导致个性化实现很多，故udf很需要。
意义

函数扩展得到解决，极大丰富了可定制化的业务需求。
IO要求-要解决的问题
in:out=1:1,只能输入一条记录当中的数据，同时返回一条处理结果。
属于最常见的自定义函数，像cos,sin,substring,indexof等均是如此要求
实现步骤(Java创建自定义UDF类)

自定义一个java类
继承UDF类
重写evaluate方法
打包类所在项目成一个all-in-one的jar包并上传到hive所在机器
在hive中执行add jar操作，将jar加载到classpath中。
在hive中创建模板函数，使得后边可以使用该函数名称调用实际的udf函数
hive sql中像调用系统函数一样使用udf函数
代码实现

功能要求：实现当输入字符串超过2个字符的时候，多余的字符以”…”来表示。
如“12”则返回“12”，如“123”返回“12…”
自定义类、继承UDF、重写evaluate方法已在代码中体现

import org.apache.hadoop.hive.ql.exec.UDF;
/*
 * 功能：实现当输入字符串超过2个字符的时候，多余的字符以"..."来表示。
 * 输入/输出：* 如“12”则返回“12”，如“123”返回“12..."
 */
public class ValueMaskUDF extends UDF{
     
       public String evaluate(String input,int maxSaveStringLength,String replaceSign) {
     
             if(input.length()<=maxSaveStringLength){
     
                    return input;
             }
             return input.substring(0,maxSaveStringLength)+replaceSign;
       }
       public static void main(String[] args) {
     
             System.out.println(new ValueMaskUDF().evaluate("河北省",2,"..."));;
       }
}

UDAF
自定义udaf函数self_count，实现系统udaf count的功能

Input/Output要求-要解决的问题

in:out=n:1,即接受输入N条记录当中的数据，同时返回一条处理结果。
属于最常见的自定义函数，像count,sum,avg,max等均是如此要求
实现步骤

自定义一个java类
继承UDAF类
内部定义一个静态类，实现UDAFEvaluator接口
实现方法init,iterate,terminatePartial,merge,terminate，共5个方法. 详见下图
在hive中执行add jar操作，将jar加载到classpath中。
在hive中创建模板函数，使得后边可以使用该函数名称调用实际的udf函数
hive sql中像调用系统函数一样使用udaf函数

业务测试

UDAF代码开发

import java.util.HashMap;
import java.util.Map;
import java.util.Set;
import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
import org.apache.log4j.Logger;
/**
* 实现多条数据合并成一条数据
*/
// 主类继承UDAF
public class StudentScoreAggUDAF extends UDAF {
     
    // 日志对象初始化
    public static Logger logger = Logger.getLogger(StudentScoreAggUDAF.class);
    // 静态类实现UDAFEvaluator
    public static class Evaluator implements UDAFEvaluator {
     
        // 设置成员变量，存储每个统计范围内的总记录数
        private Map<String, String> courseScoreMap;

        //初始化函数,map和reduce均会执行该函数,起到初始化所需要的变量的作用
        public Evaluator() {
     
            init();
        }
        // 初始化函数间传递的中间变量
        public void init() {
     
            courseScoreMap = new HashMap<String, String>();
        }

         //map阶段，返回值为boolean类型，当为true则程序继续执行，当为false则程序退出  
        public boolean iterate(String course, String score) {
     
            if (course == null || score == null) {
     
                return true;
            }
            courseScoreMap.put(course, score);
            return true;
        }
         /**
         * 类似于combiner,在map范围内做部分聚合，将结果传给merge函数中的形参mapOutput  
         * 如果需要聚合，则对iterator返回的结果处理，否则直接返回iterator的结果即可
         */
        public Map<String, String> terminatePartial() {
     
            return courseScoreMap;
        }
         // reduce 阶段，用于逐个迭代处理map当中每个不同key对应的 terminatePartial的结果
        public boolean merge(Map<String, String> mapOutput) {
     
            this.courseScoreMap.putAll(mapOutput);
            return true;
        }
        // 处理merge计算完成后的结果，即对merge完成后的结果做最后的业务处理
        public String terminate() {
     
            return courseScoreMap.toString();
        }
    }
}

测试sql语句

select id,username,score_agg(course,score) from student_score group by id,username;

UDTF
User-Defined Table-Generating Functions
要解决一行输入多行输出的问题，问题的应用场景不少
用udtf解决一行输入多行输出的不多，往往被lateral view explode+udf等替代实现，比直接用udtf会更简单、直接一些

2 CNN与LSTM的优缺点
(一)CNN 卷积神经网络

在机器学习中，卷积神经网络是一种深度前馈人工神经网络，已成功地应用于图像识别。 [1]

卷积神经网络，是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理。卷积神经网络包括卷积层和池化层。

卷积神经网络包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络常应用于序列类的数据处理；二维卷积神经网络常应用于图像类文本的识别；三维卷积神经网络主要应用于医学图像以及视频类数据识别。

卷积神经网络（Convolutional Neural Network,CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。 [2] 它包括卷积层(convolutional layer)和池化层(pooling layer)。

卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络（Convolutional Neural Networks-简称CNN）。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。 K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。其中，具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”，该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。

一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形，该部分功能主要由池化层实现。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

模型优缺点：优点：（1）权重共享策略减少了需要训练的参数，相同的权值可以让滤波器不受信号位置的影响来检测信号的特性，使得训练出来的模型的泛华能力更强；（2）池化运算可以降低网络的空间分辨率，从而消除信号的微小偏移和扭曲，从而对输入数据的平移不变性要求不高缺点：

(二)RNN 循环神经网络

既然我们已经有了人工神经网络和卷积神经网络，为什么还要循环神经网络？
原因很简单，无论是卷积神经网络，还是人工神经网络，他们的前提假设都是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。
但现实世界中，很多元素都是相互连接的，比如股票随时间的变化，一个人说了：我喜欢旅游，其中最喜欢的地方是云南，以后有机会一定要去__________.这里填空，人应该都知道是填“云南“。因为我们是根据上下文的内容推断出来的，但机会要做到这一步就相当得难了。因此，就有了现在的循环神经网络，他的本质是：像人一样拥有记忆的能力。因此，他的输出就依赖于当前的输入和记忆。
RNN 递归/循环神经网络时间序列数据的首选神经网络主要用在自然语言处理，语音识别等。简单入门循环神经网络RNN：时间序列数据的首选神经网络1.CNN是刻画特征模拟的神经网络结构，无法对时间序列上的变化进行建模。然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对于这种需求就产生了循环神经网络RNN。CNN，DNN都无法分析输入信息之间的整体逻辑序列。这些信息富含大量的内容，信息彼此间有着复杂的时间关联性，并且信息长度各种各样。这是以上模型所无法解决的，递归神经网络正是为了解决这种序列问题应运而生，其关键之处在于当前网络的隐藏状态会保留先前的输入信息，用来作当前网络的输出。许多任务需要处理序列数据，比如语音处理，人机对话，文本处理等都要求模型的输入是序列数据。
2. 训练过程递归神经网络中由于输入时叠加了之前的信号，所以反向传导时不同于传统的神经网络，因为对于时刻t的输入层，其残差不仅来自于输出，还来自于之后的隐层。通过反向传递算法，利用输出层的误差，求解各个权重的梯度，然后利用梯度下降法更新各个权重3. 模型优缺点优点：模型是时间维度上的深度模型，可以对序列内容建模；缺点：（1）需要训练的参数多，容易造成梯度消散或梯度爆炸问题；（2）不具有特征学习能力

(三)LSTM 长短期记忆网络

LSTM（Long Short-Term Memory）是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

LSTM 已经在科技领域有了多种应用。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。

在 2015 年，谷歌通过基于CTC 训练的 LSTM 程序大幅提升了安卓手机和其他设备中语音识别的能力，其中就使用了Jürgen Schmidhuber的实验室在 2006 年发表的方法。百度也使用了 CTC；苹果的 iPhone 在 QuickType 和 Siri 中使用了 LSTM；微软不仅将 LSTM 用于语音识别，还将这一技术用于虚拟对话形象生成和编写程序代码等等。亚马逊 Alexa 通过双向 LSTM 在家中与你交流，而谷歌使用 LSTM 的范围更加广泛，它可以生成图像字幕，自动回复电子邮件，它包含在新的智能助手 Allo 中，也显著地提高了谷歌翻译的质量（从 2016 年开始）。目前，谷歌数据中心的很大一部分计算资源现在都在执行 LSTM 任务。

LSTM区别于RNN的地方，主要就在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。

一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

说起来无非就是一进二出的工作原理，却可以在反复运算下解决神经网络中长期存在的大问题。目前已经证明，LSTM是解决长序依赖问题的有效技术，并且这种技术的普适性非常高，导致带来的可能性变化非常多。各研究者根据LSTM纷纷提出了自己的变量版本，这就让LSTM可以处理千变万化的垂直问题。

(四) kNN（k最近邻）不是神经网络

kNN（k-Nearest Neighbours）是机器学习中最简单易懂的算法，它的适用面很广，并且在样本量足够大的情况下准确度很高，多年来得到了很多的关注和研究。kNN 可以用来进行分类或者回归，大致方法基本相同，本篇文章将主要介绍使用 kNN 进行分类。链接：https://zhuanlan.zhihu.com/p/22345658主要用于KNN只是取了最近的几个样本点做平均而已，离预测数据较远的训练数据对预测结果不会造成影响。kNN（k-Nearest Neighbor）算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。优缺点：优点1.简单，易于理解，易于实现，无需估计参数，无需训练理论成熟，思想简单，既可以用来做分类也可以用来做回归；2. 适合对稀有事件进行分类；3.特别适合于多分类问题(multi-modal,对象具有多个类别标签)， kNN比SVM的表现要好。缺点：该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。计算量大，需要大量的内存，；样本不平衡问题（KNN只是取了最近的几个样本点做平均而已，离预测数据较远的训练数据对预测结果不会造成影响），可以避免样本不平衡问题，样本数据大对算法没有影响；

你可能感兴趣的:(数据分析与挖掘,python)

Linux篇1-初识Linux 逃跑的机械工 Linux linux
1.Linux能干什么Linux能够进行各种语言的开发工作，基本主要以后端语言为主C++，JAVA,python;Linux能进行各种指令操作，从而完成各种的文件相关的管理工作2.Linux基本指令2.1ls指令在Linux中，以.开头的文件，叫做隐藏文件；ls-a显示隐藏文件隐藏文件：Linux配置文件，可以隐藏起来，防止误操作，起到保护作用；ls-l列出文件的详细信息-d将目录象文件一样显示，
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
【初学者】用Python语言来解释指针的用例与应用场景 lisw05 python python 开发语言
李升伟整理Python本身并不直接支持指针的概念，因为Python是一种高级语言，内存管理由解释器自动处理。不过，Python提供了一些机制（如引用、可变对象等）来实现类似指针的功能。以下是Python中“指针”的用例和应用场景。1.引用机制（类似指针）在Python中，变量是对对象的引用，而不是直接存储对象的值。这种引用机制类似于指针的概念。示例：a=10#a是对整数对象10的引用b=a#b也引
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
31天Python入门——第7天:集合·字典你真的懂了吗? 安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.集合1.1集合的定义1.2集合的常用操作1.3集合练习2.字典2.1字典的定义2.2嵌套字典和字典的取值2.3字典的常用操作补充知识:字典的优势是查找值效率高2.4字典推导式2.5字典练习很重要的补充练习:希望你能掌握练习一练习二1.集合在之前的章节中,我们学习了列表,元组,字符串.已经可以覆盖七成的使用场景了.那么为什么还要学习集合类型呢.列表:有序可变,元素可重
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
python-56-基于Vue和Flask进行前后端分离的项目开发示例实战皮皮冰燃 python3 python vue.js flask
文章目录1创建Vue前端项目1.1运行demo1.2实现需求2flask部署上述dist(前后端未分离)2.1代码app.py2.2运行访问3nginx部署(前后端分离)3.1nginx前端服务3.3.1windows安装nginx3.3.2修改nginx.conf配置文件3.3.3启动nginx3.3.3停止nginx3.2启动后端服务3.2.1app.py(去除前端渲染)3.2.2启动flas
爬虫基础--request库详解 amo的代码园_毕设 Java基础爬虫 java spring boot vue.js python 开发语言
爬虫基础–request库详解1.requests模块介绍request库中文文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests是一个非常流行的PythonHTTP第三方库，它允许你发送各种HTTP请求，处理cookies、会话、连接池、重定向、多种认证方式等，使得处理HTTP请求变得非常便捷，
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
一篇文章教会你用Python爬取淘宝评论数据【淘宝商品评论数据接口参数】 Tinalee-电商API接口呀主流电商数据采集API接口淘宝天猫商品API接口淘宝商品评论API接口 python 开发语言人工智能大数据爬虫 java
【一、项目简介】本文主要目标是采集淘宝的评价，找出客户所需要的功能。统计客户评价上面夸哪个功能多，比如防水，容量大，好看等等。【二·淘宝/天猫获得淘宝商品评论API返回值】item_review-获得淘宝商品评论taobao.item_review公共参数名称类型必须描述keyString是调用key（必须以GET方式拼接在URL中）secretString是调用密钥api_nameString是
Python for Android 安装和配置指南舒欣和Queenly
PythonforAndroid安装和配置指南python-for-androidTurnyourPythonapplicationintoanAndroidAPK项目地址:https://gitcode.com/gh_mirrors/py/python-for-android1.项目基础介绍和主要编程语言项目基础介绍PythonforAndroid(p4a)是一个开源工具，旨在将Python应用
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
基于Python拉取tiktok直播视频流，并将视频流切割成一定时长的视频片段 sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫
通过访问tiktok的直播间网页，从网页的script标签内部提取出关于该直播间的相关信息的JSON串，最终从JSON里提取出直播视频流的hls地址和直播间的其他信息。importsysimportrequestsimportjsonimporttimeimportsubprocessfromurllib.parseimporturlunparsefrombs4importBeautifulSou
python中datetime模块 a1111111111ss python python
参考大佬cmzsteven双手奉上大佬的网址https://blog.csdn.net/cmzsteven/article/details/64906245datetime模块中包含如下类：2、通过year,month,day三个数据描述符可以进行访问：date对象由year年份、month月份及day日期三部分构成：date（year，month，day)>>>a=datetime.date.t
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
谈高考真题的使用（数学） weixin_34116110 python 测试
2019独角兽企业重金招聘Python工程师标准>>>在高三数学复习中，大家常说“以本为本，以纲为纲，高考真题当主粮”，就是以教材内容为根本，以“考试大纲”为准绳，以高考真题的训练为主线；抓住了本，把握了纲，训练有的放矢，我们的复习就会事半功倍。高考数学试题难度相对稳定，考查形式的变化却是异彩纷呈，而变化中又有着一定的规律：全国试题与各省市试题的考试要求基本一致；题型除上海和江苏外，全国和其他各省
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
python使用pip安装本地包-Python之pip使用详解|附第三方库安装总结 weixin_37988176
首先简单介绍下pip是什么？pip是python的第三方库管理器，可以根据所开发项目的需要，使用pip相关命令安装不同库。Pyhon3.4以后，pip都默认跟Python一块安装，pip在python安装目录中的位置如下：执行方法：运行【win+R】+cmd，执行pip，查看是否安装成功。（找不到命令，则需要手动添加到环境变量）python官方提供了一个pypi库（https://pypi.org
2024年09月中国电子学会青少年软件编程（Python）等级考试试卷（二级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会青少年编程
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37点击前往在线模拟练习一、单选题(共25题，共50分)1.a=['甲','乙','丙','丁','子','丑']print(a[4])以上代码的输出是ÿ
Python pip download下载安装包到指定路径飘～～～～ python
一、Python第三方安装包下载pipdownload-dsave_pathpackages-d:后面接下载包路径(save_path)packages:安装包名称二、Python第三方安装包安装2.1whl包python-mpipinstallxxx.whl2.2tar.gz包tar-zxvfxxx.tar.gzcdxxxpythonsetup.pybuildpythonsetup.pyinst
【免费】中国电子学会2024年03月份青少年软件编程Python等级考试试卷二级真题(含答案) Lemon Liu 电子学会Python真题前端 javascript microsoft python 青少年编程
2024-03Python二级真题分数：100题数：37测试时长：60min一、单选题(共25题，共50分)1.期末考试结束了，全班的语文成绩都储存在列表score中，班主任老师请小明找到全班最高分，小明准备用Python来完成，以下哪个选项，可以获取最高分呢？（B）（2分）A.min(score)B.max(score)C.score.max()D.score.min()答案解析：max()函数
中国电子学会202309青少年软件编程（Python）等级考试试卷（二级）真题晴朗向上 python 考级编程开发语言 microsoft
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37一、单选题（共25题，每题2分，共50分）1、yyh = [2023, '杭州亚运会', ['拱宸桥', '玉琮''莲叶']]jxw = yyh[2][0]print(jxw[1] * 2)以上代码运行结果是？（）A.宸宸B.杭杭C.玉玉D.州州2、阿宝在学习Python语言编程，他写了一个程序可以实现输入月份数字就可以输出2
2024年9月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析 Sinsa_SI python windows 开发语言电子学会等级考试
更多真题在线练习系统：历年真题在线练习系统一、单选题1、以下表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)正确答案：C答案解析：A和B选项，False；D选项，报错；C选项，True。2、下列代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,
2024年9月电子学会青少年软件编程Python等级考试（三级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会三级
2024年9月青少年软件编程Python等级考试（三级）真题试卷选择题第1题单选题以下python表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)第2题单选题下列python代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,4]B.['1','
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http