qiaochao911

手动安装cloudera cdh4.2 hadoop + hbase + hive（一）

安装版本

hadoop-2.0.0-cdh4.2.0
hbase-0.94.2-cdh4.2.0
hive-0.10.0-cdh4.2.0
jdk1.6.0_38

安装前说明

安装目录为/opt
检查hosts文件
关闭防火墙
设置时钟同步

使用说明

安装hadoop、hbase、hive成功之后启动方式为：

启动dfs和mapreduce desktop1上执行start-dfs.sh和start-yarn.sh
启动hbase desktop3上执行start-hbase.xml
启动hive desktop1上执行hive

规划

    192.168.0.1             NameNode、Hive、ResourceManager
    192.168.0.2             SSNameNode
    192.168.0.3             DataNode、HBase、NodeManager
    192.168.0.4             DataNode、HBase、NodeManager
    192.168.0.6             DataNode、HBase、NodeManager
    192.168.0.7             DataNode、HBase、NodeManager
    192.168.0.8             DataNode、HBase、NodeManager

部署过程

系统和网络配置

修改每台机器的名称

[root@desktop1 ~]# cat /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=desktop1

在各个节点上修改/etc/hosts增加以下内容:

[root@desktop1 ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.0.1     desktop1
192.168.0.2     desktop2
192.168.0.3     desktop3
192.168.0.4     desktop4
192.168.0.6     desktop6
192.168.0.7     desktop7
192.168.0.8     desktop8

配置ssh无密码登陆以下是设置desktop1上可以无密码登陆到其他机器上。

    [root@desktop1 ~]# ssh-keygen
    [root@desktop1 ~]# ssh-copy-id -i .ssh/id_rsa.pub desktop2
    [root@desktop1 ~]# ssh-copy-id -i .ssh/id_rsa.pub desktop3
    [root@desktop1 ~]# ssh-copy-id -i .ssh/id_rsa.pub desktop4
    [root@desktop1 ~]# ssh-copy-id -i .ssh/id_rsa.pub desktop6
    [root@desktop1 ~]# ssh-copy-id -i .ssh/id_rsa.pub desktop7
    [root@desktop1 ~]# ssh-copy-id -i .ssh/id_rsa.pub desktop8

每台机器上关闭防火墙：

    [root@desktop1 ~]# service iptables stop

安装Hadoop

配置Hadoop

将jdk1.6.0_38.zip上传到/opt，并解压缩。将hadoop-2.0.0-cdh4.2.0.zip上传到/opt，并解压缩。

在NameNode上配置以下文件：

core-site.xml fs.defaultFS指定NameNode文件系统，开启回收站功能。
hdfs-site.xml 
    dfs.namenode.name.dir指定NameNode存储meta和editlog的目录，
    dfs.datanode.data.dir指定DataNode存储blocks的目录，
    dfs.namenode.secondary.http-address指定Secondary NameNode地址。
    开启WebHDFS。
slaves 添加DataNode节点主机

core-site.xml 该文件指定fs.defaultFS连接desktop1，即NameNode节点。

[root@desktop1 hadoop]# pwd
/opt/hadoop-2.0.0-cdh4.2.0/etc/hadoop
[root@desktop1 hadoop]# cat core-site.xml 
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!--fs.default.name for MRV1 ,fs.defaultFS for MRV2(yarn) -->
<property>
     <name>fs.defaultFS</name>
         <!--这个地方的值要和hdfs-site.xml文件中的dfs.federation.nameservices一致-->
     <value>hdfs://desktop1</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>10080</value>
</property>
<property>
<name>fs.trash.checkpoint.interval</name>
<value>10080</value>
</property>
</configuration>

hdfs-site.xml 该文件主要设置数据副本保存份数，以及namenode、datanode数据保存路径以及http-address。

[root@desktop1 hadoop]# cat hdfs-site.xml 
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>

<property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/data/hadoop-${user.name}</value>
</property>

<property>
<name>dfs.namenode.http-address</name>
<value>desktop1:50070</value>
</property>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>desktop2:50090</value>
</property>

<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

masters 设置namenode和secondary namenode节点。

[root@desktop1 hadoop]# cat masters 
desktop1
desktop2

slaves 设置哪些机器上安装datanode节点。

[root@desktop1 hadoop]# cat slaves 
desktop3
desktop4
desktop6
desktop7
desktop8

配置MapReduce

mapred-site.xml 配置使用yarn计算框架，以及jobhistory的地址。

[root@desktop1 hadoop]# cat mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>

<property>
 <name>mapreduce.jobhistory.address</name>
 <value>desktop1:10020</value>
</property>

<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>desktop1:19888</value>
</property>
</configuration>

yarn-site.xml 主要配置resourcemanager地址以及yarn.application.classpath（这个路径很重要，要不然集成hive时候会提示找不到class）

[root@desktop1 hadoop]# cat yarn-site.xml 
<?xml version="1.0"?>
<configuration>
<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>desktop1:8031</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>desktop1:8032</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>desktop1:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.admin.address</name>
    <value>desktop1:8033</value>
  </property>
  <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>desktop1:8088</value>
  </property>
  <property>
    <description>Classpath for typical applications.</description>
    <name>yarn.application.classpath</name>
    <value>$HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/share/hadoop/common/*,
    $HADOOP_COMMON_HOME/share/hadoop/common/lib/*,
    $HADOOP_HDFS_HOME/share/hadoop/hdfs/*,$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*,
    $YARN_HOME/share/hadoop/yarn/*,$YARN_HOME/share/hadoop/yarn/lib/*,
    $YARN_HOME/share/hadoop/mapreduce/*,$YARN_HOME/share/hadoop/mapreduce/lib/*</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce.shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>

  <property>
    <name>yarn.nodemanager.local-dirs</name>
    <value>/opt/data/yarn/local</value>
  </property>
  <property>
    <name>yarn.nodemanager.log-dirs</name>
    <value>/opt/data/yarn/logs</value>
  </property>
  <property>
    <description>Where to aggregate logs</description>
    <name>yarn.nodemanager.remote-app-log-dir</name>
    <value>/opt/data/yarn/logs</value>
  </property>

  <property>
    <name>yarn.app.mapreduce.am.staging-dir</name>
    <value>/user</value>
 </property>

</configuration>

同步配置文件

修改.bashrc环境变量，并将其同步到其他几台机器，并且source .bashrc

[root@desktop1 ~]# cat .bashrc 
# .bashrc
alias rm='rm -i'
alias cp='cp -i'
alias mv='mv -i'

# Source global definitions
if [ -f /etc/bashrc ]; then
        . /etc/bashrc
fi
# User specific environment and startup programs
export LANG=zh_CN.utf8

export JAVA_HOME=/opt/jdk1.6.0_38
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=./:$JAVA_HOME/lib:$JRE_HOME/lib:$JRE_HOME/lib/tools.jar

export HADOOP_HOME=/opt/hadoop-2.0.0-cdh4.2.0
export HIVE_HOME=/opt/hive-0.10.0-cdh4.2.0
export HBASE_HOME=/opt/hbase-0.94.2-cdh4.2.0

export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export YARN_HOME=${HADOOP_HOME}
export HADOOP_YARN_HOME=${HADOOP_HOME}
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin

修改配置文件之后，使其生效。

[root@desktop1 ~]# source .bashrc

将desktop1上的/opt/hadoop-2.0.0-cdh4.2.0拷贝到其他机器上

启动脚本

第一次启动hadoop需要先格式化NameNode，该操作只做一次。当修改了配置文件时，需要重新格式化

[root@desktop1 hadoop]hadoop namenode -format

在desktop1上启动hdfs：

[root@desktop1 hadoop]#start-dfs.sh

在desktop1上启动mapreduce：

[root@desktop1 hadoop]#start-yarn.sh

在desktop1上启动historyserver：

[root@desktop1 hadoop]#mr-jobhistory-daemon.sh start historyserver

查看MapReduce：

http://desktop1:8088/cluster

查看节点：

http://desktop2:8042/
http://desktop2:8042/node

检查集群进程

[root@desktop1 ~]# jps
5389 NameNode
5980 Jps
5710 ResourceManager
7032 JobHistoryServer

[root@desktop2 ~]# jps
3187 Jps
3124 SecondaryNameNode

[root@desktop3 ~]# jps
3187 Jps
3124 DataNode
5711 NodeManager

你可能感兴趣的:(安装,Cloudera,cdh4.2)

docker 安装elasticsearch kibana，设置密码 biguojun docker elasticsearch kibana
安装elasticsearchdockerpulldocker.elastic.co/elasticsearch/elasticsearch:7.17.28dockerrun-d--namedocker-es-e"ES_JAVA_OPTS=-Xms512m-Xmx512m"-e"discovery.type=single-node"-vD:\docker\es\data:/usr/share/el
在Ubuntu上安装MEAN Stack的4个步骤 Kaede6 技术文章-Linux服务部署 ubuntu linux 运维
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
在centos7里面安装 mysql5.6.44 SAFE20242034 #三 MySQL 运维 mysql
一查询系统自带的mysqlroot@obdserver~]#rpm-qa|grepmysql二卸载系统自带的mysql因为没有mysql，所以也不用卸载三下载安装官方的yum源[root@obdserver~]#ll/etc/yum.repos.d/总用量40-rw-r--r--.1rootroot25233月1201:22CentOS-Base.repo-rw-r--r--.1rootroot1
搭建内网DNS服务器小卓笔记服务器 linux 运维
1.1实验目的在内网服务器可以实现使用域名进行上网主机角色系统IPdns-client客户端redhat9.5192.168.33.7dns-server域名解析服务器rocky9.5192.168.33.1001.2环境准备#rocky#安装net-toolsbash-completionvim（rocky未自带这些服务）[root@dns-server~]#dnfinstallnet-tool
Trae智能协作AI编程工具IDE：如何在MacBook Pro下载、安装和配置使用Trae？
Trae智能协作AI编程工具IDE：如何在MacBookPro下载、安装和配置使用Trae？一、为什么选择Trae智能协作IDE？在AI编程新时代，Trae通过以下突破性功能重新定义开发体验：双向智能增强：AI不仅提供代码补全，更能理解上下文主动建议架构优化方案自然语言编程：支持"用Python写一个带JWT验证的FastAPI用户系统"式开发实时协作画布：可视化呈现AI生成的代码逻辑，支持多模态
Debian：apt-get命令汇总
apt-get命令是DebianLinux发行版中的APT软件包管理工具。所有基于Debian的发行（常见的10个基于Debian的Linux发行版）都使用这个包管理系统。deb包可以把一个应用的文件包在一起，大体就如同Windows上的安装文件。语法apt-get[OPTION]PACKAGE选项apt-getinstall#安装新包apt-getremove#卸载已安装的包（保留配置文件）ap
Linux使用cpulimit对CPU使用率进行限制云服务器linux运维cpu
介绍cpulimit是一款可以对CPU使用率进行限制的软件，既可限制单个特定程序，也可以对整个CPU使用率进行限制，安装使用都很方便，需要的朋友可以试试。源安装（推荐）Centos：yuminstallcpulimitDebian/Ubuntu：apt-getinstall-ycpulimit编译安装cd/tmpwget'https://www.02405.com/wp-content/uploa
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
华为eNSP（Enterprise Network Simulation Platform）实战指南博睿谷IT99_ 程序人生安全网络协议云计算
ENSP必会命令全集：VLAN/OSPF/ACL配置+排错指令华为eNSP是网络工程师学习和模拟企业网络部署的核心工具，支持路由器、交换机、防火墙等设备的配置与调试。以下从安装配置、实验场景、故障排查三个方面提供全流程指南。一、eNSP安装与配置1.安装准备系统要求：Windows7/10/11（推荐64位）4GB以上内存，20GB硬盘空间安装前关闭杀毒软件和防火墙（避免拦截虚拟组件）必备组件：V
lvs wzyzzu linux
目录LVS项目理论项目介绍体系结构IP负载均衡负载调度安装配置简介组件背景硬件/网络的要求路由的必要条件节点内部连接的必要条件安装软件配置例子简单实例LVSLVS是章文嵩博士发起和领导的优秀的集群解决方案，许多商业的集群产品，比如RedHat的Piranha，TurboLinux公司的TurboCluster等，都是基于LVS的核心代码的。在现实的应用中，LVS得到了大量的部署，请参考http:/
Mybatis基本使用沉下心来学技术 mybatis
什么是MyBatis?MyBatis是一个优秀的持久层框架，它对jdbc的操作进行了封装，使得数据库的操作不再繁琐，避免大量的代码编写，使开发人员将更多的精力放在sql语句上。MyBatis的优点简单易学：本身就很小且简单。没有任何第三方依赖，最简单安装只要两个jar文件+配置几个sql映射文件。灵活：mybatis不会对应用程序或者数据库的现有设计强加任何影响。它只是一种帮助程序，让程序开发者自
使用 DeepSeek-R1 为 RAG 运行本地 Gradio 应用程序呱牛 do IT 人工智能 deepseek
让我们使用Gradio构建一个简单的演示应用程序，以使用DeepSeek-R1查询和分析文档。第1步：先决条件在深入研究实现之前，我们确保已安装以下工具和库：Python3.8+Python3.8+版Langchain：用于构建由大型语言模型（）LLMs提供支持的应用程序的框架，支持轻松检索、推理和工具集成Chromadb：一个高性能的向量数据库，专为高效的相似性搜索和嵌入存储而设计。Gradio
配置 VSCode 的 C# 开发环境 Q_w7742 vscode c#ide
1.安装必要的依赖1.1VSCode扩展安装C#相关插件（如C#、C#Extensions等）。1.2.NETSDK下载地址：.NETSDK下载页面1.3安装检测在命令行输入以下命令，如果正确返回了版本号，则表示.NETSDK安装成功：dotnet--version2.创建C#项目2.1使用命令行创建项目打开终端（或命令提示符）。运行以下命令以创建一个新的控制台应用程序：dotnetnewcons
vscode使用ssh同时连接主机CentOS:user和ubuntu20.04:docker 李卓璐学习笔记 vscode ssh centos
主机为CentOSdocker为Ubuntu20.04两者可以使用一个vscode远程链接1.使用已拉取好的Ubuntu镜像建立docker容器2.进入容器内，下载一些关于ssh的安装包apt-getinstallvimapt-getinstallopenssh-clientapt-getinstallopenssh-serverapt-getinstallsshpasswd#更改密码3.启动ss
Tomcat新手入门指南：从零开始安装与基本配置金枪鱼net tomcat
Tomcat新手入门指南：从零开始安装与基本配置Tomcat是一个广泛使用的Javaservlet容器，用于运行Web应用服务器。它将JavaBean转换为Servlet，并作为JVM的一个虚拟进程运行。以下是一步一步的教程，帮助您快速安装和配置Tomcat。第一步：准备环境安装JavaDevelopmentKit(JDK)打开命令提示符或Terminal。输入以下命令并按回车键：brewinst
震惊！Python包管理神器uv横空出世，速度快到让pip瑟瑟发抖！ weixin_316716198 技术文章推荐
震惊！Python包管理神器uv横空出世，速度快到让pip瑟瑟发抖！近年来，Python的生态系统蓬勃发展，但包管理工具的效率问题却一直困扰着开发者们。漫长的安装时间、复杂的依赖管理，以及繁琐的虚拟环境操作，无不让人感到头疼。然而，就在大家以为现状难以改变时，一款名为uv的全新工具横空出世，彻底颠覆了传统的Python包管理方式，为开发者们带来了前所未有的高效体验！uv：速度与效率的完美融合uv的
Selenium与MySQL数据校验自动化噔噔噔噔@ 软件测试面试题专栏软件测试基础及工具分享自动化运维 selenium 集成测试
在使用Selenium进行UI自动化测试时，如果需要连接MySQL数据库进行数据校验，可以通过以下步骤实现：1.安装必要的库首先，确保你已经安装了以下Python库：selenium：用于UI自动化。mysql-connector-python或pymysql：用于连接MySQL数据库。你可以使用以下命令安装这些库：pipinstallseleniummysql-connector-python2
如何vscode中安装代码规范工具—cpplint fttony2020 代码规范
1）在Vscode中搜索并安装插件cpplint2）接着打开终端，输入sudopipinstallcpplint3）再次输入ls-l/usr/local/bin/cpplint检查安装目录，一般会安装在/usr/local/bin/cpplint目录下如果不在此目录下，需要在vscode中手动配置一下cpplint的执行路径4）打开vscode的设置界面，输入clang，如图所示，将代码风格设置为
优麒麟 20.04 LTS Pro 发布 | 以初心，铸匠心优麒麟优麒麟 UKUI 操作系统
优麒麟20.04LTSPro发布|附详细更新列表北京时间2021年4月22日，优麒麟团队很高兴地宣布优麒麟（UbuntuKylin）开源操作系统20.04LTSPro版本正式发布。优麒麟20.04Pro是基于20.04长期支持版本的更新，官方将提供5年的技术支持。优麒麟20.04Pro版本默认搭载最新Linux5.10LTS内核，新增自主研发的麒麟音乐、麒麟录音、麒麟摄像头、麒麟桌面安装程序、麒麟
Python 地图基础教程教程小白教程 python python Python地图 Python基础教程 Python地图教程 Python地图入门 Python绘制地图 Python地图源码
文章目录前言1.环境准备1.1Python安装1.2选择Python开发环境1.3安装必要库二、绘制基本世界地图1.导入必要的库：2.加载世界地图数据：3.绘制地图：三、自定义地图样式1.按面积给国家着色：2.突出显示特定国家：四、添加地理信息1.显示国家名称：2.添加其他地理要素：五、保存地图前言地图在生活、科研、商业等诸多领域都有着广泛的应用，从日常出行的导航，到地理信息系统（GIS）中的数据
安装（python 版） C-haidragon mysql
安装安装sudoapt-getinstallmysql-servermysql-client然后按照提示输入管理服务启动servicemysqlstart停止servicemysqlstop重启servicemysqlrestart允许远程连接找到mysql配置文件并修改sudovi/etc/mysql/mysql.conf.d/mysqld.cnf将bind-address=127.0.0.1注
arm64 ubuntu20.4 安装 mysql5.7 脚本因你而在的梦 linux ubuntu arm64 mysql 5.7
1.安装依赖sudoaptupdatesudoaptinstall-ylibaio*2.下载压缩包wgethttps://obs.cn-north-4.myhuaweicloud.com/obs-mirror-ftp4/database/mysql-5.7.27-aarch64.tar.gz3.添加mysql组和mysql用户sudogroupaddmysqlsudouseradd-r-gmysq
tkinter报错 tcl和tk报错 _tkinter.TclError: Can‘t find a usable init.tcl in the following directories: 大博士.J java 数据库 python
问了好几个GPT回答的都不是解决问题的，胡编乱造的目前经过尝试好几个解决方案，终于破案了win10系统使用安装python时自动将tcl和tk识别到了新创建的虚拟环境继承中win11系统则需要手动去做一些操作，才可以解决问题我这报错的问题是这样的self.tk=_tkinter.create(screenName,baseName,className,interactive,wantobjects
Kali Linux 渗透测试环境配置（Metasploit + Burp Suite）李游Leo 环境配置 linux 运维服务器
一、KaliLinux系统准备首先，确保你已经成功安装了KaliLinux系统。可以从官方网站下载镜像文件，并通过U盘引导安装等常规方式完成系统部署。建议使用最新稳定版本，以获取最新的软件包支持和安全更新。安装完成后，登录系统，打开终端。由于许多操作需要管理员权限，在终端输入“sudosu”切换到root用户，后续操作若无特殊说明，均在root权限下进行。二、Metasploit配置1.KaliL
python怎么爬取网页数据,python爬取网页数据步骤 ab524100 python
这篇文章主要介绍了python爬取网页数据表格会超出索引，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。前言：用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂python源码库。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。python爬虫六步走第一步：安装requests库和Beaut
Node.js 包与 npm 详解：概念、作用及完整使用指南还是鼠鼠 node.js node.js npm 前端 vscode web
目录1.Node.js包的概念与作用什么是包？包的作用2.npm（NodePackageManager）简介常用npm命令3.创建一个本地Node.js包步骤1：初始化npm项目步骤2：编写index.js步骤3：在另一个项目中使用这个包4.安装和使用第三方npm包安装lodash使用lodash5.全局安装包与命令行工具6.发布自己的npm包创建npm账号发布包7.结论在Node.js中，**包
Keil5安装全攻略算法探索者 Keil5安装全攻略 eclipse python sqlite
以下是Keil5的安装攻略，包括软件安装、激活以及芯片包安装等步骤：软件安装1首先从官方网站或正规软件下载平台下载Keil5软件包。下载完成后解压该软件包，双击打开解压后的exe文件，进入安装向导，点击“Next”。阅读许可协议，勾选“Iaccept”，表示您同意该协议的条款，然后点击“Next”。点击“Core”与“Pack”后面的“Browse”更改安装路径。建议安装在除C盘以外的其它磁盘，例
Python 视频爬取教程小白教程 python Python Python 视频爬取教程 Python 视频爬取 Python教程 Python 视频教程
文章目录前言基本原理环境准备Python安装选择Python开发环境安装必要库示例1：爬取简单直链视频示例2：爬取基于HTML5的视频（以某简单视频网站为例）前言以下是一个较为完整的Python视频爬取教程，包含基本原理、不同网站的爬取示例以及注意事项。基本原理视频爬取本质上是模拟浏览器向服务器发送请求，获取包含视频信息的网页内容，解析出视频的真实下载地址，然后将视频文件下载到本地。一般会用到re
关于Linux系统下如何配置双网口绑定 1079986725 linux 运维服务器
在Linux系统中，配置双网口绑定（也称为网卡绑定或链路聚合）可以提高网络带宽、冗余和负载均衡。以下是配置双网口绑定的详细步骤：1.确认网卡信息首先，确认系统中已安装并识别的网卡设备。可以使用以下命令查看网卡信息：bashiplinkshow或bashifconfig-a记录下需要绑定的网卡名称（如`eth0`和`eth1`）。2.安装必要的工具确保系统已安装`ifenslave`工具，用于绑定网
Windows 图形显示驱动开发-WDDM 3.0功能- IOMMU DMA 重新映射（一）程序员王马 windows图形显示驱动开发驱动开发
概述直到WDDM3.0，Dxgkrnl仅支持通过1:1物理重新映射实现IOMMU隔离，这意味着GPU访问的逻辑页被转换为相同的物理页码。IOMMUDMA重新映射允许GPU通过不再以1:1映射的逻辑地址访问内存。相反，Dxgkrnl能够提供逻辑上连续的地址范围。Dxgkrnl对GPU施加限制：GPU必须能够访问所有物理内存才能启动设备。如果GPU的最高可见地址不超过系统上安装的最高物理地址，则Dxg
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他