涤生（bluez）

西南大学大数据8天实训

大数据实训第一天日志

第一天
第二天
第三天
第四天
第五天
第六天
第七天
第八天

学习内容总结

CentOS安装

安装vmWare workstation
添加虚拟机，安装CentOS操作系统
配置网络，编辑网卡配置文件，设置BOOTPROTO="dhcp"和ONBOOT="YES"

Linux系统基本操作

cd /	切换路径
cd ..	回到上一层路径
ls	查看当前目录下所有文件和文件夹
ls -a	显示隐藏文件
ls -l	查看详细信息（ll）
mkdir	创建文件夹
touch	创建文件
mv /lx /opt/	移动（剪切）
mv lx xxx	重命名
cp lx.txt /opt/	复制粘贴
vi xxx	打开文件
	i	进去编辑模式
	esc	退出编辑模式
	:w	写入
	:q	退出
	:!	强制
rm -rf ***	递归删除文件或者文件夹
	r	递归
	f	强制
pwd	显示当前所在路径
ll	查看详细信息

大数据实训第二天日志

学习内容总结

复习Linux基本操作命令

Review

使用xshell等工具远程管理主机

安装xshell
添加主机
输入用户名、密码

配置主机相互通信

配置虚拟机网络

vim /etc/sysconfig/network-scripts/ifcfg-ens33
# 修改ONBOOT=YES

修改主机名

修改主机名不能使用注释

vim /etc/sysconfig/network
# 修改HOSTNAME

关闭防火墙

# 查看防火墙状态
firewall-cmd --state
# 临时关闭防防火墙
systemctl stop firewalld.service
# 禁止防火墙开机自启
systemctl disable firewalld.service

修改hosts

为所有主机建立映射

sudo vim /etc/hosts

## host文件
192.168.183.128	Master
192.168.183.129	slave0
192.168.183.130	slave1

## 传输给其他主机
sudo scp /etc/hosts hadoop@slave0:/etc/hosts
sudo scp /etc/hosts hadoop@slave1:/etc/hosts

测试主机是否连通

配置主机免密登陆

方式一：

ssh-keygen
cd ~/.ssh
scp id_rsa.pub hadoop@slave0:~/.ssh/master5.pub
scp id_rsa.pub hadoop@slave1:~/.ssh/master5.pub

## 登陆slave0和slave1
cd ~/.ssh
touch authorized_keys
chmod 600 authorized_keys
cat master.pub >> authorized_keys

方式二

ssh-keygen
ssh-copy-id hadoop@slave0
ssh-copy-id hadoop@slave1

验证是否配置成功

ssh hadoop@slave0
ssh hadoop@slave1
ssh hadoop@master

安装JAVA JDK

下载jdk到/opt目录下

sudo chown -R hadoop:hadoop opt/
# 解压jdk
tar -zxvf jdk-8u101-linux-x64.tar.gz
# 配置当前用户环境变量
sudo vi ~/.bashrc
# 追加export
export JAVA_HOME=/opt/jdk1.8.0_101
export PATH=$PATH:$JAVA_HOME/bin
# 退出文件，使bashrc配置生效
source ~/.bashrc
# 测试配置
java -version

为其他主机安装jdk

## 进入其他主机，修改文件夹权限
sudo chown -R hadoop:hadoop /opt
## 回到已经安装jdk的主机
scp -r jdk1.8.0_101/ hadoop@slave1:/opt/
scp -r jdk1.8.0_101/ hadoop@slave0:/opt/
sudo scp ~/.bashrc hadoop@slave1:~/.bashrc 
sudo scp ~/.bashrc hadoop@slave0:~/.bashrc 
## 进入其他主机，使其配置生效
source ~/.bashrc
# 测试配置
java -version

安装hadoop

下载hadoop到/opt目录下

其他操作与安装JDK类似

# 解压jdk
tar -zxvf hadoop-2.6.4.tar.gz
# 配置当前用户环境变量
sudo vi ~/.bashrc
# 追加export
export HADOOP_HOME=/opt/hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin
# 退出文件，使bashrc配置生效
source ~/.bashrc
# 测试配置
hadoop  -version

为其他主机安装hadoop

tar参数
-z 压缩
-x 解包
-v 输入信息
-f 必须要
-C 指定解包位置
-c 打包

大数据实训第三天日志

复习JDK和Hadoop的安装

Hadoop单节点模式Local (Standalone) Mode

示例

统计文件夹中所有文件以dfs开头的单词个数

cd /opt
mkdir input
# 复制hadoop提供的测试文件
cp hadoop-2.6.4/etc/hadoop/*.xml input
# 运行统计程序
hadoop jar hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar grep input/ output 'dfs[a-z.]+'
# 查看输出
cat output/*

伪分布式模式Pseudo-Distributed Mode

伪分布式模式配置

cd /opt/hadoop-2.6.4/
vim etc/hadoop/core-site.xml
# 在configuration标签内添加内容

    fs.defaultFS
    hdfs://localhost:9000

## 编辑hdfs-site.xml
vim etc/hadoop/hdfs-site.xml
# 在configuration标签内添加内容

    dfs.replication
    1

格式化文件系统

bin/hdfs namenode -format

输出status状态为0则格式化成功

启动NameNode和DataNode进程

sbin/start-dfs.sh

访问浏览器，默认地址NameNode - http://localhost:50070/

常用hdfs操作

以词频统计示例为例

cd /opt/hadoop-2.6.4
# 为hdfs命令创建软链接(hdfs源码中使用相对路径，可能导致无法正常使用链接)
ln -s /opt/hadoop-2.6.4/bin/hdfs /usr/local/bin
# 1. 创建文件夹
hdfs dfs -mkdir /user
# 2. 上传文件到input文件夹
hdfs dfs -put etc/hadoop/* /input
# 3. 运行词频统计示例
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar grep /input /output 'dfs[a-z.]+'
# 4. 下载输出结果并查看
hdfs dfs -get /output output
cat output/*
# 5. 在线查看输出结果
hdfs dfs -cat /output/*
# 结束进程
sbin/stop-dfs.sh

YARN on a Single Node

cd /opt/hadoop-2.6.4
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
vim etc/hadoop/mapred-site.xml
## 添加内容

    
        mapreduce.framework.name
        yarn
    

## 保存并退出
vim etc/hadoop/yarn-site.xml
## 添加内容

    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    

## 保存退出，启动ResourceManager进程和NodeManager进程
sbin/start-yarn.sh
# 结束进程
sbin/stop-yarn.sh

访问浏览器默认地址ResourceManager - http://localhost:8088/

大数据实训第四天日志

学习内容总结

复习Hadoop单节点和伪分布式配置

分布式集群配置

Master主机下：

cd /opt/hadoop-2.6.4/etc/hadoop

编辑core-site.xml,指定namenode为master机器

vim core-site.xml
# 配置如下

  
    fs.defaultFS
    hdfs://master:9000

编辑hdfs-site.xml，指定Namenode存储路径，指定数据节点DataNode存储路径，指定副本数量

vi hdfs-site.xml
# 配置如下

  
    dfs.namenode.name.dir
    /opt/dfs/name
  
  
    dfs.datanode.data.dir
    /opt/dfs/data
  
  
    dfs.replication
    2

编辑mapred-site.xml

vim mapred-site.xml
# 配置如下

  
    mapred.job.tracker
    master:9001
  
  
    mapreduce.framework.name
    yarn
  
  
    mapreduce.jobhistory.address
    master:10020

编辑yarn-site.xml

vim yarn-site.xml
# 配置如下

  
    yarn.resourcemanager.hostname
    master
  
  
    yarn.nodemanager.aux-services
    mapreduce_shuffle
  
  
    yarn.log-aggregation-enable
    true

编辑slaves，并添加slave主机

创建masters文件，指定master主机

传输配置文件给其他主机

scp -r ./* hadoop@slave0:/opt/hadoop-2.6.4/etc/hadoop/*
scp -r ./* hadoop@slave1:/opt/hadoop-2.6.4/etc/hadoop/*

格式化分布式文件

hdfs namenode -format

启动集群

sbin/start-dfs.sh
sbin/start-yarn.sh

Mysql安装

访问官方文档

wget 'https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm'
# 清华源 https://mirrors6.tuna.tsinghua.edu.cn/mysql/yum/mysql57-community-el6/
sudo rpm -Uvh mysql57-community-release-el7-11.noarch.rpm
yum repolist all | grep mysql
# 安装最新版
sudo yum install mysql-community-server
# 启动mysql
sudo service mysqld start 
# sudo systemctl start mysqld #CentOS 7
# 查看启动状态
sudo systemctl status mysqld
# 查看默认生成的密码
sudo grep 'temporary password' /var/log/mysqld.log
mysql -uroot -p  #输入查看到的密码
# 修改密码
mysql> ALTER USER 'root'@'localhost' IDENTIFIED BY 'MyNewPass4!';

修改mysql密码安全策略

mysql> show variables like 'validate_password%';
mysql> set global validate_password_policy=0;
mysql> set global validate_password_length=1;
# 再修改密码
mysql> set password for root@localhost = password('1234');

复制mysql-connector-java.jar到/usr/local/hive/lib目录下

安装配置Hive

下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hive/

tar -zxvf apache-hive-2.3.5-bin.tar.gz
sudo mv apache-hive-2.3.5-bin /usr/local/hive
# 配置bashrc
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
export CLASSPATH=$CLASSPATH:/usr/local/Hadoop/lib/*:.
export CLASSPATH=$CLASSPATH:/usr/local/hive/lib/*:.
# 使配置生效
source ~/.bashrc

修改/usr/local/hive/conf下的hive-site.xml，将hive原来自带的derby改成mysql

cd /usr/local/hive/conf
mv hive-default.xml.template hive-default.xml
vim hive-site.xml
# 配置如下



  
    javax.jdo.option.ConnectionURL
    jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true
    JDBC connect string for a JDBC metastore
  
  
    javax.jdo.option.ConnectionDriverName
    com.mysql.jdbc.Driver
    Driver class name for a JDBC metastore
  
  
    javax.jdo.option.ConnectionUserName
    hive
    username to use against metastore database
  
  
    javax.jdo.option.ConnectionPassword
    hive
    password to use against metastore database

启动mysql数据库，新建hive数据库

mysql -u root -p
# 新建一个Hive数据库，这个Hive数据库与hive-site.xml文件中//localhost:3306/hive的hive对应，用来保存hive元数据信息
create database hive;

配置mysql允许hive接入

# 将所有数据库的所有表的所有权限都赋给hive用户，后面的hive适配hive-site.xml中配置的连接密码，设置'hive'密码可能需要修改安全策略
grant all on *.* to hive@localhost identified by 'hive';
# 刷新mysql系统权限关系表
flush privileges;

伪分布式方式启动，修改slaves：启动Hive前，启动hadoop集群

hive

问题：hive2需要初始化元数据

在hive的配置文件hive-site.xml添加如下配置：


  datanucleus.schema.autoCreateAll
  true

在mysql删除原来的hive，

drop database hive;

初始化元数据

schematool -initSchema -dbType mysql

重启hive

Hive常用操作

hive常用HiveQL操作

创建数据库

create database if not exists hive;

显示hive中包含的数据库

show databases;

显示hive中以h开头的数据库

show databases like 'h.*';

使用hive数据库

use hive;

删除不包含表的数据库

drop database if exists hive;

删除数据库和它包含的表

drop database if exists hive cascade;

第五天

内容总结

Requests模块简单用法

# 导入requests包
import requests

page_id=910
paged=1
payload = {'paged_id':page_id,'paged':paged}
# r=requests.get('https://blog.poryoung.cn/?page_id='+str(page_id)+'&paged='+str(paged))
# 传递参数
r=requests.get('https://blog.poryoung.cn',params=payload)
# print(r.text)

# 响应状态
# r.raise_for_status()
# r.status_code

# 修改编码
r.encoding='utf-8'
print(r.encoding)

# 二进制响应
# r.content
from PIL import Image
from io import BytesIO
i = Image.open(BytesIO(r.content))

# Json响应
# r.json()

# 原始响应内容
r=requests.get('https://blog.poryoung.cn',params=payload,strem=True)
r.raw

# 定制请求头
# headers = {'user-agent': 'my-app/0.0.1'}
# r = requests.get(url, headers=headers)

# post
# r = requests.post(url, data=payload)
# r = requests.post(url, data=json.dumps(payload))

# Cookies
# r = requests.get(url)
# r.cookies['example_cookie_name']
# 发送cookies
# cookies = dict(cookies_are='working')
# r = requests.get(url, cookies=cookies)
# Cookie 的返回对象为 [RequestsCookieJar](https://2.python-requests.org//zh_CN/latest/api.html#requests.cookies.RequestsCookieJar)

# 超时
# requests.get('http://github.com', timeout=0.001)

# Session
# [会话对象](https://2.python-requests.org//zh_CN/latest/user/advanced.html#session-objects)

# 代理
proxies = {
  "http": "http://10.10.1.10:3128",
  "https": "http://10.10.1.10:1080",
}

# requests.get("http://example.org", proxies=proxies)

python爬虫实例

import requests
from bs4 import BeautifulSoup

def spider_xiaohuar_content(url, headers):
    response = requests.get(url=url, headers=headers)

    print(response.status_code)

    if response.status_code == 200:
        response.encoding = 'utf-8'
        html = response.content
        # 参数：网页内容，解析器
        soup = BeautifulSoup(html, 'html5lib')
        div_list = soup.find_all('div', attrs={'class': 'all_lanmu'})

        text = ''
        file = open('爬虫校花.md', 'w', encoding='utf-8')
        for div in div_list:
            title_div = div.find('div', attrs={'class': 'title1000'})
            title = title_div.find('a').string
            text += '\n\n## 标题：'+title+'\n\n'

            ul = div.find('ul')
            li_list = ul.find_all('li')
            for li in li_list:
                img_src = li.find('img').attrs['lazysrc']
                a_href = li.find('a').attrs['href']
                img_title = li.find('span').string
                school = li.find('b', attrs={'class': 'b1'}).string
                fav = li.find('b', attrs={'class': 'b2'}).string

                if url not in img_src:
                    img_src = url+img_src
                text += '> ' + img_title+'\n\n'
                text += '!['+img_title+']('+img_src+'#headimg-style)'+'\n\n'
                text += '- 学校：'+school+'\n\n'
                text += '- 点赞人数:'+fav+'\n\n'
        file.write(text)
        file.close

url = 'http://xiaohuar.com/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}
spider_xiaohuar_content(url, headers)

代码及爬取结果地址

spider-xiaohuar.com.py 校花爬取.md

问题总结

修改jupyter python运行环境

conda create -n py3 python=3 # 创建一个python3的环境，名为py3 
source activate py3 # 激活py3环境 
conda install ipykernel # 安装ipykernel模块 
python -m ipykernel install --user --name py3 --display-name "py3" # 进行配置 
jupyter notebook # 启动jupyter notebook，然后在"新建"中就会有py3这个kernel了

vscode额外库代码提示

修改json配置文件

"python.pythonPath": "D:\\software\\anaconda\\envs\\bigData\\python.exe",
"python.autoComplete.extraPaths": [
  "D:\\software\\anaconda\\envs\\bigData",
  "D:\\software\\anaconda\\envs\\bigData\\Lib\\site-packages"
],

第六天

智联招聘数据爬取

简单数据爬取实例

import requests
from bs4 import BeautifulSoup
import random
import hashlib
import time
import json
from string import Template

runTimes = 10
waitTime = 5
jobDict = {}
dataTemplate = '> 工作名称\n\n`${jobName}`\n\n> 公司\n\n[${companyName}](${companyUrl})\n\n![Logo](${companyLogo}#logoImg)\n\n`${companyType}`\n\n> 城市\n\n`${city}`\n\n> 学历要求\n\n`${eduLevel}`\n\n> 薪资\n\n`${salary}`\n\n> 福利\n\n${welfare}\n\n---\n\n'


def spider_zhilian_content(url, headers, params):
    response = requests.get(url, headers=headers, params=params)
    print(response.status_code)

    if response.status_code == 200:
        response.encoding = 'utf-8'
        respJson = response.json()
        # data = json.loads(respJson['data'])
        data = respJson['data']['results']

        content = ''

        for item in data:
            jobDict[item['jobName']] = item['number']
            welfare = ''
            for w in item['welfare']:
                welfare += '`'+w+'` '
            new_data = Template(dataTemplate).substitute(jobName=item['jobName'], jobNumber=item['number'], companyName=item['company']['name'], companyUrl=item['company']['url'], companyLogo=item[
                'companyLogo'], companyType=item['company']['type']['name'], city=item['city']['display'], eduLevel=item['eduLevel']['name'], salary=item['salary'], welfare=welfare)
            content += new_data
        return content

# 随机生产请求参数
def params_generator(times):
    _v = str(random.random())[0:10]
    hl = hashlib.md5()
    hl.update(_v.encode(encoding='utf-8'))
    cid = str(hl.hexdigest())
    cid = cid[0:8]+'-'+cid[8:12]+'-'+cid[12:16]+'-'+cid[16:20]+'-'+cid[20:32]
    hl.update(cid.encode(encoding='utf-8'))
    prid = str(hl.hexdigest())+_v[2:7]

    start = times*90

    return {
        "start": start,
        "pageSize": 90,
        "cityId": 489,
        "salary": "0,0",
        "workExperience": -1,
        "education": -1,
        "companyType": -1,
        "employmentType": -1,
        "jobWelfareTag": -1,
        "kw": "大数据",
        "kt": 3,
        "_v": _v,
        "x-zp-page-request-id": prid,
        "x-zp-client-id": cid
    }


headers = {
    "Accept": "application/json, text/plain, */*",
    "Referer": "https://sou.zhaopin.com/?jl=489&sf=0&st=0&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&kt=3",
    "Origin": "https://sou.zhaopin.com",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
}
url = 'https://fe-api.zhaopin.com/c/i/sou'

times = 0
spider_time_start = time.time()

# if __name__ == 'main':
f = open('zhilian.md', 'a+', encoding='utf-8')

totalContent = '## 数据列表\n\n'
while(times < runTimes):
    params = params_generator(times)
    content = spider_zhilian_content(url, headers, params)
    totalContent += content
    time.sleep(waitTime)
    times += 1
spider_time_end = time.time()
spider_count_time = spider_time_end-spider_time_start-runTimes*waitTime

imgStyle = '\n\n'
jobIndex = '> 爬取关键字：`大数据`\n> 爬取数据量：`' + \
    str(len(jobDict))+'`\n去除等待时间('+str(runTimes*waitTime) + \
    's)爬取时间：`'+str(spider_count_time)+'`\n\n## 目录\n\n'

for k, v in jobDict.items():
    jobIndex += '- ['+k+'](#'+v+')\n'
jobIndex += '\n---\n\n'

f.write(imgStyle+jobIndex+totalContent)
f.close()

实例改进

创建类

class ZhiLian:
    def __init__(self, *args, **kwargs):
        self.headers = {
            "Accept": "application/json, text/plain, */*",
            "Referer": "https://sou.zhaopin.com/?jl=489&sf=0&st=0&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&kt=3",
            "Origin": "https://sou.zhaopin.com",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
        }
        self.url = 'https://fe-api.zhaopin.com/c/i/sou'
        self.f = open('spider-zhilian.csv', 'w', encoding='utf-8')
        self.out = _csv.writer(self.f)
        self.out.writerow(['工作ID', '工作名', '公司名', '公司Url', '公司Logo', '公司类型',
                           '城市', '学历要求', '薪资', '福利', '招聘人数', '工作亮点', '职位描述', '技能要求'])
        _v = str(random.random())[0:10]
        hl = hashlib.md5()
        hl.update(_v.encode(encoding='utf-8'))
        cid = str(hl.hexdigest())
        cid = cid[0:8]+'-'+cid[8:12]+'-' + \
            cid[12:16]+'-'+cid[16:20]+'-'+cid[20:32]
        hl.update(cid.encode(encoding='utf-8'))
        prid = str(hl.hexdigest())+_v[2:7]
        self._v = _v
        self.cid = cid
        self.prid = prid

为类添加生成请求参数方法

# 产生请求参数
def params_generator(self, times, keyword):
    start = times*90
    return {
        "start": start,
        "pageSize": 90,
        "cityId": 489,
        "salary": "0,0",
        "workExperience": -1,
        "education": -1,
        "companyType": -1,
        "employmentType": -1,
        "jobWelfareTag": -1,
        "kw": keyword,
        "kt": 3,
        "_v": self._v,
        "x-zp-page-request-id": self.prid,
        "x-zp-client-id": self.cid
    }

解析接口返回的前10项数据

前10项数据可以直接解析智联API接口返回的json数据

# 发送请求
def getJsonData(self, params):
    response = requests.get(self.url, headers=self.headers, params=params)
    if response.status_code == 200:
        response = response.json()
        return response['data']['results']
    return False

# 解析返回数据
def parseData(self, jsonData):
    for item in jsonData:
        # try:
        list = []
        jobNumber = item['number']
        jobName = item['jobName']
        companyName = item['company']['name']
        companyUrl = item['company']['url']
        companyLogo = item['companyLogo']
        companyType = item['company']['type']['name']
        city = item['city']['display']
        eduLevel = item['eduLevel']['name']
        salary = item['salary']
        welfare = item['welfare']

        # 获取后四个数据
        (recruit, highlight, describe, skill) = self.getDetailData(
            item['positionURL'])

        list.extend([jobNumber, jobName, companyName, companyUrl, companyLogo, companyType,
                        city, eduLevel, salary, welfare, recruit, highlight, describe, skill])

        self.out.writerow(list)

        # except:
        #     print('function:parseData Error!')

获取后四个数据

后四个数据需要爬取页面，该页面有时需要验证，可以直接爬取，检查爬取的数据是否为空，然后保存此时解析的html代码，在本地环境运行，方便后续检查验证机制

def getDetailData(self, url):
    response = requests.get(url)

    if response.status_code == 200:
        response.encoding = 'utf-8'
        d = pq(response.text)
        """ print(len(d('#nocaptcha .nc_iconfont.btn_slide')))
        # 检查是否需要验证
        if len(d('#nocaptcha .nc_iconfont.btn_slide')) > 0:
            zlms = ZhilianMS(url)
            flag, html = zlms.start_simulate()
            zlms.close()
            print('?')
            if flag == True:
                d = pq(html)
            else:
                # 验证失败
                return '', '', '', '' """
        # 招收人数
        recruit = d(
            '.summary-plane .summary-plane__info li:last').text()[1:-1]
        # 检查爬取的内容是否为空(有时可能是页面无数据，而不是需要验证，此时使用上面的方法)
        if len(recruit) == 0:

            # 如果需要验证，输出该验证页面的源码为imgCaptcha.htm，方便使用浏览器检查元素
            # ff = open('imgCaptcha.htm', 'r+', encoding='utf-8')
            # if len(ff.read()) == 0:
            #     ff.write(response.text)
            # ff.close()

            ############
            # 破解智联验证，不需要验证时注释这段代码
            zlms = ZhilianMS(url)
            flag, html = zlms.start_simulate(time=0.1)
            zlms.close()
            if flag == True:
                d = pq(html)
            else:
                # 验证失败
                return '', '', '', ''
            ############
        highlightList = d('.a-center-layout__content .highlights__content span')
        highlight = []
        for i in highlightList.items():
            highlight.append(i.text())
        # 职位描述
        describe = d('.describtion .describtion__detail-content').text().strip('\n')
        # 技能要求
        skill = d('.description .describtion__skills-content').text().split(' ')
        return recruit, highlight, describe, skill

本地环境运行智联验证页面

使用getDetailData方法保存智联验证页面到本地为imgCaptcha.htm，使用NodeJS搭建本地HTTPS服务器

NodeJS搭建本地HTTPS方法可以参考我之前的MQTT + NodeJS + Weixin Small-Program文章中的NodeJS搭建本地HTTPS服务器部分

签证完成后启动简单的HTTPS服务器

const https = require('https')
const fs = require('fs')

const options = {
  key: fs.readFileSync('your_ssl_addres/server.key'),
  cert: fs.readFileSync('your_ssl_addres/server.crt')
};
https.createServer(options, function (req, res) {
  setTimeout(() => {
    let html = fs.readFileSync('./imgCaptcha.htm')
    res.end(html);
  }, 1000)
}).listen(9008);

现在可以检查验证页面了，这是后面破解验证的基础

模拟人手动滑动滑块验证

记录手动滑动轨迹

首先记录鼠标移动轨迹，便于之后分析手动滑动的特征，可以使用软件，如Mouse Controller，参考文章使用 Python + Selenium 破解滑块验证码第四部分，但我使用发现记录轨迹十分诡异，决定使用javascript写个简单的记录方法

let mFlag, sTime, eTime, sClientX, eClientX
let time = []
let track = []

btn = document.querySelector('.nc_iconfont.btn_slide')

function mouseDown(e) {
  sTime = new Date().getTime()
  mFlag = true
  sClientX = e.clientX

  time.push(0)
  track.push(0)
}

function mouseUp(e) {
  eTime = new Date().getTime()
  mFlag = false
  eClientX = e.clientX
  time.push(eTime - sTime)
  track.push(eClientX - sClientX)

  console.log(time.toString())
  console.log(track.toString())

  var blob = new Blob([time.toString() + '\n\n' + track.toString()], { type: 'text/plain' })
  a = document.createElement('a')
  a.download = 'recorder.txt'
  a.href = window.URL.createObjectURL(blob)
  a.dataset.downloadurl = ['text/plain', a.download, a.href].join(':')

  me = document.createEvent('MouseEvents')
  me.initMouseEvent('click', true, false, window, 0, 0, 0, 0, 0, false, false, false, false, 0, null)
  a.dispatchEvent(me)

  time = []
  track = []
}


function mouseMove(e) {
  if (mFlag) {
    time.push(new Date().getTime() - sTime)
    track.push(e.clientX - sClientX)
  }
}

btn.addEventListener('mousedown', mouseDown, null)
btn.addEventListener('mouseup', mouseUp, null)
btn.addEventListener('mousemove', mouseMove)

我的记录结果如下:

时间：[0, 7, 23, 32, 39, 43, 56, 63, 71, 80, 88, 96, 103, 111, 119, 128, 136, 147, 151, 159, 167, 171, 180, 187, 196, 203, 211, 219, 227, 235, 243, 251, 263, 271, 279, 287, 295, 299, 308, 320, 327, 335, 343, 351, 360, 368, 375, 383, 391, 400, 407, 415, 424, 428, 435, 444, 451,460, 467, 475, 483, 492, 499, 510, 516, 524, 533, 638, 646, 732]
x轴相对偏移：[0, 1, 3, 4, 5, 8, 8, 10, 11, 13, 16, 17, 20, 23, 27, 30, 32, 34, 36, 38, 40, 41, 44, 47, 49, 52, 54, 57, 59, 63, 66, 69, 72, 76, 78, 82, 88, 93, 99, 103, 104, 108, 112, 117, 123, 128, 133, 136, 140, 145, 152, 158, 165, 173, 181, 189, 196, 204, 211, 217, 224, 231, 237, 243, 248, 254, 258, 264, 265, 265]

感兴趣的可以写个自动机制，之后多次模拟以提高准确性

分析手动滑动曲线

画出曲线如下：

可以使用numpy的曲线拟合工具进行拟合，发现3次多项式拟合较为合适

得到曲线方程后就可以去使用selenium模拟滑动了

# 文件名mouse_track_parser.py
# 曲线拟合代码
import pylab
import numpy as np
from scipy.optimize import curve_fit

class mouseTrackParser:
    time = []
    track = []

    def __init__(self, time, track):
        self.time = time
        self.track = track

    def myPolyfit(self, xx, exp):
        # 用多项式拟合
        fit3 = np.polyfit(self.time, self.track, exp)
        formula3 = np.poly1d(fit3)

        yy = np.zeros(len(xx))
        for idx, x in enumerate(xx):
            li = np.zeros(exp+1)
            for i in range(0, exp+1):
                li[i] = fit3[exp-i]*x**i
            yy[idx] = np.sum(li)
        return yy, fit3

    def expFit(self, xx):
        def func(x, a, b):
            return a*np.exp(b/x)
        popt, pcov = curve_fit(func, self.time, self.track)
        # popt里面是拟合系数，读者可以自己help其用法
        a = popt[0]
        b = popt[1]
        return func(xx, a, b)


if __name__ == '__main__':
    timeData = [0, 7, 23, 32, 39, 43, 56, 63, 71, 80, 88, 96, 103, 111, 119, 128, 136, 147, 151, 159, 167, 171, 180, 187, 196, 203, 211, 219, 227, 235, 243, 251, 263, 271, 279, 287,
                295, 299, 308, 320, 327, 335, 343, 351, 360, 368, 375, 383, 391, 400, 407, 415, 424, 428, 435, 444, 451, 460, 467, 475, 483, 492, 499, 510, 516, 524, 533, 638, 646, 732]
    trackData = [0, 1, 3, 4, 5, 8, 8, 10, 11, 13, 16, 17, 20, 23, 27, 30, 32, 34, 36, 38, 40, 41, 44, 47, 49, 52, 54, 57, 59, 63, 66, 69, 72, 76, 78, 82, 88, 93, 99,
                 103, 104, 108, 112, 117, 123, 128, 133, 136, 140, 145, 152, 158, 165, 173, 181, 189, 196, 204, 211, 217, 224, 231, 237, 243, 248, 254, 258, 264, 265, 265]
    mouseTrackParser = mouseTrackParser(timeData, trackData)
    pylab.plot(timeData, trackData, '.')
    pylab.plot(timeData, trackData, '-')
    xx = np.arange(0, 1000)
    yy, fits = mouseTrackParser.myPolyfit(xx, 3)
    # yy = expFit(xx, time, track)
    pylab.plot(xx, yy, 'r')
    pylab.show()

selenium模拟人手动滑动

下载与Chrome浏览器对应的chromedreiver，解压到Chrome安装目录Google\Chrome\Application，配置环境变量

创建ZhilianMS类

# 文件名zhilian_ms.py
# 导入的包
from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains
from time import sleep
import numpy as np
import pylab
from mouse_track_parser import mouseTrackParser

# 默认timeData和trackData
# timeData = [], trackData = []

class ZhilianMS:
    def __init__(self, url, chromepath='C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe', timeData=timeData, trackData=trackData):
        self.driver = webdriver.Chrome(chromepath)
        self.timeData = timeData
        self.trackData = trackData
        self.url = url
        self.action = ActionChains(self.driver)

    # 生成鼠标运动轨迹方法
    # offset：滑动距离，time：滑动时间
    def get_trace(self, offset, time):
        timeRatio = time*1000/np.max(self.timeData)
        trackRatio = offset/np.max(self.trackData)

        msTime = np.array(self.timeData)*timeRatio
        msTrack = np.array(self.trackData)*trackRatio
        xx = np.arange(0, time*1000)
        yy, fits = mouseTrackParser(
            msTime, msTrack).myPolyfit(xx, 3)
        yy = np.abs(np.floor(offset/np.max(yy)*yy))

        # pylab.plot(timeData, trackData, '.')
        # pylab.plot(msTime, msTrack, '-')
        # pylab.plot(xx, yy, '.')
        # pylab.show()

        return xx, yy

    # 网上给出的参考方法
    """ def get_trace(self, distance):
    '''
    :param distance: (Int)缺口离滑块的距离
    :return: (List)移动轨迹
    '''

    # 创建存放轨迹信息的列表
    trace = []
    # 设置加速的距离
    faster_distance = distance*(4/5)
    # 设置初始位置、初始速度、时间间隔
    start, v0, t = 0, 0, 0.2
    # 当尚未移动到终点时
    while start < distance:
        # 如果处于加速阶段
        if start < faster_distance:
            # 设置加速度为2
            a = 1.5
        # 如果处于减速阶段
        else:
            # 设置加速度为-3
            a = -3
        # 移动的距离公式
        move = v0 * t + 1 / 2 * a * t * t
        # 此刻速度
        v = v0 + a * t
        # 重置初速度
        v0 = v
        # 重置起点
        start += move
        # 将移动的距离加入轨迹列表
        trace.append(round(move))
    # 返回轨迹信息
    return trace """

    # 封装判断元素是否存在方法
    def isElemExist(self, cssSelector):
        flag = True
        try:
            self.driver.find_element_by_css_selector(cssSelector)
            return flag
        except:
            flag = False
            return flag

    # 判断是否需要验证
    def if_need_verify(self, sliderSelector='#nocaptcha .nc_iconfont.btn_slide', wrapperSelector='.nc-container .nc_scale',):
        try:
            # 滑块
            slide = self.driver.find_element_by_css_selector(sliderSelector)
            # 滑块包裹
            nc_scale = self.driver.find_element_by_css_selector(
                wrapperSelector)
        except:
            print('未找到元素')
            return False
        return True

    # 模拟滑动方法
    def drag_and_drop(self, ele, offset, time):
        xx, yy = self.get_trace(offset, time)
        self.action = ActionChains(self.driver)
        self.action.click_and_hold(ele).perform()
        for i in range(0, len(yy)):
            if self.if_need_verify() == False:
                break
            try:
                self.action.move_by_offset(yy[i], 0).perform()
                # self.action.reset_actions()
            except:
                break
            # ActionChains(driver).drag_and_drop_by_offset(ele, y, 0).perform()
        self.action.release().perform()
        sleep(3)
        warnElem = self.isElemExist('.nc-container .errloading')
        if warnElem == True:
            warnElem = self.driver.find_element_by_css_selector(
                '.nc-container .errloading')
            refreshBtn = warnElem.find_element_by_tag_name('a')
            refreshBtn.click()
        else:
            return True
    
    # 开始模拟
    def start_simulate(self, sliderSelector='#nocaptcha .nc_iconfont.btn_slide', wrapperSelector='.nc-container .nc_scale', time=1, timeOut=3):
        self.driver.maximize_window()
        self.driver.get(self.url)
        self.driver.implicitly_wait(1)

        tryTime = 0
        while self.if_need_verify(sliderSelector, wrapperSelector) and tryTime < timeOut:
            tryTime += 1
            # 滑块
            slide = self.driver.find_element_by_css_selector(sliderSelector)
            # 滑块包裹
            nc_scale = self.driver.find_element_by_css_selector(
                wrapperSelector)
            slide_width = int(slide.value_of_css_property('width')[0:-2])
            nc_scale_width = int(nc_scale.value_of_css_property('width')[0:-2])
            print(slide_width, nc_scale_width)
            self.drag_and_drop(slide, nc_scale_width-slide_width, time)

            sleep(1)

        if tryTime < timeOut:
            return True, self.driver.find_element_by_xpath(
                "//*").get_attribute("outerHTML")
        return False, None

    # 结束并退出
    def close(self):
        self.driver.quit()

if __name__ == '__main__':
    zlms = ZhilianMS('https://127.0.0.1:9008')
    flag, html = zlms.start_simulate()
    print(flag)

获取后四项数据

现在可以取消getDetailData方法中获取后四项数据代码的注释了

实例化ZhiLian对象，对关键词大数据和python都获取十页数据

zl = ZhiLian()
for times in range(0, 10):
    data = zl.getJsonData(zl.params_generator(times, '大数据'))
    if(data == False):
        pass
    else:
        zl.parseData(data)
for times in range(0, 10):
    data = zl.getJsonData(zl.params_generator(times,'python'))
    if(data == False):
        pass
    else:
        zl.parseData(data)
zl.fclose()

问题

selenium还是拟合函数的问题？

第七天

内容总结

启动hdfs分布式文件系统

停止分布式集群，修改/opt/hadoop-2.6.4/etc/hadoop/slaves文件，启动伪分布式系统

cd /opt/hadoop-2.6.4
./sbin/stop-yarn.sh
./sbin/stop-dfs.sh

vim etc/hadoop/slaves
## 注释掉slave节点，添加localhost节点
# slave0
# slave1
# slave2
localhost

## 重新启动伪分布式集群
./sbin/start-dfs.sh
./sbin/start-yarn.sh

将爬虫爬出来的数据上传给hdfs

./bin/hdfs dfs -mkdir /input
./bin/hdfs dfs -put data.csv /input/

配置windows本地写MapReduce程序环境

MapReduce程序执行流程

可以使用eclipse或者IntelliJ Idea，这里创建maven项目，并使用vscode开发

准备工作：

安装JDK，配置环境变量
解压hadoop-common-2.2.0-bin-master.zip，配置环境变量，新建变量名HADOOP_HOME，值为解压地址
添加path，%HADOOP_HOME%/bin
新建测试文本test并上传至dfs的input目录

Hello Java
Hello Python
Hello Hadoop
Hello JavaScript
Hello C++
Hello C#
Hello World
Hello World
Hello Java
Hello Python
Hello Hadoop
Hello Java
Hello Python
Hello Hadoop
HHello Hadoop
Hello JavaScript
Hello C++
Hello C#
Hello World
Hello World
Hello Java
Hello Hadoop
Hello JavaScript
Hello C++

./bin/hdfs dfs -mkdir /input
./bin/hdfs dfs -put test /input/

如果使用VSCode则需要安装插件以支持java，配置方法网上有教程

编写MapReduce程序

pom.xml配置如下：


    4.0.0
    cn.itcast.hadoop.mr
    datacount
    0.0.1-SNAPSHOT
    
        1.8
        1.8
    
    
        
            org.apache.hadoop
            hadoop-common
            2.2.0
        
        
        
            org.apache.hadoop
            hadoop-client
            2.2.0

新建WordCountMapper.java

package com.poryoung.mapreduce;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMapper extends Mapper {
    @Override
    /**
     * @Author: Administrator
     * @Description: TODO
     * @Date: 11:49 2019/7/8
     * @param key
     * @param value
     * @param context
     * @return: void
     * @throw
     */
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] words = line.split(" ");
        for (int i = 0; i < words.length; i++) {
            context.write(new Text(words[i]), new IntWritable(1));
        }
    }
}

新建WordCountReducer.java

package com.poryoung.mapreduce;

import java.io.IOException;

import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.Reducer;

public class WordCountReducer extends Reducer {
    @Override
    protected void reduce(Text key, Iterable ite, Context context)
            throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable i : ite) {
            sum += i.get();
        }
        context.write(key, new IntWritable(sum));
    }
}

新建WordCountDriver.java

package com.poryoung.mapreduce;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountDreiver {
    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();

        // 1.创建一个job和任务入口
        Job job = Job.getInstance(configuration);
        job.setJarByClass(WordCountDreiver.class); // main方法所在的class

        // 2.指定job的mapper和输出的类型
        job.setMapperClass(WordCountMapper.class);// 指定Mapper类
        job.setMapOutputKeyClass(Text.class); // k2的类型
        job.setMapOutputValueClass(IntWritable.class); // v2的类型

        // 3.指定job的reducer和输出的类型
        job.setReducerClass(WordCountReducer.class);// 指定Reducer类
        job.setOutputKeyClass(Text.class); // k4的类型
        job.setOutputValueClass(IntWritable.class); // v4的类型

        // 4.指定job的输入和输出
        FileInputFormat.setInputPaths(job, new Path("hdfs://master:9000/input/test"));
        FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/output/"));

        // 5.执行job
        job.waitForCompletion(true);
        System.out.print(job.waitForCompletion(true) ? '0' : '1');
    }
}

执行WordCountDreiver主函数，观察结果

C#	3
C++	3
HHello	1
Hadoop	5
Hello	27
Java	5
JavaScript	3
Python	3
World	6

常见问题

权限问题

./bin/hdfs dfs -chown -R /

第八天

内容总结

熟悉hive常用操作

和mysql操作基本一致，Hive基本命令整理

使用hive词频统计

使用第七天MapReduce程序中用到的test文件作为测试文件

启动伪分布式集群，启动yard

cd /opt/hadoop-2.6.4
./sbin/start-dfs.sh
./sbin/start-yard.sh

启动hive

hive

创建一张表，字段为txt，类型为String，以\t作为分隔

create table wc(txt String) row format delimited fields terminated by '\t';

载入test文件数据到表中

load data local inpath '/opt/hadoop-2.6.4/input/test' overwrite into table wc;

对数据进行分词，以为分隔符

select split(txt,' ') from wc;
select explode(split(txt,' ')) from wc;

统计各词出现的次数

select t1.word,count(t1.word) from (select explode(split(txt ,' ')) word from wc)t1 group by t1.word;

结果如下：

使用MapReduce进行数据清洗

使用第六天爬取的zhilian.csv智联招聘数据作为源数据，清洗过滤其空数据

将数据上传到nameNode节点，然后上传到hdfs文件系统

cd /opt/hadoop-2.6.4
./bin/hdfs dfs -put ./input/zhilian.csv /input/

观察数据结构特点，编写CleanMapper程序

package com.poryoung.mapreduce;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
import java.util.ArrayList;

public class CleanMapper extends Mapper {
    @Override
    protected void map(LongWritable key, Text value, Mapper.Context context)
            throws IOException, InterruptedException {
        // 不处理第一行抬头
        if (!key.toString().equals("0")) {
            // 正则匹配非双引号内的逗号，使用匹配的逗号分割文本
            String[] strList = value.toString().split(",(?=([^\"]*\"[^\"]*\")*[^\"]*$)");
            ArrayList arrayList = new ArrayList();
            for (int i = 0; i < strList.length; i++) {
                String str = strList[i].trim();
                if (str.isEmpty() || str.equals("[]") || str.equals("[\"\"]")) {
                    // 过滤空数据
                    return;
                }
                arrayList.add(strList[i]);
            }
            // 将逗号分隔转为使用`|`分隔
            context.write(NullWritable.get(), new Text(String.join("|", arrayList)));
        } else {
            context.write(NullWritable.get(), value);
        }
    }
}

编写ReduceMapper程序

package com.poryoung.mapreduce;

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class ReduceMapper extends Reducer {
    @Override
    protected void reduce(NullWritable arg0, Iterable values,
            Reducer.Context context) throws IOException, InterruptedException {
        int count = 0;
        for (Text text : values) {
            String[] dataList = text.toString().split("\\|");
            if (count == 0) {
                count = dataList.length;
            } else if (dataList.length == count) {
                context.write(NullWritable.get(), new Text(String.join("|", dataList)));
            }
        }
    }
}

编写主类，运行程序

package com.poryoung.mapreduce;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Main {

    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();
        // 1.创建一个job和任务入口
        Job job = Job.getInstance(configuration);
        job.setJarByClass(Main.class); // main方法所在的class

        // 2.指定job的mapper和输出的类型
        job.setMapperClass(CleanMapper.class);// 指定Mapper类
        job.setMapOutputKeyClass(NullWritable.class); // k2的类型
        job.setMapOutputValueClass(Text.class); // v2的类型

        // 3.指定job的reducer和输出的类型
        job.setReducerClass(ReduceMapper.class);// 指定Reducer类
        job.setOutputKeyClass(NullWritable.class); // k4的类型
        job.setOutputValueClass(Text.class); // v4的类型

        // 4.指定job的输入和输出
        FileInputFormat.setInputPaths(job, new Path("hdfs://master:9000/input/zhilian.csv"));
        FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/output/zhilian/"));
        new Path("hdfs://master:9000/").getFileSystem(configuration)
                .delete(new Path("hdfs://master:9000/output/zhilian/"));
        // 5.执行job
        job.waitForCompletion(true);
        System.out.print(job.waitForCompletion(true) ? '0' : '1');
    }
}

利用hive进行数据分析

将清洗后的数据保存到hive中task数据库的cleandata表

create database task;
use task;
# 根据csv表的结构创建数据表
create table cleandata(jid String,jname String,company String,companyUrl String,companyLogo String,companyType String,city String,edu String,salary String,welfare String,recruit int,hightlight String,desc String,skill String)ROW FORMAT DELIMITED FILEDS TERMINATED BY '|' STORED AS TEXTFILE;
# 查看表结构
desc cleandata;
# 将清洗的数据加载到表中
load data inpath '/output/zhilian/part*' into table cleandata;
# 查看是否加载成功
select * from cleandata limit 5;

统计各岗位的招聘人数

创建jobRecruit表，用来保存各岗位招聘人数信息

create table jobRecruit(jname String,recruit int);

统计各个岗位招聘数量，并写入到jobRecruit表中

# jname为cleandata中爬取到的岗位名，recruit为爬取到的招聘人数
insert into table jobRecruit (select jname,sum(recruit) as recruit from cleandata group by jname);
# 查看统计结果

统计岗位描述中出现的编程语言频次

创建key_count_dirty表，用来保存初步统计的脏数据

create table key_count_dirty(key String,count int);

使用正则表达式[^a-zA-Z0-9\#\+\. ]，提取关键词，由于数据中英文描述较少，忽略这一部分的关键词，将空格也加入到反匹配中

insert into table key_count_dirty (select t.key as key,count(*) as count from ((select explode(split(desc,'[^a-zA-Z0-9\#\+\. ]')) as key from cleandata)as t) group by t.key);

继续处理脏数据，新建表key_count_clean1

create table key_count_clean1(key String,count int);
# 过滤纯数字，过滤薪资，+开头或者一个+结尾的key
insert into table key_count_clean1 (select key,count from key_count_dirty where key not regexp '^\\d|^\\+|[a-zA-Z]{2,}\\+');

提取被过滤的部分带符号关键词，如+python，java+

create table get_back(key String,count int);
insert into table get_back select key,count from key_count_dirty where key regexp '^\\+[a-zA-z]|[a-zA-z]\\+(?!\\+)';
# 按+将关键词分开，将统计结果写入key_count_clean1
insert into table key_count_clean1 select t.key,count(*) from((select explode(split(key,'\\+')) as key from get_back) as t)group by t.key;

将所有key转为小写，合并统计

create table key_count_clean2(key String,count int);
insert into table key_count_clean2 select lower(key) as key,sum(count) as count from key_count_clean1 group by key;

查看统计结果

select * from key_count_clean2;

p.s insert overwrite可以覆盖原表，避免新建表

你可能感兴趣的:(大数据)

Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
2023-08-19 余則徐
2023.8.19.达视津气象2023.8.19.达视津气象阴晴不定朋友们早上好！今天是2023.8.19.星期六，农历七月初四的6:41；这个时间的干支历法是癸卯年庚申月己酉日丁卯时。气象预报不准，是常态；以前不准，现在有了超级计算机进行大数据运算了，还是不准：超级计算机运算，不如老农民抬头看天。而老农民却说，我不但要抬头看天，还要低头看河滩哪里有王八蛋。原来王八是可以预测每年有没有水患的！如果
喜爱购有什么新消息？如何打造百城万店氧惠好物
自2020年10月起，西安喜爱购商贸商贸股份有限公司全力打造的“百城万店”新零售商业模式应运而生。在探索新零售的道路上,通过互联网、大数据、云计算、人工智能等新技术,重构“人、货、场”商业元素,秉持“舍利差赚服务”经营理念,在全国至少一百个城市的“一千户以上的中高端社区”,打造至少两万家“一区一店”社区生活超市。大家好！我是氧惠最大团队&联合创始人氧惠达人导师。氧惠佣金更高，模式更好，终端用户不流
305李03days作业#裂变实验室# 李_d891
A账号大数据里加的人B账号精筛选一遍的客户C账号vip客户深度信任客户今天事情有点多，没有好好学习，明天重新写一个补到新作业里。
Apache Ignite 的并发控制：实现高性能事务处理的关键 AI天才研究院 AI实战 AI人工智能与大数据 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着大数据时代的到来，数据量的增长和计算能力的提升使得传统的数据库和计算模型已经无法满足业务需求。为了应对这些挑战，分布式计算和存储技术得到了广泛的研究和应用。ApacheIgnite是一款高性能的分布式数据库和计算平台，它可以提供实时性能和高可用性，同时支持事务处理和并发控制。在这篇文章中，我们将深入探讨ApacheIgnite的并发控制机制，以及如何实现高性能事务处理。我们将从以下
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
时序数据库的工业级对决：对比 Apache IoTDB 和 InfluxDB 时序数据说时序数据库 apache iotdb 数据库大数据开源
在数字化浪潮中，物联网（IoT）与工业大数据领域蓬勃发展，时序数据呈爆发式增长。时序数据库作为管理这类数据的核心工具，其性能、功能和适应性直接影响到整个系统的运行效率与价值实现。ApacheIoTDB和InfluxDB作为时序数据库领域的佼佼者，被广泛应用于各类场景。深入剖析二者区别，对开发者、企业架构师和数据管理者而言，不仅能为项目选型提供科学依据，还能助力挖掘数据的最大价值。一、诞生背景与社区
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
女性职业新趋势：揭秘未来高薪热门行业氧惠爱高省
女生在职业选择上拥有广阔的空间，尤其是在当前快速发展的社会背景下，一些行业不仅成为了高薪热门，还提供了多样化的职业路径。以下是一些可能成为女生高薪热门选择的行业：➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。科技与互联网行业人工智能与大数据：随着人工智能和大数据技术的广泛应用，相
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息