demon % ！

大数据实训-大二下期

1、数据采集

1.1、创建scrapy爬虫项目

scrapy startproject qcwy_spider

1.2、创建爬虫文件

scrapy genspider job51 51job.com

1.3、编写items.py文件

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class QcwySpiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 职位名称
    name = scrapy.Field()
    # 薪资水平
    salary = scrapy.Field()
    # 招聘单位
    unit = scrapy.Field()
    # 工作地点
    address = scrapy.Field()
    # 工作经验
    experience = scrapy.Field()
    # 学历要求
    education = scrapy.Field()
    # 工作内容（岗位职责）
    content = scrapy.Field()
    # 任职要求（技能要求）
    ask = scrapy.Field()
    # contents = scrapy.Field()
    put_date = scrapy.Field()


class ChinahrSpiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 职位名称
    name = scrapy.Field()
    # 薪资水平
    salary = scrapy.Field()
    # 招聘单位
    unit = scrapy.Field()
    # 工作地点
    address = scrapy.Field()
    # 工作经验
    experience = scrapy.Field()
    # 学历要求
    education = scrapy.Field()
    # 工作内容（岗位职责）
    content = scrapy.Field()
    # 任职要求（技能要求）
    ask = scrapy.Field()
    # contents = scrapy.Field()
    put_date = scrapy.Field()

1.4、编写pipelines.py文件

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
from pymongo import MongoClient
import csv
import pyhdfs
import os
'''管道链接到mongodb'''

class QcwySpiderPipeline:
    '''启动爬虫调用'''
    def open_spider(self,spider):
        # self.client = MongoClient('localhost', 27017)
        # self.db = self.client.job1
        # # self.db = self.client.chinahr1
        # self.collection = self.db.job11
        # # self.collection = self.db.chinahr11
        store_file = os.path.dirname(__file__) + '/spiders/jobdata.csv'
        self.file = open(store_file, 'a+', encoding="utf-8", newline='')
        # csv写法
        self.writer = csv.writer(self.file, dialect="excel")

    '''关闭爬虫调用'''
    def close_spider(self,spider):
        #self.client.close()
        self.file.close()

    '''把item以字典的形式插入数据库'''
    def process_item(self, item, spider):
        # self.collection.insert_one(dict(item))
        if item['name']:
            self.writer.writerow([item['name'], item['salary'], item['unit'], item['address'],item['experience'],item['education'],item['put_date']])
        return item

1.5、编写settings.py文件

给scrapy框架配置参数
重要配置

ROBOTSTXT_OBEY = False
COOKIES_ENABLED = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
ITEM_PIPELINES = {
   'qcwy_spider.pipelines.QcwySpiderPipeline': 300,
}
#LOG_LEVEL = 'WARN'  #设置日志等级

1.6、编写爬虫文件

# -*- coding: utf-8 -*-
import scrapy
import re
import urllib.request
from ..items import QcwySpiderItem


class Job51Spider(scrapy.Spider):
    # 爬虫名
    name = 'job51'
    # 允许的域名
    allowed_domains = ['51job.com']
    job_name = urllib.request.quote("数据分析")  #数据分析、大数据开发工程师、数据采集
    start_urls = ['https://search.51job.com/list/000000,000000,0000,00,9,99,'+job_name+',2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=']

    '''用来实现翻页'''
    def parse(self, response):
        #print(response.url)
        last_page = re.findall(r"\d+",str(response.xpath('//*[@id="resultList"]/div[55]/div/div/div/span[1]/text()').extract_first()))[0]
        #print(last_page)
        for i in range(1,int(last_page)+1):
            next_url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,'+self.job_name+',2,'+str(i)+'.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
            #print(next_url)
            if next_url:
                yield scrapy.Request(next_url,dont_filter=True,callback=self.detailpage)

    '''实现获取每一页的详情页的链接'''
    def detailpage(self, response):
        #print(response.url)
        url_list = response.xpath('//*[@id="resultList"]/div')
        for urls in url_list:
            url = urls.xpath('p/span/a/@href').extract_first()
            if url:
                yield scrapy.Request(url,callback=self.detailparse)

    '''详情页解析'''
    def detailparse(self,response):
        print(response.url)
        item = QcwySpiderItem()
        name = response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/h1/text()').extract_first()
        if name:
            item['name'] = name.strip()
        else:
            item['name'] = ""
        salary = response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/strong/text()').extract_first()
        if salary:
            item['salary'] = salary.strip()
        else:
            item['salary'] = ""
        unit = response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/p[1]/a[1]/@title').extract_first()
        if unit:
            item['unit'] = unit.strip()
        else:
            item['unit'] = ""
        address = response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/p[2]/text()').extract_first()
        if address:
            item['address'] = address.strip()
        else:
            item['address'] = ""
        experience = response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/p[2]/text()[2]').extract_first()

        if experience:
            if experience.find("经验") != -1:
                item['experience'] = experience.strip()
            else:
                item['experience'] = "经验未知"
        else:
            item['experience'] = ""
        education = response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/p[2]/text()[3]').extract_first()
        if education:
            if re.findall(r'中专|中技|高中|大专|本科|硕士|博士',education):
                item['education'] = education.strip()
            else:
                item['education'] = "学历未知"
        else:
            item['education'] = ""
        put_date = response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/p[2]/text()[5]').extract_first()
        if put_date:
            if put_date.find("发布") != -1:
                item['put_date'] = put_date.strip().replace("发布","")
            else:
                item['put_date'] = "00-00"
        else:
            item['put_date'] = "00-00"
        # 所有的内容div 包含工作内容、任职要求
        contents = response.xpath('//div[@class="tBorderTop_box"]/div[@class="bmsg job_msg inbox"]/p').xpath(
            'string(.)').extract()
        item['content'] = ""
        item['ask'] = ""
        # 判断是否有任职要求的flag
        flag = True
        for text in contents:
            if text.find("任职资格") != -1 or text.find("岗位条件") != -1 or text.find("任职要求") != -1 or text.find(
                    "技能要求") != -1 or text.find("岗位要求") != -1:
                flag = False
            if flag:
                item['content'] += text
            if not flag:
                item['ask'] += text
        if item['content']:
            item['content'].strip()
        if item['ask']:
            item['ask'].strip()

        print(item['name'])
        return item

这里我写了两个网站的爬虫程序
另一个用的是CrawlSpider爬虫爬取中华英才网的校园子块
代码如下：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule, Request
from scrapy_redis.spiders import RedisCrawlSpider
from ..items import ChinahrSpiderItem



class ChinahrSpider(CrawlSpider):
    # 爬虫名
    name = 'chinahr'
    #允许的域名
    allowed_domains = ['campus.chinahr.com']
    #过滤的域名
    deny_domains = ['applyjob.chinahr.com']
    # start_urls = ['https://campus.chinahr.com/qz/P1']
    start_urls = ['http://campus.chinahr.com/qz/?job_type=10&city=1&']
    #redis_key = 'ChinahrSpider:start_url'
    '''
    在start_requests函数中设置cookies
    '''
    def start_requests(self):
        cookies = 'als=0; 58tj_uuid=e1e9f864-5262-4f4c-9dda-cb7860344ce6; __utma=162484963.1960492527.1593238075.1593238075.1593238075.1; __utmz=162484963.1593238075.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _ga=GA1.2.1960492527.1593238075; _gid=GA1.2.1625017600.1593340605; gr_user_id=e85ed439-4fc2-49d4-a05d-2597f19b1304; wmda_uuid=66d7dd3456494514b1b8e04c5e2557be; wmda_new_uuid=1; wmda_visited_projects=%3B1731779566337; serilID=72adad7106b87ac3860b08260e031f7c_86b5bf4969404759a695521b4e9964e9; regSessionId=2f33adb6f1ca43f185f39cc14fb9a9d2; gr_session_id_b64eaae9599f79bd=b1a1517a-fac1-47cf-86a8-7b785afd6870; wmda_session_id_1731779566337=1593390547857-4dbf6bf0-38f7-ad1e; channel=campus; init_refer=; new_uv=8; utm_source=; spm=; gr_session_id_b64eaae9599f79bd_b1a1517a-fac1-47cf-86a8-7b785afd6870=true; new_session=0; token=5ef9387e5ef938235f5a74050ee62a7depd22171; ljy-jobids=5ed7ad047a8d5f04aa2edd7a; _gat=1'
        cookies = {i.split("=")[0]: i.split("=")[1] for i in cookies.split("; ")}
        yield scrapy.Request(
            self.start_urls[0],
            cookies=cookies
        )

    '''
        分析出：'http://campus.chinahr.com/qz/?job_type=10&city=1&'为第一个url
                页数url：http://campus.chinahr.com/qz/P2/?job_type=10&city=1&  http://campus.chinahr.com/qz/P3/?job_type=10&city=1&  unique 去重
                正则匹配所有的页数:/qz/P\d{0,3}/\?job_type=10&city=1&    默认追加网站

                详情页url: http://campus.chinahr.com/job/5ef970495ad508035987099e  unique 去重
                正则匹配所有详情页：/job/.*
                .*是任意一串字符的匹配
        '''
    rules = (
        Rule(LinkExtractor(allow=('/qz/P\d{0,3}/\?job_type=10&city=1&',), unique=True)),
        Rule(LinkExtractor(allow=('/job/.*',), unique=True), callback='parse_item'),
    )
    '''解析详情页面'''
    def parse_item(self, response):
        item = ChinahrSpiderItem()
        print(response.url)
        name = response.xpath("/html/body/div[3]/div/div/h1/text()").extract_first()
        if name:
            item['name'] = name.strip()
        else:
            item['name'] = ""
        salary = response.xpath("/html/body/div[3]/div/div/strong/text()").extract_first()
        if salary:
            item['salary'] = salary.strip()
        else:
            item['salary'] = ""
        unit = response.xpath("/html/body/div[3]/div/div/div[2]/text()[2]").extract_first()
        if unit:
            item['unit'] = unit.strip()
        else:
            item['unit'] = ""

        address = response.xpath("/html/body/div[4]/div[2]/div/span[2]/text()").extract_first()
        if address:
            item['address'] = str(address).split("：")[1]
        else:
            item['address'] = ""
        # contents所有的内容div 包含工作内容、任职要求
        contents = response.xpath("/html/body/div[4]/div[2]/div/div[2]/p").xpath('string(.)').extract()
        item['experience'] = ""
        item['content'] = ""
        item['ask'] = ""
        # 判断是否有任职要求的flag
        flag = True
        #从contents中提取经验信息
        for text in contents:
            if text.find("经验") != -1:
                item['experience'] = text.split("经验")[1].split("；")[0].strip("：")
                break
        #从contents中提取任职资格和要求的信息
        for text in contents:
            if text.find("任职资格") != -1 or text.find("岗位条件") != -1 or text.find("任职要求") != -1 or text.find("技能要求") != -1:
                flag = False
            if flag:
                item['content'] += text
            if not flag:
                item['ask'] += text
        yield item

1.7、运行爬虫

scrapy crawl job51

数据源：
链接：https://pan.baidu.com/s/1SY4akkMAWNwEIoQl9MJCvA 提取码：nzjk

2、数据存储

这里数据存储的思路是：

flume配置agent文件

# The configuration file needs to define the sources,
# the channels and the sinks.
# Sources, channels and sinks are defined per agent,
# in this case called 'agent'

a3.sources = r3
a3.sinks = k3
a3.channels = c3

# Describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spoolDir = /data/bigdata/
a3.sources.r3.fileHeader = true
# #忽略所有以.tmp结尾的文件，不上传
a3.sources.r3.ignorePattern = ([^ ]*\.tmp)
a3.sources.r3.inputCharset = UTF-8
#
# # Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://192.168.76.101:9000/source/logs/%Y%m%d/%H
# #上传文件的前缀
a3.sinks.k3.hdfs.filePrefix = upload-
# #是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
# #多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
# #重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
# #是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
# #积攒多少个Event才flush到HDFS一次
a3.sinks.k3.hdfs.batchSize = 1000
# #设置文件类型，可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
# #多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 180
# #设置每个文件的滚动大小
a3.sinks.k3.hdfs.rollSize = 134217700
# #文件的滚动与Event数量无关
a3.sinks.k3.hdfs.rollCount = 0
# #最小冗余数
a3.sinks.k3.hdfs.minBlockReplicas = 1
#
#
# # Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 10000
a3.channels.c3.transactionCapacity = 1000
#
# # Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

运行flume 在flume根目录执行

bin/flume-ng agent -c conf -f conf/flume_hdfs5.conf -name a3 -Dflume.root.logger=DEBUG,console

下沉到hdfs上的效果图

3、数据分析

hive的安装可以参考：https://blog.csdn.net/weixin_43861175/article/details/90372513
接着就是使用hive进行数据分析

# hive
#创建数据库并使用
hive> create database shixun;
OK
Time taken: 0.228 seconds
hive> use shixun;
OK
Time taken: 0.043 seconds
hive>create table zhaopin_data(name string,salary string,unit string,address string,experience string,education string,put_date string) row format delimited fields terminated by ',';
#导入hdfs中的数据
hive>load data inpath '/source/logs/20200714/22/upload-.1594737964393' into table zhaopin_data ;
#创建一个表用于存放分析所需的字段
#分析所需字段：职位名、最高工资、最低工资、平均工资、地址、经验、发布时间
hive>create table fenxi_data(name string,max_salary double,min_salary double,avg_salary double,address string,experience string,put_date string);

#将薪资字段的数据分成最高、最低和平均工资 并插入到新建的fenxi_data表
hive>insert into fenxi_data
select name,case 
when if (regexp_extract(split(salary,'-')[1],'(.*?)万/月',1) is NULL or regexp_extract(split(salary,'-')[1],'(.*?)万/月',1) == '',false,true) then round(cast(regexp_extract(split(salary,'-')[1],'(.*?)万/月',1) as double),2)
when if (regexp_extract(split(salary,'-')[1],'(.*?)千/月',1) is NULL or regexp_extract(split(salary,'-')[1],'(.*?)千/月',1) == '',false,true) then round(cast(regexp_extract(split(salary,'-')[1],'(.*?)千/月',1) as double) / 12,2)
when if (regexp_extract(split(salary,'-')[1],'(.*?)万/年',1) is NULL or regexp_extract(split(salary,'-')[1],'(.*?)万/年',1) == '',false,true) then round(cast(regexp_extract(split(salary,'-')[1],'(.*?)万/年',1) as double) / 10,2)
else 0
end as max_salary,case 
when if (regexp_extract(split(salary,'-')[1],'(.*?)万/月',1) is NULL or regexp_extract(split(salary,'-')[1],'(.*?)万/月',1) == '',false,true) then round(cast(split(salary,'-')[0] as double),2)
when if (regexp_extract(split(salary,'-')[1],'(.*?)千/月',1) is NULL or regexp_extract(split(salary,'-')[1],'(.*?)千/月',1) == '',false,true) then round(cast(split(salary,'-')[0] as double) / 12,2)
when if (regexp_extract(split(salary,'-')[1],'(.*?)万/年',1) is NULL or regexp_extract(split(salary,'-')[1],'(.*?)万/年',1) == '',false,true) then round(cast(split(salary,'-')[0] as double) / 10,2)
else 0
end as min_salary,case 
when if (regexp_extract(split(salary,'-')[1],'(.*?)万/月',1) is NULL or regexp_extract(split(salary,'-')[1],'(.*?)万/月',1) == '',false,true) then round((round(cast(regexp_extract(split(salary,'-')[1],'(.*?)万/月',1) as double),2) + round(cast(split(salary,'-')[0] as double),2))/2,2)
when if (regexp_extract(split(salary,'-')[1],'(.*?)千/月',1) is NULL or regexp_extract(split(salary,'-')[1],'(.*?)千/月',1) == '',false,true) then round((round(cast(regexp_extract(split(salary,'-')[1],'(.*?)千/月',1) as double) / 12,2) + round(cast(split(salary,'-')[0] as double) / 12,2) )/2,2)
when if (regexp_extract(split(salary,'-')[1],'(.*?)万/年',1) is NULL or regexp_extract(split(salary,'-')[1],'(.*?)万/年',1) == '',false,true) then round((round(cast(regexp_extract(split(salary,'-')[1],'(.*?)万/年',1) as double) / 10,2) + round(cast(split(salary,'-')[0] as double) / 10,2))/2,2)
else 0
end as avg_salary,
address,
experience,
put_date
from zhaopin_data;

分析表数据结构如下：

准备工作做完了然后就是分析做题了

1）分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资，并作条形图将结果展示出来；

#创建表1 存放第一题的结果
hive>create table t1(name string,max_salary double,min_salary double,avg_salary double);

#查询 “数据分析”、“大数据开发工程师”、“数据采集” 的平均工资、最高工资、最低工资并插入
hive>insert into t1
select "数据分析",max(max_salary),min(min_salary),round(avg(avg_salary),2) from fenxi_data where min_salary != '0.0' and name like '%数据分析%' group by name like '%数据分析%'  ;

hive>insert into t1
select "大数据开发工程师",max(max_salary),min(min_salary),round(avg(avg_salary),2) from fenxi_data where min_salary != '0.0' and name like '%大数据开发工程师%' group by name like '%大数据开发工程师%' ;

hive>insert into t1
select "数据采集",max(max_salary),min(min_salary),round(avg(avg_salary),2) from fenxi_data where min_salary != '0.0' and name like '%数据采集%' group by name like '%数据采集%' ;

hive>select * from t1;

分析结果：

（2）分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数，并做饼图将结果展示出来。

#创建表2 存放第二题的结果
hive>create table t2(address string,num int);

#查询 “数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数
hive>insert into t2
select "成都",sum(num) from (select address,count(* ) as num from fenxi_data where (name like '%数据分析%' or name like '%大数据开发工程师%' or  name like '%数据采集%' or  name like '%大数据%') and address like '%成都%' group by address )as a;

hive>insert into t2
select "北京",sum(num) from (select address,count(* ) as num from fenxi_data where (name like '%数据分析%' or name like '%大数据开发工程师%' or  name like '%数据采集%' or  name like '%大数据%') and address like '%北京%' group by address )as a;

hive>insert into t2
select "上海",sum(num) from (select address,count(* ) as num from fenxi_data where (name like '%数据分析%' or name like '%大数据开发工程师%' or  name like '%数据采集%' or  name like '%大数据%') and address like '%上海%' group by address )as a;

hive>insert into t2
select "广州",sum(num) from (select address,count(* ) as num from fenxi_data where (name like '%数据分析%' or name like '%大数据开发工程师%' or  name like '%数据采集%' or  name like '%大数据%') and address like '%广州%' group by address )as a;

hive>insert into t2
select "深圳",sum(num) from (select address,count(* ) as num from fenxi_data where (name like '%数据分析%' or name like '%大数据开发工程师%' or  name like '%数据采集%' or  name like '%大数据%') and address like '%深圳%' group by address )as a;

hive>select * from t2;

分析结果：

（3）分析大数据相关岗位1-3年工作经验的薪资水平（平均工资、最高工资、最低工资），并做出条形图展示出来；

#创建表3 存放第三题的结果
hive>create table t3(name string,max_salary double,min_salary double,avg_salary double);

#查询 “数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位1-3年工作经验的薪资水平
hive>insert into t3
select "大数据",max(max_salary),min(min_salary),round(avg(avg_salary),2) from fenxi_data where (name like '%数据分析%' or name like '%大数据开发工程师%' or  name like '%数据采集%' or  name like '%大数据%') and (experience like '%1年%' or experience like '%2年%' or  experience like '%3年%') and min_salary != '0.0';

hive>select * from t3;

分析结果：

（4）分析大数据相关岗位几年需求的走向趋势，并做出折线图展示出来；

#创建表4 存放第四题的结果
hive>create table t4(put_date string,num int);

#查询大数据相关岗位几年需求的走向趋势
hive>insert into t4
select put_date,count(put_date) as num from fenxi_data where (name like '%数据分析%' or name like '%大数据开发工程师%' or  name like '%数据采集%' or  name like '%大数据%') and  put_date != '00-00' and put_date != '本科'  group by put_date;

hive>select * from t4;

分析结果：

4、转化

用sqoop将分析结果从hive表中导入到mysql的表中

1、在mysql中创建存结果的表

mysql> create database IF NOT EXISTS shixun DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci; 
Query OK, 1 row affected (0.11 sec)
mysql> use shixun;
Database changed

mysql> create table t1(name varchar(10),max_salary double,min_salary double,avg_salary double)charset utf8 collate utf8_general_ci;
mysql>create table t2(address varchar(2),num int)charset utf8 collate utf8_general_ci; 
mysql> create table t3(name varchar(10),max_salary double,min_salary double,avg_salary double)charset utf8 collate utf8_general_ci;
mysql> create table t4(put_date varchar(5),num int)charset utf8 collate utf8_general_ci;

在sqoop根目录下输入信息导入数据到mysql

bin/sqoop export --connect "jdbc:mysql://192.168.76.101:3306/shixun?useUnicode=true&characterEncoding=utf-8"  --username root --password 123456 --table  t1 --export-dir /user/hive/warehouse/shixun.db/t1 --input-fields-terminated-by '\001'
bin/sqoop export --connect "jdbc:mysql://192.168.76.101:3306/shixun?useUnicode=true&characterEncoding=utf-8"  --username root --password 123456 --table  t2 --export-dir /user/hive/warehouse/shixun.db/t2 --input-fields-terminated-by '\001'
bin/sqoop export --connect "jdbc:mysql://192.168.76.101:3306/shixun?useUnicode=true&characterEncoding=utf-8"  --username root --password 123456 --table  t3 --export-dir /user/hive/warehouse/shixun.db/t3 --input-fields-terminated-by '\001'
bin/sqoop export --connect "jdbc:mysql://192.168.76.101:3306/shixun?useUnicode=true&characterEncoding=utf-8"  --username root --password 123456 --table  t4 --export-dir /user/hive/warehouse/shixun.db/t4 --input-fields-terminated-by '\001'

导出的数据如下：

5、可视化

可视化整体就是用pymysql读取mysql中的数据然后用pyechart作图
话不多说，直接上代码

import pymysql
from pyecharts.charts import Bar, Pie, WordCloud,Line
from pyecharts import options as opts

'''
可视化类
'''


class Visual():
    '''可视化构造方法：连接数据库'''

    def __init__(self):
        # self.job_name = job_name  #职位名称
        db_params = {
            'host': '192.168.76.101',
            'user': 'root',
            'password': '123456',
            'database': 'shixun'
        }
        self.conn = pymysql.connect(**db_params)
        self.cursor = self.conn.cursor()


    def __del__(self):
        self.cursor.close()
        self.conn.close()

    '''第一题画图'''

    def draw_1(self):

        '''第一题的作图数据'''

        name_list = []
        max_salary_list = []
        min_salary_list = []
        average_salary_list = []

        sql = "select * from t1"
        self.cursor.execute(sql)
        for i in self.cursor.fetchall():
            name_list.append(i[0])
            max_salary_list.append(i[1])
            min_salary_list.append(i[2])
            average_salary_list.append(i[3])


        # 画柱状图

        c = (
            Bar(init_opts=opts.InitOpts(width="1600px", height="600px"), )
                .add_xaxis(name_list)
                .add_yaxis("最高薪资", max_salary_list)
                .add_yaxis("最低薪资", min_salary_list)
                .add_yaxis("平均薪资", average_salary_list)
                .set_global_opts(
                xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=15)),
                title_opts=opts.TitleOpts(title="薪资柱状图", subtitle="单位：万/月"),
                datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
            )
                .render("薪资柱状图.html")
        )

    '''第二题画图'''

    def draw_2(self):

        '''第二题的作图数据'''
        addres = []
        work_count = []


        sql = "select * from t2"
        self.cursor.execute(sql)
        for i in self.cursor.fetchall():
            addres.append(i[0])
            work_count.append(i[1])


        # 画饼图
        c = (
            Pie(init_opts=opts.InitOpts(width="1600px", height="800px"), )
                .add(
                "数据分析",
                [list(z) for z in zip(addres, work_count)],
                radius=["30%", "40%"],
                center=["25%", "35%"],
                label_opts=opts.LabelOpts(
                    position="outside",
                    formatter="{a|{a}}{abg|}\n{hr|}\n {b|{b}: }{c}  {per|{d}%}  ",
                    background_color="#eee",
                    border_color="#aaa",
                    border_width=1,
                    border_radius=4,
                    rich={
                        "a": {"color": "#999", "lineHeight": 22, "align": "center"},
                        "abg": {
                            "backgroundColor": "#e3e3e3",
                            "width": "100%",
                            "align": "right",
                            "height": 22,
                            "borderRadius": [4, 4, 0, 0],
                        },
                        "hr": {
                            "borderColor": "#aaa",
                            "width": "100%",
                            "borderWidth": 0.5,
                            "height": 0,
                        },
                        "b": {"fontSize": 16, "lineHeight": 33},
                        "per": {
                            "color": "#eee",
                            "backgroundColor": "#334455",
                            "padding": [2, 4],
                            "borderRadius": 2,
                        },
                    },
                ),
            )
                .set_global_opts(title_opts=opts.TitleOpts(title="岗位数饼图"))
                .render("岗位数饼图.html")
        )

    '''第三题画图'''

    def draw_3(self):

        '''第三题的做图数据'''

        sql = "select * from t3"
        self.cursor.execute(sql)
        data = self.cursor.fetchall()[0]
        min_salary = data[1]
        max_salary = data[2]
        average_salary = data[3]

        '''{"$regex": "2年经验|3年经验|1年经验"}'''
        c = (
            Bar(init_opts=opts.InitOpts(width="1600px", height="600px"), )
                .add_xaxis(["最高薪资", "最低薪资", "平均薪资"])
                .add_yaxis("薪资", [min_salary,max_salary,average_salary])
                # .add_yaxis("最低薪资", self.min_salary_list3)
                # .add_yaxis("平均薪资", self.average_salary_list3)
                .set_global_opts(
                xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=15)),
                title_opts=opts.TitleOpts(title="大数据相关薪资柱状图", subtitle="单位：万/月"),
                datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
            )
                .render("大数据相关薪资柱状图.html")
        )

    '''第四题画图'''

    def draw_4(self):
        '''第四题的作图数据'''
        put_dates = []
        date_count = []

        sql = "select * from t4 order by put_date"
        self.cursor.execute(sql)
        for i in self.cursor.fetchall():
            put_dates.append(i[0])
            date_count.append(i[1])

        c = (
            Line()
                .add_xaxis(xaxis_data=put_dates)
                .add_yaxis(
                "工作发布量",
                y_axis=date_count,
                linestyle_opts=opts.LineStyleOpts(width=2),
            )
                .set_global_opts(
                title_opts=opts.TitleOpts(title="大数据工作趋势"),
                xaxis_opts=opts.AxisOpts(name="x"),
                yaxis_opts=opts.AxisOpts(
                    type_="log",
                    name="y",
                    splitline_opts=opts.SplitLineOpts(is_show=True),
                    is_scale=True,
                ),
            )
                .render("大数据工作趋势.html")
        )


if __name__ == '__main__':
    # 数据分析    大数据开发工程师   数据采集
    v = Visual()
    v.draw_1()
    v.draw_2()
    v.draw_3()
    v.draw_4()

可视化效果图：
1)

2)

3)

4)

到此实训项目就完结了

实训总结：此次实训用到的知识点还是很全的；对scrapy、hadoop、hive、sqoop、flume、mysql等知识的巩固起到了很大的作用。看再多的书与视频都不及自己上手写代码。写代码的过程中会出现各种各样的错误，将错误信息复制粘贴到百度，可以看到许多和自己相同错误的博客

你可能感兴趣的:(大数据实训-大二下期)

提出机器人自主学习新范式，深大团队最新顶会论文，刷新6大复杂任务SOTA 量子位
关注前沿科技量子位让机器人轻松学习复杂技能有新框架了！深圳大学大数据系统计算技术国家工程实验室李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学，提出了奖励函数与策略协同进化框架ROSKA。在多个高维度机器人任务上，在仅使用89%训练样本的情况下，比现有SOTA方法平均性能提升95.3%。众所周知，随着机器人技术的快速发展，其应用已渗透至日常生活和工业生产场景。然而在多自由度机器人控制领域，传统
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
2024最新版头歌实践教学平台数据库原理与应用实训答案泠波数据库
实训一:数据定义和操纵(4课时)初识MySQL数据库第1关：创建数据库mysql-uroot-p123123-h127.0.0.1createdatabaseMyDb;showdatabases;第2关：创建表mysql-uroot-p123123-h127.0.0.1createdatabaseTestDb;createtablet_emp(idint,namevarchar(32),deptI
TDengine 使用教程：从入门到实践遇见伯灵说 tdengine 大数据时序数据库
TDengine是一款专为物联网（IoT）和大数据实时分析设计的时序数据库。它能够高效地处理海量的时序数据，并提供低延迟、高吞吐量的性能表现。在本文中，我们将带领大家从TDengine的安装、基本操作到一些高级功能，帮助你快速上手。1.TDengine简介TDengine是一个高效的时序数据存储解决方案，支持高并发写入和快速的实时分析。它适用于各种物联网应用场景，如传感器数据监控、日志数据处理等。
educoder实训——流程控制【4】 lzl2040 educoder python实训 python educoder
按从小到大顺序输出小于n的非负整数任务描述本关任务：编写一个能在同一行输出小于n的非负整数的小程序。相关知识rangerange类型表示不可变的数字序列，通常用于在for循环中循环指定的次数。range参数必须为整数，如果省略step参数，则默认为1。如果省略start参数，则默认为0。如果step为零，则会引发ValueError。range对象支持除拼接和重复外的通用序列操作range(sto
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
掌握大数据时代的心跳：实时数据处理的崛起 Echo_Wish 大数据大数据
掌握大数据时代的心跳：实时数据处理的崛起在大数据时代，我们每天都在生成海量的数据——从社交媒体上的点赞到物联网设备上传的传感器数据，数据无处不在。然而，仅仅存储这些数据已经无法满足现代业务的需求，“实时数据处理”已经从一项可选技术跃升为业务成功的关键所在。如何让数据在其生成的瞬间就能被分析、处理并驱动决策，这是我们今天要探讨的重点。为什么实时数据处理如此重要？想象一下这样两个场景：在线交易平台：当
老板既要又要还要......我用Doris+Hudi把不可能变成了日常一臻数据大数据 Doris 大数据数据分析数据库
老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说：有一位数据科学家，整日为查询性能发愁，夜夜加班优化SQL。直到有一天，他发现了Doris与Hudi的"天作之合"，顿时开启了"飞毛腿"模式——查询速度快得连老板都不敢相信！如今，这个传说
六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽王知无(import_bigdata) 大数据编程语言人工智能 java 数据分析
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C
使用 Doris 和 Iceberg 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
使用 Doris 和 LakeSoul 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
AI大模型时代，2025大龄程序员如何轻松转型赢未来？ AI大模型学习不迷路人工智能自然语言处理大模型大语言模型语言模型程序员转行
当前大龄程序员的处境在科技行业的高速发展中，大龄程序员这一群体正面临着前所未有的挑战。随着新兴技术的不断涌现，如云计算、大数据、人工智能等，传统的编程技能逐渐显得“过时”。同时，年轻一代的程序员以更加低廉的薪酬和旺盛的精力涌入市场，加剧了职场的竞争。对于大龄程序员而言，他们不仅需要应对技能更新的压力，还常常受到年龄歧视的影响，尤其是在追求创新和速度的科技公司中。许多大龄程序员发现自己处于尴尬境地，
数字孪生对于新基建的价值浅析，算是抛砖引玉。大牛工控设计师人工智能信息可视化前端
数字孪生（DigitalTwin）作为一项融合物理世界与数字世界的关键技术，在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色，其价值贯穿于基础设施的设计、建设、运维到优化全流程。一、核心价值：虚实映射与智能决策实时动态映射通过传感器、IoT设备实时采集物理实体（如工厂、城市、电网）的运行数据，构建高精度虚拟模型，实现**“所见即所控”**的透明化管理。模拟预测与优化利用AI和大数据分析
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
大数据技术【7】星绘搜题 big data 数据挖掘大数据
1.目前所获取的总数据量的80%以上都是（）数据。。A.结构化B.非结构化C.文本D.半结构化2.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①②③④c.①④③②d.④③②①A.③①②④B.①②③④C.①④③②D.④③②①3.利用先验原理可以帮助减少频繁项集产生时需要探查的
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
向量库集成指南三月七꧁ ꧂ langchain+llm 集成学习自然语言处理语言模型机器学习人工智能 gpt llama
文章目录向量库集成指南Chroma集成Pinecone集成MiLvus集成向量库集成指南向量库是一种索引和存储向量嵌入以实现高效管理和快速检索的数据库。与单独的向量索引不同，像Pinecone这样的向量数据库提供了额外的功能，例如，索引管理、数据管理、元数据存储和过滤，以及水平扩展。特别是在处理大数据和复杂查询时，向量库在多种应用场景中发挥着关键作用。其中，语义文本搜索是一个典型的应用，用
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
C语言数据结构——变长数组（柔性数组） Iawfy22 数据结构 c语言柔性数组
前言这是一位即将大二的大学生（卷狗）在暑假预习数据结构时的一些学习笔记，供大家参考学习。水平有限，如有错误，还望多多指正。本文主要介绍了如何手动实现一个变长数组，以及实现其部分功能（如删除、查找、添加、排序等）变长数组介绍变长数组又可以叫柔性数组，与一般数组不同，它是一个动态的数组，具体表现为可以根据数组里面元素个数的多少而自动的进行扩容，以便达到变长（柔性）的特点。预备知识为了实现自动边长扩容这
2025年2月中国数据库排行榜：OceanBase迎来开门红，金仓、GBASE排名节节高
2025年2月，中国数据库流行度排行榜正式发布。在春节之际，DeepSeek凭借突破性的技术成功出圈，而在此前，各大数据库厂商便已开始探索AI与数据库的深度融合，并陆续推出了相关产品和功能。相信在这股技术革新的浪潮下，将涌现越来越多的新产品和解决方案。接下来，我们将逐一盘点各大数据库的最新动态，探索未来的潜力与挑战。一、金仓、GBASE排名再攀升，TDSQL升第九与上月相比，榜单前十的位次出现了细
出海行动派 | 全球服务新征程！Bonree ONE海外版正式发布运维
在云计算、大数据与物联网深度融合的驱动下，全球IT运维行业正经历从被动响应到主动智能的深刻变革。Gartner最新数据显示，可观测性市场规模将从2021年的68亿美元跃升至2027年的111亿美元，复合年增长率达8.3%，标志着企业对应用稳定性与用户体验的极致追求已成为数字化转型的核心命题。与此同时，全球化进程中的文化差异与合规要求，对运维解决方案的本地化适配能力提出了更高挑战。BonreeONE
.net 插件式开发——实现web框架中大数据算法嵌入(BP算法逼近) weixin_34219944 json 人工智能
关于算法的引入：插件式架构设计，可移植性强，利于算法的升级。【插件式开发相关资料】https://www.cnblogs.com/lenic/p/4129096.html以BP算法为例：1、首先定义一个接口规范////////插件的统一入口///publicinterfaceIPluginPerfrom{//////统一算法插件入口//////输出参数的个数///输出参数///输入参数///str
Visual Studio 2022和C++实现带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c++云计算开发语言 sql 数据仓库
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的VisualStudio2022的C++代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
C#带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c#数据仓库云计算 sql
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的C#代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错时的错误信息，每次每个查询导出数据的
南京大学×百度“星河杯”AI大模型创意校园赛正式起航
3月9日，教育部长怀进鹏在十四届全国人大二次会议民生主题记者会上，谈到了人工智能+教育的重要性。他强调，要把人工智能技术深入到教育教学和管理的全过程和全环节，研究其有效性和适应性，让青年一代更加主动地学习，让教师更加创造性地教学。南京大学早在年初就已经敏锐地洞察到了人工智能的重要性，在新学期工作布置会上，发布了一个前瞻性决策：24年9月面向全体本科新生开设“人工智能通识核心课程体系”，南京大学党委
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
上万个Map运行时链接ApplicationMaster超时FAILED 500佰大数据云计算 big data mapreduce
#MapReduce业务常见故障#大数据#生产环境真实案例#MapReduce#批计算#离线业务#整理#经验总结说明：此篇总结MapReduce业务常见故障案例处理方案结合自身经历总结不易+关注+收藏欢迎留言更多专题(详见)：MapReduce计算引擎详解--项目优化(指导书)上万个Map运行时链接ApplicationMaster超时FAILED症状Mapreduce任务会并发起几万个map,会
打卡代码随想录第17天：LeetCode654.最大二叉树、617.合并二叉树、700.二叉搜索树中的搜索、98.验证二叉搜索树 jingjingjing1111 leetcode
学习资料：代码随想录文中含LLM生成内容，不一定对654.最大二叉树力扣题目地址思路：不断寻找该部分的最大值去切割数组，不断递归，到在左闭右开区间不成立时，返回空节点。/***Definitionforabinarytreenode.*structTreeNode{*intval;*TreeNode*left;*TreeNode*right;*TreeNode():val(0),left(null
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l