小生凡一

【数据采集】采集软科大学排名、天气网、学校新闻网的数据 | 文末送书✨

粉丝福利送书：《Hadoop+spark+Python大数据处理从算法到实战》

点赞收藏 ⭐留言即可参与抽奖送书

下周三(10月7日)晚上20：00将会在【点赞区和评论区】抽一位粉丝送这本书~

详情请看第四点的介绍嗷~✨

目录

1. ①
- 1.1 题目
- 1.2 思路
- - 1.2.1 发送请求
  - 1.2.2 解析网页
  - 1.2.3 获取结点
  - 1.2.4 数据输出
2. ②
- 2.1 题目
- 2.2 思路
- - 2.2.1 发送请求
  - 2.2.2 解析网页
  - 2.2.3 获取结点
  - 2.2.4 数据输出
3. ③
- 3.1 题目
- 3.2 思路
- - 3.2.1 发送请求
  - 3.2.2 解析网页
  - 3.2.3 获取结点
  - 3.2.4 数据输出
4. 福利送书

1. ①

1.1 题目

用urllib和re库方法定向爬取给定网址的数据

1.2 思路

1.2.1 发送请求

引入库并且编写请求头

请求头是为了把爬虫包装成浏览器的正常访问。

import urllib.request
import re

header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',
}

urllib和requests不同

urllib构造请求头和发送请求是分开的，而requests是封装在一起的。

url = "https://www.shanghairanking.cn/rankings/bcsr/2020/0812"
request = urllib.request.Request(url, headers=header) # 构造请求头
r = urllib.request.urlopen(request)  # 发送请求

1.2.2 解析网页

decode() 是为了解码成中文
replace(’\n’,’’) 是为了把回车去掉，方便后续的正则匹配。

html = r.read().decode().replace('\n','')

1.2.3 获取结点

分析网页

我们很容易找到结点信息，然后观察节点信息的结构。

使用正则表达式获取总体的节点信息

ranking = re.findall("(.*?)",html)

构造字典来存储数据

uList =[]
for k in ranking:
    u = {
        "rank":"",
        "percent":"",
        "name":"",
        "socre":"",
    }
    name = re.findall("img alt=(.*?) onerror",k) 
    # 匹配出名字
    ranking = re.findall("                        (\d+)                    ",k)
    # 匹配出排名
    socre = re.findall("                        (.*?)                    ",k)
    # 匹配出分数
    u["rank"]=ranking[0]
    u["percent"]=socre[0]
    u["name"]=eval(name[0])
    u["socre"]=socre[1]
    uList.append(u)

1.2.4 数据输出

print("2020排名\t全部层次\t学校类型\t\t总分")
for u in uList:
    print("{}\t\t{}\t\t{}\t\t{}\t\t".format(u["rank"],u["percent"],u["name"],u["socre"]))

2. ②

2.1 题目

用requests和Beautiful Soup库方法设计爬取网址的AQI实时报

2.2 思路

2.2.1 发送请求

导入库

import requests
from bs4 import BeautifulSoup

构造请求头

headers = {
    'Connection': 'keep-alive',
    'sec-ch-ua': '"Chromium";v="94", "Google Chrome";v="94", ";Not A Brand";v="99"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-User': '?1',
    'Sec-Fetch-Dest': 'document',
    'Accept-Language': 'zh-CN,zh;q=0.9',
}

发送请求

response = requests.get('https://datacenter.mee.gov.cn/aqiweb2/', headers=headers)

2.2.2 解析网页

使用BeautifulSoup解析器进行解析，解析成lxml格式

soup = BeautifulSoup(response.content,"lxml")

解析器的作用是为了把请求到的字符串重新解析成lxml前端树的格式，方便获取器进行节点的Find等操作。

2.2.3 获取结点

分析网页

我们可以看到我们所想要的节点信息都是在这个在td标签下的，所以我们只需要找到所有的td标签即可。

找到所有的td

tdTmp = soup.find_all('td')

结果我们打印结果，我们发现，数据除了text格式之后，还可能存在\t\n\r这些空格，所以要进行一个清洗替换

数据清洗

把\r\t\n这些空格回车字符进行清洗替换

for i in range(len(tdTmp)):
    info=tdTmp[i].text
    if len(info)>10:
        info = info.replace('\r', '')  
        info = info.replace('\n', '')
        info = info.replace('\t', '')
        somethingList.append(info)
    if count < 8:
        count += 1
        td.append(info)
    else:
        tds.append(td)
        count=0
        td = []

2.2.4 数据输出

一样采用字典键值对去存储数据。

num=0
for td in tds:
    cityWeather={
        "num":"",
        "city":"",
        "AQI":"",
        "PM2.5":"",
        "So2":"",
        "No2":"",
        "Co":"",
        "something":"",
    }
    cityWeather["num"]=num+1
    cityWeather["city"]=td[0]
    cityWeather["AQI"]=td[1]
    cityWeather["PM2.5"]=td[2]
    cityWeather["So2"]=td[4]
    cityWeather["No2"]=td[5]
    cityWeather["Co"]=td[6]
    cityWeather["something"]=somethingList[num]
    num+=1
    infoList.append(cityWeather)
    print(cityWeather)

结果输出

print("序号 \t 城市 \t\t AQI \t PM2.5 \t So2 \t Co \t 首要污染物")
for k in infoList:
    print("{} \t {} \t {} \t {} \t {} \t {} \t {}".format(k["num"],k["city"],k["AQI"],k["PM2.5"],k["So2"],k["Co"],k["something"]))

3. ③

3.1 题目

要求：使用urllib和requests和re爬取一个给定网页
爬取该网站下的所有图片
输出信息：将自选网页内的所有jpg文件保存在一个文件夹中

3.2 思路

3.2.1 发送请求

引入库

import requests,re
import urllib

构造请求头

headers = {
    'Connection': 'keep-alive',
    'Cache-Control': 'max-age=0',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Accept-Language': 'zh-CN,zh;q=0.9',
}
url = 'http://news.fzu.edu.cn/'

发送请求

urllib:

request = urllib.request.Request(url, headers=headers)
r = urllib.request.urlopen(request)

requests:

response = requests.get(url, headers=headers, verify=False)

3.2.2 解析网页

urllib:

html = r.read().decode().replace('\n','')

requests:

html = response.content().replace('\n','')

3.2.3 获取结点

注意一点img和src之间也可能会有匹配的，所以不能直接使用正则匹配出所有的图片信息 imgList = re.findall(r', html, re.S) 3.2.4 数据输出创建一个文件夹image进行保存 for i, img in enumerate(imgList): img_url = "http://news.fzu.edu.cn" + img print(f"正在保存第{i + 1}张图片路径:{img_url}") resp = requests.get(img_url) with open(f'./image/{img.split("/")[-1]}', 'wb') as f: f.write(resp.content) 4. 福利送书点赞，评论这篇博文即可参与送书。【参考文案】学习人工智能，为什么要从基础的算法开始入门？学习大数据分析，为什么最后却讲解起了云计算？在“大数据”“云计算”“人工智能”被频繁提起的今天，你是否知道这三个名词间有什么关系？如果你也有类似疑问，那一定要好好看看北京大学出版社倾力打造的新书——《Hadoop+spark+Python大数据处理从算法到实战》！本书围绕大数据处理的三大核心要素（算力+数据+算法），剖析大数据处理全过程，没有高冷的代码，也没有繁杂的公式，用“简单的方法”搞定大数据，带你用愉快的心情玩转AI！【内容简介】本书围绕新基建的云计算、大数据及人工智能进行介绍，分为以下五个部分。第一部分，介绍大数据的概念与特点，以及典型的产业应用场景；第二部分，介绍目前云计算中的一个重要的研究与应用领域——容器云，包含应用容器引擎Docker与容器编排工具Kubernetes；第三部分，是大数据分析的基础，也是大数据分析技术的重点，包含Hadoop、HBase、Hive、Spark的环境搭建及开发流程；第四部分，是机器学习相关算法的应用，包含scikit-learn、SparkML、TensorFlow工具的使用；第五部分，以实例介绍如何使用Spark机器学习库中的协同过滤算法，来实现一个基于Web的推荐系，以及介绍如何使用OpenCV与TensorFlow构建卷积神经网络来实现基于Web的人脸识别。本书轻理论，重实践，适合有一定编程基础，且对云计算、大数据、机器学习、人工智能感兴趣，希望投身到新基建这一伟大事业的读者学习。同时，本书还可作为广大院校相关专业的教材和培训参考用书。


    
        你可能感兴趣的:(Python爬虫,爬虫,python,big,data)
        
            
                
                    量子计算如何颠覆能源优化领域：从理论到实践
                        Echo_Wish
人工智能前沿技术量子计算能源
                        量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
                    
                    Kibana 单机与集群部署教程
                        闲人编程
大数据集群部署教程大数据集群单机部署Kibana日志分析数据可视化
                        目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
                    
                    INCA二次开发GUI实例化
                        智海行舟
python个人开发
                        【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
                    
                    如何通过API用Python获取北向资金流向数据？
                        量化问财
量化软件QMT量化交易Python量化炒股PTradeQMT量化交易量化软件deepseek
                        推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
                    
                    HCIE数通 VS HCIE云计算：如何选择最适合你的方向？
                        IT程序媛-桃子
数通华为认证云计算云计算华为数通
                        在华为认证体系中，HCIE（HuaweiCertifiedInternetworkExpert）无疑是技术专家级别的标志。而在众多HCIE认证方向中，数通（Datacom）和云计算（CloudComputing）成为了很多考生纠结的焦点。它们各有优势，那么对于不同的职业发展规划，应该选择哪个更适合自己呢？【点赞+关注】私我领取华为认证考试复习资料/题库今天，我们就从多个角度来详细对比HCIE数通和
                    
                    go执行java -jar 完成DSA私钥解析并签名
                        DavidSoCool
javajargolang
                        起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
                    
                    【30天玩转python】项目实战：从零开始开发一个Python项目
                        爱技术的小伙子
30天玩转pythonlinux运维服务器
                        项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
                    
                    Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化
                        是Dream呀
python计算机视觉开发语言
                        前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
                    
                    uniapp uview u-textarea maxlength无效问题
                        尤小白
uview组件库uni-app前端
                        watch:{'dataModel.question':{handler(val){if(val.length>=200){this.dataModel.question=val.substr(0,200)}},immediate:true,deep:true,},},
                    
                    python递推法_如何使用Python递归函数中的递推？
                        热茶走
python递推法
                        我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
                    
                    python递推式_Python 递推式构造列表(List Comprehensions)
                        man One
python递推式
                        你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
                    
                    Dash 简介
                        tankusa
dash
                        Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
                    
                    SpringBoot下kafka配置生产者和消费者
                        种豆走天下
java面试开发语言
                        SpringBoot下kafka配置生产者和消费者KafkaResourceConfiguration.javapackageits.uts.kafkatest;importlombok.Data;importorg.apache.kafka.clients.consumer.ConsumerConfig;importorg.apache.kafka.clients.producer.Produc
                    
                    视频下载插件：yt-dlp
                        小怪兽长大啦
python
                        Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
                    
                    Python __init__.py 模块详解
                        鱼丸丶粗面
Python__init__.py
                        文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
                    
                    Python __init__.py
                        愚昧之山绝望之谷开悟之坡
pythoninit
                        Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
                    
                    【C常用的标准库函数】
                        niuTaylor
c语言算法开发语言
                        以下是C语言在面试和工程中常用的标准库函数的全面总结，按头文件分类，涵盖输入输出、字符串处理、内存管理、数学计算、时间处理等核心内容：一、输入输出（stdio.h）文件操作FILE*fopen(constchar*path,constchar*mode)功能：打开文件。模式："r"（读）、"w"（写）、"a"（追加）、"rb"（二进制读）等。示例：FILE*fp=fopen("data.txt",
                    
                    利用Java爬虫获取衣联网商品详情：实战指南
                        Jason-河山
java爬虫开发语言
                        在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
                    
                    《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》
                        空云风语
人工智能YOLO机器视觉目标跟踪人工智能计算机视觉YOLO
                        走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
                    
                    uniApp实战二：仿今日相机水印功能
                        博主逸尘
uniApp实战uni-app数码相机javascript
                        文章目录1.最终效果预览2.页面实现1.最终效果预览2.页面实现页面布局拍照data定义data(){return{snapSrc:"",cvHeight:"",cvWidth:"",tKey:"时间:",addKey:"地点:",};},点击事件及方法handleTakePhotoNew(){this.snapSrc=""uni.chooseImage({count:1,success:(res
                    
                    机器学习之线性代数
                        珠峰日记
AI理论与实践机器学习线性代数人工智能
                        文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
                    
                    qt c++线程中的同步和异步
                        我要进步！
qtc++
                        一、线程同步用于协调多个线程对共享资源的访问，避免竞态条件。常用工具：QMutex（互斥锁）保护临界区，确保一次仅一个线程访问资源。QMutexmutex;intsharedData=0;voidThread::run(){mutex.lock();sharedData++;//安全操作mutex.unlock();}QMutexLocker自动管理锁生命周期：{QMutexLockerlocke
                    
                    有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅
                        王盼达
有趣的学习Python学习python开发语言
                        Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
                    
                    有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理
                        王盼达
有趣的学习Python学习python开发语言
                        在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
                    
                    PHP的架构设计
                        weixin_34294649
php
                        首先，大概陈述一下架构的关联，如下所述：首先会先设计标准DALclass(STDAL)，放置getData,delete,update等标准常见的功能函数在来设计程式会用到的各种DAL，基本上每一个Table都需要有一个DAL来实现，后面根据table应用、画面呈现等需求，也可以一个table有多个DAL，这各观念类似View的概念。根据商业逻辑的操作，制作对应的BLL，像是insert、upda
                    
                    Python字符串操作
                        weixin_30871905
python
                        转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
                    
                    零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了
                        奕澄羽邦
python开发语言
                        第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
                    
                    Python 字符串操作
                        iteye_13776
PythonPythonCC++C#
                        Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
                    
                    一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚）
                        Debug_Snail
HadoopBigData技术工具人工智能hadoop数据仓库
                        阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
                    
                    一文理清概念：数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG)
                        Debug_Snail
HadoopBigDataDataScience数据仓库大数据数据中台数据湖数据治理
                        数据仓库、数据中台、数据湖、湖仓一体是数据管理和分析领域的重要概念，它们在功能、架构和应用场景上各有特点，同时也在演进中相互关联和补充。以下是对它们的定义和关系的详细解析：1.核心概念（1）数据仓库（DataWarehouse,DW）定义：一种面向主题的、集成的、稳定的数据存储系统，用于支持企业决策分析（如BI、报表）。数据通常经过ETL（抽取、转换、加载）处理，以结构化形式存储，采用Schema
                    
                                辗转相处求最大公约数
                                    沐刃青蛟
C++漏洞
                                    无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！ 
  
为此，总结一下以方便日后忘了好查找。 
  
1.输入要比较的两个数a,b 
  
忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 
  
3.辗转相除（用循环不停的取余，如a%b,直至b=0） 
  
4.最后的a为两数的最大公约数 
&
                                
                                F5负载均衡会话保持技术及原理技术白皮书
                                    bijian1013
F5负载均衡
                                    一.什么是会话保持？        在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
                                
                                Object.equals方法：重载还是覆盖
                                    Cwind
javagenericsoverrideoverload
                                    本文译自StackOverflow上对此问题的讨论。 
原问题链接 
  
在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： 
“不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” 
pu
                                
                                初始线程
                                    15700786134

                                          暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。 
  
  
       既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： 
public class ShapeFr
                                
                                Linux的tcpdump
                                    被触发
tcpdump
                                    用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支 持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。 
 
实用命令实例 
默认启动 
tcpdump 
普通情况下，直
                                
                                安卓程序listview优化后还是卡顿
                                    肆无忌惮_
ListView
                                    最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 
&nb
                                
                                扩展easyUI tab控件，添加加载遮罩效果
                                    知了ing
jquery
                                    (function () {  
    $.extend($.fn.tabs.methods, {  
        //显示遮罩  
        loading: function (jq, msg) {  
            return jq.each(function () {  
                var panel = $(this).tabs(&
                                
                                gradle上传jar到nexus
                                    矮蛋蛋
gradle
                                    原文地址： 
https://docs.gradle.org/current/userguide/maven_plugin.html 
configurations { 
    deployerJars 
} 
 
dependencies { 
    deployerJars "org.apache.maven.wagon
                                
                                千万条数据外网导入数据库的解决方案。
                                    alleni123
sqlmysql
                                    从某网上爬了数千万的数据，存在文本中。 
然后要导入mysql数据库。 
 
悲剧的是数据库和我存数据的服务器不在一个内网里面。。 
 
 
ping了一下， 19ms的延迟。 
 
于是下面的代码是没用的。 
 

ps = con.prepareStatement(sql);
	ps.setString(1, info.getYear())............;
			ps.exec
                                
                                JAVA IO InputStreamReader和OutputStreamReader
                                    百合不是茶
JAVA.io操作 字符流
                                    这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励 我会更加的去学 加油！： 
JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流 
  
字节流和字符的难点：a,怎么将读到的数据
                                
                                MO、MT解读
                                    bijian1013
GSM
                                    MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息； 
上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
                                
                                五个JavaScript基础问题
                                    bijian1013
JavaScriptcallapplythisHoisting
                                    下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。 
问题1：Scope作用范围 
考虑下面的代码：  
(function() {
   var a = b = 5;
})();
console.log(b); 
什么会被打印在控制台上？  
回答： 
        上面的代码会打印 5。 
&nbs
                                
                                【Thrift二】Thrift Hello World
                                    bit1129
Hello world
                                    本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 
  
1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 
        <dependency>
        
                                
                                【Avro一】Avro入门
                                    bit1129
入门
                                    本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 
  1. 添加Maven依赖 
  
<?xml version="1.0" encoding="UTF-8"?>
<proj
                                
                                安装nginx+ngx_lua支持WAF防护功能
                                    ronin47

                                    需要的软件:LuaJIT-2.0.0.tar.gz                   nginx-1.4.4.tar.gz          &nb
                                
                                java-5.查找最小的K个元素-使用最大堆
                                    bylijinnan
java
                                    
import java.util.Arrays;
import java.util.Random;


public class MinKElement {

	/**
	 * 5.最小的K个元素
	 * I would like to use MaxHeap.
	 * using QuickSort is also OK
	 */
	public static void
                                
                                TCP的TIME-WAIT
                                    bylijinnan
socket
                                    原文连接： 
http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 
 
以下为对原文的阅读笔记 
 
说明： 
主动关闭的一方称为local end，被动关闭的一方称为remote end 
本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 
 
1、TIME_WA
                                
                                jquery ajax 序列化表单
                                    coder_xpf
Jquery ajax 序列化
                                      
 checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 
  
<input type="checkbox" name="favor" id="favor" checked="checked"/>
$("#favor&quo
                                
                                Apache集群乱码和最高并发控制
                                    cuisuqiang
apachetomcat并发集群乱码
                                    都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。 
最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： 
<Connector maxThreads="300" port="8019" prot
                                
                                websocket
                                    dalan_123
websocket
                                    一、低延迟的客户端-服务器 和 服务器-客户端的连接 
很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。 
  通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
                                
                                菜鸟分析网络执法官
                                    dcj3sjt126com
网络
                                      
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. 
OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 
前面我们看到了.在以太网上传输的都是具有以太网头的数据包. 
                                
                                Android相对布局属性全集
                                    dcj3sjt126com
android
                                    RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 
// 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
                                
                                Tomcat内存设置详解
                                    eksliang
jvmtomcattomcat内存设置
                                    Java内存溢出详解 
  
一、常见的Java内存溢出有以下三种： 
  
1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。 
可以利用JVM提
                                
                                Java6 JVM参数选项
                                    greatwqs
javaHotSpotjvmjvm参数JVM Options
                                    Java 6 JVM参数选项大全（中文版）  
  
作者：Ken Wu 
Email: [email protected] 
转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！ 
  
本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
                                
                                weblogic创建JMC
                                    i5land
weblogicjms
                                    进入 weblogic控制太 
1.创建持久化存储 
 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 
 
2.创建JMS服务器 
 --Services--Messaging--JMS Servers--new--name随便起--Pers
                                
                                基于 DHT 网络的磁力链接和BT种子的搜索引擎架构
                                    justjavac
DHT
                                    上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。 
系统包括几个独立的部分： 
 
  使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；  
  使用 PHP CI 框架开发的简易网站；  
  搜索引擎目前直接使用的 MySQL，将来可以考虑使
                                
                                sql添加、删除表中的列
                                    macroli
sql
                                    添加没有默认值：alter table Test add BazaarType char(1) 
有默认值的添加列：alter table Test add BazaarType char(1) default(0) 
删除没有默认值的列：alter table Test drop COLUMN BazaarType 
删除有默认值的列：先删除约束（默认值）alter table Test DRO
                                
                                PHP中二维数组的排序方法
                                    abc123456789cba
排序二维数组PHP
                                    <?php/*** @package     BugFree* @version     $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level 
                                
                                hive优化之------控制hive任务中的map数和reduce数
                                    superlxw1234
hivehive优化
                                    一、    控制hive任务中的map数:  1.    通常情况下，作业会通过input的目录产生一个或者多个map任务。  主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 
                                
                                Spring Boot 1.2.4 发布
                                    wiselyman
spring boot
                                    Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。 
  
这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 
  
Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.