Mr丶Alan

Python学习三：爬虫高级技巧与模拟实战练习

三大爬虫技巧

许多网站针对爬虫的访问都设置了一定的障碍，通过这三步技巧，轻松绕过部分的反爬虫限制。

(1)设置程序休止时间

import time
import random

# 休止睡眠 1 秒 这里秒可自定义
time.sleep(1);
# 随机休眠0或者1秒
random.random();
# 随机休眠1或者5秒
time_interval = random .uniform(1,5) 
time.sleep(time_interval)

(2)设置代理

设置代理，代理IP又分三种代理ID：

低级别(Transparent Proxy) ：服务器知道你在使用代理，且知道你的真实IP
中级别(AnonyMous Proxy) ：服务器知道你在使用代理，但不知道你的真实IP
高级别(Elite Proxy / Highly AnonyMous Proxy)：服务器不知道你在使用代理

代理服务器的存在，可以应对网站禁止某个IP访问的反爬虫措施，代理服务器有着不同的匿名类型，通常我们会挑选中、高级别的代理服务器来访问网页。

#使用urllib.request的两个方法进行代理的设置
proxy = urlrequest.ProxyHandler({'https':'24.245.100.212:48678'});
opener = urlrequest.build_opener(proxy);

这里我常用的是小幻HTTP代理

因为是免费IP，如果不使用请不要长时间占用。

(3)伪装浏览器访问

我们使用Python编码进行数据爬取时，网站是可以识别你是否在使用Python进行爬取，需要你在发送网络请求时，把header部分通过Pyton伪装成浏览器的 User-Agent 的信息。

# 伪装浏览器访问
opener.addheaders = [('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.1 Safari/603.1.30')]
urlrequest.install_opener(opener)

至于 User-Agent 的信息请自行百度。

练习一：Place Pulse Google街景图爬取

首先，我使用的是外网的一个统计页面，统计出的数据集，这个页面会从谷歌地图中抓取两个街景，并进行对比提问，比如这两张图片中你认为那个更富有.....之类的提问。（PLACE PULSE）

这里如果打不开这个网站，我把数据集上传到CSDN：https://download.csdn.net/download/qq_33081367/10595924

import urllib.request as urlrequest
import time
import random

# 载入包,定义存储目录,连接API
IMG_PATH = "./img/{}.jpg";
# 数据集
DATA_FILE = "./data/votes.csv";
# 下载过图片ID文档
STORED_IMG_ID_FILE = './data/cached_img.txt';
STORED_IMG_IDS = set();
# 这里是Google 下载图片的 url
IMG_URL = 'https://maps.googleapis.com/maps/api/streetview?size=400x300&location={},{}';

# 使用代理服务器、User-Agent
proxy = urlrequest.ProxyHandler({'https':'24.245.100.212:48678'});
opener = urlrequest.build_opener(proxy);
opener.addheaders = [('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.1 Safari/603.1.30')]
urlrequest.install_opener(opener)

# 读取图片的id (我这里把下载过的图片ID存储起来，在抓取图片时进行对比防止重复抓取)
with open(STORED_IMG_ID_FILE) as input_file :
    for line in input_file :
        STORED_IMG_IDS.add(line.strip())

# 根据提供的图片id文档，进行google街景图片的爬取
with open(DATA_FILE) as input_file :
    # 因为文档第一行是存储的字段 所以第一行直接跳过
    skip_first_line = True ;
    for line in input_file :
        if skip_first_line :
            skip_first_line = False;
            continue;
        # 这里把文档中的值赋值字段中进行操作
        left_id, right_id, winner, left_lat, left_long, right_lat, right_long, category = line.split(",");
        # 判断图片ID 是否下载过
        if left_id not in STORED_IMG_IDS :
            print('saving img {}...'.format(left_id))
            # urlretrieve 可以直接下载图片内容
            urlrequest.urlretrieve(IMG_URL.format(left_lat,left_long),IMG_PATH.format(left_id));
            STORED_IMG_IDS.add(left_id);
            with open(STORED_IMG_ID_FILE,"a") as output_file :
                output_file.write("{}\n".format(left_id))
            time.sleep(1);

        if right_id not in STORED_IMG_IDS :
            print('saving img {}...'.format(right_id))
            # urlretrieve 可以直接下载图片内容
            urlrequest.urlretrieve(IMG_URL.format(right_lat,right_long),IMG_PATH.format(right_id))
            STORED_IMG_IDS.add(right_id)
            with open(STORED_IMG_ID_FILE,'a') as output_file :
                output_file.write("{}\n".format(right_id))
            random.random();

这里我使用的 PyChram 编写的，运行结果如下：

练习二：豆瓣电影Top250

这里做一个练习，通过之前所学把豆瓣电影的 TOP250 爬取下来。

这里我还是推荐大家使用Jupyter进行编写，锻炼自己的编写能力，下面是我自己写的Python代码与运行结果：

import urllib.request as urlrequest
from bs4 import BeautifulSoup

http_url = 'https://movie.douban.com/top250?start={}&filter='

for i in range(10):
    i = i * 25
    url = http_url.format(i)
    url_content = urlrequest.urlopen(url).read().decode('utf8')
    soup = BeautifulSoup(url_content,'html.parser')
    item_div = soup.find_all(class_='item')
    for item in item_div :
        alt_name = item.find(class_='pic').find('img')['alt']
        href_url = item.find('a')['href']
        print('{} {} \n'.format(alt_name,href_url))

练习三：腾讯游戏今日新闻

网址：http://games.qq.com/

爬取要求：包含每个新闻的标题、链接、文字内容

import urllib.request as urlrequest
from bs4 import BeautifulSoup

http_url = 'http://games.qq.com/'
opener = urlrequest.build_opener()
opener.addheaders= [('User-Agent','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.1 Safari/603.1.30')]
urlrequest.install_opener(opener)
url_content = urlrequest.urlopen(http_url).read().decode('gbk')
soup = BeautifulSoup(url_content,'html.parser')
all_top_news = soup.find(class_='section section0')
top_news_h3 = all_top_news.find_all('h3')
for item in top_news_h3 : 
    item_href = item.find('a')['href']
    item_name = item.find('a').get_text()
    item_content = []
    #获取正文
    try :#由于新闻的正文可能只有图片没有文字，所以这里增加了一个异常处理的方式try/except
        url = urlrequest.urlopen(item_href).read().decode('gbk')
        content_soup = BeautifulSoup(url,'html.parser')
        content = content_soup.find(class_='content clearfix')
        alltext = content.find_all('p')
        for i in alltext:
            item_content.append(i.get_text())
    except :#意思就是，如果出现错误，直接跳过
        pass

    print(' {} {} {} \n'.format(item_name,item_href,item_content))

运行结果如下：

练习四：爬取小猪短租的页面信息（以成都为例）

需爬取的信息如下：（标题、链接、位置、评分）
地址如下 http://cd.xiaozhu.com/

import urllib.request as urlrequest
from bs4 import BeautifulSoup

origin_url ="http://cd.xiaozhu.com/search-duanzufang-p{}-0/"
with open('xiaozhu.txt','w') as outputfile:
    #翻页
    for i in range(1,6):#括号里表示页数，获取1-5页的所有房源信息
        url=origin_url.format(i)        
        content=urlrequest.urlopen(url).read().decode('utf8')
        soup=BeautifulSoup(content,'html.parser')
        allurls=soup.find_all(class_='resule_img_a')
        #获取详细信息网址
        for j in allurls:
            list1=[]
            list1.append(j.get('href'))
            #解析详细信息网址
            for href in list1:
                content2=urlrequest.urlopen(href).read().decode('utf8')
                soup2=BeautifulSoup(content2,'html.parser')
                title=soup2.find('title').get_text()#标题
                location=soup2.find(class_='pr5').get_text()#地址
                score=soup2.find(class_='top_bar_w2 border_right_none').get_text()#评分
                #写入文件
                outputfile.write('\n{}\n{}\n{}\n{}\n'.format(title,href,location,score))

爬虫补充技巧

1.动态设置user agent部分

阅读Python爬虫基础 | 爬虫反ban的技巧中动态设置header的部分

2.验证码识别

不少网站使用验证码来拦截爬虫，怎么来越过这些验证码的障碍是你需要学习的。

Python 爬虫入门（四）—— 验证码下篇（破解简单的验证码）

3.Selenium

Selenium就是一个真实的浏览器，是在网站的拦截范围之外的。

阅读Python爬虫伪装技巧——常见的和不常见的中第四点内容，关于Selenium
Python爬虫利器五之Selenium的用法

4.相关爬虫技巧的总结：

总结：常用的 Python 爬虫技巧
常见的反爬虫和应对方法
Python一些常用的爬虫技巧

5.有意思的爬虫应用

本次课程主要以豆瓣视频、气象网站信息为例，除此之外，爬虫还可以实现更多更有意思的事情。阅读以下链接的内容，扩展你关于爬虫实现功能的认知。

爬虫技术原来可以做这么多牛逼哄哄的事情!
你做过哪些有趣的基于网络爬虫的应用？
掌握了爬虫技能，就相当于手握海量数据的敲门砖。但对于不同的反爬虫限制，不同的网页结构，在现实应用中，会遇到各种各样的问题，只有多加练习才能灵活运用。

6.推荐给你继续爬虫任务的网站

Linkedin网站最大的优点是提供了API，而且支持以CSV文件格式导出你的联系人的通讯录，试试爬取你的联系人信息吧！
知乎成为了最活跃的社区之一，利用爬虫爬取知乎的数据可以得到很多有意思的结论，也已经有很多前人的分享与结论，适合初学者的你进行参考。
- 知乎核心用户大数据报告：你知道知乎的男女比例是多少吗？
- 知乎社交网络分析（上）：基本统计
- 知乎社交网络分析（下）：关注网络
如果想要获得更多的练习思路，可以阅读有哪些网站用爬虫爬取能得到很有价值的数据？，

7.阅读材料

对于学有余力的你，推荐以下三本书籍进行阅读。

《精通正则表达式》电子工业出版社
《社交网站的数据挖掘与分析》机械工业出版社
《Python网络数据采集》人民邮电出版社>

你可能感兴趣的:(Python学习三：爬虫高级技巧与模拟实战练习)

利用A、G、DL、P策略来管理网络资源访问权限 lyuharvey
问题描述:如现在某个企业是通过域来管理的。在域中，有三台打印机，其中，销售部门只能够访问打印机A;管理部门只能够使用打印机B;财务部门可以访问打印机C，当打印机C不能够使用时，则可以使用打印机B。在域中，还有三个共享文件夹，其中文件夹甲是销售部门专用文件夹，只有销售员工以及销售总监与财务总监可以访问;文件夹乙是财务专用文件夹，只有财务部门以及财务总监帐户可以访问;文件夹丙是一个公共文件夹，任何部门
OpenAI 团队组织架构和研发技术栈 AI天才研究院 ChatGPT 人工智能
OpenAI是一家致力于推动人工智能技术发展的公司，成立于2015年。其目标是确保人工智能技术造福全人类。为了实现这一目标，OpenAI采用了多种先进的技术和组织架构来推动其研发工作。目录OpenAI组织架构和研发技术栈概述1OpenAI团队的世界顶尖科学家IlyaSutskever：Ilya是OpenAI的联合创始人之一，也是深度学习领域的先驱。他在神经网络和深度学习方面的研究具有重要影响，曾与
物联网（IoT）架构中，平台层的应用与技术小赖同学啊智能硬件物联网架构
在物联网（IoT）架构中，平台层是连接物理设备（感知层）和应用服务（应用层）的核心部分。它负责数据的采集、处理、存储、分析以及设备管理等功能，是物联网系统的“大脑”。以下是平台层的主要功能及其技术实现手段：平台层的主要功能设备管理：功能：管理物联网设备的注册、配置、监控、维护和故障诊断。技术手段：设备注册与认证：使用MQTT、CoAP等协议实现设备接入，结合OAuth、X.509证书等技术进行设备
六十天前端强化训练之第十七天React Hooks 入门：useState 深度解析编程星辰海 #前端前端 react.js javascript
=====欢迎来到编程星辰海的博客讲解======看完可以给一个免费的三连吗，谢谢大佬！目录一、知识讲解1.Hooks是什么？2.useState的作用3.基本语法解析4.工作原理5.参数详解a)初始值设置方式b)更新函数特性6.注意事项7.类组件对比8.常见问题解答二、核心代码示例三、实现效果四、学习要点总结五、扩展阅读推荐官方文档优质文章推荐学习路径进阶资源六、实践步骤一、表单输入控制二、动态
深入解析React 18核心特性：构建未来级Web应用的全面指南斯~内克 react知识点前端 react.js 前端框架
一、React18的里程碑意义React18作为近年来最具革命性的版本更新，标志着前端开发正式进入并发渲染时代。这个版本不仅带来了底层架构的革新，更重新定义了现代Web应用的性能标准与开发范式。根据npm官方统计，React18发布首周下载量突破1800万次，GitHub星标数新增3.4万，充分展现了开发者社区对其技术价值的认可。二、架构革命：并发模式深度解析2.1并发渲染原理//传统同步渲染模式
Windows域渗透之域管理人间酒中仙红队笔记之域渗透 windows 笔记学习网络安全域渗透红队笔记
Windows域管理一、使用组策略进行软件分发1、操作步骤2、PowerShell命令示例二、配置组策略（GPO）设置1、设置密码策略2、禁用USB存储设备三、批量用户管理1、创建单个用户2、批量导入用户四、部署和管理共享驱动器1、使用组策略登录脚本自动映射驱动器2、使用PowerShell映射网络驱动器五、管理Windows更新1、使用组策略配置自动更新2、使用PowerShell管理Windo
Android Jetpack qq_39892855
AndroidJetpack翻译Jetpack是一套让开发者更容易开发出完美安卓应用的组件。这个组件帮助你遵循最好的实践，让你减少写一些模板代码，简化复杂的task任务，能让你更加专注自己的业务代码。Jetpack使用的是androidx.*包名，与旧的android.*分开。这意味着它提供向后兼容性并且他会更频繁地更新，确保您始终可以访问最新和最好的Jetpack组件版本。特点加速开发组件可以单
红蓝对抗之Windows内网渗透实战 wespten 网络安全AI+渗透测试代码审计等保全栈网络安全开发 windows
无论是渗透测试，还是红蓝对抗，目的都是暴露风险，促进提升安全水平。企业往往在外网布置重兵把守，而内网防护相对来说千疮百孔，所以渗透高手往往通过攻击员工电脑、外网服务、职场WiFi等方式进入内网，然后发起内网渗透。而国内外红蓝对抗服务和开源攻击工具大多数以攻击Windows域为主，主要原因是域控拥有上帝能力，可以控制域内所有员工电脑，进而利用员工的合法权限获取目标权限和数据，达成渗透目的。以蓝军攻击
如何用爬虫根据关键词获取商品列表：一份简单易懂的代码示例 API小爬虫爬虫
在当今数字化时代，网络爬虫已经成为数据收集和分析的强大工具。无论是市场调研、价格监控还是产品分析，爬虫都能帮助我们快速获取大量有价值的信息。今天，我们就来探讨如何通过编写一个简单的爬虫程序，根据关键词获取商品列表。以下是一个基于Python语言的代码示例，适合初学者学习和实践。一、准备工作在开始编写爬虫之前，我们需要准备以下工具和库：Python环境：确保你的电脑上安装了Python。推荐使用Py
Spring Boot与Django对比：哪个更适合做为Web服务器框架？ m0_74824076 面试学习路线阿里巴巴 spring boot django 前端
文章目录1.基础背景与技术栈1.1SpringBoot1.2Django2.架构对比2.1SpringBoot架构2.2Django架构3.性能比较3.1SpringBoot性能3.2Django性能4.开发效率4.1SpringBoot开发效率4.2Django开发效率5.社区与生态系统5.1SpringBoot社区5.2Django社区6.部署与运维6.1SpringBoot部署与运维6.2D
计算机视觉算法实战——驾驶员玩手机检测（主页有源码）喵了个AI 计算机视觉实战项目计算机视觉算法智能手机
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.领域简介：玩手机检测的重要性与技术挑战驾驶员玩手机检测是智能交通安全领域的核心课题。根据NHTSA数据，美国每年因手机使用导致的交通事故超过3000起，中国公安部的统计显示开车使用手机的事故率是正常驾驶的23倍。该技术通过实时监测驾驶员手部动作和视线方向，识别非法使用手机行为，在以
【Python】构建Web应用的首选：Flask框架基础与实战萧鼎 python基础到进阶教程 python 前端 flask
构建Web应用的首选：Flask框架基础与实战在Python的Web开发生态中，Flask框架以其轻量、灵活和易用的特性成为构建Web应用的首选之一。无论是快速搭建一个小型应用原型，还是构建复杂的后端服务，Flask都提供了便捷的接口和丰富的扩展支持。本博客将介绍Flask的基础知识和核心概念，并通过一个简单的实例展示如何用Flask构建Web应用。一、Flask框架简介Flask是由ArminR
安全测试数据的分析、报告及业务应用蚂蚁质量安全测试质量体系安全网络 web安全
一、安全测试指标与测量目标在风险分析和管理流程中，有效运用安全测试数据的前提是准确定义安全测试指标和测量目标。例如，通过统计安全测试中发现的漏洞总数，能够量化应用程序的安全状态，还可据此设定软件安全测试的目标，如在应用程序投入生产环境前，将漏洞数量降低至可接受的最低限度。另一个具有管理价值的目标是将应用程序的安全状态与安全基线进行对比，以此评估应用安全流程的改进情况。假设安全指标基线对应的是仅完成
Android Jetpack介绍 Gary.Mi Android
1.文档背景本文是Jetpack介绍系列文档的开篇，是对Jetpack整体的介绍，后续会对其中的各个组件分别单独说明。2.官方简介Jetpack是一套库、工具和指南，可帮助开发者更轻松地编写优质应用。使用这些组件，可帮助开发者遵循最佳实践，摆脱编写样板代码的工作并简化复杂任务，使开发者将精力集中放在所需的代码上。Jetpack包含与平台API解除捆绑的androidx.*软件包库。这意味着，它可以
Spring Boot应用首次请求性能优化实战：从数据库连接池到JVM调优一休哥助手 java spring boot 性能优化数据库
目录问题现象与背景分析性能瓶颈定位方法论数据库连接池深度优化SpringBean生命周期调优JVM层性能预热策略全链路监控体系建设生产环境验证方案总结与扩展思考1.问题现象与背景分析1.1典型问题场景在某互联网金融项目的SpringBoot应用上线后，运维团队发现一个关键现象：应用重启后首次访问提现接口耗时约1300ms后续请求稳定在200ms以内每日凌晨服务重启后，首笔交易超时率高达30%1.2
深入解析 Vue 3 Teleport：原理、应用与最佳实践赵大仁前端 Vue.js 技术 vue.js javascript 前端
深入解析Vue3Teleport：原理、应用与最佳实践1.引言Vue3引入了Teleport组件，它可以让我们将组件的渲染位置从当前组件层级移动到DOM的其他位置，而不影响Vue的响应式和组件状态管理。在开发中，我们经常遇到模态框、通知、弹窗、工具提示（Tooltip）等UI组件，这些组件通常需要被渲染到body或特定DOM节点，以避免z-index层级问题。Vue3的Teleport解决了这个问
大型语言模型与强化学习的融合：迈向通用人工智能的新范式——基于基础复现的实验平台构建（initial）大模型科普人工智能强化学习
1.引言大型语言模型（LLM）在自然语言处理领域的突破，展现了强大的知识存储、推理和生成能力，为人工智能带来了新的可能性。强化学习（RL）作为一种通过与环境交互学习最优策略的方法，在智能体训练中发挥着重要作用。本文旨在探索LLM与RL的深度融合，分析LLM如何赋能RL，并阐述这种融合对于迈向通用人工智能（AGI）的意义。为了更好地理解这一融合的潜力，我们基于“LargeLanguageModela
深入解析 React Diff 算法：原理、优化与实践赵大仁前端技术 js react.js 前端前端框架
深入解析ReactDiff算法：原理、优化与实践1.引言React作为前端领域的标杆框架，采用虚拟DOM（VirtualDOM）来提升UI更新性能。React的Diff算法（Reconciliation）是虚拟DOM运行机制的核心，它决定了如何高效地对比新旧DOM并执行最少的操作来更新UI。本篇文章将深入探讨ReactDiff算法的原理、优化策略，并通过生动的示例解析其工作方式，让你能够更直观地理
强化学习-Chapter2-贝尔曼方程 Rsbs 算法机器学习概率论
强化学习-Chapter2-贝尔曼方程贝尔曼方程推导继续展开贝尔曼方程的矩阵形式状态值的求解动作价值函数与状态价值函数的关系贝尔曼方程推导Vπ(s)=E[Gt∣St=s]=E[rt+1+(γrt+2+…)∣St=s]=E[rt+1+γGt+1∣St=s]=∑a∈Aπ(s,a)∑s′∈SPs→s′a⋅(Rs→s′a+γE[Gt+1∣St+1=s′])=∑a∈Aπ(s,a)∑s′∈SPs→s′a⋅(R
太速科技-基于3U VPX的 Jetson Xavier NX GPU计算主板北京太速科技股份有限公司人工智能
基于3UVPX的JetsonXavierNXGPU计算主板一、产品概述基于3UVPX的JetsonXavierNXGPU计算主板，是AI人工智能的低功耗计算平台，是LINUX环境下软件开发等的理想工具，拥有VPX标准连接器和特性的接口。二、板卡原理框图三、板卡外扩功能P0接口电源输入+12V，板卡总功耗60W以内P1接口1路RS422接口，一路GigabitEthernet前面板接口MICROUS
本月之后，华为再无Windows PC，微软亲自“扶鸿蒙上马” 佳晓晓 pygame scikit-learn 网络 iphone vue.js
在当前中美博弈的复杂大环境下，华为这一科技巨头一直备受关注，近期更是传出重磅消息：微软对华为的Windows系统供货许可本月即将到期，且并无续约迹象。这意味着此后华为PC将无法再使用Windows系统，被迫全面转向国产方案，而鸿蒙PC系统则有望借此契机正式登上舞台。华为PC的现状与转变契机自去年8月华为上架MateBookGT14后，已有长达7个月的时间没有新品PC推出。这期间，华为PC的销量也受
前端面试题---vue项目打包时, 内存不足了怎么办为什么会出现这样的情况 *星之卡比* 前端 vue.js javascript
Vue项目打包时如果出现内存不足（OOM，OutofMemory）简称就是OOM，通常是因为项目代码量较大、依赖过多、打包时Webpack需要处理的文件过多，导致Node.js运行时超出了默认的内存限制。一、为什么会出现内存不足？项目过大：项目代码文件过多，Webpack需要处理的内容太多。第三方库过多：node_modules体积过大，依赖库多且未进行优化。SourceMap过大：默认produ
软件2.0的无服务器计算架构 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《软件2.0的无服务器计算架构》关键词无服务器计算软件架构软件2.0事件驱动函数编程微服务云原生摘要本文深入探讨了软件2.0时代的无服务器计算架构。首先，我们回顾了无服务器计算的兴起背景，与传统服务器计算的区别，以及其设计理念。接着，介绍了主流的无服务器平台，并探讨了无服务器计算在软件2.0中的应用。随后，我们详细阐述了无服务器计算的核心技术，包括事件驱动架构、编写无服务器函数、无服务器数据库和无
深入解析 React 最新特性：革新、应用与最佳实践赵大仁前端 ReactNative react.js 前端前端框架
深入解析React最新特性：革新、应用与最佳实践1.引言React作为前端开发的核心技术之一，近年来不断推出新的API和优化机制，从ConcurrentRendering（并发模式）到ServerComponents（服务器组件），都在不断提升开发体验和应用性能。本文将深入解析React最新特性，包括React18并发模式、useTransition、useDeferredValue、ReactS
浅谈Linux中的Shell及其原理有梦想的电信狗 linux 服务器 ssh unix 开发语言 c语言 c++
浅谈Linux中的Shell及其原理Linux中Shell的运行原理github地址前言一、Linux内核与Shell的关系1.1操作系统核心1.2用户与内核的隔离二、Shell的演进与核心机制2.1发展历程2.2核心功能解析2.3shell的工作流程1.用户输入命令2.解析器拆分指令3.扩展器处理动态内容变量替换通配符扩展命令替换4.执行器运行命令5.内核处理系统调用6.返回结果关键组件协作三、
老板既要又要还要......我用Doris+Hudi把不可能变成了日常一臻数据大数据 Doris 大数据数据分析数据库
老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说：有一位数据科学家，整日为查询性能发愁，夜夜加班优化SQL。直到有一天，他发现了Doris与Hudi的"天作之合"，顿时开启了"飞毛腿"模式——查询速度快得连老板都不敢相信！如今，这个传说
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
zerotier 组网+moon+dns服务器月落乌啼霜满天@3760 zerotier blog 服务器运维
zerotier组网+moon+dns服务器zerotier搭建虚拟局域网整体可以分成三步：zerotier创建网络，各个客户端加入网络。软件下载：Download-ZeroTier国内公网服务器，搭建moon节点。教程：打洞不成功？来试试ZeroTier自建Moon中转吧～|Lufs'sBlog搭建dns服务器（zeronsd）教程：ZeroTier组网：使用zeronsd作为其私有网段DNS_
JAVA面试_进阶部分_正确使用 Volatile 变量茂茂在长安 JAVA java 面试开发语言
Java语言中的volatile变量可以被看作是一种“程度较轻的synchronized”；与synchronized块相比，volatile变量所需的编码较少，并且运行时开销也较少，但是它所能实现的功能也仅是synchronized的一部分。本文介绍了几种有效使用volatile变量的模式，并强调了几种不适合使用volatile变量的情形。锁提供了两种主要特性：互斥（mutualexclusio
JAVA面试_进阶部分_混杂（1）茂茂在长安 JAVA java 面试开发语言
1、说说线程安全问题，什么是线程安全，如何实现线程安全；线程安全-如果线程执行过程中不会产生共享资源的冲突，则线程安全。线程不安全-如果有多个线程同时在操作主内存中的变量，则线程不安全实现线程安全的三种方式1）互斥同步临界区：syncronized、ReentrantLock信号量semaphore互斥量mutex2）非阻塞同步CAS（CompareAndSwap）3）无同步方案可重入代码使用Th
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他