sketchlcy

《python应用实战爬虫文本分析与可视化》笔记上

第一章初识python

安装python(3.9) anaconda(3)
在JupyterNotebook中选择python3，并执行代码。

在这里插入图片描述

第一次打开JupyterNotebook终端/命令行会生成一个URL，为带有令牌密钥提示。需要将包含这个令牌密钥在内的整个URL复制到浏览器地址中，然后才能打开一个JupyterNotebook。此步骤执行一次即可，无需再次执行。

字符串操作

books = 'The Kite Runner'

字符串的索引和切片
 print(books)
 print(books[0])
 print(books[1:5])
 print(books[-3:-1])

字符控制方法
 books.upper——'THE KITE RUNNER'
 books.replace('Runner','Walking')——'The Kite Walking'
 books.split('')——['The','Kite','Runner']
 books.replace('n','T',1)——'The Kite RunTner'

格式化
 'The Kite %s' %('Runner')——'The Kite Runner'
 'The Kite {}'.format(5)——'The kite 5'
 'The Kite {1}{0}'.format('Runner',5) ——'The kite 5 Runner'

列表

info = ['The Kite Runner','长篇小说',226000]

 info.append('美籍阿富汗人')
   print(info)
   ——['The Kite Runner','长篇小说',226000,'美籍阿富汗人']

 info.insert(2,'上海人民出版社')
   print(info)
   ——['The Kite Runner','长篇小说','上海人民出版社',226000，'美籍阿富汗人']

 info.remove('长篇小说')
   print(info)
   ——['The Kite Runner','上海人民出版社'，226000，'美籍阿富汗人']

处理数据

1.判断
if 2003 in info:
   print('这是一本2003年出版的书')
else:
   info.insert(2,2003)
   print('已添加该书的出版时间：2003年') 
pass

2.循环
#遍历表中的内容 range以左闭右开方式取值
for i in range(0,10):
   print(i,end='')

for novel in info:
   print(novel)

3.嵌套
for novel in info:
   if isinstance(novel,list):
      for novel_L1 in novel:
         print(novel_L1)
   else:
      print(novel)
   pass
pass

函数用关键字def定义

先使用，再调用，最后执行。

def area():   #再调用后执行
   radius = 1.3
   s1 = 3.14*radius**2
   c1 = 2*3.14*radius
   print('半径为'，radius,'厘米的圆面积为：',s1)
   print('半径为'，radius,'厘米的圆周长为：',c1)

area()  #先使用

模块

1. import导入模块
import random
print(random.randint(0,100))

2. from...import导入模块  #from 模块名 import 函数名
from random import *
print(randint(0,100))

3. 利用as起别名
import random as rd
print(rd.randint(0,100))

第二章网页

准备 Chrome
网址：统一资源定位符URL，网页：页面，网站：由许多网页和其他资源（图片、视频等）组成
获取URL：右键—复制链接地址
HTML：创建网页的方块 HTML： html初识
单标签：' ，双标签：
标签属性：以属性值=“属性值（键值对）的形式出现；可以有多个属性，无先后关系”
<标签名称属性1=“属性1” 属性2=“属性2”>元素内容
CSS与class：网页装饰
元素选择器：通过标签名选择元素。格式：选择器{声明(特性：特征值)}h1 { color : grey; text-align : center;}
id选择器：对于
，可以直接通过标签名称来定位其样式。比如：
，而CSS规则的叠加性会使得所有的
标签都具有同样效果。
类选择器：标签相同的CSS类名设置相同的样式。比如：定义一个大盒子
类，
JavaScript和id：增加网页互动


<html>
<head>
<title>Hello JavaScripttitle>

<script>
function sayHello(){
      
     document.getElementByid("Hello").innerHTML = "Hello JavaScript!";
}

function turnRed(){
      
     document.getElementByid("Hello").style = "color : red;";
}
script>
                 //script中的代码就是JavaScript
                 //使用document.getElementByid选择html元素

head>

<body>
<h1 id="hello">h1>
<button onclick="sayHello()">Say hellobutton>
<button onclick="turnRed">Turn redbutton>
body>
                 //document.getElementByid方法中传递id的值

html>

网页中会显示两个按钮。点击"Say hello"按钮会出现"Hello JavaScript!"，点击"Turn red"按钮文本颜色变红。

网页分析工具 ChromeF12 谷歌开发者工具详解 -Network

打开chrome，F12直接打开"开发者工具"，将鼠标移到不同网页元素，html代码会跳转变化，相反也可用。

7.HTTP

get和post请求
get请求：单纯获取网站信息。
post请求：将用户输入数据返回给网站。例如输入用户名和密码，这些数据就通过post请求发送给网站。

状态码	含义
200	请求成功，请求的内容会和响应一起返回给浏览器
304	请求的内容与上次一样，浏览器缓存中有该内容
404	请求的资源在网站服务器中不存在
500	网站服务器出现错误

浏览器端cookie和服务器端session
尘世风—浅谈cookie、session
比如：
①用户输入了自己的用户名和密码，通过http的post请求发送给网站的服务器；
②网站服务器收到请求后，会对用户名和密码进行验证。如果通过验证，就会给用户保存一个会话（session）表示用户已经登录成功，同时返回给浏览器请求设置200的响应码，并将正确登录的html代码放在http响应的消息体里。并且，网站在响应的头部增加了一个信息Set=Cookie：session=abc123xyz，session=abc123xyz是用户在网站上登录会话的一个标识；
③浏览器在收到登陆成功的http相应时，会发现响应头里有Set=Cookie的信息，并且会把网站会话标识保存在浏览器的cookie中，cookie是保存在浏览器里的一个小文件。以后每次浏览器在访问网站时，都会在请求头部加上cookie，把session=abc123xyz发送给网站，网站将这个字符串与自己保存的会话相比较，如果确认用户已经登录过，则直接相应登录后的网页。
④登录的会话会被网站设置有效期，或者用户主动清除了cookie，则网站会判定没有登录过。

http交互过程
利用chrome打开网址https://tools.ietf.org/html/rfc2616 并按下F12

网页有三个请求，一个文档，三个png图片。
单击第一个条目，会出现第一个条目信息的HTTP请求/相应信息窗口。

可以通过这几个按钮切换视图，查看不同信息。
Headers：指的是http请求/响应的头部。包含了General、Response Headers(响应头部)、Request Headers(请求头部)。

General是总结性的信息，通常包含http的请求行(Request-line)和http相应的状态行(Status-line)信息。比如请求的URL，http请求方法，响应状态码等。

Response Headers(响应头部)和Request Headers(请求头部)信息较多

User-Agent是http请求用来向服务器传递浏览器信息，由于不需要登录，因此没有cookie相关信息。

Preview：对条目进行预览，结果与浏览器窗口显示内容一致。但如果点击"rfc.png"，预览结果则是图片。

Response：用来显示http响应的消息体，第一个条目请求的是网页，窗口显示的就是对应网页的html代码。

8. 以URL结束

URL的简单格式：https://网站域名/路径

示例：https://movie.douban.com/top250?start=0&filter=
其中以？开头的?start=0&filter=是URL的参数

参数名	参数值
start	0
filter	空

那么URL格式就变成https://网站域名/路径?参数1=参数值1&参数2=参数值2…

这两个参数的作用在界面中显示为：

参数1start的作用是不是显而易见呢？

那么另一个参数filter，没有参数值，但却一直以filter=的形式存在在URL的参数中。如果去掉，页面显示效果和未去掉一样。这说明如果filter参数为空，不传递也是可以的。

不止是翻页功能，URL参数还能控制网页的其他内容。

第三章数据抓取

工具准备

anaconda开发工具套件里的request库，可直接在Jupyter里使用。
可能出现的问题：python interpreter is in a conda environment, but the environment has not been activate解决方法

代码使用requests库发送了一个http的get请求。

http的请求直接保存在http_response变量里。

代码发送post请求。

post请求使用requests.post()方法向网站发送数据，把一个python字典{‘hello’: ‘world’}赋值给post()方法。字典里的数据将会作为POST请求的消息体传递给httpbin.org/post这个URL，响应如下：

Xpath和lxml.html

lxml是用来处理XML和HTML的python第三档工具库，通常我们会使用到里面的html工具，也就是lxml.html。
而在lxml.html库中有一个常用方法：lxml.html.fromstring()，这个方法会把我们通过requests库获取的HTML文本文件，转换成可以分析的HTML对象。
这个HTML对象，可以当作通过chrome的开发者选项F12来分析的网页，可以通过鼠标来定位元素。

XML是eXtensible Markup Language(可标记扩展语言)的缩写，它可以用来查找HTML元素及属性，它与HTML在结构上非常接近。但在代码中，我们无法用鼠标定位元素，因此XPath方法就能派上用场。XPath表达式形如：//*[@id="screening"]/div[2]/ul/li[7]/ul/li[1]

XPath使用实例：
根据下列html代码来获取元素


<html>
  <head>
    <title>XPath示例title>
  head>
  <body>
    <div class="fruit">       #<body>中第一个<div>元素
      水果列表：                 #<div>大盒子里有1个<ul>列表
      <ul>                         #<ul>列表里有3个<li>元素
        <li id="apple">苹果li>
        <li>香蕉li>
        <li class="special">西瓜li>
      ul>
    div>

    <div class="vehicle">      #<body>中第一个<div>元素
      交通工具列表：               #<div>大盒子里有1个<ul>列表
      <ul>                          #<ul>列表里有3个<li>元素
        <li>汽车li>
        <li>火车li>
        <li class="special">飞车li>
      ul>
    div>
  body>
html>

①选择所有

元素：//div

②选择所有“水果列表”的

元素：//div[@class="fruit"]

③选择所有“水果列表”的

元素下的

元素：//div[@class="fruit"] ./li 如果未加.，代码会无视当前位置而选择所有的

元素

④选择“苹果”元素：//li[@id="apple"] 在html中，id属性是唯一的

⑤选择“交通工具列表”下，带有class="special"属性的交通工具：//div[@class="vehicle"]/li[@class="special"]

⑥选择第一个

元素：//div[1]
XPath的第一个元素是从1开始的，pythono从0开始

⑦不使用//的方法：需要写出完整路径/html/body/div/ul/li XPath会选择所有的6个

元素

XPath的表达式	功能
/	从当前html根目录中选择元素。如`/html/body/div`会选择`html`目录下，`body`元素中所有`div`元素
//	选择所有目录下的所有元素。如`//div`，会选择html目录中所有`div`元素
.	选择当前元素。如`.//li`，会选择当前元素下面的所有`li`元素
@	选择html元素的属性。
//element[n]	选择所有element元素的第n个元素
//*[@attr=“abc”]	选择所有attr="abc"的任何元素

实战：利用lxml.html来进行XPath的实际应用
先将上面的代码保存成lxml.html文件，在python中运行代码。

import lxml.html


with open('xpath.html', 'r', encoding='utf-8') as f:
    # 通过lxml.html.fromstring()方法
    # 将保存在xpath.html中的HTML代码转换成HTML对象
    html = lxml.html.fromstring(f.read())

print('HTML对象: {}'.format(html))

print('\n实例一：选择所有的元素(2个):')
all_div = html.xpath('//div')
print(all_div)

print('\n实例二：选择“水果列表”的元素(1个):')
fruit_div = html.xpath('//div[@class="fruit"]')
print(fruit_div)

print('\n实例三：选择所有的元素(6个)：')
all_li = html.xpath('//li')
print(all_li)

print('\n实例四：先选择“水果列表”再选择下面的')
# 由于xpath()方法会返回一个列表，而且这个列表只有一个元素，
# 所以使用序号0来选择列表中的元素
fruit_div = html.xpath('//div[@class="fruit"]')[0]

# XPath使用"."表示从当前开始选择
fruit_li = fruit_div.xpath('.//li')

# XPath不使用"."
wrong_fruit_li = fruit_div.xpath('//li')

print('使用了"."的选择结果(3个):')
print(fruit_li)
print('未使用"."的选择结果(6个):')
print(wrong_fruit_li)

print('\n实例五：选择“苹果”元素(1个):')
apple_li = html.xpath('//li[@id="apple"]')
print(apple_li)

print('\n实例六：选择“交通工具列表”下面带有“class="special"”属性的交通工具(1个):')
# 这种方式就需要提供完整的嵌套路径，如/div/ul/li的上一级
vehicle_special_li = html.xpath('//div[@class="vehicle"]/ul/li[@class="special"]')
print(vehicle_special_li)

print('\n实例七：选择第一个元素(1个):')
first_div = html.xpath('//div[1]')
print(first_div)

print('\n实例八：选择所有带有class="special"的元素(2个):')
special_li = html.xpath('//*[@class="special"]')
print(special_li)

print('\n实例九：不使用"//"的选择方式(6个):')
full_path = html.xpath('/html/body/div/ul/li')
print(full_path)

robots.txt

Web Robot也称为网络机器人，通常是搜索引擎用来索引互联网内容的程序。爬虫也属于网络机器人的一类。
存在于网站域名下的robots.txt规定了网站的哪些内容可以被抓取，哪些内容不能被抓取。
robots.txt通常有User-Agent、Allow和Disallow几个关键字，User-Agent就是HTTP头部的User-Agent，Allow和Disallow后面通常指定了特定的URL前缀，表示允许或者禁止访问的页面。

一般在数据抓取之前，会查看域名下是否有robots.txt文件。通过浏览器打开域名/robots.txt来检查协议内容，确定要抓去的数据是否被协议所允许。但是我们不能无限制抓取，避免给服务器造成过大压力。在需要限制程序抓取频率时，使用python中的time.sleep()实现。

实例：抓取豆瓣电影(movie.douban.com)排名第一的电影标题

通过上面的操作抓取到的XPath(规范化后的HTML代码)：//*[@id="billboard"]/div[2]/table/tbody/tr[1]/td[2]/a
在获取html文本后，利用lxml.html.fromstring()将其转换成可以使用XPath分析的对象，并保存在变量html中，再调用html.path()，把前面从浏览器里获取的XPath作为xpath()参数传进来，这样就可以获取电影标题的元素了，这里的html.path()方法返回值是数组类型。最后使用title[0].text_content()来获取排名第一的电影标题。

import requests  
import lxml.html  

# 获取豆瓣电影首页  
http_response = requests.get('https://movie.douban.com', headers=myheaders)  
# 设置中文编码  
http_response.encoding = 'utf-8'  
  
html = lxml.html.fromstring(http_response.text)  
# 通过xpath来获取排名第一个电影  
title = html.xpath('//*[@id="billboard"]/div[2]/table/tr[1]/td[2]/a')  
print(title)  
print(title[0].text_content())

总结网页抓取步骤：
①获取html文本：通常使用requests库实现，使用get或post方法发送http请求。有时会设置请求的头部，或者一些中文编码，以防止乱码出现
②转换html对象：使用lxml.html.fromstring()将html代码转换成可以使用XPath分析的对象
③使用谷歌开发者工具获取元素的XPath：找到网页代码，copy XPath
④获取元素：使用lxml.html的xpath()方法获取元素，最后使用title.text_content()方法获取文本

6.1 抓取豆瓣电影(movie.douban.com)所有排名的电影标题

import requests  
import lxml.html  

# 获取豆瓣电影首页  
http_response = requests.get('https://movie.douban.com', headers=myheaders)  
# 设置中文编码  
http_response.encoding = 'utf-8'  
  
html = lxml.html.fromstring(http_response.text)  
# 通过xpath来获取所有电影  
titles = html.xpath('//*[@id="billboard"]/div[2]/table/tr/td[2]/a')  
for title in titles:  
    print(title.text_content())

另类网页的抓取
对于URL不固定的网页，比如会自动加载数据的网页豆瓣电影排行榜
中任选一个电影分类：惊悚片

获取到的XPath地址：//*[@id="content"]/div/div[1]/div[6]/div
使用下面的代码获取电影元素

import requests  
import lxml.html

http_response = requests.get('https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=', headers=myheaders)  
http_response.encoding = 'utf-8'  
html = lxml.html.fromstring(http_response.text)  
movies = html.xpath('//*[@id="content"]/div/div[1]/div[6]/div')  
print(movies)

此时不会获取任何元素。这是因为我们在抓取静态页面时，我们将数据定义在JavaScript的变量里，通过这些数据增加表单的内容。而通过筛选http请求，其中有一个分类是XHR，通常用来加载JavaScript需要的数据。

通过不断下拉页面，左边网页增加内容时，右边的数据资源列表也会新增。用代码抓取网页没有数据的原因：因为这些数据是通过浏览器JavaScript代码之后加载数据重新生成的网页，而抓取网页的代码是没有运行JavaScript的功能的，所以只是抓取到了未运行JavaScript之前的html代码，因此也会有电影的数据了。看一下最后一条数据的XHR请求的资源：

网页中的XHR请求，通常会返回一个json数组，而json数组可以和python字典，通过json库进行转换。

对于这种类型的网页，我们一般不使用lxml.html库。因为可以直接通过分析出来的URL获取数据。
复制网页URL：https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=40&limit=20
我们可以参照抓取多页数据的方法：

import requests
     
http_response = requests.get('https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=40&limit=20', headers=myheaders)
# 直接读取返回的JSON数据
movie_data = http_response.json()
print(type(movie_data))     
for movie in movie_data:
    print(movie)
    print('----------------分隔----------------')

由于请求的URL相应是一个json数组，通过http_response的json()方法可以直接获取。

代码中print(type(movie_data)) 直接打印movie_data的类型，可以确认http_response.json()方法把json数组转换成了python列表对象。for movie in movie_data: print(movie)直接利用for循环把列表里的电影数据打印，每个电影数据都是一个python字典。

上面抓取的网页有一个人特点，它通常是浏览器里下载的一些网页，然后再通过浏览器的一些事件，如用户鼠标滑动，发送一些XHR请求来获取服务器响应的数据。收到数据后利用JavaScript处理数据，将网页内容更新。对于动态的网页，通常直接通过抓取XHR请求的URL来直接完成。

你可能感兴趣的:(学习,javascript,爬虫,数据可视化)

如何有效管理 JavaScript 中的内存：垃圾回收与最佳实践名之以父 JavaScript 前端安全 javascript 前端框架 react.js vue.js 网络
“垃圾回收是现代编程语言的核心特性之一，它使得开发者可以专注于功能实现，而无需担心内存管理的细节。”——在JavaScript中，垃圾回收（GC）是一个自动化的内存管理过程，它帮助我们确保不再使用的内存得到释放。尽管JavaScript的垃圾回收机制非常强大，但如果对其原理和工作方式不够了解，也可能导致一些性能问题和内存泄漏。本文将深入探讨JavaScript中的垃圾回收机制、算法以及如何优化垃圾
【JavaScript 】垃圾回收机制进阶解析：提高性能的终极指南名之以父 JavaScript java jvm 开发语言前端安全网络 vue.js
“垃圾回收机制不仅是内存管理的基石，更是高效Web开发的保障。在JavaScript中，理解其工作原理至关重要。”在JavaScript中，垃圾回收（GarbageCollection，GC）是一个自动化的内存管理过程，能够有效防止内存泄漏虽然这看似是一个简单的机制，但背后却包含着丰富的理论与实现细节。理解这些原理，不仅能够帮助我们写出更高效的代码，还能避免一些性能问题和内存泄漏。本文将带你深入探
黑马程序员-接口测试-四天学习接口测试-第二天-接口用例设计，测试点，功能测试，安全测试，性能测试，单接口测试，业务场景测试用例，postman简介，安装学习记录wanxiaowan postman 学习功能测试
今日学习目标分析接口文档，设计编写接口测试用例使用Postman设置请求方法、URL、请求头、请求体，向接口发送http请求，并查看响应数据分析接口文档，设计接口测试用例使用postman设置请求方法，url请求头，请求体，查看响应数据3接口用例设计为什么写防止测试点漏测。条理清晰方便分配工作，评估工作量和时间面试时使用！接口测试的测试点测试点称之为测试维度。5功能测试单接口功能：手工测试中的单个
第十章：C++ 标准 weisonx C++全栈知识体系 c++
第十章：C++标准C++语言不断演进，每个新版本都引入了新的特性和改进。本章将详细介绍C++11、C++14、C++17、C++20和C++23的重要特性及其对C++开发的影响。通过对这些标准的学习，读者可以掌握现代C++编程的最新趋势，提高代码的可维护性、性能和可扩展性。10.1C++11：现代C++的开端C++11标准是C++语言历史上的一次重大更新，它引入了大量的新特性，使得C++语言更加现
XGBoost常见面试题（五）——模型对比月亮月亮要去太阳机器学习经验分享
XGBoost与GBDT的区别机器学习算法中GBDT和XGBOOST的区别有哪些？-知乎基分类器：传统GBDT以CART树作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。导数：传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。同时xgboo
JavaScript面试宝典傻小胖 javascript 面试前端
1.JS由哪三部分组成？JavaScript由以下三部分组成：ECMAScript（ES）：JavaScript的核心语法，如变量、作用域、数据类型、函数、对象等。DOM（文档对象模型）：用于操作HTML和XML文档的API，可以动态修改网页内容、结构和样式。BOM（浏览器对象模型）：用于操作浏览器窗口和页面，例如window、navigator、location、history、screen等对
卷积神经网络（笔记01）天行者@ cnn 人工智能深度学习
视觉处理三大任务：分类、目标检测、图像分割CNN网络主要有三部分构成：卷积层（ConvolutionalLayer）、池化层（PoolingLayer）和激活函数一、解释卷积层中的偏置项是什么，并讨论在神经网络中引入偏置项的好处。在卷积神经网络（CNN）的卷积层里，卷积操作本质上是输入数据与卷积核（滤波器）进行逐元素相乘再求和的过程。偏置项（Bias）是一个额外的可学习参数，对于每个卷积核而言，都
【新手向】从零开始学习Java（Day29）Java 网络编程星河天欲瞩从零开始学习Java 学习 java 开发语言 jvm 网络后端
每天二十分钟，成就Java大神，点点关注不迷路！今天是第二十九天，给坚持到这里的小伙伴点个赞！对抗混乱即修行，共勉！目录网络编程基础概念Socket（套接字）ServerSocket类（服务器端）构造方法常用方法Socket类构造方法常用方法InetAddress类本地实例服务端客户端运行步骤下节预告网络编程基础概念网络编程是指编写运行在多个设备（计算机）的程序，这些设备都通过网络连接起来。网络模
WordPress建站给外贸人带来的负担小机出海建站常谈服务器 ssl https
WordPress是全球最大的开源建站平台，有着丰富的主题与插件，尽管功能非常强大，但也给想要建站的外贸人带来了一些负担。一、技术门槛与学习成本1、由于WordPress发展了几十年，里面的功能应有尽有，但往往这些复杂的功能导致建站新手对它的学习成本变得很高，需要理解各个模块与功能点，增加了上手的复杂度。2、WordPress的建站服务商他不会告诉你，你可能需要知道一些代码知识（HTML、CSS、
JavaScript模块化开发的演进历程 IronKee JavaScript javascript 前端
写在前面的话js模块化历程记录了js模块化思想的诞生与变迁历史不是过去，历史正在上演，一切终究都会成为历史拥抱变化，面向未来延伸阅读-JavaScript诞生（这也解释了JS为何一开始没有模块化）JavaScript因为互联网而生，紧随着浏览器的出现而问世1990年底，欧洲核能研究组织（CERN）科学家Tim，发明了万维网（WorldWideWeb），最早的网页只能在操作系统的终端里浏览，非常不方
【二分算法】-- 三种二分模板总结雨雨雨雨点子算法算法 java 开发语言 leetcode
文章目录1.特点2.学习中的侧重点2.1算法原理2.2模板2.2.1朴素二分模板（easy-->有局限）2.2.2查找左边界的二分模板2.2.3查找右边界的二分模板1.特点二分算法是最恶心，细节最多，最容易写出死循环的算法====但是，一旦掌握了之后，二分算法就是最简单的算法。其实并不是一定要二分，三分，四分也都可以，但是根据概率学中的求期望数学中可知，二分是效率最高的。如果是三分的话，我们就像是
深入学习Nginx：从入门到实践小码快撩 nginx 学习运维
引言Nginx，全名“EngineX”，是一款高性能的HTTP和反向代理服务器，由俄罗斯程序员IgorSysoev开发。以其轻量级、高并发处理能力和稳定性而闻名于世，广泛应用于负载均衡、动静内容分离、API网关、缓存服务以及静态文件服务等多个场景。本文旨在为读者提供一份详尽的Nginx技术学习指南，助您快速掌握并应用这一强大工具。。一、事件驱动模型在Nginx中，事件驱动模型是其高效处理并发连接的
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Elasticsearch 入门教学：从零开始掌握分布式搜索引擎格子先生Lab 搜索引擎 elasticsearch 分布式
引言Elasticsearch是一个开源的分布式搜索引擎，基于ApacheLucene构建，能够实现近乎实时的数据搜索和分析。它广泛应用于日志分析、全文搜索、数据可视化等场景。本文将带你从零开始学习Elasticsearch，掌握其基本概念、安装配置、数据操作及搜索功能。1.Elasticsearch简介1.1什么是Elasticsearch？Elasticsearch是一个分布式的RESTful
【LLM】预训练的具体流程 FOUR_A LLM python 人工智能深度学习大模型
分词器训练预训练模型：就像你已经学会了一些基础知识的“大脑”，我们可以在这个基础上继续学习新东西。比如，有些模型已经学会了英语，但中文学得不够好。中文预训练：为了让这个“大脑”更好地理解中文，我们需要用大量的中文数据继续训练它。分词器（Tokenizer）：它的作用是把一句话拆分成一个个小单元（比如词语或字）。比如，“我喜欢学习”会被拆成“我/喜欢/学习”。这些拆分后的单元会被转换成数字，方便模型
递推和递归_一文学会递归递推 HR刀姐递推和递归
递归算法和递推算法无论是在ACM竞赛还是项目工程上都有着极为广泛的应用，但想要完全掌握两者的思想并不容易，对于刚刚接触编程的人来说更是这样，我在初次接触递归递推时就吃了很多的苦头，除了当时对编程语言不太熟悉之外，最大的原因就是难以理解其中的思想，本文将二者结合代码分别讲解，力求以"理论+实践"的方式使读者明白两种算法。一箭双雕，一文双递。一.递归和递推的区别学习递归递推的一个容易遇到的问题就是混淆
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
Zookeeper【概念（集中式到分布式、什么是分布式、CAP定理、什么是Zookeeper、应用场景、为什么选择Zookeeper 、基本概念）】(一)-全面详解（学习总结---从入门到深化）童小纯中间件大全---全面详解 zookeeper 分布式
作者简介：大家好，我是小童，Java开发工程师，CSDN博客博主，Java领域新星创作者系列专栏：前端、Java、Java中间件大全、微信小程序、微信支付、若依框架、Spring全家桶如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步如果感觉博主的文章还不错的话，请三连支持一下博主哦博主正在努力完成2023计划中：以梦为马，扬帆起航，2023追梦人目录Zookeeper概念_集中式到分布
深度学习：马氏距离壹十壹深度学习深度学习人工智能
马氏距离（MahalanobisDistance）是一种用于计算不同维度数据点之间距离的度量方法。它考虑了数据的协方差结构，因此在处理具有相关性的多维数据时更加有效。与欧氏距离不同，马氏距离不仅考虑了各个变量的量纲，还考虑了它们之间的相关性。公式马氏距离计算两个向量(x)和(y)之间的距离，定义为：DM(x,y)=(x−y)TS−1(x−y)\D_M(x,y)=\sqrt{(x-y)^TS^{-1
深度学习：CPU和GPU算力壹十壹深度学习深度学习 gpu算力人工智能
一、算力“算力”（ComputingPower）通常是指计算机或计算系统执行计算任务的能力。它是衡量系统处理数据、运行算法以及执行计算任务效率的重要指标。根据上下文，算力可以在以下几种场景中具体化：1.单机算力CPU算力：中央处理器的计算能力，通常用核心数量（cores）、时钟频率（GHz）、以及每秒浮点运算次数（FLOPS）等指标衡量。GPU算力：图形处理单元用于并行处理的能力，尤其是在深度学习
深度学习：偏差和方差壹十壹深度学习深度学习人工智能 python 机器学习
偏差（Bias）偏差衡量了模型预测值的平均值与真实值之间的差距。换句话说，偏差描述了模型预测的准确度。一个高偏差的模型容易出现欠拟合，即模型无法捕捉数据中的真实关系，因为它对数据的特征做出了错误的假设。特征：高偏差的模型通常是过于简单的模型，无法对数据中的复杂关系进行准确建模。高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的
HarmonyNext实战案例：基于ArkTS的高性能音视频处理应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能音视频处理应用开发引言在HarmonyNext生态系统中，ArkTS作为新一代的编程语言，为开发者提供了强大的工具来构建高性能、跨平台的应用。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的音视频处理应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的特性，结合ArkTS的强大功能，实现复杂
Solana中的程序派生地址（PDAs）：是什么，为什么，以及如何？ GTokenTool发币平台区块链
程序派生地址(PDA)在Solana中的应用：什么、为什么和如何？在学习Solana时，你会经常听到关于程序派生地址(PDAs)的讨论。它们就像这样——强大、多功能，而且最重要的是，稍微被误解。如果你是一个开发者，试图理解它们，不用担心。我们将在本文中一起揭开PDAs的面纱。在本文中，我将从基础开始解释PDAs，假设你刚刚开始接触Solana。因此，不需要任何先前的知识——让我们开始吧。什么是PD
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
Yarn：包管理优化与工作空间的最佳实践
在现代前端开发中，包管理工具是不可或缺的工具之一。Yarn作为一个快速、可靠且安全的包管理工具，相对于npm，提供了一些独特的功能和优化，尤其是在工作空间管理和性能优化方面尤为突出。本文将深入探讨Yarn的专业使用，包括其工作空间的强大功能、性能优化技术以及在大型项目中的最佳实践。Yarn简介Yarn是由Facebook开发的一个JavaScript包管理工具，它旨在解决npm的一些关键问题，如安
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

《python应用实战 爬虫文本分析与可视化》笔记 上

第一章 初识python

第二章 网页

第三章 数据抓取

你可能感兴趣的:(学习,javascript,爬虫,数据可视化)

《python应用实战爬虫文本分析与可视化》笔记上

第一章初识python

第二章网页

第三章数据抓取