监听员_1379

java爬虫

爬虫的基本概念:

什么是爬虫

爬虫的价值

爬虫的分类

通用的爬虫

垂直的爬虫

爬虫的基本原理

爬虫的三大模块:

获取数据

解析数据

保存数据

案例一: 爬取起点中文网的小说案例

案例二: 使用爬虫程序登录某个网站, 获取此用户下的信息

1. 爬虫的基本概念

1.1 什么是爬虫:

网络爬虫是一个程序, 采用一种特定的解析结构来获取互联网中数据的, 爬虫一般分为三大模块: 获取数据, 解析数据, 保存数据

1.2 爬虫的价值:

网络爬虫的价值其实就是数据的价值, 一切皆为数据, 例如: 用户的信息,分析用户的维度, 商品的信息,竞价的网站

1.3 爬虫的分类:

1.3.1 通用的爬虫:

指的就是爬虫互联网中所有的信息, 例如: 百度谷歌

1.3.2 垂直爬虫:

指的爬取某个行业或者某个网站或者某个分类下的信息,这样的爬虫程序, 垂直爬虫例如: 慢慢网, 笔趣阁

在开发过程中, 大部分开发的都是垂直爬虫,

1.4 爬虫的基本原理

爬虫基本原理:

1. 确定爬虫的url
2. 发起http请求, 获取数据
	1. 原始的jdk的方式: get  post
	2. httpClient  get  post
3. 解析获取到数据
	1. jsoup 
4. 保存数据
	1. JDBC
	2. DButils
	3. JDBCTemplate(Spring)
	4. mybatis

2. 爬虫的三大模块:

2.1第一大模块: 获取数据

获取数据的过程, 其实就是发送一个http请求, 获取其响应的内容

2.1.1回顾: http

get请求和post的请求的区别:
- 1. 请求方式不同
- 1. get没有请求体, post有请求体
- 1. get请求数据拼接在url后面 ?username=zs&password=123, post将请求参数放置在请求体中
请求头:
- user-agent: 指定当前使用的浏览器的版本
- cookie: 携带当前网站的cookie信息
响应头:
- Location: 一般和302结合使用, 进行重定向
- set-cookie: 服务器向浏览器写入cookie的信息
常见的状态码:
- 200: 请求成功
- 302: 重定向
- 304: 缓存浏览器的内容
- 404: 资源不存在
- 500: 服务端错误

2.1.2使用jdk的方式发起http请求:

发送get请求:

//演示 jdk 的get请求方式
public class JDKget {


    public static void main(String[] args) throws Exception {
        //1. 创建URL对象
        URL url = new URL("http://www.itcast.cn");

        //2. 打开一个连接
        HttpURLConnection urlConnection = (HttpURLConnection)url.openConnection();

        //3. 设置请求方式
        urlConnection.setRequestMethod("GET");//此处必须使用大写, 默认是get请求

        //4. 获取输入流
        InputStream in = urlConnection.getInputStream();

        BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(in));

        //5. 获取数据
        String len = null;
        while((len = bufferedReader.readLine())!=null){

            System.out.println(len);
        }

        //6. 关流
        bufferedReader.close();
        in.close();
    }

}

发生post请求

//演示jdk发送post请求
public class JDKpost {

    public static void main(String[] args) throws Exception {
        //1. 创建url对象
        URL url = new URL("http://www.itcast.cn");

        //2. 建立连接
       HttpURLConnection connection  = (HttpURLConnection) url.openConnection();

       //3. 设置请求方式
       connection.setRequestMethod("POST");
       //如果要有使用jdk的方式发送post请求, 需要设置doOutput为true
       connection.setDoOutput(true);
       //4. 设置参数
        OutputStream out = connection.getOutputStream();
        out.write("username=zs&password=123".getBytes());

        //5. 获取响应体, 获取输入流
        InputStream in = connection.getInputStream();
        BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(in));
        String len = null;
        while((len = bufferedReader.readLine())!=null){

            System.out.println(len);
        }

        //6. 关流
        bufferedReader.close();
        in.close();

    }

}

总结:

实现的步骤:

创建url对象, 指定url路径
打开一个连接, 获取连接对象(HttpURLConnection)
设置请求方式
1. 如果是post, 需要设置两个参数:
  
  设置输出数据, 和 doOutPut设置为true
2. 获取输入流(获取响应体)
3. 读取输入流中的数据
4. 关流

2.1.3 使用 httpClient完成http请求

httpclient是一个专为用来做http请求的工具, 是Apache开发

使用步骤:

第一步: 导包
	  <dependency>
            <groupId>org.apache.httpcomponentsgroupId>
            <artifactId>httpclientartifactId>
            <version>4.5.4version>
        dependency>

get请求

//演示 httpclient的get请求
public class HTTPClientGet {

    public static void main(String[] args) throws IOException {
        //1. 创建httpclient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        //2. 创建get请求对象
        HttpGet httpGet = new HttpGet("http://www.itcast.cn");

        //3. 发送一个请求
        CloseableHttpResponse response = httpClient.execute(httpGet);
  
        //4. 获取状态码
        int statusCode = response.getStatusLine().getStatusCode();
        System.out.println(statusCode);
        if(statusCode==200){
            //获取响应体(数据)
            String html = EntityUtils.toString(response.getEntity(), Charset.forName("utf-8"));
            System.out.println(html);
        }
    }
}

post请求

//演示 httpclient 发送post请求
public class HTTPClientPost {

    public static void main(String[] args) throws Exception {
        //1. 创建 httpclient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        //2. 创建post请求对象
        HttpPost httpPost = new HttpPost("http://www.itcast.cn");

        //3. 设置请求参数
        List<BasicNameValuePair> list = new ArrayList<BasicNameValuePair>();
        list.add(new BasicNameValuePair("usernam","zs"));
        list.add(new BasicNameValuePair("password","123"));

        HttpEntity entity = new UrlEncodedFormEntity(list);
        httpPost.setEntity(entity);

        //4. 发送数据
        CloseableHttpResponse response = httpClient.execute(httpPost);
        //5. 获取数据
        Header[] headers = response.getHeaders("Date");
      
        System.out.println(headers[0].getValue());
        System.out.println(EntityUtils.toString(response.getEntity(),"utf-8"));

    }
}

总结:

get请求:

创建httpclient对象:HttpClients.createDefault();
1. 创建请求对象(httpget)
2. 发送请求: httpclient.execute(httpGet);
3. 获取数据:
  1. 1 获取状态码
1.2 获取响应头

1.3 获取响应体

post请求:

1.创建httpclient对象: HttpClients.createDefault();

2.创建请求对象(httpPost)

3.设置参数: httpPost.setEntity(entity)

   List list = new ArrayList();
        list.add(new BasicNameValuePair("usernam","zs"));
        list.add(new BasicNameValuePair("password","123"));

        HttpEntity entity = new UrlEncodedFormEntity(list);

4.发送请求:httpclient.execute(httpPost);

5.获取数据:

1.1获取状态码

1.2获取响应头

1.3 获取响应体

2.2 第二大模块: 解析数据

解析数据, 其实就是解析HTML文档,js中dom操作就是在解析HTML文档

2.2.1 Document 对象集合

集合	描述
[all]	提供对文档中所有 HTML 元素的访问。
[anchors]	返回对文档中所有 Anchor 对象的引用。
applets	返回对文档中所有 Applet 对象的引用。
[forms]	返回对文档中所有 Form 对象引用。
[images]	返回对文档中所有 Image 对象引用。
[links]	返回对文档中所有 Area 和 Link 对象引用。

2.2.2 Document 对象属性

属性	描述
body	提供对元素的直接访问。对于定义了框架集的文档，该属性引用最外层的。
cookie	设置或返回与当前文档有关的所有 cookie。
domain	返回当前文档的域名。
lastModified	返回文档被最后修改的日期和时间。
referrer	返回载入当前文档的文档的 URL。
title	返回当前文档的标题。
URL	返回当前文档的 URL。

2.2.3 Document 对象方法

方法	描述
close()	关闭用 document.open() 方法打开的输出流，并显示选定的数据。
getElementById()	返回对拥有指定 id 的第一个对象的引用。
getElementsByName()	返回带有指定名称的对象集合。
getElementsByTagName()	返回带有指定标签名的对象集合。
open()	打开一个流，以收集来自任何 document.write() 或 document.writeln() 方法的输出。
write()	向文档写 HTML 表达式或 JavaScript 代码。

2.2.4 jsoup概念:

jsoup是一个专门为HTML解析而生的工具,提供了丰富解析方案, 一种使用类似于js中原生dom操作的方案 , 一种是类似于jQuery(css选择器)中选择器的方案

2.2.5 jsoup的入门:

第一步: 导包

	
            org.jsoup
            jsoup
            1.10.3

第二步: 获取document对象

public class JsoupToDocument {

    public static void main(String[] args) throws IOException {
        //1. 获取document对象:通过url获取document
        //Document document = Jsoup.connect("http://www.itcast.cn").get();
        //1.1. 获取网页的标题
        //String title = document.title();
        //System.out.println(title);

        //2. 获取document: 通过HTML文档获取
       // Document document = Jsoup.parse("\n" +
                "\n" +
                "\n" +
                "    \n" +
                "    黑马程序员\n" +
                "\n" +
                "\n" +
                "\n" +
                "\n" +
                "");

       // String title = document.title();
        //System.out.println(title);
        //3. 通过本地html文件获取document对象
      //  Document document = Jsoup.parse(new File(""), "utf-8");

        //4. 通过html片段获取
       // Document document = Jsoup.parseBodyFragment("传智博客");
    }

}

总结: 四种

1.通过url路径的方式获取

2.通过HTML文档的形式获取(重点)

3.通过本地HTML文件的形式获取

4.通过HTML片段形式获取

第三步: 解析数据(如何解析document)

选择器	例子	例子描述	CSS
.class	.intro	选择 class=“intro” 的所有元素。	1
#id	#firstname	选择 id=“firstname” 的所有元素。	1
*	*	选择所有元素。	2
element	p	选择所有元素。	1
element,element	div,p	选择所有元素和所有元素。	1
element element	div p	选择元素内部的所有元素。	1
element>element	div>p	选择父元素为元素的所有元素。	2
element+element	div+p	选择紧接在元素之后的所有元素。	2
[attribute]	[target]	选择带有 target 属性所有元素。	2
[attribute=value]	[target=_blank]	选择 target="_blank" 的所有元素。	2
[attribute~=value]	[title~=flower]	选择 title 属性包含单词 “flower” 的所有元素。	2
[attribute\|=value]	[lang\|=en]	选择 lang 属性值以 “en” 开头的所有元素。	2
:link	a:link	选择所有未被访问的链接。	1
:visited	a:visited	选择所有已被访问的链接。	1
:active	a:active	选择活动链接。	1
:hover	a:hover	选择鼠标指针位于其上的链接。	1
:focus	input:focus	选择获得焦点的 input 元素。	2
:first-letter	p:first-letter	选择每个元素的首字母。	1
:first-line	p:first-line	选择每个元素的首行。	1
:first-child	p:first-child	选择属于父元素的第一个子元素的每个元素。	2
:before	p:before	在每个元素的内容之前插入内容。	2
:after	p:after	在每个元素的内容之后插入内容。	2
:lang(language)	p:lang(it)	选择带有以 “it” 开头的 lang 属性值的每个元素。	2
element1~element2	p~ul	选择前面有元素的每个元素。	3
[attribute^=value]	a[src^=“https”]	选择其 src 属性值以 “https” 开头的每个元素。	3
[attribute$=value]	a[src$=".pdf"]	选择其 src 属性以 “.pdf” 结尾的所有元素。	3
[attribute=value*]	a[src*=“abc”]	选择其 src 属性中包含 “abc” 子串的每个元素。	3
:first-of-type	p:first-of-type	选择属于其父元素的首个元素的每个元素。	3
:last-of-type	p:last-of-type	选择属于其父元素的最后元素的每个元素。	3
:only-of-type	p:only-of-type	选择属于其父元素唯一的元素的每个元素。	3
:only-child	p:only-child	选择属于其父元素的唯一子元素的每个元素。	3
:nth-child(n)	p:nth-child(2)	选择属于其父元素的第二个子元素的每个元素。	3
:nth-last-child(n)	p:nth-last-child(2)	同上，从最后一个子元素开始计数。	3
:nth-of-type(n)	p:nth-of-type(2)	选择属于其父元素第二个元素的每个元素。	3
:nth-last-of-type(n)	p:nth-last-of-type(2)	同上，但是从最后一个子元素开始计数。	3
:last-child	p:last-child	选择属于其父元素最后一个子元素每个元素。	3
:root	:root	选择文档的根元素。	3
:empty	p:empty	选择没有子元素的每个元素（包括文本节点）。	3
:target	#news:target	选择当前活动的 #news 元素。	3
:enabled	input:enabled	选择每个启用的元素。	3
:disabled	input:disabled	选择每个禁用的元素	3
:checked	input:checked	选择每个被选中的元素。	3
:not(selector)	:not§	选择非元素的每个元素。	3
::selection	::selection	选择被用户选取的元素部分。	3

原生的dom解析(了解)

public class JsoupToParse {

    @Test
    public void jsoupToDomParse() throws IOException {
        //1. 获取document
        Document document = Jsoup.connect("http://www.itcast.cn/subject/cloudzly/index.shtml").get();

        //1.1 获取文档的标题
        String title = document.title();
        System.out.println(title);

        //1.2
        Elements elements = document.getElementsByClass("head");
        Element element = elements.get(0);
        elements = element.getElementsByClass("inner");
        //System.out.println(elements.size());
        element = elements.get(0);
        Elements lis = element.getElementsByTag("li");
        /*for (Element li : lis) {
            System.out.println(li.);
        }*/
        Elements a = lis.get(0).getElementsByTag("a");
        String text = a.text();
        System.out.println(text);
    }
}

选择器的方案

    //使用jsoup的选择器来解析网页的数据
    @Test
    public void jsoupToSelectParse() throws IOException {
        //1.获取document对象
        Document document = Jsoup.connect("http://www.itcast.cn/subject/cloudzly/index.shtml").get();

        //2. 获取标题
        Elements title = document.select("title");
        System.out.println(title.text());

        //3. 获取 云计算大数据培训 内容
        //Elements elements = document.select(".head .inner li");
        Elements elements = document.select("body > div.wrap > div.head > div > ul > li:nth-child(1) > a");
        /*Element element = elements.get(0);
        Elements a = element.select("a");*/
        System.out.println(elements.text());
    }
}

    //获取网易新闻的内容
    @Test
    public void jsoupTo163Parse() throws IOException {
        Document document = Jsoup.connect("http://news.163.com/18/0727/08/DNN5HCQU0001875N.html").get();

        //1. 解析新闻的标题
        Elements elements = document.select("#epContentLeft");
        Elements h1 = elements.select("h1");
        System.out.println(h1.text());
        //2. 获取新闻的来源
        Elements laiyuan = document.select("#ne_article_source");

        System.out.println(laiyuan.text());
        //3. 获取新闻的正文
        Elements ps = document.select("#endText p");
        for (Element p : ps) {
            System.out.println(p.text());
        }
    }
}

2.3 第三大模块: 保存数据

目前采用的保存到mysql数据库中, 以后hadoop, hbase

四种方案:

jdbc:

dbutils:

jdbcTemplate

mybatis

3. 案例一:爬起起点中文网的小说

//需求: 爬取起点中文网中任意一个榜单的小说
public class QiDianSprider {

    public static void main(String[] args) throws IOException {
        //1. 确定爬取的url
        String url = "https://www.qidian.com/";

        //2. 发起请求获取数据: httpClient
        //2.1 创建httpclient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        //2.2 创建请求方式: get
        HttpGet httpGet = new HttpGet(url);

        //2.3 发起请求获得响应
        CloseableHttpResponse response = httpClient.execute(httpGet);

        String html = EntityUtils.toString(response.getEntity(), "utf-8");

        //3.解析数据: jsoup
        Document document = Jsoup.parse(html);
        Elements elements = document.select("div[class=rank-list sort-list]");

        Elements lis = elements.select(".book-list ul li");
        //System.out.println(lis.size());
        Elements as = lis.select("a[href^=//book.qidian.com]:not([class=link])");


        for (Element a : as) {
            String href = a.attr("href");
            //   http://book.qidian.com/info/1012284323
            //System.out.println(href);
            //拼接url
            href = "https:" + href;
            //System.out.println(href);
            //重新发起请求, 获取每一个小说页面
            httpClient = HttpClients.createDefault();
            httpGet = new HttpGet(href);
            response = httpClient.execute(httpGet);

            html = EntityUtils.toString(response.getEntity(), "utf-8");

            document = Jsoup.parse(html);

            //解析小说详情页
            elements = document.select("#readBtn");
            href = elements.attr("href");
            //拼接小说内容的url
            href = "https:" + href;
            System.out.println(href);

            while (true) {
                //重新发起请求, 获取每一个小说页面
                httpClient = HttpClients.createDefault();
                httpGet = new HttpGet(href);
                response = httpClient.execute(httpGet);

                html = EntityUtils.toString(response.getEntity(), "utf-8");
                //获取到小说内容页数据
                document = Jsoup.parse(html);

                //获取小说的名称
                elements = document.select(".book-cover-wrap h1");
                System.out.println("小说名称:" + elements.text());
                //获取章节名称
                elements = document.select(".j_chapterName");
                System.out.println("章节名称" + elements.text());
                //获取小说的内容
                elements = document.select("div[class=read-content j_readContent] p");
                for (Element element : elements) {
                    System.out.println(element.text());
                }

                //获取下一章节的url
                elements = document.select("#j_chapterNext");
                href = elements.attr("href");

                if(href==null||href==""||href==" "){
                    System.out.println("跳出本小说内容");
                    break;
                }

                href = "https:" + href;
            }

        }
    }
}

4. 案例二: 模拟登陆

//需求: 模拟登陆, 将登陆后的用户的数据获取到
public class LoginSpider {

    public static void main(String[] args) throws Exception {
        //1.确定url
        String url = "http://www.svn.club/user/login";

        //2. 发起请求, 获取数据
        CloseableHttpClient httpClient = HttpClients.createDefault();
        //3. 创建请求方式: post
        HttpPost httpPost =new HttpPost(url);

        //4. 设置参数
        List<BasicNameValuePair> list = new ArrayList<BasicNameValuePair>();

        list.add(new BasicNameValuePair("uid","itcast"));
        list.add(new BasicNameValuePair("pwd","www.itcast.cn"));
        list.add(new BasicNameValuePair("x","97"));
        list.add(new BasicNameValuePair("y","29"));
        HttpEntity entity = new UrlEncodedFormEntity(list);
        httpPost.setEntity(entity);

        //5. 设置浏览器的类型: 模拟浏览器的
        httpPost.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36");
        //6.发起请求
        CloseableHttpResponse response = httpClient.execute(httpPost);
        
        //7. 获取响应的内容
       // String html = EntityUtils.toString(response.getEntity(), "utf-8");
        //7. 获取状态码
        int statusCode = response.getStatusLine().getStatusCode();
        if(statusCode==302){

            Header[] locations = response.getHeaders("Location");
            Header[] cookies = response.getHeaders("Set-Cookie");

            String reURL = locations[0].getValue();
            String cookie = cookies[0].getValue();
           // System.out.println(reURL);
            //拼接url
            reURL = "http://www.svn.club"+reURL;

            //重新发送请求, 获取登陆后的数据
            httpClient = HttpClients.createDefault();
            HttpGet httpGet = new HttpGet(reURL);

            httpGet.setHeader("Cookie",cookie);
            response = httpClient.execute(httpGet);
            String html = EntityUtils.toString(response.getEntity(), "utf-8");
            Document document = Jsoup.parse(html);
            //System.out.println(document);
            Elements elements = document.select(".tb");
            Element element = elements.get(0);

            Elements trs = element.select("tr");
            Element element1 = trs.get(1);

            String aText = element1.select("td").get(0).select("a").text();
            System.out.println(aText);

        }
    }
}

作业:

1. 演示 jdk发送get和post请求(www.itcast.cn)
2. 演示httpClient发送post请求
3. 寻找一个网页, 进行解析(解析传智博客的科目列表)
4. 将案例一书写(200%)
5. 将案例二写一遍

Python爬虫 -- re正则+csv存储小鞠.. Python爬虫 python 爬虫开发语言
爬取Boss上有关Python的工作。网址链接https://www.zhipin.com/wapi/zpgeek/search/joblist.json?scene=1&query=python&city=100010000&experience=&payType=&partTime=°ree=&industry=&scale=&stage=&position=&jobType=&sala
使用 Python 爬取高德地图交通数据并进行数据分析（完整教程） Python爬虫项目 python 数据分析数据库 selenium 爬虫开发语言 beautifulsoup
一、引言在现代交通系统中，交通数据是进行智能交通管理、交通流量预测和交通规划的重要依据。高德地图（Amap）作为国内最权威的地理和交通信息平台之一，提供了丰富的开放API，允许开发者访问包括实时交通路况、路线规划、地理编码等各种数据。本教程将使用Python构建一个完整的爬虫程序，调用高德地图API，解析和存储交通数据，并通过数据分析和可视化深入挖掘交通流量特征。二、高德地图API简介2.1高德地
Python爬虫|获取大麦网演出信息最好的药物是乌梅 python 爬虫开发语言
使用Selenium库自动化浏览器操作，从大麦网的搜索结果页面抓取演唱会信息，并将这些信息保存到一个CSV文件中代码的主要步骤包括：1.初始化WebDriver。2.打开指定的URL。3.模拟点击“全部”按钮。4.循环抓取每一页的演唱会信息，并写入CSV文件。5.关闭WebDriver。代码拆分讲解1.导入相关库fromselenium.webdriver.supportimportexpecte
Python常用10个模块详解：提升开发效率的利器 Python_trys python microsoft 数据库开发语言 Python入门 Python基础 Python教程
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取！】Python作为一门功能强大且易于学习的编程语言，拥有丰富的标准库和第三方模块，能够帮助开发者快速实现各种功能。本文将详细介绍Python中常用的10个模块，帮助你在开发中更高效地完成任务。1.os模块：操作系统交互os模块提供了与操作系统交互的功能，包括文件操作、目录管理、环境变量等。常用功能：文件与目录操作：importos#获取当前
Python 爬虫体验心得：使用 requests 与 Spider 开启数据探索之旅爱搬砖的程序猿. python 网络爬虫
一、引言在当今数字化信息爆炸的时代，互联网上蕴含着海量的数据资源。对于开发者、数据分析师等人群而言，如何高效地从网页中提取所需数据成为一项关键技能。Python凭借其丰富的第三方库和简洁易懂的语法，成为了开发网络爬虫的首选语言。其中，requests库为我们处理HTTP请求提供了便捷的方式，而Scrapy框架中的Spider则可以帮助我们构建复杂的爬虫逻辑。本文将带领大家逐步学习如何使用reque
如何使用Jsoup提取商品信息：实战指南数据小爬虫@ python 爬虫 java
在使用Java进行Web爬虫开发时，Jsoup是一个非常强大的HTML解析库，可以帮助你轻松地提取网页中的数据。本文将详细介绍如何使用Jsoup提取商品信息，包括商品标题、价格、描述和图片链接等。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析HTML内容。在pom
利用Java爬虫根据关键词获取商品列表：实战指南数据小爬虫@ java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。本文将详细介绍如何使用Java编写爬虫程序，根据关键词获取商品列表，并确保爬虫行为符合平台规范。为了确保代码的准确性和实用性，我们将提供详细的代码示例和解释。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析H
Android手机中各类安全相关知识总结数据知道 2025年爬虫和逆向教程 android 智能手机安全
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.Android安全威胁2.Android安全防护措施3.Android安全建议和最佳实践4.Android安全工具推荐5.Android安全常见问题5.1如何检测设备是否感染恶意软件？5.2如何防止应用滥用权限？5.3如何保护设备免受网络攻击？5.4设备丢失后如何保护数据？6.学习资源7.总结Android手机作为全球使用最广泛的移动操作系统
1.1 网络爬虫简介 lwen.steven 从头开始学Java数据采集
随着互联网的迅速发展，网络数据资源呈爆发式增长，信息需求者如何从网络中提取信息变得更加重要。如今，有效地获取网络数据资源的方式，便是网络爬虫。网络爬虫又称为网络蜘蛛或者Web信息采集器，是一种按照指定规则，自动抓取或下载网络资源的计算机程序或自动化脚本。网络爬虫狭义上的理解:利用标准网络协议(如HTTP、HTTPS等)，根据网络超链接和信息检索方法(如深度优先)遍历网络数据的软件程序。网络爬虫功能
Python 爬取大量数据如何并发抓取与性能优化 chusheng1840 Python 教程 python 性能优化开发语言
Python并发抓取与性能优化在进行网络爬虫开发时，爬取大量数据可能非常耗时。尤其是在处理许多网页或API请求时，逐个请求速度会非常慢。为了解决这个问题，我们可以通过并发抓取提高爬取效率。同时，通过性能优化来进一步减少耗时和资源占用，使爬虫更高效。本篇文章将带大家了解Python中常用的并发抓取方法，并介绍如何进行性能优化。1.并发抓取的基本概念并发抓取指的是同时发出多个请求的技术，而不是顺序地等
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
使用Python爬取豆瓣用户信息：从入门到实战 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫大数据
引言豆瓣作为一个知名的社交平台，拥有丰富的用户信息。对于数据分析师、研究人员或普通用户来说，获取豆瓣用户信息具有重要的价值。本文将详细介绍如何使用Python及其相关库来爬取豆瓣用户信息，并展示如何利用最新的技术手段来实现这一目标。1.准备工作在开始编写爬虫之前，我们需要准备一些工具和环境：Python3.x：确保你已经安装了Python3.x版本。Requests库：用于发送HTTP请求。Bea
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
使用 Python 编写网络爬虫：从入门到实战 Manaaaaaaa python 爬虫开发语言
网络爬虫是一种自动化获取网页信息的程序，通常用于数据采集、信息监控等领域。Python是一种广泛应用于网络爬虫开发的编程语言，具有丰富的库和框架来简化爬虫的编写和执行过程。本文将介绍如何使用Python编写网络爬虫，包括基本原理、常用库和实战案例。一、原理介绍网络爬虫是一种自动化程序，通过模拟浏览器的行为向网络服务器发送HTTP请求，获取网页内容并进一步提取所需信息的过程。网络爬虫主要用于数据采集
百度蜘蛛池是什么 asdjka2wfd 百度百度小程序百度云算法
百度蜘蛛池是一种SEO策略或程序，旨在吸引百度搜索引擎的爬虫（百度蜘蛛）更频繁地访问和收录网站内容5。以下是关于它的详细介绍：构成要素：通常包括大量的域名资源、强大的服务器支持以及复杂的链接结构。大量的域名数量众多，来源多样；强大的服务器是为了承载众多域名的运行和大量的访问请求，确保稳定和高效的服务；而复杂的链接结构则将各个域名和页面相互连接，形成一个有机的整体，引导蜘蛛在其中爬行。www.sgs
Python 爬虫实战：国际航班数据抓取与全球航班网络分析西攻城狮北 python 爬虫开发语言
一、引言随着全球化的加速，国际航班网络已成为现代交通体系的重要组成部分。通过分析国际航班数据，我们可以深入了解全球航空枢纽、热门航线以及航班流量的变化趋势。本文将介绍如何通过爬取国际航班数据，分析全球航班网络的情况，并给出实现爬虫和数据分析的详细过程及代码。二、项目背景与目标2.1项目背景航空交通是全球经济和旅游业的核心部分，了解全球航班网络有助于掌握各大航空公司之间的竞争格局、全球机场的枢纽作用
Crawl4AI 与 BrowserUseTool 的详细对比燃灯工作室 Lmplement 人工智能学习数学建模
以下是Crawl4AI与BrowserUseTool的详细对比，涵盖功能、技术实现、适用场景等核心维度：1.核心定位对比工具Crawl4AIBrowserUseTool类型专为AI优化的网络爬虫框架浏览器自动化工具（模拟人类操作浏览器）核心目标高效获取结构化数据供AI训练/推理处理需要浏览器交互的动态网页任务典型应用大规模数据抓取、知识库构建登录受限网站、抓取JavaScript渲染内容2.技术实
不知道天气咋样？一起用Python爬取天气数据分析告诉你 Dragon少年 Python python 爬虫图表可视化
前言今天我们分享一个小案例，获取天气数据，进行可视化分析，带你直观了解天气情况！一、核心功能设计总体来说，我们需要先对中国天气网中的天气数据进行爬取，保存为csv文件，并将这些数据进行可视化分析展示。拆解需求，大致可以整理出我们需要分为以下几步完成：通过爬虫获取中国天气网7.20-7.21的降雨数据，包括城市，风力方向，风级，降水量，相对湿度，空气质量。对获取的天气数据进行预处理，分析河南的风力等
Python 爬虫实战：于好大夫在线抓取医生评价数据，选择优质医疗服务西攻城狮北 python 爬虫实战案例好大夫在线
目录引言一、爬虫基础预备知识1.1爬虫的基本概念1.2必备库介绍二、抓取医生评价数据2.1目标网站分析2.2发送HTTP请求2.3解析网页内容2.4保存数据三、数据分析与可视化3.1数据清洗3.2数据分析3.3数据可视化四、选择优质医疗服务4.1选择标准4.2推荐医生4.3分享推荐五、总结与展望5.1总结5.2展望引言在当今医疗信息爆炸的时代，选择一位合适的医生对于患者来说至关重要。好大夫在线是一
Python 爬虫实战：科学知识收集网站构建西攻城狮北 python 爬虫开发语言
一、引言在信息爆炸的时代，科学知识的收集与整理变得尤为重要。通过构建一个科学知识收集网站，我们可以高效地获取、整理和展示各类科学知识，为科研人员、学生以及科学爱好者提供便利。本文将详细介绍如何使用Python爬虫技术构建这样一个网站，涵盖从目标网站分析到数据存储与展示的完整流程。二、目标网站分析选择一个合适的科学知识网站作为数据源是构建收集网站的第一步。以中国科学院（http://www.cas.
Python csv库 xiaoming0018 python python 开发语言
CSV文件又称为逗号分隔值文件，是一种通用的、相对简单的文件格式，用以存储表格数据，包括数字或者字符。CSV是电子表格和数据库中最常见的输入、输出文件格式，可参考《CSV介绍》。通过爬虫将数据抓取的下来，然后把数据保存在文件，或者数据库中，这个过程称为数据的持久化存储。本节介绍Python内置模块CSV的读写操作。CSV库Python中集成了专用于处理csv文件的库，名为：csv。csv库中有4个
Python 爬虫：一文掌握 SVG 映射反爬虫数据知道 2025年爬虫和逆向教程 python 爬虫 microsoft 爬虫逆向数据采集
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.SVG概述1.1SVG的优点1.1映射反爬虫的原理2.SVG映射反爬虫的示例3.应对SVG映射反爬虫的方法3.1解析SVG图像3.2处理自定义字体3.3使用OCR技术3.4动态生成SVG的处理4.实战案例4.1使用SVG映射显示价格4.2解析SVG文件并提取其中的内容和属性4.3模拟交互行为4.4使用无头浏览器4.5某网站使用SVG实现动态验
Python爬虫相关内容猫猫头有亿点炸 python 爬虫开发语言
一、打开源代码的方式鉴于时间过很久后我们可能会忘记的源代码位置所以写下以下文章便于实时查看:一般有两种方法打开源代码:第一是f12第二右键查看网页源代码二、特殊情况第三种情况当你用爬虫爬取内容的时候可能用xpath还是匹配不到任何结果因为页面可能会自动刷新所以使用xpath的时候匹配不到任何内容查找源代码的示例图片三、解决办法这个时候你可以先->f12(笔记本电脑fn+f12)再->ctrl+sh
如何用爬虫根据关键词获取商品列表：一份简单易懂的代码示例 API小爬虫爬虫
在当今数字化时代，网络爬虫已经成为数据收集和分析的强大工具。无论是市场调研、价格监控还是产品分析，爬虫都能帮助我们快速获取大量有价值的信息。今天，我们就来探讨如何通过编写一个简单的爬虫程序，根据关键词获取商品列表。以下是一个基于Python语言的代码示例，适合初学者学习和实践。一、准备工作在开始编写爬虫之前，我们需要准备以下工具和库：Python环境：确保你的电脑上安装了Python。推荐使用Py
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
【2025年37期免费获取股票数据API接口】实例演示五种主流语言获取股票行情api接口之沪深指数实时数据获取实例演示及接口API说明文档不会写代码的码农农 python java 开发语言股票api 股票数据股票数据接口
在近一至两年期间，股票量化分析逐步成为备受关注的热门议题。对于投身于该领域工作而言，首要步骤便是获取全面且精准的股票数据。无论是实时交易数据、历史交易记录、财务数据，亦或是基本面信息，这些数据均是开展量化分析过程中不可或缺的宝贵资源。我们的核心任务在于从这些数据中提炼出具有价值的信息，从而为投资策略提供坚实有力的指导。在数据探索进程中，我尝试运用了多种方法，涵盖自编网易股票页面爬虫程序、申万行业数
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include