fengzhanfei

数据存储方式之 TXT 文本

Java 操作文件输入流与输出流，具体内容包括 File 类、文件字节流与字符流、缓冲流。最后以网络爬虫实战案例，讲解其具体的使用方式。
输入流、输出流简介
在 Java 中，流是从源到目的地的字节的有序序列。Java 中有两种基本的流——输入流和输出流。输入流与输出流提供了一条通道，使用该通道可以读取源中的数据或者把数据传送到目的地。示意图如下:

Java 中 java.io 包几乎包含了所有操作输入、输出需要的类。Java 把 InputStream 抽象类的子类创建的流对象称作为字节输入流（FileInputStream）、OutputStream 抽象类的子类创建的流对象是字节输出流（FileOutputStream）。再者，Java 把 Reader 的抽象类的子类创建的流对象称作为字符输入流（FileReader），将 Writer 抽象子类创建的流对象称之为输出流（FileWriter）；另外，Java 中也提供了更高级的流——缓冲输入流 BufferedReader、输出流 BufferedWriter。在本篇中，将讲解这些操作的使用。
File 类的使用
File 对象主要用来获取文件本身的一些信息，包括文件所在的目录、文件是否可读、文件是否存在、文件长度等等，不会涉及到文件的具体读写操作。

以下是 File 类经常使用的一些方法：

在使用 File 类时，第一步需要创建一个文件对象，使用如下方式进行创建：

File file = new File("data/");

以下是一个具体的案例，大家可以看看该类中一些方法的使用。

File root = new File("data/");
//判断文件是否问一个目录
Boolean is_directory = root.isDirectory();
System.out.println(root.isDirectory());
//如果是一个目录
if (is_directory) {
    //获取目录下所有文件和目录的绝对路径，得到的是File数组
    File[] files = root.listFiles(); 
    for ( File file : files ){
        System.out.println("文件名称为:" + file.getName());
        System.out.println("文件可读否:" + file.canRead());
        System.out.println("绝对路径:"+file.getAbsolutePath());
        System.out.println("文件的长度为:" + file.length());
    }
}

在上述程序中，data/ 为一个目录，该目录中有两个文件（1.txt 和 2.txt），执行上述程序可得到如下结果：

文件字节流
字节流，处理的单元为1个字节，用于操作字节和字节数组，其能够很好的处理图片、PDF、音频等文件。但使用字节流处理中文，经常会出现乱码，主要原因是一个中文汉字占用了2个字节。因此，在操作包含中文字符的字符串时，不建议使用字节流操作。在 Java 中，字节流类继承自 InputStream 和 OutputStream，其子类主要有 FileInputStream 和 FileOutputStream。

下面显示了四个构造方法，分别是创建文件字节输入流以及文件字节输出流的方法：

//创建文件字节输入流的两种方式
FileInputStream inputStream = new FileInputStream("data/1.txt");
FileInputStream inputStream = new FileInputStream(new File("data/1.txt"));
//创建文件字节输出流的两种方式
FileOutputStream outputStream = new FileOutputStream("data/out.txt");
FileOutputStream outputStream = new FileOutputStream(new File("data/out.txt"));

其中，以字节为单位读写文件主要用到的方法有：

read();  //顺序读取文件的单个字节
read(byte b[]);  //byte数值用于临时成块存放字节
write(byte b[]);//字节写入文件
write(byte b[], int off, int len); //从给定字节数组中起始于偏移量off处写len个字节

读写操作完成之后，需要使用 close() 方法，关闭打开的流。以下给出了一个简单的使用案例：

//创建文件字节输入流与输出流
//FileInputStream inputStream = new FileInputStream("data/1.txt");
FileInputStream inputStream = new FileInputStream(new File("data/1.txt"));
FileOutputStream outputStream = new FileOutputStream("data/out.txt");
//FileOutputStream outputStream = new FileOutputStream(new File("data/out.txt"));
int temp;
//读写操作
while ((temp = inputStream.read()) != -1) {
    System.out.print((char)temp);
    outputStream.write(temp);
}
//流的关闭
outputStream.close();
inputStream.close();

文件字符流
在上面一小节中，提到文件字节流不能很好地处理中文字符，这时可以使用字符流操作。与 FileInputStream 和 FileOutputStream 字节流相对应的是 FileReader 和 FileWriter，它们分别继承自 Reader 和 Writer 这两个抽象类。其基本构造方法如下：

//两种文件字符输入流创建方式
FileReader fileReader = new FileReader("data/1.txt");
//FileReader fileReader = new FileReader(new File("data/1.txt"));
//两种文件字符输出流创建方式
FileWriter fileWriter = new FileWriter("data/outtest.txt");
//FileWriter fileWriter = new FileWriter(new File("data/outtest.txt"));

字符输入流和输出流的 read 和 write 方法，以字符为单位读写数据。其基本使用方法与字节流相同。

read();  //顺序读取文件的单个字符
read(char b[]);  //用于临时成块存放字符
write(char b[]);//字符写入文件
write(char b[], int off, int len); //从给定字符数组中起始于偏移量off处写len个字符

以下给出了一个具体的案例程序，其中读和写的文本皆为中文字符：

//两种文件字符输入流创建方式
FileReader fileReader = new FileReader("data/3.txt");
//FileReader fileReader = new FileReader(new File("data/1.txt"));
//两种文件字符输出流创建方式
FileWriter fileWriter = new FileWriter("data/outtest.txt");
//FileWriter fileWriter = new FileWriter(new File("data/outtest.txt"));
int temp;
while ((temp = fileReader.read()) != -1) {
    System.out.print((char)temp);
    fileWriter.write((char)temp);
}
fileWriter.close();
fileReader.close();

缓冲流
字节流与字符流都是无缓冲的输入、输出流，每一次的读写都涉及到磁盘的读写操作，相比于内存操作要慢得多。所以，使用字节流和字符流的操作效率要比缓冲流操作低。另外，缓冲流提供了很好的 readLine 操作，即按行操作。在一些机器学习算法的输入中，经常使用到缓冲流的按行读取操作，例如，分词与句子情感计算、主题模型（每一行表示一个文档）等。在网络爬虫中，经常使用到缓冲流来读取需要爬取的 URL 列表以及保存爬取的字符型数据。

Java 中，经常使用到的是 BufferedReader 和 BufferedWriter（缓冲流中的字符流）。其主要构造方法如下：

//输入流
BufferedReader(Reader in, int sz) //创建一个使用指定大小输入缓冲区的缓冲字符输入流。
BufferedReader(Reader in) //创建一个使用默认大小输入缓冲区的缓冲字符输入流
//输出流
BufferedWriter(Writer out, int sz) //创建一个使用给定大小输出缓冲区的新缓冲字符输出流
BufferedWriter(Writer out) //建一个使用默认大小输出缓冲区的缓冲字符输出流

经常使用到的方法是 readLine() 操作，即读取一行。而写操作主要是 write()，下面通过程序带大家了解它们的具体使用方法：

/****** 文件读取第一种方式  ******/
File file = new File("data/3.txt");
//FileReader读取文件
FileReader fileReader = new FileReader(file);
//根据FileReader创建缓冲流
BufferedReader bufferedReader = new BufferedReader(fileReader);
String s = null;
//按行读取
while ((s = bufferedReader.readLine())!=null) {
    System.out.println(s);
}
//流关闭
bufferedReader.close();
fileReader.close();
/****** 文件读取第二种方式  ******/
//这里简写了，已成了一行。可以添加字符编码
BufferedReader reader = new BufferedReader( new InputStreamReader( new FileInputStream( new File( "data/3.txt")),"utf-8"));
String s1=null;
while ((s1 = reader.readLine())!=null) {
    System.out.println(s1);
}
//流关闭
reader.close();
/****** 文件写入第一种方式  ******/
/*File file1 = new File("data/bufferedout.txt","gbk");
FileOutputStream fileOutputStream = new FileOutputStream(file1);
OutputStreamWriter outputStreamWriter = new OutputStreamWriter(fileOutputStream);
BufferedWriter bufferedWriter1 = new BufferedWriter(outputStreamWriter);*/
/****** 文件写入快捷方式******/
BufferedWriter writer = new BufferedWriter( new OutputStreamWriter( new FileOutputStream( new File("data/bufferedout.txt")),"gbk"));
Map map = new HashMap();
map.put(0, "http://pic.yxdown.com/list/2_0_2.html");
map.put(1, "http://pic.yxdown.com/list/2_0_3.html");
map.put(2, "http://pic.yxdown.com/list/2_0_4.html");
//map遍历数据 
for( Integer key : map.keySet() ){
    writer.append("key:"+key+"\tvalue:"+map.get(key));
    writer.newLine(); //写入换行操作
}
//流关闭
writer.close();

网络爬虫中的文本存储实例
接下来，我们将通过一个具体实战案例，讲解网络爬虫中涉及到的文本操作。爬取的网站为网易汽车某论坛（网址为：http://baa.bitauto.com/CS55/）。

在爬取数据前，应确定要爬取的数据内容，例如我要爬取的是该网页的帖子 ID 以及帖子标题。

接着，根据自己所要爬取的内容，创建 Bean 对象。具体程序如下：

public class PostModel {
    private String post_id; //帖子id
    private String post_title; //帖子标题
    public String getPost_id() {
        return post_id;
    }
    public void setPost_id(String post_id) {
        this.post_id = post_id;
    }
    public String getPost_title() {
        return post_title;
    }
    public void setPost_title(String post_title) {
        this.post_title = post_title;
    }
}

下一步，确定需要使用的网页请求工具，这里使用较为简单的 jsoup 请求（通过如下 Maven 配置所需 Jar 包）：



    org.jsoup
    jsoup
    1.11.3

在浏览器中，定位所要爬取内容对应的标签（当然，网络抓包是有必要的），如下：

最后，编写获取数据，解析数据，保存数据的程序：

public class CrawlerTest {
    public static void main(String[] args) throws IOException {
        //缓冲流的创建,以utf-8写入文本
        BufferedWriter writer = new BufferedWriter( new OutputStreamWriter( new FileOutputStream( new File("data/crawlerbitauto.txt")),"utf-8"));
        List data = crawerData("http://baa.bitauto.com/CS55/");
        for (PostModel model : data) {
            //所爬数据写入文本
            writer.write(model.getPost_id() + "\t" + model.getPost_title() + "\r\n");
        }
        //流的关闭
        writer.close();
    }
    static List crawerData(String url) throws IOException{
        //所爬数据封装于集合中
        List datalist = new ArrayList();
        //获取URL对应的HTML内容
        Document doc = Jsoup.connect(url).timeout(5000).get();
        //定位需要采集的每个帖子
        Elements elements = doc.select("div[class=line-bg]").select("div[class=postslist_xh]"); 
        //遍历每一个帖子
        for (Element ele : elements) {
            String post_id = ele.select("li.bt").select("a").attr("href").split("-")[1].replaceAll("\\D", "");
            String post_title = ele.select("li.bt").select("a").text();
            //创建对象和封装数据
            PostModel model = new PostModel();
            model.setPost_id(post_id);
            model.setPost_title(post_title);
            datalist.add(model);
        }
        return datalist;
    }
}

上述程序执行后，便会发现所爬取采集的数据，已成功保存到了工程目录下的 data/crawlerbitauto.txt 文本中。该文本中的数据截图为：

网络爬虫下载图片实战案例
在采集数据时，有时需要采集图片、Zip 等文件，此时便可以通过字节写入的方式下载这些内容。

以下我们将通过一个实战案例进行说明，所爬取的数据为游讯图库的数据（网址为：http://pic.yxdown.com/list/204.html）。

首先，需要通过抓包确认所爬取的每一张图片对应的 URL 地址。我们发现抓包对应的地址和浏览器检查图片元素对应的地址有所差异，但通过两个地址都可正常访问图片。

下载图片，我们使用的是 HttpClient 请求网页内容的方式（Maven 配置 Jar 包)，如下：

 
        
            org.apache.httpcomponents
            httpclient
            4.5.5

请求某个具体的 URL，获取实体 HttpEntity，对应的方法如下：

 //请求某一个URL，获得请求到的内容
    public static HttpEntity getEntityByHttpGetMethod(String url){
        HttpGet httpGet = new HttpGet(url);
        //获取结果
        HttpResponse httpResponse = null;
        try {
          httpResponse = httpClient.execute(httpGet);
        } catch (IOException e) {
          e.printStackTrace();
        }
        HttpEntity entity = httpResponse.getEntity();
        return entity;
    }

其中，HttpClient 设置成 private static 变量：

private static  HttpClient httpClient = HttpClients.custom().build();

下面，我写了一个方法，通过给定的图片地址，实现相应图片下载及保存的功能。该方法调用了 getEntityByHttpGetMethod(String url) 方法，具体程序如下：

//任意输入地址便可以下载图片
    static void saveImage(String url, String savePath) throws IOException{
        //图片下载保存地址
        File file=new File(savePath);
        //如果文件存在则删除
        if(file.exists()){
            file.delete();
        }
        //缓冲流
        BufferedOutputStream bw = new BufferedOutputStream(new FileOutputStream(savePath)); 
        //请求图片数据
        try {
            HttpEntity entity = getEntityByHttpGetMethod(url);
            //以字节的方式写入
            byte[] byt= EntityUtils.toByteArray(entity); 
            bw.write(byt);
            System.out.println("图片下载成功！");
        } catch (ClientProtocolException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        //关闭缓冲流
        bw.close();
    }

可以看出，下载图片，这里使用的是缓冲流 BufferedOutputStream，并且写入的是字节数组。

最后，是程序的主方法。在主方法中，给定待爬的地址（http://pic.yxdown.com/list/204.html），获取该地址对应的 HTML 内容，解析 HTML 内容获取所有图片的链接地址，即图片对应的 URL。针对每个图片的 URL，调用 saveImage() 图片下载方法，便可成功爬取该页面中的所有图片。具体程序如下：

  public static void main(String[] args) throws IOException{
        String url = "http://pic.yxdown.com/list/2_0_4.html";
        HttpEntity entity = getEntityByHttpGetMethod(url);
        //获取所有图片链接
        String html = EntityUtils.toString(entity);
        Elements elements = Jsoup.parse(html).select("div.cbmiddle > a.proimg > img");
        for (Element ele : elements) {
            String pictureUrl = ele.attr("src");
            saveImage(pictureUrl,"image/" + pictureUrl.split("/")[7] );
        }
        //测试程序
//        saveImage("http://i-4.yxdown.com/2018/6/11/KDE5Mngp/ae0c2d4d-04fb-4066-872c-a8c7a7c4ea4f.jpg","image/1.jpg");
    }

使用该主方法，便可成功将图片下载到指定目录下：

便于读者学习，这里提供了另外一种下载任意图片的操作方法，对应的程序如下：

 //另外，一种操作方式
    static void saveImage1(String url, String savePath) throws UnsupportedOperationException, IOException {
        //获取图片信息,作为输入流
        InputStream in = getEntityByHttpGetMethod(url).getContent();
        byte[] buffer = new byte[1024];
        BufferedInputStream bufferedIn = new BufferedInputStream(in);
        int len = 0;
        //创建缓冲流
        FileOutputStream fileOutStream = new FileOutputStream(new File(savePath));
        BufferedOutputStream bufferedOut = new BufferedOutputStream(fileOutStream);
        //图片写入
        while ((len = bufferedIn.read(buffer, 0, 1024)) != -1) {
            bufferedOut.write(buffer, 0, len);
        }
        //缓冲流释放与关闭
        bufferedOut.flush();
        bufferedOut.close();
    }

代码：https://github.com/soberqian/FileProcessInCrawler

string.join()方法 BLUE_SEVEN
JavaStringjoin()join()方法返回使用指定分隔符拼接一个字符串。在join()方法中，为每个元素添加了分隔符。如果为null元素，则添加“null”。从JDK1.8开始，Java字符串才包含join()方法。Java字符串中有两种join()方法。1语法publicstaticStringjoin(CharSequencedelimiter,CharSequence...elem
【Java】Lambda表达式玛卡~巴卡 Java基础 java 开发语言 Lambda
文章目录一、Lambda表达式1.1相关背景1.2函数式编程1.3匿名内部类和Lambda表达式二、Lambda表达式的使用2.1基本语法2.2使用案例三、变量捕获3.1匿名内部类的变量捕获3.2Lambda表达式的变量捕获四、Lambda表达式在集合中的使用4.1Collection接口4.2List接口4.3Map接口五、Lambda表达式的优缺点一、Lambda表达式1.1相关背景Lambd
stream流的使用小韩学长yyds java
1.什么是Stream流?Stream（流）是一个来自数据源的元素队列并支持聚合操作元素是特定类型的对象，形成一个队列。Java中的Stream并不会存储元素，而是按需计算。数据源流的来源。可以是集合，数组，I/Ochannel，产生器generator等。聚合操作类似SQL语句一样的操作，比如filter,map,reduce,find,match,sorted等。和以前的Collection操
税务门户网站系统：数据分析与税务政策传播 liuxin33445566 安全 java 开发语言数据库前端
2.1SSM框架介绍本课题程序开发使用到的框架技术，英文名称缩写是SSM，在JavaWeb开发中使用的流行框架有SSH、SSM、SpringMVC等，作为一个课题程序采用SSH框架也可以，SSM框架也可以，SpringMVC也可以。SSH框架是属于重量级别的框架，配置繁琐，不够灵活，修改程序需要修改好多个文件，并且运行起来也占用内存较高，CPU使用率相对也高，SpringMVC是Spring开发的
Zookeeper启动指定JDK版本费曼乐园 Zookeeper zookeeper
1.从官网下载jdk21版本。JavaDownloads|Oracle2.将下载的jdk-21_linux-x64_bin.tar.gz文件上传的主机/usr/java目录下面。3.在/usr/java目录下面解压文件。tar-zxvfjdk-21_linux-x64_bin.tar.gz4.修改zookeeper的bin目录下面的zkEnv.sh脚本，在关于获取JAVA_HOME的脚本行前面添加
Java中的String.join方法详解 UtdPatch java python 开发语言
String.join方法是Java中的一个实用工具方法，用于将一组字符串连接成一个新的字符串。它提供了一种简洁而灵活的方式来处理字符串连接的需求。在本文中，我们将详细介绍String.join方法的功能、用法和示例代码。功能简介String.join方法的功能是将一组字符串连接成一个新的字符串，通过指定一个分隔符将它们分隔开。它接受两个参数：分隔符和一个可迭代的CharSequence（如字符串
feign调用跳过HTTPS的SSL证书校验配置详解秋分的秋刀鱼 Java 网络编程 ssl https 网络 java
一、问题抛出如果不配置跳过SSL证书校验，当Feign客户端尝试连接到一个使用自签名证书的服务器时，可能会抛出类似以下的异常：javax.net.ssl.SSLHandshakeException:sun.security.validator.ValidatorException:PKIXpathbuildingfailed:sun.security.provider.certpath.SunCe
java String.join()方法详解飞滕人生TYF java java
JavaString.join()方法详解String.join()是Java提供的一个实用方法，用于将多个字符串按照指定的分隔符连接成一个字符串。这一方法是Java8中引入的，极大地简化了字符串拼接的操作。1.方法定义publicstaticStringjoin(CharSequencedelimiter,CharSequence...elements)publicstaticStringjoi
com.mongodb.MongoSocketOpenException: Exception opening socket错误解决方法且听风吟， JAVA mongodb java 数据库
详细错误信息：com.mongodb.MongoSocketOpenException:Exceptionopeningsocketatcom.mongodb.connection.SocketStream.open(SocketStream.java:63)~[mongodb-driver-core-3.4.2.jar:na]atcom.mongodb.connection.InternalSt
elementui树状菜单tree_Java + Element-UI 实现简单的树形菜单 weixin_39682301
一、简单入门级树形菜单实现(纯后台逻辑)1、简介(1)开发环境IDEA+JDK1.8+mysql1.8SpringBoot2.2.6+mybatis-plus此处仅后台开发(返回json数据)，前台页面展示后续会讲解。(2)数据表如下，仅供参考，可以添加修改时间、创建时间、逻辑删除等字段。DROPDATABASEIFEXISTStest;CREATEDATABASEtest;USEtest;/*用
Elasticsearch 8.17.1 JAVA工具类熟透的蜗牛牛X的开源框架 elasticsearch
一、ElasticSearchUtilspackagecom.wssnail.elasticsearch.util;importco.elastic.clients.elasticsearch.ElasticsearchClient;importco.elastic.clients.elasticsearch._types.FieldValue;importco.elastic.clients.e
不拆MongoDB解决MongoSocketOpenException: Exception opening socket zhutoutoutousan mongodb 数据库 java spring boot
问题起源玩JavaSpringBoot全栈项目带有MongoDB,在springboot/src/main/resources/application.properties里边定义了mongodb的database和url,在springboot项目起的时候报错com.mongodb.MongoSocketOpenException:Exceptionopeningsocketatcom.mong
java导出word poi_Java使用POI根据模板导出Word 张林威 java导出word poi
最近从新写了一下根据Word模板导出Word。注意：Word只包含表格和段落，不使用表格布局。图片样式也保留，但是预先需要知道图片的资源ID。删除多余模块时，有顶部对不齐的问题。可能还存在其他细节问题。首先模板样式：下面是导出来的Word：下面贴上代码：packagecom.acgist.word;importjava.io.File;importjava.io.FileInputStream;i
2025春招，Spring 面试题汇总 springjava面试
大家好，我是V哥。2025年金三银四春招马上进入白热化，兄弟们在即将到来的假期，除了吃喝欢乐过新年，想年后跳槽升职的兄弟也要做好充分的准备，要相信，机会永远只留给有准备的人。以下是一份2025年春招Spring面试题汇总，送给大家，关于Java基础相关的请移步V哥上一篇文章《【长文收藏】2025备战金三银四Java大厂面试题》：Spring基础部分一、Spring基础1.什么是Spring框架？答
【檀越剑指大厂--RocketMQ】RocketMQ运维篇 Kwan的解忧杂货铺@新空间代码工作室 s总檀越剑指大厂 java-rocketmq rocketmq 运维
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
java通过模板导出docx文档 qq_39493446 java freemarker xml
@java通过模板导出docx文档二、使用步骤代码如下（示例）：importfreemarker.template.Configuration;importfreemarker.template.Template;importjava.io.*;importjava.util.Enumeration;importjava.util.HashMap;importjava.util.Map;impor
java中String、List、数组之间的转换方式 ppo_wu JAVA java list windows 后端
在Java中，String、List和数组（如String[]）之间的转换是常见的操作。下面是如何在它们之间进行转换的示例。1.String转List通常，你不会直接将一个完整的String转换为List，但你可以将包含多个元素的字符串（如由逗号分隔的字符串）分割成多个部分，并将这些部分添加到List中。Stringstr="a,b,c,d";Listlist=Arrays.asList(str.
mongo db 链接问题奔走的箱子 mongodb springboot mongoDb
com.mongodb.MongoSocketOpenException:Exceptionopeningsocketatcom.mongodb.internal.connection.SocketStream.open(SocketStream.java:67)atcom.mongodb.internal.connection.InternalStreamConnection.open(Inte
BeautifulSoup-爬虫案例（一）羡羡~~羡羡~~~ Python python excel
一个爬虫案例frombs4importBeautifulSoupimportrequestsimportreimportosimportxlrdimportxlwtfromxlutils.copyimportcopyimportrandomimportjsonimportdatetimeimporttimeIS_FIRST=TrueROOT_PATH=os.path.abspath('..')#设
深入解析Java中的动态代理与反射机制爪哇学长 Java应用程序编程接口 java python 开发语言
文章目录反射机制工作原理内部实现细节高级使用技巧示例代码动态代理工作原理内部实现细节高级使用技巧示例代码基于接口的代理（JDKProxy）CGLIB代理示例（需引入CGLIB库）实践总结反射机制工作原理Java反射机制允许程序在运行时检查或“自省”类的信息，并可以创建对象实例、调用方法、访问字段等操作。它主要通过java.lang.reflect包提供的API来实现。内部实现细节Class类：每个
Java 密封类 (Sealed Classes) 深度解析爪哇学长 Java应用程序编程接口 java python 开发语言
文章目录语法说明定义密封类定义子类使用场景探讨实际应用示例与其他语言特性的结合使用Java作为一种面向对象编程语言，提供了继承机制来实现代码复用和扩展。然而，无限制的继承可能导致代码库变得难以维护，甚至引入安全隐患。为了应对这一挑战，Java引入了密封类的概念。密封类允许开发者明确指定哪些类可以继承该类，从而创建一个封闭且可控的类层次结构。这不仅提高了代码的安全性和可维护性，还为模式匹配等高级特性
解决：com.mongodb.MongoSocketOpenException: Exception opening socket ppo_wu BUG mongodb 数据库 spring boot java
背景springboot项目启动时，报错com.mongodb.MongoSocketOpenException:Exceptionopeningsocketatcom.mongodb.internal.connection.SocketStream.open(SocketStream.java:70)~[mongodb-driver-core-3.11.2.jar:na]atcom.mongod
基于Python的三种主流网络爬虫技术吃肉肉335 python 爬虫开发语言
一、网络爬虫是什么网络爬虫，通常也被称为网络蜘蛛或网络机器人，是一种按照一定方法，获取网络各种信息的自动化脚本程序，也可以将其理解为一个在互联网上自动提取网页信息并进行解析抓取的程序。网络爬虫的功能不仅局限于复制网页内容、下载音视频文件，更包括自动化执行行为链以及模拟用户登录等复杂操作。在当前大数据背景下，无论是人工智能应用还是数据分析工作，均依赖于海量的数据支持。如果仅依赖人工采集这一种方式，不
java testcase类_Junit核心——测试类（TestCase）、测试集（TestSuite）、测试运行器（TestRunner）... 勃对立 java testcase类
首先，把这三个定义简单的说明一下：1、测试类(TestCase)：一个包含一个或是多个测试的类，在Junit中就是指的是包含那些带有@Test注解的方法的类，同一样也被称作“测试用例”;2、测试集(TestSuite)：测试集是把多个相关测试归入一个组的表达方式，在Junit中，如果我们没有明确的定义一个测试集，那么Juint会自动的提供一个测试集，一个测试集一般将同一个包的测试类归入一组；3、测
Python网络爬虫核心面试题闲人编程程序员面试 python 爬虫开发语言面试网络编程
网络爬虫1.爬虫项目中如何处理请求失败的问题？2.解释HTTP协议中的持久连接和非持久连接。3.什么是HTTP的持久化Cookie和会话Cookie？4.如何在爬虫项目中检测并处理网络抖动和丢包？5.在爬虫项目中，如何使用HEAD请求提高效率？6.如何在爬虫项目中实现HTTP请求的限速？7.解释HTTP2相对于HTTP1.1的主要改进。8.如何在爬虫项目中模拟HTTP重试和重定向？9.什么是COR
鸿蒙系统用什么开发应用？ 109702008 编程 harmonyos 华为人工智能
鸿蒙系统（HarmonyOS）是华为技术有限公司开发的一款分布式操作系统，旨在实现跨设备的无缝协同和高效运行。在应用开发方面，鸿蒙系统提供了多种编程语言的支持，以满足不同开发者的需求。以下是一些常用的鸿蒙系统应用开发语言：Java：Java是一种广泛使用的编程语言，特别在移动应用开发领域。鸿蒙系统支持Java开发，这使得安卓开发者可以快速上手。Java拥有优秀的跨平台能力和丰富的API库，涵盖了网
Java集合List每回取出10个数据，分页操作。文杰一米八 java 算法
最近遇到一个需求，在点击加载更多的时候，每页返回10个数据。设计了一个小算法。话不多说，直接上代码。publicstaticvoidmain(String[]args){System.out.println("请输入当前页数：");Scanners1=newScanner(System.in);inta=s1.nextInt();System.out.println("请输入每页条数：");Sca
TypeScript语言的字符串处理轩辕烨瑾包罗万象 golang 开发语言后端
TypeScript语言的字符串处理在现代编程语言中，字符串处理是非常重要的一部分。对于TypeScript这样的语言，更是让开发者在处理字符串时得到了更为安全和强大的工具。本文将深入探讨TypeScript中的字符串处理技术，包括字符串的基本操作、模板字符串、字符串方法、正则表达式以及常用的字符串处理技巧等。一、TypeScript基础与字符串的基本操作TypeScript是JavaScript
深入解析：使用 Python 爬虫获取苏宁商品详情数据小爬虫@ python 爬虫开发语言
在当今数字化时代，电商数据已成为市场分析、用户研究和商业决策的重要依据。苏宁易购作为国内知名的电商平台，其商品详情页包含了丰富的信息，如商品价格、描述、评价等。这些数据对于商家和市场研究者来说具有极高的价值。本文将详细介绍如何使用Python爬虫获取苏宁商品的详细信息，并提供完整的代码示例。一、爬虫简介爬虫是一种自动化程序，用于从互联网上抓取网页内容。Python因其简洁的语法和强大的库支持，成为
网络安全法详细介绍——爬虫教程小知学网络网络安全 web安全爬虫安全
目录@[TOC](目录)一、网络安全法详细介绍1.网络安全法的主要条款与作用2.网络安全法与爬虫的关系3.合法使用爬虫的指南二、爬虫的详细教程1.准备环境与安装工具2.使用`requests`库发送请求3.解析HTML内容4.使用`robots.txt`规范爬虫行为5.设置请求间隔6.数据清洗与存储三、实战示例：爬取一个公开的新闻网站小知学网络一、网络安全法详细介绍1.网络安全法的主要条款与作用《
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

数据存储方式之 TXT 文本

你可能感兴趣的:(爬虫,Java)