Java 获取豆瓣电影TOP250

对于爬虫,Java并不是最擅长的,但是也可以实现,此次主要用到的包有hutooljsoup

  • hutool是一个Java工具包,它简化了Java的各种API操作,包括文件操作、类型转换、HTTP、日期处理、JSON处理、加密解密等。它的目标是使Java的常见操作更简单,提供一个简洁易用的API,让开发者更高效地编写代码。
  • jsoup是一个用于处理HTML的Java库,它提供了非常方便的API来解析HTML文档,并进行文档操作。它可以用来提取HTML中的数据,进行HTML到XML的转换,清理不安全的HTML标签等。

代码实现

import cn.hutool.core.io.FileUtil;
import cn.hutool.http.HttpResponse;
import cn.hutool.http.HttpUtil;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;

/**
 * @author BXB
 */
public class DoubanFilm250 {
    public static void main(String[] args) {
        for (int i = 0; i < 226; i += 25) {
            String url = String.format("https://movie.douban.com/top250?start=%d&filter=", i);
            String request = request(url);
            select(request);
        }
    }


    public static String request(String url) {
        // 发送 GET 请求
        HttpResponse response = HttpUtil.createGet(url)
                .timeout(5000)  // 设置超时时间
                .header("User-Agent", "Mozilla/5.0")  // 设置请求头
                .execute();
        return response.body();
    }

    public static void select(String body) {
        Document parse = Jsoup.parse(body);
        Element gridView = parse.getElementsByClass("grid_view").get(0);
        Elements children = gridView.children();

        try (
                BufferedWriter bufferedWriter = new BufferedWriter(new FileWriter("C:/path/to/save/movieTop250.md", true));  // 修改为自己的地址
                ) {
            bufferedWriter.write("| 电影名称 | 详情页地址  | 评分+金句    |\n");
            bufferedWriter.write("|:--------:|:--------:|:--------:|");
            bufferedWriter.newLine();
            for (Element child : children) {
                // 获取电影名称
                String movieName = child.select("div.info div.hd span.title").text();
                System.out.println("电影名称: " + movieName + "写入成功");
                bufferedWriter.write("| " + movieName + " | ");

                // 获取海报链接
                String posterUrl = child.select("div.pic img").attr("src");
                saveImage(posterUrl, movieName);

                // 获取详情页链接
                String movieUrl = child.select("div.info a").attr("href");
                bufferedWriter.write(  movieUrl + " | ");
//
                // 评分 金句
                String text = child.select("div.bd span").text();
                bufferedWriter.write(text);
                bufferedWriter.newLine();
            }
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

    public static void saveImage (String imageUrl, String movieName) {
        String savePath = "C:/path/to/save/" + movieName.split("[/]")[0] + ".jpg"; // 修改为你要保存的路径和文件名

        byte[] imageBytes = HttpUtil.downloadBytes(imageUrl); // 下载图片字节数组
        FileUtil.writeBytes(imageBytes, savePath); // 将字节数组写入到本地文件
    }
}

你可能感兴趣的:(Java,java,开发语言)