手摸手学会使用webmagic爬虫框架

/**

  • jsoup测试案例
  • @author tuxuchen
  • @date 2021/11/18 18:17
    */

public class JsoupTest {
public static void main(String[] args) {

JsoupTest test = new JsoupTest();
test.findSearch("圣墟");

}
/**

  • 搜索功能
    *
  • @param name
  • @return
    */

public void findSearch(String name) {

// 获取搜索页文档树
Document document = getDocument("https://www.bequgexs.com/search.html?name=" + name);
if (Objects.isNull(document)) {
  System.out.println("文档树获取失败");
  return;
}
// 取出 

}
/**

  • document 是浏览器对象 是文档树 这跟前端document是一样的
    *
  • 从url上获取文档数,为了防止反爬虫,这是一些头字段
  • 如果失败,会重试10次
    *
  • @param url 爬取地址
  • @return document
    */

private Document getDocument(String url) {

// 重试次数
int count = 10;
boolean flag = true;
Document document = null;
while (flag) {
  try {
    document = Jsoup.connect(url)
        .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36")
        .get();
    flag = false;
  } catch (IOException e) {
    if (count-- != 0) {
      System.out.println(("网页获取失败,原因:" + e.getMessage()));
      System.out.println("开始第" + (10 - count) + "次重试");
    } else {
      System.out.println("获取文档未知异常:" + e.getMessage());
    }
  }
}
return document;

}
}

你可能感兴趣的:(python)