zhg_vincent

MIT Place Pulse数据集及google街景图片爬取

1、项目背景

1.1 使用谷歌街景图片的必要性

MIT Place Pulse 数据集可直接下载，但没有提供街景图片本身，只提供了街景的坐标，需通过谷歌街景开放API 获取对应的街景图片。
MIT Place Pulse数据集中的街景图片大多在国外，因此你懂得。

1.2 使用谷歌街景图片的目标

“建立街景图片与人主观感受的联系”场景的相关论文都没有提供开源代码，需实现模型并训练，所以需要 MIT Place Pulse数据集作为基础。

1.3 “建立街景图片与人主观感受的联系”场景实现的基本流程：

通过 MIT Place Pulse数据集以及相关街景图片训练模型。
获取百度地图街景图片作为模型输入，通过上一步训练好的模型，获取结果（例如，对街景的治安状况进行评分等）。

1.4 参考链接

这篇文章详述用Python爬取该训练集，提供了训练集地址，此外还提供了多个可用的google street view static api key。链接如下：https://zhuanlan.zhihu.com/p/34967038
下载好文中所述的训练集文件之后，仔细查看votes.csv及readme.txt文件。写的很清楚，需要对应votes.csv中的每一条数据，拼接街景图片下载的url。vote.csv文件内容如下，一行记录中有两个坐标，通过进一步观察发现，里面也有重复的坐标（街景ID）。因此我们在真正下载图片或拼接url之前还需做一次去重。

当然在这之前还需要申请 google 云控制台的street view static api key，我们也可以直接采用上述文中api.txt文件中的key，但其中大多已不能使用。毕竟是公开的资源，大家都在用，很容易被限制，最好自己和团队成员多申请几个，申请时需要用到VISA信用卡。申请链接如下：https://developers.google.com/maps/documentation/streetview/get-api-key
在有可用key的情况下，我们就可以通过发送GET请求的方式获取街景图片，对应的url如下：

https://maps.googleapis.com/maps/api/streetview?size=400x300&location=39.737314,-104.87407400000001&key=YOUR_API_KEY

2、任务分解

业务逻辑流程梳理大致如下：

解析vote.csv文件，并遍历每一条记录；
根据解析出的每一个坐标，判断该记录对应的图片是否已下载；
若已下载，则略过；
若未下载，则拼接url；
发送GET请求下载图片，因为是IO密集型任务，开启线程池进行并发下载；
存储（项目需求是存储至本地文件夹下即可）

2.1 csv文件的解析

可用于csv文件解析的工具有很多，如：javacsv、Inputstream等，强烈建议使用现成的优秀工具，不建议自己编写解析逻辑。更不建议一次性读入文件再进行解析。这里采用了一个号称是目前为止最高效的解析工具：univocity-parser，可采用迭代（行扫描）的方式读取每一条记录，详见：https://github.com/uniVocity/univocity-parsers。
univocity-parser使用方法参考：https://blog.csdn.net/qq_21101587/article/details/79803582，这里不再赘述。

2.2 街景ID（坐标）去重

这里需要注意的是，vote.csv文件有将近123万行数据记录，也就是近246万个坐标（含重复），如果一次性读入文件，并存入HashSet的话可能会引起OOM，如果该文件有上亿条数据记录，此方法更不可取。笔者采用的是redis去重，结合redis近乎O（1）的复杂度，能够处理数据量较大情况下的去重。但本训练集数量还远没有达到海量级别，用File类中的exists方法也可以去重。

2.2.1 使用redis去重：

关于街景坐标去重逻辑主要运用了以下几个命令：

//当redis中存在该key时，跳过；不含该key时，则存入该键值数据
jedis.setnx(key,value);

//检查该key是否存在
jedis.exists(key);

//获取以spider-hgg-googlemap:为正则前缀的所有key集合，返回set
jedis.keys("spider-hgg-googlemap:*");

//删除该key
jedis.del(key);

2.2.2 使用File类的exists()去重

笔者原本以为new File(“文件路径”).exists()方法会随着本地文件中的图片越来越多而查询变慢，但在实际使用过程中发现该方法在本地图片达到6万多张的时候，执行时间也是毫、微秒级，因此也能高效完成去重。底层原理可能得益于文件索引也是用的B树或哈希索引的方式（本人自己猜测的，没有深入研究）
去重代码就很简单了，传入参数ID，拼接图片路径即可：

private boolean isPicExists(String panoId){
    String path = "E:\\temp\\hgg-googlemap\\safety\\"+panoId+".jpg";
    File file = new File(path);
    return file.exists();
}

2.3 url的拼接

这里要注意一点的是，一个key每天的请求上限是2万次（本人亲测是低于2万次/天，不稳定），超过之后就会被限制访问，所以尽量获取更多的key，在拼接url的时候也尽量在有效的key集合中随机选择使用(为确保快速并可靠的下载，及时剔除无效的key)，尽可能减少同一key频繁访问的次数。另外一点需要注意的是，需加一个判断图片是否下载成功的逻辑，若下载成功就存储，若不成功还要重新拼接url进行再次下载，直至成功为止。

2.4 线程池的使用

这一块涉及线程池的使用及线程数合理配置，不熟悉的童鞋可参阅：https://www.cnblogs.com/dolphin0520/p/3932921.html

一般需要根据任务的类型来配置线程池大小：

如果是CPU密集型任务，就需要尽量压榨CPU，参考值可以设为 CPU核数量+1
如果是IO密集型任务，参考值可以设置为2* CPU核数量
当然，这只是一个参考值，具体的设置还需要根据实际情况进行调整，比如可以先将线程池大小设置为参考值，再观察任务运行情况和系统负载、资源利用率来进行适当调整。

3 代码实现

3.1 添加依赖

dependencies {
    compile 'com.squareup.okhttp3:okhttp:3.11.0'
    compile 'com.demo.ddc:ddc-core:0.1.11-alpha6'
	compile 'redis.clients:jedis:2.9.0'
	compile 'org.apache.logging.log4j:log4j-core:2.8.2'
	compile 'org.apache.commons:commons-pool2:2.4.2'
	compile 'com.univocity:univocity-parsers:2.8.2'
}

3.2 核心流程代码

将vote.csv文件改名为googlemapvotes.csv，并将其置于资源目录下。
先定义一个csv行数据的java bean类：

public class CsvPanoBean {

    private String panoId;

    private double lati;

    private double lonti;

    public CsvPanoBean(String panoId,double lati, double lonti){
        this.panoId = panoId;
        this.lati = lati;
        this.lonti = lonti;
    }

    public String getPanoId() {
        return panoId;
    }

    public void setPanoId(String panoId) {
        this.panoId = panoId;
    }

    public double getLati() {
        return lati;
    }

    public void setLati(double lati) {
        this.lati = lati;
    }

    public double getLonti() {
        return lonti;
    }

    public void setLonti(double lonti) {
        this.lonti = lonti;
    }
}

编写核心代码，含义详见注释：

protected boolean process() {
    String filePath = "/googlemapvotes.csv";
    // 创建csv解析器settings配置对象
    CsvParserSettings settings = new CsvParserSettings();
    // 文件中使用 '\n' 作为行分隔符
    // 确保像MacOS和Windows这样的系统
    // 也可以正确处理（MacOS使用'\r'；Windows使用'\r\n'）
    settings.getFormat().setLineSeparator("\n");
    // 考虑文件中的第一行内容解析为列标题，跳过第一行
    settings.setHeaderExtractionEnabled(true);
    // 创建CSV解析器（将分隔符传入对象）
    CsvParser parser = new CsvParser(settings);
    // 调用beginParsing逐个读取记录，使用迭代器iterator
    parser.beginParsing(getReader(filePath));
    String[] row;
    //图片下载工具类
    PicLoadUtils picLoadUtils = new PicLoadUtils();
    //创建线程池，由于本地机器为8核CPU，故定义10个核心线程，最大线程数为16，且自定义线程工厂类和饱和策略
    ThreadPoolExecutor executor = new ThreadPoolExecutor(10, 16, 100, TimeUnit.MILLISECONDS,
            new LinkedBlockingQueue<>(1024), new MyTreadFactory(),  new MyIgnorePolicy());
    //预启动所有核心线程
    executor.prestartAllCoreThreads();
    //解析csv文件并迭代每行记录
    while ((row = parser.parseNext()) != null) {
        String category = row[7];
        //这里根据需求，优先下载safety类型的训练集街景图片
        if ("safety".equals(category)){
            String leftPanoId = row[0];
            String rightPanoId = row[1];
            double leftLati = Double.parseDouble(row[3]);
            double leftLonti = Double.parseDouble(row[4]);
            double rightLati = Double.parseDouble(row[5]);
            double rightLonti = Double.parseDouble(row[6]);
            CsvPanoBean leftPanoBean = new CsvPanoBean(leftPanoId,leftLati,leftLonti);
            CsvPanoBean rightPanoBean = new CsvPanoBean(rightPanoId,rightLati,rightLonti);
            CsvPanoBean[] csvPanoBeans = {leftPanoBean,rightPanoBean};
            for (CsvPanoBean element:csvPanoBeans){
                //判断redis中或本地是否有该街景ID
                String panoId = element.getPanoId();
                //boolean isExists = isPicExists(panoId);
                boolean isExists = redisUtils.isPanoIDExists(panoId);
                if (!isExists){
                    redisUtils.panoIdPush(panoId);
                    DownloadPicTask task = new DownloadPicTask(picLoadUtils,element);
                    executor.execute(task);
                }else{
                    logger.info(panoId + " is exist");
                }
            }
            try {
                // 这里主线程需要睡一会，否则容易引起多线程下载时的读超时
                Thread.sleep(400L);
                logger.info("The queue size of Thread Pool is "+ executor.getQueue().size());
            }catch (InterruptedException e){
                e.printStackTrace();
            }
        }
    }
    logger.info("--------------------------crawl finished!--------------------------");
    // 在读取结束时自动关闭所有资源，或者当错误发生时，可以在任何使用调用stopParsing()
    // 只有在不是读取所有内容的情况下调用下面方法,但如果不调用也没有非常严重的问题
    parser.stopParsing();
    isComplete = true;
    return true;
}

//读文件时定义编码格式
private Reader getReader(String relativePath) {
    try {
        return new InputStreamReader(this.getClass().getResourceAsStream(relativePath), "UTF-8");
    } catch (UnsupportedEncodingException e) {
        throw new IllegalStateException("Unable to read input", e);
    }
}

//判断本地是否已存在
private boolean isPicExists(String panoId){
    String path = "E:\\temp\\hgg-googlemap\\safety\\"+panoId+".jpg";
    File file = new File(path);
    return file.exists();
}

3.3 图片下载工具类

该工具作用：主要是下载路径的设置及下载图片时的检测

/**
 * @author Huigen Zhang
 * @since 2018-10-19 18:53
 **/
public class PicLoadUtils {
    private final static String WINDOWS_DISK_SYMBOL = ":";
    private final static String WINDOWS_PATH_SYMBOL = "\\";
    private final static int STATUS_CODE = 200;
    private String localLocation;

    {
        //要下载到本地的路径
        localLocation = this.getFileLocation("googlepano");
    }

    private String getFileLocation(String storeDirName){
        String separator = "/";
        ConfigParser parser = ConfigParser.getInstance();
        String spiderId = "spider-googlemap";
        SpiderConfig spiderConfig = new SpiderConfig(spiderId);
        Map<String,Object> storageConfig = (Map<String, Object>) parser.assertKey(spiderConfig.getSpiderConfig(),"storage", spiderConfig.getConfigPath());
        String fileLocation = (String) parser.getValue(storageConfig,"piclocation",null,spiderConfig.getConfigPath()+".storage");
        String pathSeparator = getSeparator();
        String location;
        if(fileLocation!=null){
            //先区分系统环境，再判断是否为绝对路径
            if (separator.equals(pathSeparator)){
                //linux
                if(fileLocation.startsWith(separator)){
                    location = fileLocation + pathSeparator + "data";
                }else {
                    location = System.getProperty("user.dir") + pathSeparator + fileLocation;
                }
                location = location.replace("//", pathSeparator);
                return location;
            }else {
                //windows
                if (fileLocation.contains(WINDOWS_DISK_SYMBOL)){
                    //绝对路径
                    location = fileLocation + pathSeparator + "data";
                }else {
                    //相对路径
                    location = System.getProperty("user.dir") + pathSeparator + fileLocation;
                }
                location = location.replace("\\\\",pathSeparator);
            }
        }else{
            //默认地址
            location = System.getProperty("user.dir") + pathSeparator + storeDirName;
        }
        return location;
    }

    private String getSeparator(){
        String pathSeparator = File.separator;
        if(!WINDOWS_PATH_SYMBOL.equals(File.separator)){
            pathSeparator = "/";
        }
        return pathSeparator;
    }

    private void mkDir(File file){
        String directory = file.getParent();
        File myDirectory = new File(directory);
        if (!myDirectory.exists()) {
            myDirectory.mkdirs();
        }
    }

    public boolean downloadPic(String url, String panoId){
        okhttp3.Request request = new okhttp3.Request.Builder()
                .url(url)
                .build();
        Response response = null;
        InputStream inputStream = null;
        FileOutputStream out = null;
        String relativePath;
        try {
            response = OkHttpUtils.getInstance().newCall(request).execute();
            if (response.code()!=STATUS_CODE){
                return false;
            }
            //将响应数据转化为输入流数据
            inputStream = response.body().byteStream();
            byte[] buffer = new byte[2048];
            relativePath = panoId + ".jpg";
            File myPath = new File(localLocation + File.separator + relativePath);
            this.mkDir(myPath);
            out = new FileOutputStream(myPath);
            int len;
            while ((len = inputStream.read(buffer)) != -1){
                out.write(buffer,0,len);
            }
            //刷新文件流
            out.flush();
        } catch (IOException e) {
            e.printStackTrace();
        }finally {
            if (inputStream!=null){
                try {
                    inputStream.close();
                }catch (IOException e){
                    e.printStackTrace();
                }
            }
            if (null!=out){
                try {
                    out.close();
                }catch (IOException e){
                    e.printStackTrace();
                }
            }
            if (null!=response){
                response.body().close();
            }
        }
        return true;
    }
}

3.4 redis工具类

主要还是运用了上述redis命令，在这基础上做一层封装：

/**
 * @author zhanghuigen
 * @since 0.1.0
 **/
public class RedisUtils {
    private JedisPool pool;
    private String spiderUUID;
    private static Logger logger = Logger.getLogger(RedisUtils.class);

    public RedisUtils(String host, int port, String password, String spiderUUID) {
        this(new JedisPool(new JedisPoolConfig(), host, port, 2000, password));
        this.spiderUUID = spiderUUID;
    }

    public RedisUtils(JedisPool pool) {
        this.pool = pool;
    }

    public synchronized Boolean isPanoIDExists(String panoId) {
        Jedis jedis = null;
        Boolean exists;
        try {
            jedis = this.pool.getResource();
            exists = jedis.exists(this.spiderUUID + ":" + panoId);
            return exists;
        }finally {
            if (jedis!=null){
                jedis.close();
            }
        }
    }

    public synchronized boolean removeKeys(){
        Jedis jedis = this.pool.getResource();
        try {
            Set<String> keys = jedis.keys(this.spiderUUID + ":*" );
            if(keys != null && !keys.isEmpty()) {
                logger.info("redis has stored " + keys.size() + " keys, now ready to remove them all!");
                String[] array = new String[keys.size()];
                jedis.del(keys.toArray(array));
            }
            return true;
        }catch (Exception e){
            e.printStackTrace();
        }finally {
            if (jedis!=null){
                jedis.close();
            }
        }
        return true;
    }

    public synchronized boolean panoIdPush(String panoId) {
        Jedis jedis = this.pool.getResource();
        try {
            long num = jedis.setnx(this.spiderUUID + ":" + panoId, String.valueOf(1));
            return num==1;
        } finally {
            if (jedis!=null){
                jedis.close();
            }
        }
    }
}

3.5 线程池的任务类及拒绝策略

这里其实也可以运用Callable+Future的模式定义下载任务，详见: https://www.cnblogs.com/hapjin/p/7599189.html 或 https://www.cnblogs.com/myxcf/p/9959870.html

class DownloadPicTask implements Runnable {
    private CsvPanoBean taskBean;
    private PicLoadUtils picLoadUtils;
    private String panoId;

    private DownloadPicTask(PicLoadUtils picLoadUtils,CsvPanoBean bean) {
        this.picLoadUtils = picLoadUtils;
        this.taskBean = bean;
        this.panoId = taskBean.getPanoId();
    }

    @Override
    public void run() {
        logger.info("正在执行task "+panoId);
        String url;
        String key;
        boolean successDownload;
        do {
            //拼接街景图片url
            String[] urlWithKey = getUrlWithKey(taskBean);
            url = urlWithKey[0];
            key = urlWithKey[1];
            //发送请求，下载图片，直到本图片下载成功为止
            successDownload = picLoadUtils.downloadPic(url,panoId);
        }while (!successDownload);
        logger.info(panoId + " downloaded succeed with " + key);
    }

    @Override
    public String toString(){
        return panoId;
    }

    private String[] getUrlWithKey(){
        String requestPrefix = "https://maps.googleapis.com/maps/api/streetview?size=400x300&location=";
        String url = requestPrefix + taskBean.getLati() + "," + taskBean.getLonti() + "&key=";
        Random random = new Random();
        //这里需确保可用的key已经配置在配置文件中，并已读取至一个List----googleKeys中
        int index = random.nextInt(5);
        String key = googleKeys.get(index);
        return new String[]{url+key,key};
    }
}


class MyTreadFactory implements ThreadFactory {
    private final AtomicInteger mThreadNum = new AtomicInteger(1);
    @Override
    public Thread newThread(Runnable r) {
        Thread t = new Thread(r, "my-thread-" + mThreadNum.getAndIncrement());
        logger.info(t.getName() + " has been created");
        return t;
    }
}

class MyIgnorePolicy implements RejectedExecutionHandler {

    @Override
    public void rejectedExecution(Runnable r, ThreadPoolExecutor e) {
        doLog(r, e);
    }

    private void doLog(Runnable r, ThreadPoolExecutor e) {
        // 将拒绝执行的街景ID写入日志
        logger.warn( r.toString() + " rejected");
    }
}

4 写在最后

单线程与多线程下载的效率比较

若用单线程下载，差不多1秒一张图片，相对低效：

采用线程池后，刚开始线程数量设的较高，也没有在主线程中加入睡眠时间，易出现读超时现象，原因是使用公司代理访问google时，多线程下载使得带宽受限。引起线程迟迟读不到数据后报异常，如下图所示：

通过在主线程添加睡眠时间后，读超时现象消失，可以顺利下载：

在满足带宽条件下，下载速度约5张/秒，

正常运行时的本地效果图
图片质量检测
实际上，该训练集中有部分图片因google资源缺失无法下载。

解决方法：可以提前在下载过程中进行检测，一般此类图片size较小，可以通过在图片下载工具类中对下载返回的响应加个判断来决定是否对其下载，并记录好异常位置即可。

Java爬虫技术详解：原理、实现与优势 cyc&阿灿 Java 多线程 java 爬虫开发语言
一、什么是网络爬虫？网络爬虫（WebCrawler），又称网络蜘蛛或网络机器人，是一种自动化程序，能够按照一定的规则自动浏览和抓取互联网上的信息。爬虫技术是大数据时代获取网络数据的重要手段，广泛应用于搜索引擎、数据分析、价格监控等领域。Java作为一种稳定、高效的编程语言，凭借其强大的网络编程能力和丰富的生态库，成为开发网络爬虫的热门选择。二、Java爬虫核心组件一个完整的Java爬虫通常包含以下
Java爬虫实战指南：按关键字搜索京东商品爬虫程序猿 java 爬虫开发语言
在电商领域，快速获取商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。京东作为国内领先的电商平台之一，提供了丰富的商品数据。虽然京东开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索京东商品，并提供详细的代码示例。一、准备工作（一）Java开发环境确保你的Java开发环境已经安装了以下必要的库：Jsou
Java爬虫｜爬虫爬jj榜单数据写入excel Chrison_mu 爬虫 java
大学的时候选python课课设就是让我们用爬虫去爬取数据写入文件然后再做数据分析词云图地图分类等python已经记不清了现在用Java尝试一下爬取数据爬虫分为三步骤：1.获取你自己电脑访问网站的时候的请求头2.目标网站的url3.对爬出来的网页返回值进行切分出有用的部分packagecom.example.concurrent;importorg.apache.poi.ss.usermodel.C
如何利用 Java 爬虫获得微店商品详情：实战指南爬虫程序猿 java 爬虫开发语言
在电商领域，微店作为众多商家的线上销售渠道之一，其商品详情数据对于市场分析、竞品研究和商业决策具有重要价值。Java爬虫技术可以帮助我们高效地获取这些数据。本文将详细介绍如何使用Java编写爬虫，获取微店商品详情。一、准备工作（一）环境搭建确保你的Java开发环境已经安装了以下必要的库：Jsoup：用于解析HTML页面。HttpClient：用于发送HTTP请求。可以通过Maven来管理这些依赖，
使用 Jsoup 构建你的第一个 Java 爬虫一碗黄焖鸡三碗米饭爬虫实战 java 爬虫开发语言
目录使用Jsoup构建你的第一个Java爬虫1.Jsoup简介2.环境准备Maven依赖配置：Gradle依赖配置：3.构建一个简单的网页爬虫代码实现：4.代码解析5.执行效果6.进阶功能：处理分页和数据存储模拟分页抓取数据存储：将数据保存为CSV文件7.小结网页爬虫（WebScraping）已经成为数据收集和分析中的重要工具。通过爬虫技术，我们可以从互联网上获取大量的公开数据，并利用这些数据进行
java爬虫框架，简单高效，易用，附带可运行案例 java龙王* java 爬虫开发语言
WebScraper工具类使用手册序言：java简单易用的封装爬虫工具类，代码和案例奉上，把你的点击和收藏也一并奉上吧[狗头]，springboot版本：3.4.5java版本：17安装依赖：1711114.20.05.8.02.10.1org.seleniumhq.seleniumselenium-java${selenium.version}io.github.bonigarciawebdri
java使用WebMagic架构写个分布式爬虫 q56731523 java 架构分布式
前一个项目是通过java完成，因此，本次大型项目依然需要用java语言，但是这里是需要分布式爬虫，所以的需要使用WebMagic架构。我们知道WebMagic是一个功能强大且灵活的Java爬虫框架，支持多线程和分布式抓取。要实现基于WebMagic的分布式爬虫，需要结合其核心组件与扩展功能，并通过一些外部工具或服务来协调多个爬虫实例之间的任务分配与数据共享。废话不多说，以下是使用Java的WebM
淘宝按图搜索商品（拍立淘）Java 爬虫实战指南 API小爬虫图搜索算法 java 爬虫
在电商领域，按图搜索商品功能为用户提供了更直观、便捷的购物体验。淘宝的拍立淘功能更是凭借其强大的图像识别技术，成为许多开发者和商家关注的焦点。本文将详细介绍如何利用Java爬虫技术实现淘宝按图搜索商品功能，包括注册账号、上传图片、调用API及解析响应等关键步骤。一、准备工作（一）注册淘宝开放平台账号在使用淘宝按图搜索功能之前，需要在淘宝开放平台注册账号并创建应用。注册成功后，平台会分配一个AppK
Jsoup与HtmlUnit：两大Java爬虫工具对比解析静谧空间 Java 爬虫
Jsoup：HTML解析利器定位：专注HTML解析的轻量级库（也就是快，但动态页面无法抓取）核心能力：DOM树解析与CSS选择器查询HTML净化与格式化支持元素遍历与属性提取应用场景：静态页面数据抽取、内容清洗publicstaticDocumentgetJsoupDoc(Stringurl,Integerfrequency,IntegerconnectTimeout){Documentdocum
java爬虫：cdp4j+jsoup实现网页爬取和解析熊子不爱吃香菜 springboot
目的使用cdp4j爬取动态网页后用jsoup解析网页获取相关数据。环境chrome客户端jdk1.8依赖org.jsoupjsoup1.8.1io.webfoldercdp4j3.0.15org.jvnet.winpwinp1.28案例packagecn.zhangpf.reptilescsdn.utils;importio.webfolder.cdp.Launcher;importio.webf
利用 Java 爬虫按关键字搜索淘宝商品 API小爬虫 java 爬虫 python
在电商领域，通过关键字搜索商品是常见的需求。淘宝作为国内知名的电商平台，提供了丰富的商品搜索功能。本文将详细介绍如何使用Java爬虫技术按关键字搜索淘宝商品，并获取搜索结果的详细信息。一、准备工作1.注册淘宝开放平台账号要使用淘宝商品搜索API，首先需要在淘宝开放平台（淘宝开放平台）注册账号，并创建应用以获取AppKey和AppSecret。这些是调用API所必需的凭证。2.安装必要的Java库确
Java爬虫：深入探索1688接口的奥秘 API快乐传递者 1688API java 爬虫开发语言
在数字化时代，数据成为了企业最宝贵的资产之一。对于电商企业来说，获取和分析数据的能力直接关系到其市场竞争力。阿里巴巴旗下的1688平台，作为中国领先的批发贸易平台，拥有海量的商家和商品信息，成为了众多企业获取数据的重要来源。本文将深入探讨如何使用Java编写爬虫，以合法合规的方式，高效地从1688平台获取接口数据。一、Java爬虫的基础知识在开始之前，我们需要了解一些Java爬虫的基础知识。爬虫（
Selenium用法详解【定位页面元素】【JAVA爬虫】泰山AI Selenium自动化爬虫 selenium java 爬虫
目录定位页面元素id定位name定位class定位tag定位link定位partialLinkText定位xpath定位绝对路径（层级关系）定位相对路径（层级关系）定位利用元素属性定位层级+元素属性定位逻辑运算符定位通过文字定位通过部分文字定位通过部分属性值定位css定位1.通过class属性定位2.通过id属性定位3.通过标签名定位4.通过父子关系定位5.通过属性定位6.通配符7.组合定位定位一
Java爬虫如何解析返回的JSON数据？数据小小爬虫 java 爬虫 json
在Java中解析JSON数据通常使用一些流行的库，如Jackson或Gson。这些库提供了强大的功能，可以轻松地将JSON字符串转换为Java对象，或者从Java对象生成JSON字符串。以下是如何使用Jackson库解析返回的JSON数据的详细步骤和示例。一、添加依赖首先，确保你的项目中已经添加了Jackson库的依赖。如果你使用Maven，可以在pom.xml文件中添加以下依赖：xmlcom.f
使用Java爬虫按关键字搜索1688商品小爬虫程序猿 java 爬虫开发语言
在电商领域，获取1688商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。1688作为国内领先的B2B电商平台，提供了丰富的商品数据。虽然1688开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索1688商品，并提供详细的代码示例。一、准备工作1.Java开发环境确保你的Java开发环境已经安装了以下必
使用Java爬虫根据关键词获取Shopee商品列表？小爬虫程序猿 java 爬虫开发语言
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例
用Java爬虫轻松获取微店店铺所有商品信息数据小爬虫@ java 爬虫开发语言
在当今电商蓬勃发展的时代，微店作为一个轻量级且功能强大的电商平台，吸引了众多商家和消费者。无论是进行市场调研、数据分析，还是寻找热门商品，获取微店店铺的所有商品信息都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫获取微店店铺的所有商品信息。一、为什么选择Java爬虫？Jav
利用Java爬虫根据关键词获取商品列表：实战指南数据小爬虫@ java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。本文将详细介绍如何使用Java编写爬虫程序，根据关键词获取商品列表，并确保爬虫行为符合平台规范。为了确保代码的准确性和实用性，我们将提供详细的代码示例和解释。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析H
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
利用Java爬虫根据关键词获取17网（17zwd）商品列表：实战指南小爬虫程序猿 java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。17网（17zwd）作为知名的电商平台，提供了丰富的商品资源。本文将详细介绍如何使用Java爬虫技术根据关键词获取17网商品列表，并确保爬虫行为符合平台规范。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境（推荐使用JDK1.8及以上版本）。（二）安装所需依赖使用Maven管理项目依赖，主要包括以下库：Jsoup：用于
利用爬虫按图搜索1688商品（拍立淘）：实战指南 Jason-河山爬虫图搜索算法算法
在电商领域，按图搜索商品（拍立淘）是一种非常实用的功能，尤其适合用户通过图片快速查找相似商品。1688开放平台提供了按图搜索商品的API接口，允许开发者通过图片获取相关的商品信息。本文将详细介绍如何使用Java爬虫技术调用1688的按图搜索API接口，并解析返回的数据。一、前期准备（一）Java开发环境确保已安装Java开发环境，推荐使用JDK1.8或更高版本。（二）依赖管理使用Maven或Gra
利用Java爬虫按图搜索1688商品（拍立淘）：实战指南 Jason-河山 java 爬虫图搜索算法
在电商领域，按图搜索商品（拍立淘）已成为一种重要的功能，尤其适合用户通过图片快速查找相似商品。1688开放平台提供了按图搜索商品的API接口，允许开发者通过图片获取相关的商品信息。本文将详细介绍如何使用Java爬虫技术调用1688的按图搜索API接口，并解析返回的数据。一、前期准备1.Java开发环境确保已安装Java开发环境，推荐使用JDK1.8或更高版本。2.依赖管理使用Maven或Gradl
如何利用Java爬虫按图搜索1688商品（拍立淘）：实战指南数据小爬虫@ java 爬虫图搜索算法
在电商领域，按图搜索商品（类似“拍立淘”功能）是一种非常实用的功能，尤其适合用户通过图片快速查找相似商品。1688开放平台提供了按图搜索商品的API接口，允许开发者通过图片获取相关的商品信息。本文将详细介绍如何使用Java爬虫技术调用1688的按图搜索API接口，并解析返回的数据。一、前期准备（一）Java开发环境确保已安装Java开发环境，推荐使用JDK1.8或更高版本。（二）依赖管理使用Mav
如何使用Java爬虫处理API接口返回的JSON数据？小爬虫程序猿 API java json 开发语言
处理API接口返回的JSON数据是Java爬虫开发中的一个常见任务。在Java中，有多个库可以帮助我们解析JSON数据，其中最流行的是Jackson和Gson。以下是使用这两个库处理JSON数据的基本步骤和示例代码。使用Jackson处理JSONJackson是一个功能强大的JSON处理库，它不仅可以将JSON字符串解析为Java对象，还可以将Java对象转换为JSON字符串。添加Jackson依
通过java下载B站视频 KeepeVile Java
本项目分为以下几点获取Bvid获取Cid获取视频原始链接使用Java下载视频文件1.获取Bvid我们首先需要获取Bvid，也就是视频id，如果只想下载一个指定的视频那么直接输入Bvid即可。如果需要批量下载那么就需要程序帮我们抓取Bvid，关于如何使用爬虫爬取我们需要的信息，可以参考我的另一篇文章：通过Java爬虫实现51job申请职位的第四部分获取Bvid2.获取Cid这里我们需要用到一条api
Java爬虫——jsoup xxxmine java 爬虫开发语言
JSoup是一个用于处理HTML的Java库，它提供了一个非常方便类似于使用DOM，CSS和jquery的方法的API来提取和操作数据。Jsoup能做什么？从URL、文件或字符串中抓取和解析HTML（爬虫）使用DOM遍历或CSS选择器查找和提取数据操作HTML元素、属性和文本根据安全列表清理用户提交的内容，以防止XSS攻击输出整洁的网页Jsoup相关概念Document：文档对象。每份HTML页面
利用Java爬虫精准获取商品销量详情：实战案例指南小爬虫程序猿 java 爬虫开发语言
在电商领域，商品销量数据是衡量产品受欢迎程度和市场表现的关键指标。精准获取商品销量详情不仅能帮助商家优化产品策略，还能为市场研究和数据分析提供丰富的数据资源。本文将详细介绍如何利用Java爬虫技术精准获取商品销量详情，并分享关键技术和代码示例。一、前期准备（一）环境搭建确保你的开发环境已安装以下必要的Java库：Jsoup：用于解析HTML页面。HttpClient：用于发送HTTP请求。Log4
利用Java爬虫获取Amazon商品详情：实战案例指南数据小小爬虫 java 爬虫开发语言
在电商领域，Amazon作为全球最大的电商平台之一，其商品详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Java爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Java爬虫技术获取Amazon商品详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的Java库：Jsoup：用于解析HTML页面。HttpClie
使用Java爬虫获取淘宝商品详情API返回值说明案例指南数据小小爬虫 java 爬虫开发语言
在电商数据分析和运营中，获取淘宝商品详情是常见的需求。淘宝开放平台提供了丰富的API接口，允许开发者通过合法的方式获取商品信息。本文将详细介绍如何使用Java编写爬虫，通过淘宝API获取商品详情，并解析API返回值的含义和结构。一、准备工作在开始编写爬虫之前，需要准备以下工具和库：Java开发环境：推荐使用IDEA或Eclipse。HttpClient库：用于发送HTTP请求。Jsoup库：用于解
利用Java爬虫精准获取淘宝分类详情：实战案例指南 Jason-河山 java 爬虫开发语言
在电商领域，淘宝作为中国最大的电商平台之一，其分类详情数据对于市场分析、竞争策略制定以及电商运营优化具有极高的价值。通过Java爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。本文将详细介绍如何利用Java编写爬虫程序，快速获取淘宝分类详情数据。一、准备工作（一）环境搭建确保你的开发环境中已经安装了以下必要的库：HttpClient：用于发送HTTP请求。Jsoup：用于解析
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S