韩zj

WebMagic抓取医院科室，医生信息实战及踩坑

简介

WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy，目标是尽量的模块化，并体现爬虫的功能特点。
WebMagic概览

使用场景

我用WebMagic抓取公立医院的科室，科室详情，医生，医生详情信息，爬虫技术玩玩还可以，实际应用需谨慎。

实战

先放一篇参考博客WebMagic，我主要参考这篇博客进行的开发，在此基础上进行的修改，并且踩了不少坑，记录一下

集成

首先是pom.xml

<?xml version="1.0" encoding="UTF-8"?>
://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
    >4.0.0>
    >
        >org.springframework.boot>
        >spring-boot-starter-parent>
        >2.7.5>
        > <!-- lookup parent from repository -->
    
    com.example
    WebMagicDemo
    0.0.1-SNAPSHOT
    WebMagicDemo
    WebMagicDemo
    
        8
    
    
        
            org.springframework.boot
            spring-boot-starter
        

        >
            >org.springframework.boot>
            >spring-boot-starter-test>
            >test>
        >
        >
            >org.projectlombok>
            >lombok>
        >
        <!--WebMagic-->
        
            us.codecraft
            webmagic-core
            0.8.0

        >
        >
            >us.codecraft>
            >webmagic-extension>
            >0.8.0>
        >
        >
            >com.google.guava>
            >guava>
            >31.1-jre>
        >

        >
            >com.alibaba>
            >easyexcel>
            >3.3.2>
        >
        <!--测试组件-->
        
            org.springframework.boot
            spring-boot-starter-test
        
        
            org.jsoup
            jsoup
            1.15.4
        

        <!--selenium依赖-->
        
            org.seleniumhq.selenium
            selenium-java
            4.8.1
            
                
                    guava
                    com.google.guava
                
                
                    okio
                    com.squareup.okio
                
            
        


    >

    >
        >
            >
                >org.springframework.boot>
                >spring-boot-maven-plugin>
            >
        >
    >

>

其中easyexcel可选，不需要生成excel不需要集成

JdChromeDownloader

@Component
public class JdChromeDownloader implements Downloader
{

    //声明驱动
    private RemoteWebDriver driver;

    public JdChromeDownloader() {
        //第一个参数是使用哪种浏览器驱动
        //第二个参数是浏览器驱动的地址
        System.setProperty("webdriver.chrome.driver","C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe");

        //创建浏览器参数对象
        ChromeOptions chromeOptions = new ChromeOptions();

        // 设置为 headless 模式,上课演示,或者学习不要打开
        // chromeOptions.addArguments("--headless");
        // 设置浏览器窗口打开大小
        chromeOptions.addArguments("--window-size=1280,700");
//设置自动化启动时，不显示正在受到自动化软件控制的提示栏
        chromeOptions.setExperimentalOption("excludeSwitches", new String[] {"enable-automation","load-extension"});
        //针对反爬机制，把浏览器不标记为webdriver启动的浏览器。
        chromeOptions.addArguments("--disable-blink-features=AutomationControlled");
        chromeOptions.addArguments("no-sandbox");
        chromeOptions.addArguments("disable-dev-shm-usage");
        chromeOptions.addArguments("--remote-allow-origins=*");

        //创建驱动
        this.driver = new ChromeDriver(chromeOptions);
    }

    @Override
    public Page download(Request request, Task task) {
        try {
            driver.get(request.getUrl());
            Thread.sleep(2000);

            //无论是搜索页还是详情页,都滚动到页面底部,所有该加载的资源都加载
            //需要滚动到页面的底部,获取完整的商品数据
            driver.executeScript("window.scrollTo(0, document.body.scrollHeight - 1000)");
            Thread.sleep(2000l);

            //获取页面对象
            Page page = createPage(request.getUrl(), driver.getPageSource());

            //判断是否是搜索页
            if (request.getUrl().contains("search")) {
                //如果请求url包含search,说明是搜索结果页
                //在搜索结果页,需要获取下一页的链接地址
                //点击下一页按钮,在下一页中获取当前页的url(就是下一页的url),放到任务队列中
                WebElement next = driver.findElement(By.cssSelector("a.pn-next"));
                //点击
                next.click();

                //获取当前页面(其实就是下一页)的url地址
                String nextUrl = driver.getCurrentUrl();

                //使用page对象,把下一页url放到任务列表中
                page.addTargetRequest(nextUrl);
            }

            //关闭浏览器
            //driver.close();

            return page;

        } catch (InterruptedException e) {
            e.printStackTrace();
        }


        return null;
    }

    @Override
    public void setThread(int threadNum) {

    }

    //构建page返回对象
    private Page createPage(String url, String content) {
        Page page = new Page();
        page.setRawText(content);
        page.setUrl(new PlainText(url));
        page.setRequest(new Request(url));
        page.setDownloadSuccess(true);

        return page;
    }

}

StartCrawler

@Component
public class StartCrawler
{
    //@Resource
    //private JdChromeDownloader downloader;
    @Resource
    private MyPipeline jpaPipeline;

    @Resource
    private DeptPipeline deptPipeline;

    @Resource
    private DoctorPipeline doctorPipeline;
    //声明医院科室
    String url = "http://xxxxxx/keshi/";
    //声明医院专家
    String doctorsUrl="http://xxxxxx/zhuanjia/";
    @Scheduled(cron = "0/5 * * * * *")
    public void run() {
        Spider.create(new WxhsDoctorProcessor())
                //.addUrl("https://www.jd.com/news.html?id=38673")
                .addUrl(doctorsUrl)
                //设置下载器
               // .setDownloader(downloader)
               // .addPipeline(new JsonFilePipeline("D:\\webmagic\\"))
                .addPipeline(doctorPipeline)
                .run();
    }


}

这个文件的作用，是5秒钟调用一次爬虫

坑1 集成完毕，运行环境，报“An attempt was made to call a method that does not exist. The attempt was made from the following location”

这个是 maven 版本冲突问题，解决的办法很简单
dea 安装 mavenhelper 插件，点开 pom.xml 文件 =》左下角有 text 和 Dependency Analyzer , 点 Dependency Analyzer，选中 Conflicts ，选中需要解决的冲突 ==》鼠标右键，exclude; 如果不是根的话就，Jump left Tree 之后再 exclude，reimport 就好了

Selenium+headless浏览器实现动态爬虫

我们可以使用HttpClient模拟浏览器抓取静态html，但是对js的解析部分还是很薄弱。虽然我们可以读取js的运作机制并且找到相关数据，但是这样会耗费大量时间。为了解决这个问题我们可以使用工具来模拟浏览器的运行，直接获取解析结果。这就是使用Selenium+headless浏览器来实现动态爬虫。
Selenium
Selenium是一个用于Web应用程序测试的工具。Selenium可以使用代码控制浏览器，就像真正的用户在操作一样。而对于爬虫来说，使用Selenium操控浏览器来爬取网上的数据那么肯定是爬虫中的杀手武器。Selenium支持多种浏览器可以是chrome、Firefox、PhantomJS等

使用WebDriver在Chrome浏览器上进行测试时或者做页面抓取，需要从http://chromedriver.storage.googleapis.com/index.html网址中下载与本机chrome浏览器对应的驱动程序，驱动程序名为chromedriver。chromedriver的版本需要和本机的chrome浏览器对应，才能正常使用，一般情况下下载最新版就可以了。

headless浏览器是一个基于webkit内核的无头浏览器，即没有UI界面，即它就是一个浏览器，只是其内的点击、翻页等人为相关操作需要程序设计实现

如果想要实现动态爬虫，需要安装chromedriver，可以在浏览器驱动官网网站和淘宝镜像网站下载，先查看浏览器版本，

然后下载对应的驱动chromedriver.exe，放到浏览器安装目录下，在Downloader文件中进行设置，然后设置Spider的下载器 .setDownloader(downloader)，这样运行起来，会调起浏览器，模拟点击动作

坑2浏览器驱动相关问题

我浏览器版本是118，然后驱动最高是114，所以我只能卸载浏览器，然后重新安装的114的，但是会自动升级成最新版本，所以要关闭谷歌浏览器的自动更新功能。关闭方法在这谷歌浏览器自动更新怎么关闭
如果不想要这个功能，可以把代码中的JdChromeDownloader 的@Component去掉，然后把.setDownloader(downloader)去掉就可以了

item

科室信息

@Data
public class DeptItem
{
    private String deptType;
    private String title;
    private String url;
    private String deptDetails;

}

医生信息

@Data
public class DoctorItem
{
    private String doctorType;
    private String name;
    private String url;
    private String img;
    private HashMap<String,String> doctorDetails;

}

pipeline

@Component
public class DoctorPipeline implements Pipeline
{
    private final static Logger log = LoggerFactory.getLogger(DoctorPipeline.class);

    @Override
    public void process(ResultItems resultItems, Task task)
    {
        //获取医生数据
        List<DeptItem> itemList = resultItems.get("itemList");

           log.info("解析医生结果"+itemList);



    }
}

@Component
public class DeptPipeline implements Pipeline
{
    private final static Logger log = LoggerFactory.getLogger(DeptPipeline.class);
    String filePath=TestFileUtil.getPath();
    File templateFile = new File(filePath, "科室介绍临时表.xlsx");
    File destFile = new File(filePath, "科室介绍.xlsx");
    private List<DeptItem> results=new ArrayList();
    @Override
    public void process(ResultItems resultItems, Task task)
    {
        //获取科室数据
        List<DeptItem> itemList = resultItems.get("itemList");
        boolean deptDetail=resultItems.get("deptDetail");
       if(!deptDetail){
           //String fileName = TestFileUtil.getPath() + "科室" + System.currentTimeMillis() + ".xlsx";
           //EasyExcel.write(fileName, DeptData.class).sheet("科室").doWrite(itemList);
           log.info("解析科室结果"+itemList);
       }else {
           //先缓存到本地，实际可以写入数据库
          // results.addAll(itemList);
           log.info("解析科室介绍结果"+itemList);
       }


    }

}

重点是网页解析

通过继承PageProcessor来进行网页解析，先看一下科室信息

对应的样式是

这一段是比较好解析的，

 //科室名称
            Selectable selectable = page.getHtml()
                    .css("div.right_bottom");
            List<Selectable> nodes = selectable.css("ul.ksxhul")
                    .nodes();

            List<Selectable> deptTypes = selectable.xpath("//dl/dt/a/strong/text()")
                    .nodes();


            //判断nodes是否有值
            if (nodes != null && nodes.size() > 0)
            {
                List<DeptItem> itemList = new ArrayList<>();


                for (int i = 0; i < nodes.size(); i++)
                {

                    List<Selectable> ksList = nodes.get(i)
                            .css("li.keshili")
                            .nodes();

                    for (Selectable ks : ksList)
                    {
                        //创建对象
                        DeptItem item = new DeptItem();
                        if (i < deptTypes.size() && deptTypes.get(i) != null)
                        {
                            item.setDeptType(deptTypes.get(i)
                                    .toString());
                        }

                        item.setUrl(ks.links()
                                .toString());
                        item.setTitle(ks.$("a", "text")
                                .toString());
                        //放到集合中
                        itemList.add(item);

                        //把商品详情页的url放到url任务队列中
                        page.addTargetRequest(item.getUrl());
                    }

                }

                //把需要持久化的数据放到ResultItems中
                page.putField("itemList", itemList);
                page.putField("deptDetail", false);
            }

解析出来的结果是

点击科室，进入科室详情，这个比较复杂，有多种样式，粗略数了数，得十种样式，这样的话，还真不如粘贴复制来得快。我需要把页面里的内容分类

按照“【科室概况】”，“【科室特色】”，“【科研及教育概况】”，“【获得的荣誉称号】”等取出相应的内容，保存到数据库，这是一种样式，比较好解析。里边内容的html标签就筛选掉吧，如果再去解析，实在是太复杂了

//去除html标签
 private   String delHTMLTag(String htmlStr){
        String regEx_script="]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
        String regEx_style="]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
        String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式

        Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
        Matcher m_script=p_script.matcher(htmlStr);
        htmlStr=m_script.replaceAll(""); //过滤script标签

        Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
        Matcher m_style=p_style.matcher(htmlStr);
        htmlStr=m_style.replaceAll(""); //过滤style标签

        Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
        Matcher m_html=p_html.matcher(htmlStr);
        htmlStr=m_html.replaceAll(""); //过滤html标签

        return htmlStr.trim(); //返回文本字符串
    }

Selectable trs = page.getHtml()
                    .xpath("//div[@class=contents]/table/tbody/tr");
            HashMap<String, String> deptDetail = new HashMap<>();
            if (trs != null && trs.nodes()
                    .size() > 0)
            {
                for (Selectable tr : trs.nodes())
                {
                    List<String> all = tr.xpath("//td/p/span")
                            .all();
                    Selectable key = tr.xpath("//td/p/b/span/text()");
                    if (StringUtils.isNotBlank(key.toString()))
                    {
                        String detail = String.join("", all);
                        String detailNoHtml=delHTMLTag(detail);
                        Pattern pattern = Pattern.compile(" ");
                        Matcher matcher = pattern.matcher(detailNoHtml);
                        String result = matcher.replaceAll("");
                        deptDetail.put(key.toString(), result);
                    }


                }

            }

这样解析出来的数据就是

解析科室介绍结果[DeptItem(deptType=null, title=心血管内科, url=null, deptDetails={【科研及教育概况】=获国家和省市级科研课题资助30余项，包括国家自然科学基金课题资助项目12项，其中面上项目3项，青年基金9项；江苏省自然科学基金资助项目6项。获省、市科技进步奖及医学新技术引进奖29项，其中省级科技进步奖及医学新技术引进奖18项，包括江苏省科技进步三等奖1项，江苏省医学新技术引进一等奖3项，二等奖12项，江苏医学科技奖三等奖2项。近5年来，在SCI及中华系列杂志发表论文100余篇，其中I区和II区SCI论文20余篇，在《中华心血管病杂志》上发表论文30余篇。目前有博士研究生导师1人，硕士研究生导师5人，目前已培养博士和硕士研究生60余名。, 【科室特色】=有冠心病（心内一科）、起搏电生理（心内二科）和普通心脏病（心内三科）和心脏重症监护室（CCU）四个病区，135张床位，并有独立的心功能科和心血管病实验室。设有心血管专科、专家及高级专家门诊及冠心病、起搏和电生理等专病门诊。常规开展磁导航指导下复杂心律失常射频消融术、心脏再同步起搏技术（CRT及CRT-D）、自动复律除颤起搏器植入术（ICD）、希氏束起搏术、埋藏式心脏起搏器植入术、经皮冠状动脉介入（PCI）治疗和先天性心脏病介入治疗术。近年来开展的新技术有房颤冷冻球囊消融术、无导线心脏起搏器植入术、左心耳封堵术、皮下ICD植入术、经导管主动脉瓣置换术（TAVR）。, 【科室概况】=南京医科大学附属无锡人民医院心血管内科为江苏省重点学科建设单位、江苏省首批临床重点专科、南京医科大学重点学科、南京医科大学博士研究生培养点和博士后流动站、国家卫健委首批介入准入资格学科和中国医师协会介入培训基地。拥有无锡市“太湖人才计划”顶级医学专家团队，是无锡市心血管病临床医学中心。心血管内科现有医护人员95人，其中医生41人，护士54人，其中医生高级职称29人，医学博士17人、医学硕士22人，留学归国人员6人。拥有磁导航系统、双C臂DSA、杂交手术室、双源CT、三维电生理标测系统、冠状动脉内超声和食道超声等先进设备。, 【获得的荣誉称号】=2022年获批江苏省心血管内科重点学科建设单位2022年获批房颤中心示范基地2021年获批无锡市医学重点学科2021获批无锡市“太湖人次计划”顶级医学专家团队2019年王如兴获得无锡市“五一”劳动奖章})]

现在发现还有多种样式，比如

这样的样式看着都头大，如果还像之前那样解析，只能说很复杂，现在按最简单的做，就是把内容全部取出来，去掉html标签，然后后期根据业务需求，比如获取“【科研及教育概况】”的数据，可以通过字符串分割来获取

坑3.如何去掉java字符串里的html标签

首先想到的是通过正则表达式来删除，比如

 private String delHTMLTag(String htmlStr)
    {
        String regEx_script = "]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
        String regEx_style = "]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
        String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式

        Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
        Matcher m_script = p_script.matcher(htmlStr);
        htmlStr = m_script.replaceAll(""); //过滤script标签

        Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
        Matcher m_style = p_style.matcher(htmlStr);
        htmlStr = m_style.replaceAll(""); //过滤style标签

        Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
        Matcher m_html = p_html.matcher(htmlStr);
        htmlStr = m_html.replaceAll(""); //过滤html标签

        return htmlStr.trim(); //返回文本字符串
    }

然后这样使用

        String detailNoHtml = delHTMLTag(detail);
        Pattern pattern = Pattern.compile(" ");
        Matcher matcher = pattern.matcher(detailNoHtml);
        String result=matcher.replaceAll("");

结果，不理想，虽然标签去掉了，但是留下好多空白，这个时候，需要用到Jsoup

Jsoup.parse(detail).text().replace("科室专家)","");

因为我这个网页，最后都有"科室专家)”四个字，是另一个标签的，与内容无关，所以去掉

我把优化后的科室解析方法发一下

@Component
public class WuxiHospitalPageProcessor implements PageProcessor
{
    private final static Logger log = LoggerFactory.getLogger(WuxiHospitalPageProcessor.class);

    @Override
    public void process(Page page)
    {
        Selectable top = page.getHtml()
                .css("div.right_top", "text");

        log.info("getHtml" + top);
        //科室详情页
        if (StringUtils.isNotBlank(top.toString()) && top.toString()
                .contains("内容阅读"))
        {
            Selectable selectable = page.getHtml()
                    .css("div.right_bottom");

            Selectable title = selectable.css("div.titleks", "text");


            String result = null;

            List<String> trsOthers = page.getHtml()
                    .xpath("//div[@class=contents]")
                    .all();//内容放在pre标签的

            result = filterResult(trsOthers);


            List<DeptItem> itemList = new ArrayList<>();
            DeptItem item = new DeptItem();
            item.setDeptDetails(result);
            item.setTitle(title.toString());

            //放到集合中
            itemList.add(item);

            //把需要持久化的数据放到ResultItems中
            page.putField("itemList", itemList);
            page.putField("deptDetail", true);
        }
        else
        {
            //科室名称
            Selectable selectable = page.getHtml()
                    .css("div.right_bottom");
            List<Selectable> nodes = selectable.css("ul.ksxhul")
                    .nodes();

            List<Selectable> deptTypes = selectable.xpath("//dl/dt/a/strong/text()")
                    .nodes();


            //判断nodes是否有值
            if (nodes != null && nodes.size() > 0)
            {
                List<DeptItem> itemList = new ArrayList<>();


                for (int i = 0; i < nodes.size(); i++)
                {

                    List<Selectable> ksList = nodes.get(i)
                            .css("li.keshili")
                            .nodes();

                    for (Selectable ks : ksList)
                    {
                        //创建对象
                        DeptItem item = new DeptItem();
                        if (i < deptTypes.size() && deptTypes.get(i) != null)
                        {
                            item.setDeptType(deptTypes.get(i)
                                    .toString());
                        }

                        item.setUrl(ks.links()
                                .toString());
                        item.setTitle(ks.$("a", "text")
                                .toString());
                        //放到集合中
                        itemList.add(item);

                        //把商品详情页的url放到url任务队列中
                        page.addTargetRequest(item.getUrl());
                    }

                }

                //把需要持久化的数据放到ResultItems中
                page.putField("itemList", itemList);
                page.putField("deptDetail", false);
            }
        }


    }

    private String filterResult(List<String> all)
    {
        String detail = String.join("", all);
        //String detailNoHtml = delHTMLTag(detail);
        //Pattern pattern = Pattern.compile(" ");
        //Matcher matcher = pattern.matcher(detailNoHtml);
        //String result=matcher.replaceAll("");
        return Jsoup.parse(detail).text().replace("科室专家)","");
    }

    private String delHTMLTag(String htmlStr)
    {
        String regEx_script = "]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
        String regEx_style = "]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
        String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式

        Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
        Matcher m_script = p_script.matcher(htmlStr);
        htmlStr = m_script.replaceAll(""); //过滤script标签

        Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
        Matcher m_style = p_style.matcher(htmlStr);
        htmlStr = m_style.replaceAll(""); //过滤style标签

        Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
        Matcher m_html = p_html.matcher(htmlStr);
        htmlStr = m_html.replaceAll(""); //过滤html标签

        return htmlStr.trim(); //返回文本字符串
    }


    private Site site = Site.me()
            .setTimeOut(2000);

    @Override
    public Site getSite()
    {
        return site;
    }
}

医生的页面简单多了


直接贴代码了

/**
 * @author hzj 专家列表
 * @date 2023/10/16 16:21
 */
public class WxhsDoctorProcessor implements PageProcessor
{
    private final static Logger log = LoggerFactory.getLogger(WuxiHospitalPageProcessor.class);
    @Override
    public void process(Page page)
    {
        Selectable top = page.getHtml()
                .css("div.right_top", "text");

        log.info("getHtml" + top);
        //医生详情页
        if (StringUtils.isNotBlank(top.toString()) && top.toString()
                .contains("内容阅读"))
        {
            Selectable selectable = page.getHtml()
                    .css("div.right_bottom");

            Selectable title = selectable.css("div.title", "text");


            Selectable trs = page.getHtml()
                    .xpath("//div[@class=contents]/table/tbody/tr");
            HashMap<String, String> doctorDetail = new HashMap<>();
            if (trs != null && trs.nodes()
                    .size() > 0)
            {
                for (Selectable tr : trs.nodes())
                {
                    List<Selectable> doctor = tr.xpath("//td/text()").nodes().stream().filter(x->!"".equals(x.toString())).collect(Collectors.toList());
                    if(doctor.size()==2){
                        doctorDetail.put(doctor.get(0).toString(), doctor.get(1).toString());
                    }else{
                        doctorDetail.put(title.toString(), doctor.toString());
                    }
                }

            }


            List<DoctorItem> itemList = new ArrayList<>();
            DoctorItem item = new DoctorItem();
            item.setName(title.toString());
            item.setDoctorDetails(doctorDetail);


            //放到集合中
            itemList.add(item);

            //把需要持久化的数据放到ResultItems中
            page.putField("itemList", itemList);

        }
        else
        {
            //科室名称
            Selectable selectable = page.getHtml()
                    .css("div.right_bottom");
            List<Selectable> nodes = selectable.css("ul.zjxhul")
                    .nodes();

            List<Selectable> doctorTypes = selectable.xpath("//dl/dt/a/strong/text()")
                    .nodes();
            //判断nodes是否有值
            if (nodes != null && nodes.size() > 0)
            {
                List<DoctorItem> itemList = new ArrayList<>();
                for (int i = 0; i < nodes.size(); i++)
                {

                    List<Selectable> dcList = nodes.get(i)
                            .css("li.LMXHZJLB")
                            .nodes();

                    for (Selectable dc : dcList)
                    {
                        //创建对象
                        DoctorItem item = new DoctorItem();
                        if (i < doctorTypes.size() && doctorTypes.get(i) != null)
                        {
                            item.setDoctorType(doctorTypes.get(i)
                                    .toString());
                        }

                        item.setUrl(dc.links()
                                .toString());
                        item.setImg(dc.css("a > img", "src").toString());
                        item.setName(dc.$("a", "text")
                                .toString());
                        //放到集合中
                        itemList.add(item);

                        //把医生详情页的url放到url任务队列中
                        page.addTargetRequest(item.getUrl());
                    }

                }

                //把需要持久化的数据放到ResultItems中
                page.putField("itemList", itemList);

            }
        }


    }

    private Site site = Site.me()
            .setTimeOut(2000);

    @Override
    public Site getSite()
    {
        return site;
    }
}

StartCrawler里切换一下医生相关配置就好了

public void run() {
        Spider.create(new WxhsDoctorProcessor())
                //.addUrl("https://www.jd.com/news.html?id=38673")
                .addUrl(doctorsUrl)
                //设置下载器
               // .setDownloader(downloader)
               // .addPipeline(new JsonFilePipeline("D:\\webmagic\\"))
                .addPipeline(doctorPipeline)
                .run();
    }

医生详情

代码结构

Java集合框架源码解读(1)——ArrayList、LinkedList和Vector
java.util.List接口是JavaCollectionsFramework的一个重要组成部分，List接口的架构图如下：本文将通过剖析List接口的三个实现类——ArrayList、LinkedList和Vector的源码，带你走近List的世界。ArrayListArrayList是List接口可调整数组大小的实现。实现所有可选列表操作，并允许放入包括空值在内的所有元素。每个ArrayL
LeetCode题目Java代码解答（详细解释！！！）辣木瑶瑶子 java leetcode 算法
目录1.两数之和（序号是在LeetCode中的题号）两数之和代码：9.回文数回文数代码：242.有效的字母异位词有效的字母异位词代码：1.两数之和（序号是在LeetCode中的题号）给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素在答案里不能重复出现。你可以按
LeetCode刷题 - Java常用输入输出 Sweet_pin LeetCode刷题笔记 leetcode java
LeetCode刷题-Java常用输入输出基本语法导包importjava.util.Scanner;//或者直接导入下面两个包importjava.util.*;importjava.io.*;常用输入Scannersc=newScanner(System.in);//读一个整数intn=sc.nextInt();//读一个字符串,遇到分号则输入终止Strings=sc.next();//读一个
Java:对给定的字符串和给定的模式执行Boyer-Moore搜索算法（附带源码） Katie。 Java算法完整教程 java 开发语言
一、项目背景详细介绍在文本处理与信息检索中，需要在海量文本中高效地查找模式串（Pattern）。经典的朴素搜素在最坏情况下时间复杂度为O(N·M)，效率不够高。Boyer–Moore算法则采用“坏字符”与“好后缀”两种启发规则，从模式尾部匹配开始，通常能大幅跳过不可能匹配的位置，平均时间复杂度接近O(N/M)，在实际应用（如grep、数据库索引）中非常高效。本项目旨在用Java实现Boyer–Mo
Java:实现Ternary search三元搜索算法（附带源码） Katie。 Java算法完整教程算法
一、项目背景详细介绍在计算机科学与软件工程领域，查找算法是最基础也是最重要的模块之一。对于有序数组的查找，经典的二分（Binary）查找算法凭借O(log N)的时间复杂度在许多场景中被广泛应用。另一方面，三元（Ternary）查找作为对二分查找的扩展，将区间划分为三段，每次比对两个“探测点”而非一个，从理论上也能达到对数级时间复杂度。三元查找常用于以下几种场景：函数极值查找当我们要在一个unim
LeetCode 77 Java实现零一魔法 LeetCode java leetcode 开发语言算法
1.题目原题链接：77.组合-力扣（LeetCode）:https://leetcode.cn/problems/combinations/给定两个整数n和k，返回范围[1,n]中所有可能的k个数的组合。（可以按任何顺序返回答案）示例输入：n=4,k=2输出：[[2,4],[3,4],[2,3],[1,2],[1,3],[1,4],]2.题解参考//https://github.com/cc01c
springboot注册servlet hie98894 spring boot servlet hive
在SpringBoot应用中，虽然SpringMVC已经提供了强大的功能来处理HTTP请求，但在某些情况下，我们可能仍需要直接注册和使用Servlet。本文将详细介绍如何在SpringBoot中注册Servlet。1.什么是Servlet？Servlet是JavaEE中的一种服务器端组件，用于处理HTTP请求和生成响应。Servlet最常见的用途是创建动态Web内容，例如表单处理和数据库查询结果的
Gin框架路由 TZX_0710
介绍Gin是一个golang的微框架，封装比较优雅，API友好，源码注释比较明确，具有快速灵活，容错方便等特点对于golang而言，web框架的依赖要远比Python，Java之类的要小。自身的net/http足够简单，性能也非常不错借助框架开发，不仅可以省去很多常用的封装带来的时间，也有助于团队的编码风格和形成规范安装1.安装Gingoget-ugithub.com/gin-gonic/gin2
实现按字典顺序查找的 Booth 算法（Java） CyberXZ java 算法 python
实现按字典顺序查找的Booth算法（Java）Booth算法是一种用于按字典顺序查找的算法，它通过比较目标字符串与排序好的字符串数组中的元素来找到匹配的位置。在这篇文章中，我将介绍并给出一个Java实现的Booth算法，并附上相应的源代码。首先，让我们来了解Booth算法的基本思想。该算法的核心是利用了字符串的字典顺序特性。假设我们有一个已经排序好的字符串数组，我们需要查找的目标字符串。我们可以通
LeetCode(Java)
发现了中文版的leetCode，网址在https://leetcode-cn.com70.爬楼梯题目地址：https://leetcode-cn.com/problems/climbing-stairs/submissions/解题思路：最简单的动态规划题目，状态方程与斐波那契数列相同。publicintclimbStairs(intn){if(ntarget){r--;}else{l++;}}r
021_方法引用与Lambda表达式 HuCiZhi JavaWeb java web
一、概述Java8引入了Lambda表达式和方法引用，两者均用于简化函数式编程，尤其在处理集合、多线程等场景中能显著减少代码冗余。Lambda表达式：一种匿名函数，可作为参数传递，用于简化函数式接口的实现。方法引用：Lambda表达式的简化形式，当Lambda体仅调用一个已存在的方法时，可通过方法引用进一步简化代码。二、Lambda表达式2.1定义与核心作用Lambda表达式是没有名称的匿名函数，
010_赋值运算符（= / -= / += / *= / /= / %=） HuCiZhi JavaWeb java web
一、赋值运算符概述赋值运算符用于将右侧的值赋给左侧的变量，是Java中最基础也最常用的运算符之一。根据功能可分为两类：基本赋值运算符：=（单一赋值）复合赋值运算符：+=、-=、*=、/=等（运算+赋值结合）赋值运算符的优先级较低，通常在其他运算完成后执行，结合性为从右到左。二、基本赋值运算符（=）2.1功能与语法=用于将右侧表达式的值赋给左侧的变量，语法：变量=表达式;2.2示例//基本类型赋值i
Leetcode 06 java im_AMBER leetcode java
136.只出现一次的数字题目给你一个非空整数数组nums，除了某个元素只出现一次以外，其余每个元素均出现两次。找出那个只出现了一次的元素。你必须设计并实现线性时间复杂度的算法来解决此问题，且该算法只使用常量额外空间。示例1：输入：nums=[2,2,1]输出：1示例2：输入：nums=[4,1,2,1,2]输出：4示例3：输入：nums=[1]输出：1提示：1map=newHashMapentry
JDK 17 下载 yzpyzp java 开发语言
Oracle官网JDK下载：https://www.oracle.com/java/technologies/javase-downloads.html百度网盘下载：https://pan.baidu.com/s/1qxU-4ZfMyhlr5kbQ6RNHJg?pwd=aa53参考：https://blog.csdn.net/2503_91826368/article/details/147898
Kotlin 控制流和集合过滤操作符黄毛火烧雪下 Kotlin android
一、ifelse在Kotlin中，if是一个表达式，即它会返回一个值。因此就不需要三元运算符（条件?然后:否则），因为普通的if就能胜任这个角色。eg.有一个int值是a，一个int值是b，求他们的比较大的那个数javainta=1,b=3;Log.e("a和b的最大值是",a>b?a+"":b+"");kotlinvala:Int=1valb:Int=3valmax=if(a>b)aelsebp
Python爬虫热点项目之实现代理IP池（IP proxy pool）薛定谔的猫96 Python 爬虫
代理池概述代理池就是由多个稳定可用代理IP组成的池子。用来应对ip反爬，而网上的免费代理稳定可用的极少，更有甚者连收费的也不都是稳定可用。开发环境：windous，python3，sublimetext使用的主要模块：requests，lxml，pymongo，Flask完整源码请前往我的github仓库查看：https://github.com/R2h1/ProxyPool欢迎star哦！！！代
【Java】【力扣】102.二叉树层序遍历
思路一个辅助队列（初始化队列：根节点入队）一个节点出队，他的左右孩子入队循环直到队列为空举例代码publicList>levelOrder(TreeNoderoot){if(root==null){returnnewArrayList>();}Queuequeue=newLinkedList>resultList=newArrayListlevel=newArrayList<>();intcurS
【Java】P1909 [NOIP2016 普及组] 买铅笔远望樱花兔算法
d25题目题目背景NOIP2016普及组T1题目描述P老师需要去商店买�n支铅笔作为小朋友们参加NOIP的礼物。她发现商店一共有33种包装的铅笔，不同包装内的铅笔数量有可能不同，价格也有可能不同。为了公平起见，P老师决定只买同一种包装的铅笔。商店不允许将铅笔的包装拆开，因此P老师可能需要购买超过�n支铅笔才够给小朋友们发礼物。现在P老师想知道，在商店每种包装的数量都足够的情况下，要买够至少�n支铅
kotlin 泛型 luoj_616 Kotlin kotlin android java
一、泛型使用泛型，即"参数化类型"，将类型参数化，可以用在类，接口，函数上。与Java一样，Kotlin也提供泛型，为类型安全提供保证，消除类型强转的烦恼。1.1泛型的优点类型安全：通用允许仅保留单一类型的对象。泛型不允许存储其他对象。不需要类型转换：不需要对对象进行类型转换。编译时间检查：在编译时检查泛型代码，以便在运行时避免任何问题。1.2泛型类TFood类指定的泛型参数由放在一对(item:
“力扣算法：题海战术”专栏的完整源代码更新啦达文汐力扣算法：题海战术算法 leetcode 职场和发展
关于专栏的源码感谢大家的阅读与支持！！“力扣算法：题海战术”专栏的文章，是给大家提出了LeetCode算法问题的解决思路及实现该算法的核心代码。大家如果想要进一步深入了解算法，想通过输入测试数据来了解其运算的过程。可点击文章底部的名片，关注后，可获得完整的可运行调试的Java代码。有疑问的，可在评论区留言哦！！完整代码已上传（会持续更新）部分算法代码参考（LeeetCode26）/*此道算法题详细
gradle在build时输出：Could not connect to Kotlin compile daemon yzpyzp kotlin android gradle
FailedtocompilewithKotlindaemon:java.lang.RuntimeException:CouldnotconnecttoKotlincompiledaemonatorg.jetbrains.kotlin.compilerRunner.GradleKotlinCompilerWork.compileWithDaemon(GradleKotlinCompilerWork
Python返回函数完全指南：从基础到高级应用 Python_trys python 数据库开发语言 Python教程 Python技巧 Python入门 Python基础
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取】前言在Python编程中，函数不仅可以执行操作，还可以作为返回值，这种特性为编程带来了极大的灵活性和强大的表达能力。本文将全面介绍Python中的返回函数，从基础概念到高级应用场景，帮助开发者掌握这一重要特性。一、返回函数的基本概念1.1什么是返回函数？返回函数指的是一个函数可以返回另一个函数作为其结果。在Python中，函数是一等对象，可
【Java笔记】七大排序赶飞机偏偏下雨 Java java 数据结构笔记
目录1.直接插入排序2.希尔排序3.选择排序4.堆排序(重要)5.冒泡排序6.快速排序（重要）6.1Hoare法6.1.1Hoare法优化6.2挖坑法（重点）6.3快速排序的非递归写法7.归并排序海量数据的排序问题8.总结1.直接插入排序时间复杂度：最坏情况：O(n2)最坏情况：O(n)空间复杂度：O(1)稳定性：稳定如果一个排序本身就是稳定的排序那么他可以被实现为不稳定的排序但是如果一个排序本身
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
python爬虫从入门到精通大模型猫叔 python 爬虫数据库
目录一、正确认识Python爬虫二、了解爬虫的本质1.熟悉Python编程2.了解HTML3.了解网络爬虫的基本原理4.学习使用Python爬虫库三、了解非结构化数据的存储1.本地文件2.数据库四、掌握各种技巧，应对特殊网站的反爬措施1.User-Agent2.Cookies3.IP代理五、学习爬虫框架，搭建工程化的爬虫1.创建Scrapy项目2.创建Spider3.编写Spider4.运行Spi
Java行为型模式---状态模式
状态模式基础概念状态模式（StatePattern）是一种行为型设计模式，其核心思想是允许对象在内部状态发生改变时改变它的行为，对象看起来好像修改了它的类。状态模式将状态相关的行为封装在独立的状态类中，并将状态转换逻辑集中管理，从而使对象的行为可以根据状态动态变化，而不必使用大量的条件语句。状态模式的核心组件状态接口（State）-定义特定状态下的行为接口，所有具体状态类需实现该接口。具体状态类（
2025年面试官常用的前端开发笔试考题豆豆（前端开发+ui设计） vue.js javascript 前端面试职场和发展
填空题(20道)ReactHooks中，用于模拟类组件生命周期componentDidMount的Hook是________。useEffect在Vue3中，使用________API可以替代Vue2中的data和methods。CompositionWebpack的________插件可以帮助将CSS提取到单独的文件中。MiniCssExtractPlugin在JavaScript中，Promi
python爬虫入门（小白五分钟从入门到精通）一百天成为python专家 python 爬虫开发语言网络爬虫 python3.11 ipython
网络爬虫的介绍本节主要介绍Pytbon语言中支持网络爬虫的库,此外还将介绍如何获取网站的爬取规则，读者在学习和践过程中一定要严格遵守网站提供的爬取规则。网络爬虫网络爬虫通俗来讲就是使用代码将HTML网页的内容下载到本地的过程。爬取网页主要是为了获取网中的关键信息，例如网页中的数据、图片、视频等。Python语言中提供了多个具有爬虫功能的库，下面将具urHIib库:是Python自带的标准库，无须下
JAVA面试宝典 -《API设计：RESTful 与 GraphQL 对比实践》没有bug.的程序员 JAVA面试宝典 java 面试 restful
API设计：RESTful与GraphQL对比实践在微服务架构中，API设计如同城市交通网络规划——选择RESTful还是GraphQL，决定了数据流的效率与灵活性。本文通过实战代码与架构对比，揭秘两种风格的适用场景与融合方案。引言：API设计的两大流派之争为什么越来越多团队关注GraphQL？数据需求碎片化：移动端/多终端需要按需获取数据接口迭代成本：REST每次需求变更需发布新版本前后端协作效
手把手一步一步教你使用Java开发一个大型街机动作闯关类游戏09之sprite动画 __豆约翰__
项目源码项目源码sprite动画上一节，我们可以控制sprite移动了，但sprite的移动就是平移，比较呆板；这一节我们给sprite添加动画效果。Animation类继承Transform，这样就具备了平移和缩放的能力。主要思想是：1.包含一个图片的列表（动画的本质就是多张图片的连续播放）2.内部有个定时器，不断更换图片。@OverridepublicvoidactionPerformed(A
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla