小小程序员1986

HtmlUnit、httpclient、jsoup爬取网页信息并解析

1.爬取页面效果图

点击"百度一下"按钮前页面

650) this.width=650;" src="http://s4.51cto.com/wyfs02/M02/7E/12/wKiom1b2ZvTxse7gAABaAdzthoY111.png" title="捕获.PNG" alt="wKiom1b2ZvTxse7gAABaAdzthoY111.png" />

点击"百度一下"按钮后页面

650) this.width=650;" src="http://s2.51cto.com/wyfs02/M02/7E/13/wKiom1b2Z3fT5xlNAAIB-fcWTGU525.png" title="捕获.PNG" alt="wKiom1b2Z3fT5xlNAAIB-fcWTGU525.png" />

天涯社区登录页面

650) this.width=650;" src="http://s3.51cto.com/wyfs02/M00/7E/13/wKiom1b2Z-nRIbaBAAHUpVaMtpQ312.png" title="捕获.PNG" alt="wKiom1b2Z-nRIbaBAAHUpVaMtpQ312.png" />

登录进去之后个人主页

650) this.width=650;" src="http://s1.51cto.com/wyfs02/M01/7E/13/wKiom1b2aKOQ2-hHAAWlTXdXd0w368.png" title="捕获.PNG" alt="wKiom1b2aKOQ2-hHAAWlTXdXd0w368.png" />

二、具体实现代码

HtmlUnit(底层也是采用httpclient)和jsoup API

package com.yuanhai.test;

import java.io.IOException;
import java.net.MalformedURLException;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.safety.Whitelist;
import org.jsoup.select.Elements;
import org.junit.Assert;
import org.junit.Test;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.DefaultCredentialsProvider;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlAnchor;
import com.gargoylesoftware.htmlunit.html.HtmlButton;
import com.gargoylesoftware.htmlunit.html.HtmlDivision;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlInput;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlSubmitInput;
import com.gargoylesoftware.htmlunit.html.HtmlTextInput;
//参考博文
//1.http://blog.csdn.net/zstu_cc/article/details/39250903
//2.http://blog.csdn.net/cslie/article/details/48735261

public class HtmlUnitAndJsoup {

    /*
     * 首先说说HtmlUnit相对于HttpClient的最明显的一个好处,
     * 是HtmlUnit不仅保存了这个网页对象，更难能可贵的是它还存有这个网页的所有基本操作甚至事件。
     * 现在很多网站使用大量ajax，普通爬虫无法获取js生成的内容。
     */

    /*
     * 依赖的jar包 commons-lang3-3.1.jar htmlunit-2.13.jar htmlunit-core-js-2.13.jar
     * httpclient-4.3.1.jar httpcore-4.3.jar httpmime-4.3.1.jar sac-1.3.jar
     * xml-apis-1.4.01.jar commons-collections-3.2.1.jar commons-io-2.4.jar
     * xercesImpl-2.11.0.jar xalan-2.7.1.jar cssparser-0.9.11.jar
     * nekohtml-1.9.19.jar
     */
    // 百度新闻高级搜索
    @Test
    public void HtmlUnitBaiduAdvanceSearch() {
        try {
            // 得到浏览器对象，直接New一个就能得到，现在就好比说你得到了一个浏览器了
            WebClient webclient = new WebClient();

            // 这里是配置一下不加载css和javaScript,配置起来很简单，是不是
            webclient.getOptions().setCssEnabled(false);
            webclient.getOptions().setJavaScriptEnabled(false);

            // 做的第一件事，去拿到这个网页，只需要调用getPage这个方法即可
            HtmlPage htmlpage = webclient
                    .getPage("http://news.baidu.com/advanced_news.html");

            // 根据名字得到一个表单，查看上面这个网页的源代码可以发现表单的名字叫“f”
            final HtmlForm form = htmlpage.getFormByName("f");
            System.out.println(form);
            // 同样道理，获取”百度一下“这个按钮
            final HtmlSubmitInput button = form.getInputByValue("百度一下");
            System.out.println(button);
            // 得到搜索框
            final HtmlTextInput textField = form.getInputByName("q1");

            System.out.println(textField);

            // 最近周星驰比较火呀，我这里设置一下在搜索框内填入”周星驰“
            textField.setValueAttribute("周星驰");
            // 输入好了，我们点一下这个按钮
            final HtmlPage nextPage = button.click();
            // 我把结果转成String
            System.out.println(nextPage);

            String result = nextPage.asXml();

            System.out.println(result);
        } catch (Exception e) {

            e.printStackTrace();
        }

    }

    // 测试天涯论坛登陆界面 HtmlUnit 页面JS的自动跳转（响应码是200，但是响应的页面就是一个JS）
    // httpClient就麻烦了
    @Test
    public void TianyaTestByHtmlUnit() {

        try {
            WebClient webClient = new WebClient();

            // The ScriptException is raised because you have a syntactical
            // error in your javascript.
            // Most browsers manage to interpret the JS even with some kind of
            // errors
            // but HtmlUnit is a bit inflexible in that sense.
            // 加载的页面有js语法错误会抛出异常

            webClient.getOptions().setJavaScriptEnabled(true); // 启用JS解释器，默认为true
            webClient.getOptions().setCssEnabled(false); // 禁用css支持
            // 设置Ajax异步处理控制器即启用Ajax支持
            webClient
                    .setAjaxController(new NicelyResynchronizingAjaxController());
            // 当出现Http error时，程序不抛异常继续执行
            webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
            // 防止js语法错误抛出异常
            webClient.getOptions().setThrowExceptionOnScriptError(false); // js运行错误时，是否抛出异常

            // 拿到这个网页
            HtmlPage page = webClient
                    .getPage("http://passport.tianya.cn/login.jsp");

            // 填入用户名和密码
            HtmlInput username = (HtmlInput) page.getElementById("userName");
            username.type("yourAccount");
            HtmlInput password = (HtmlInput) page.getElementById("password");
            password.type("yourPassword");

            // 提交
            HtmlButton submit = (HtmlButton) page.getElementById("loginBtn");
            HtmlPage nextPage = submit.click();
            System.out.println(nextPage.asXml());
        } catch (Exception e) {

            e.printStackTrace();
        }
    }

    // jsoup解析文档
    @Test
    public void jsoupParse() {

        try {
            /** HtmlUnit请求web页面 */
            // 模拟chorme浏览器，其他浏览器请修改BrowserVersion.后面
            WebClient wc = new WebClient(BrowserVersion.CHROME);

            wc.getOptions().setJavaScriptEnabled(true); // 启用JS解释器，默认为true
            wc.getOptions().setCssEnabled(false); // 禁用css支持
            wc.getOptions().setThrowExceptionOnScriptError(false); // js运行错误时，是否抛出异常
            wc.getOptions().setTimeout(10000); // 设置连接超时时间 ，这里是10S。如果为0，则无限期等待
            HtmlPage page = wc.getPage("http://passport.tianya.cn/login.jsp");
            String pageXml = page.asXml(); // 以xml的形式获取响应文本
            // text只会获取里面的文本,网页html标签和script脚本会被去掉
            String pageText = page.asText();
            System.out.println(pageText);

            // 方法一，通过get方法获取
            HtmlButton submit = (HtmlButton) page.getElementById("loginBtn");

            // 方法二，通过XPath获取，XPath通常用于无法通过Id搜索，或者需要更为复杂的搜索时
            HtmlDivision div = (HtmlDivision) page.getByXPath("//div").get(0);

            // 网络爬虫中主要目的就是获取页面中所有的链接

            java.util.List achList = page.getAnchors();
            for (HtmlAnchor ach : achList) {
                System.out.println(ach.getHrefAttribute());
            }

            System.out.println("-------jsoup部分------");
            // 服务器端进行校验并清除有害的HTML代码,防止富文本提交有害代码
            Jsoup.clean(pageXml, Whitelist.basic());
            /** jsoup解析文档 */
            // 把String转化成document格式
            Document doc = Jsoup.parse(pageXml);
            Element loginBtn = doc.select("#loginBtn").get(0);
            System.out.println(loginBtn.text());
            Assert.assertTrue(loginBtn.text().contains("登录"));

        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    // htmlunit设置代理上网
    @Test
    public void proxy() {
        String proxyHost = "192.168.0.1";
        int port = 80;
        WebClient webClient = new WebClient(BrowserVersion.CHROME, proxyHost,
                port);

        webClient.setAjaxController(new NicelyResynchronizingAjaxController());

        DefaultCredentialsProvider credentialsProvider = (DefaultCredentialsProvider) webClient
                .getCredentialsProvider();
        String username = "account";
        String password = "password";
        credentialsProvider.addCredentials(username, password);
    }

    // jsoup请求并解析

    @Test
    public void jsoupCrawl() throws IOException {

        String url = "http://passport.tianya.cn/login.jsp";
        Connection con = Jsoup.connect(url);// 获取请求连接
        // 浏览器可接受的MIME类型。
        con.header("Accept",
                "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
        con.header("Accept-Encoding", "gzip, deflate");
        con.header("Accept-Language", "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3");
        con.header("Connection", "keep-alive");
        con.header("Host", url);
        con.header("User-Agent",
                "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0");
        Document doc = con.get();
        Elements loginBtn = doc.select("#loginBtn");
        System.out.println(loginBtn.text());// 获取节点中的文本，类似于js中的方法
    }
}

httpclient模拟post请求登录

package com.yuanhai.test;

import java.io.IOException;
import java.security.cert.CertificateException;
import java.security.cert.X509Certificate;
import java.util.ArrayList;
import java.util.List;

import javax.net.ssl.SSLContext;

import org.apache.http.Consts;
import org.apache.http.Header;
import org.apache.http.HttpResponse;
import org.apache.http.NameValuePair;
import org.apache.http.client.HttpClient;
import org.apache.http.client.entity.UrlEncodedFormEntity;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.conn.ssl.SSLConnectionSocketFactory;
import org.apache.http.conn.ssl.SSLContextBuilder;
import org.apache.http.conn.ssl.TrustStrategy;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.message.BasicNameValuePair;
import org.apache.http.util.EntityUtils;

import com.steadystate.css.parser.ParseException;

/** 
 * @author 
 * @date 
 * @version 
 *  
 */  
public class TianyaTestByHttpClient {  
    /** 
     *  无法实现js页面的自动跳转，HtmlUnit可以
     */  
    public static void main(String[] args) throws Exception {  
        // 这是一个测试，也是为了让大家看的更清楚，请暂时抛开代码规范性，不要纠结于我多建了一个局部变量等  
        // 得到认证https的浏览器对象  
        HttpClient client = getSSLInsecureClient();  
        // 得到我们需要的post流  
        HttpPost post = getPost();  
        // 使用我们的浏览器去执行这个流,得到我们的结果  
        HttpResponse hr = client.execute(post);  
        // 在控制台输出我们想要的一些信息  
        showResponseInfo(hr);  
    }  

    private static void showResponseInfo(HttpResponse hr) throws ParseException, IOException {  

        System.out.println("响应状态行信息：" + hr.getStatusLine());  
        System.out.println("---------------------------------------------------------------");  

        System.out.println("响应头信息：");  
        Header[] allHeaders = hr.getAllHeaders();  
        for (int i = 0; i < allHeaders.length; i++) {  
            System.out.println(allHeaders[i].getName() + ":" + allHeaders[i].getValue());  
        }  

        System.out.println("---------------------------------------------------------------");  
        System.out.println("响应正文：");  
        System.out.println(EntityUtils.toString(hr.getEntity()));  
        
     /*   
        
        */
    

    }  

    // 得到一个认证https链接的HttpClient对象（因为我们将要的天涯登录是Https的）  
    // 具体是如何工作的我们后面会提到的  
    private static HttpClient getSSLInsecureClient() throws Exception {  
        // 建立一个认证上下文，认可所有安全链接，当然，这是因为我们仅仅是测试，实际中认可所有安全链接是危险的  
        SSLContext sslContext = new SSLContextBuilder().loadTrustMaterial(null, new TrustStrategy() {  
            public boolean isTrusted(X509Certificate[] chain, String authType) throws CertificateException {  
                return true;  
            }  
        }).build();  
        SSLConnectionSocketFactory sslsf = new SSLConnectionSocketFactory(sslContext);  
        return HttpClients.custom().//  
                setSSLSocketFactory(sslsf)//  
                // .setProxy(new HttpHost("127.0.0.1", 8888))  
                .build();  
    }  

    // 获取我们需要的Post流，如果你是把我的代码复制过去，请记得更改为你的用户名和密码  
    private static HttpPost getPost() {  
        HttpPost post = new HttpPost("https://passport.tianya.cn/login");  

        // 首先我们初始化请求头  
        post.addHeader("Referer", "https://passport.tianya.cn/login.jsp");  
        post.addHeader("Host", "passport.tianya.cn");  
        post.addHeader("Origin", "http://passport.tianya.cn");  

        // 然后我们填入我们想要传递的表单参数（主要也就是传递我们的用户名和密码）  
        // 我们可以先建立一个List，之后通过post.setEntity方法传入即可  
        // 写在一起主要是为了大家看起来方便，大家在正式使用的当然是要分开处理，优化代码结构的  
        List paramsList = new ArrayList();  
        /*  
         * 添加我们要的参数，这些可以通过查看浏览器中的网络看到，如下面我的截图中看到的一样 
         * 不论你用的是firebug,httpWatch或者是谷歌自带的查看器也好,都能查看到（后面会推荐辅助工具来查看） 
         * 要把表单需要的参数都填齐，顺序不影响 
         */  
        paramsList.add(new BasicNameValuePair("Submit", ""));  
        paramsList.add(new BasicNameValuePair("fowardURL", "http://www.tianya.cn"));  
        paramsList.add(new BasicNameValuePair("from", ""));  
        paramsList.add(new BasicNameValuePair("method", "name"));  
        paramsList.add(new BasicNameValuePair("returnURL", ""));  
        paramsList.add(new BasicNameValuePair("rmflag", "1"));  
        paramsList.add(new BasicNameValuePair("__sid", "1#1#1.0#a6c606d9-1efa-4e12-8ad5-3eefd12b8254"));  

        // 你可以申请一个天涯的账号 并在下两行代码中替换为你的用户名和密码  
        paramsList.add(new BasicNameValuePair("vwriter", "yourAccount"));// 替换为你的用户名  
        paramsList.add(new BasicNameValuePair("vpassword", "yourPassword"));// 你的密码  

        // 将这个参数list设置到post中  
        post.setEntity(new UrlEncodedFormEntity(paramsList, Consts.UTF_8));  
        return post;  
    }  

}

参考文章：

http://blog.csdn.net/zstu_cc/article/details/39250903

http://blog.csdn.net/cslie/article/details/48735261

本文出自 “点滴积累” 博客，请务必保留此出处http://tianxingzhe.blog.51cto.com/3390077/1755511

智能推理的革命：DeepSeek-R1 深度解析其算法与实现步子哥算法人工智能
在人工智能（AI）领域，语言模型（LargeLanguageModels,LLMs）正以惊人的速度发展，变得越来越智能，能够理解和生成复杂的语言内容。然而，尽管现有的模型在许多任务上表现出色，它们在深度推理和逻辑思维方面仍有显著的提升空间。DeepSeek-R1的出现，正是为了解决这一问题，通过强化学习（ReinforcementLearning,RL）赋予语言模型更强大的推理能力，开创了LLMs
Final2x--开源AI图片放大工具私人珍藏库开源
Final2x--开源AI图片放大工具链接：https://pan.xunlei.com/s/VOHSklukQAquUn3GE7eHJXfOA1?pwd=r3r3#
http://syy7.com/a/25.php,eDrawings 徐子贡
OzsgSFNGIFYxMi4wMCAKSQAAAABCABIjtb5VnQe+x607vhUO0z7QaHk+8A4VPlp42uy9B0BUR9cGPLv33r3bK22XDtKkNwFhAVEREMWGYi8UwR4rtkAsiTGaRGONRmOMxmASjRWNC8bE3hNN1Ig1dkMMKKAI95+yd10wb159k/f7v+//Jdm7x9l7z5w5M/PMmTNn5vZt
数据库基础知识：理论、E-R图、事务、原则地信小学生数据库数据库 ubuntu postgresql
（5）数据库理论与E-R图数据库理论（DatabaseTheory）是在创建数据库的过程涉及创建现实世界的抽象模型；将现实世界的概念作为实体表示在数据库中。E-R图（EntityRelationshipDiagramming）用于表示数据模型的图形工具/关系的抽象，主要用于数据库设计阶段，通过实体（Entity）、属性（Attribute）和关系（Relationship）来描述数据之间的结构和联
H3CNE-17-DHCP动态主机配置协议马立杰数通 windows H3CNE 网络
动态主机配置协议DHCP（DynamicHostConfigurationProtocol），来分配IP地址（DNS、Gateway）等网络参数，可以减少管理员工作量，避免用户手动配置网络参数时造成的地址冲突。DHCP应用场景DHCP服务器能够为大量主机分配IP地址，并能够集中管理。（1）DHCP接口地址池配置R2：dhcpenintg0/0/0dhcpselectinterfacedhcpser
大模型应用编排工具Dify之自定义工具 Daphnis_z LLM Java开发 chatgpt spring boot ai java
1.前言dify中提供了自定义工具的能力，工具十分容易复用，在需要的流程编排中进行引用即可。根据笔者的经验和理解，自定义工具有点类似微服务，可以把通用的能力封装到工具里面。同时，工具还提供了测试和鉴权等功能，对开发者比较友好。环境信息：dify-0.8.3，spring-boot-2.7.6实现效果如下：2.开发后台接口这里使用spring-boot快速开发一个post接口作为演示，代码如下：@R
汽车电子电气架构从12V提升至48V，带来那些好处？包括那些改变？ achirandliu 汽车架构汽车电子电气架构从12V升到48V
标签：汽车电子电气架构；从12V提升至48V；汽车电子电气架构从12V提升至48V，带来那些好处？包括那些改变？将传统汽车的电子电气架构电压从12V提升至48V，既有显著的优势，也需要对车辆的电子元器件和电气架构进行相应的调整。一、提升电压至48V的好处：降低电流，提高效率：减少能量损耗：在相同功率下，电压提高一倍，电流减半。电流的减少降低了电阻损耗（I²R损耗），提高了能源利用效率。减轻线束重量
BGP路由器协议排错教程：BGP 路由通告的排错 AMZ学术 BGP路由器协议排错网络网络协议负载均衡服务器 tcp/ip
工程师很容易对BGP路由通告产生误解，这是本章第一个需要解释清楚的概念。4.1.1本地路由通告问题假设现在有一台路由器，它要把网络10.1.0.0/16和10.0.0.0/8放到BGP中，以便这些前缀可以被通告给其他路由器。例4-1中展示了与此相关的基本配置。例4-1基本的10.1.0.0/16网络通告和10.0.0.0/8聚合R1#showrun|srouterbgprouterbgp100no
Hadoop、Hive、Hbase集群间的数据迁移这个操蛋的人生！！！
一、hadoop集群间拷贝数据：迁移之前需要把两个集群的所有节点都互通/etc/hosts文件（重要，包括各个数据节点）两个集群版本不相同hadoopdistcphftp://192.168.57.73:50070/hive3/20171008/hive3/如果两个集群的版本相同，则可以使用hdfs协议，命令如下：hadoopdistcphdfs://namenodeip:9000/foohdfs
【Python】 -- 趣味代码 - 圣诞树电科_银尘 Python趣味编程 python 开发语言
文章目录文章目录01圣诞树动图设计框架02圣诞树程序代码01圣诞树动图设计框架下面是对代码主要部分的详细解释：导入库：代码开始部分导入了turtle库，并给它起了别名t，同时导入了random库并给它起了别名r，以及time库。设置画布：使用screensize设置画布背景为黑色，title设置窗口标题为"圣诞快乐"，setup设置画布大小为800x800像素。设置画笔：pencolor设置画笔颜
Python 使用 openpyxl 读取表格她不喜欢喝咖啡 #Python 3 第三方库 openpyxl python windows 开发语言
当前环境：Win10x64+MSoffice2016+Python3.7+openpyxl=3.0.91表格内容(Sheet1和Sheet2)2读取表格数据示例fromopenpyxlimportload_workbookworkbook=load_workbook(filename=r'图书.xlsx')#sheetnames获取工作簿的所有工作表，返回列表类型print(type(workbo
python实现websocket_基于Python实现WebSocket握手过程 weixin_39757040
importsocketimportbase64importhashlibdefget_headers(data):“””将请求头格式化成字典:paramdata::return:“””header_dict={}data=str(data,encoding=’utf-8′)header,body=data.split(‘\r\n\r\n’,1)header_list=header.split(‘
Python_time库、直接动手 #Python python time
time库1.预知：单行动态刷新刷新的关键是\r刷新的本质是：用后打印的字符覆盖之前的字符不能换行：print()需要被控制要能回退：打印后光标回退之前的位置\r例：importtimeforiinrange(101):print(“\r{:3}%”.format(i),end=“”)time.sleep(0.1)#end=””表示将字符串最后的默认”/n”变成””(空),即不会换行2.定义:ti
Python 读取Json的方法 AresGod python python json
一种直接用open的方法importjsonld=json.load(open(r’D:\temp\in.json’))另外一种方法importjsonf=file(r’D:\temp\in.json’))ld=json.load(f)这两种方法都可以直接对文件进行解析而对于字符串的解析，就要用到loadsfoo=‘{“age”:38}’my_json=json.loads(foo)
opengrok_使用技巧 renhl252 opengrok windows
Searchhttps://xrefandroid.com/android-15.0.0_r1/选择搜索的目录（工程）手动在下拉框中选择，或者使用下面三个快捷按钮进行选择或者取消选择。输入搜索的条件搜索域说明域fullSearchthroughalltexttokens(words,strings,identifiers,numbers)inindex.defsOnlyfindssymboldef
Python爬取搜索引擎结果数目 Gaia_Pygmalion python
#coding:utf-8importurllibimporturllib2importreimportsysimportsocketimporttimeprint"Startofwork"filename="keywords.txt"#关键词文件fid=open(filename,'r')all_text=fid.readlines()NumOutput=open(r'searchnumber.
每日OJ_牛客_小红的子串_滑动窗口+前缀和_C++_Java GR鲸鱼 c++开发语言 java 算法数据结构
目录牛客_小红的子串_滑动窗口+前缀和题目解析C++代码Java代码牛客_小红的子串_滑动窗口+前缀和小红的子串描述：小红拿到了一个长度为nnn的字符串，她准备选取一段子串，满足该子串中字母的种类数量在[l,r]之间。小红想知道，一共有多少种选取方案？输入描述：第一行输入三个正整数n,l,rn,第二行输入一个仅包含小写字母的字符串。1≤n≤2000001≤l≤r≤26输出描述：合法的方案数。题目解
Android之权限架构向上_50358291 android 架构
1.权限简介：所有的权限定义在Android系统的源代码中，路径通常位于frameworks/base/core/res/AndroidManifest.xml。本篇文章以Android15原生源码来做的讲解。LI、LIF、LPr、LPw是什么？首先L代表Lock，I代表mInstall，P代表mPackages，F代表frozen，r代表读，w代表写。2.安装时权限：2.1普通权限（Normal
深度探索 DeepSeek-R1：国产大模型的AGI雏形与创新进展微凉的衣柜科技头条 agi 人工智能
随着人工智能技术的飞速发展，国内外企业纷纷发布了一系列创新的大模型，推动了AGI（通用人工智能）领域的探索。近期，DeepSeek-R1这一模型的发布引起了广泛关注，它不仅标志着国产大模型在智能化上的一次重大突破，还提出了全新的训练方法，解决了过去依赖大量人类数据的问题。本篇文章将详细介绍DeepSeek-R1的核心优势、技术创新以及实际应用案例，揭示它在AGI领域的潜力。1.DeepSeek-R
（C++）P1216数字三角形（动态规划）⭐⭐⭐⭐ *TQK* 算法练习 c++动态规划
[USACO1.5][IOI1994]数字三角形NumberTriangles-洛谷题目描述观察下面的数字金字塔。写一个程序来查找从最高点到底部任意处结束的路径，使路径经过数字的和最大。每一步可以走到左下方的点也可以到达右下方的点。在上面的样例中，从7→3→8→7→5的路径产生了最大权值。输入格式第一个行一个正整数r,表示行的数目。后面每行为这个数字金字塔特定行包含的整数。输出格式单独的一行,包含
Jupyter notebook将指定文件夹中所有word文件导出为PDF文件不知何时归家 word jupyter pdf
importosimportcomtypes.client#遍历指定目录中的Word文件，并导出PDF文件folder_path=r"D:\test"fordirpath,dirs,filenamesinos.walk(folder_path):forfilenameinfilenames:file_path=os.path.join(dirpath,filename)suffix=os.path
python中strip()和split()的使用方法（学习笔记）木子_李轩笔记
1.strip()：用于移除字符串头、尾指定的字符(默认空格)，不能删除中间部分的字符。#未使用strip()path=r"C:\Users\67539\Desktop\22\11.txt"f=open(path,"r")forlineinf:#按行读取print(line)f.close()#结果cat22airplane23dog58mug86#########################
sql里面的asc和desc排序原理 one996 记录程序员 sql
最近遇到一个数据库的问题，sql语句是对版本进行降序排列。如下例子：用下载sql去查询，没有排序的效果。SELECT*FROMdata2WHEREpn=''ANDwsid=''ANDorder_ork=''ORDERBY'tpver'desc如下两个版本V3.7.2-R1.0Z1.3.1V3.11-R9.0Z1.4因为desc的排序方式是hashcode，按照我的理解，应该是从R开始比较，R3相等
Error in py_run_file_impl(file, local, convert) : ModuleNotFoundError: No module named ‘igraph‘ hyena_7 Python R 服务器配置 python r语言开发语言
在HPC平台上跑我的R语言代码，结果一直报错说：Errorinpy_run_file_impl(file,local,convert):ModuleNotFoundError:Nomodulenamed'igraph'我就知道是我R语言里面导入python包那里出现了问题，对应的python环境没有这个包，我进入了R环境，使用命令如下：library(reticulate)py_module_av
Spring Boot 集成 Redis 全解析翻晒时光 springboot spring boot redis
在当今快速发展的互联网应用开发中，性能和效率是至关重要的因素。Redis作为一款高性能的内存数据库，常被用于缓存、消息队列、分布式锁等场景，能够显著提升应用程序的响应速度和吞吐量。SpringBoot以其强大的自动配置和快速开发特性，成为众多Java开发者的首选框架。将SpringBoot与Redis集成，可以充分发挥两者的优势，构建出高效、稳定的应用系统。本文将详细介绍SpringBoot集成R
matlab绘图——彩色螺旋图 MATLAB卡尔曼 MATLAB技巧 matlab 信息可视化开发语言
代码生成的图形是一个动态的彩色螺旋，展示了如何利用极坐标和颜色映射创建视觉吸引力强的图形。该图形可以用于数据可视化、艺术创作或数学演示，展示了MATLAB在图形处理方面的强大能力。通过调整theta和r的范围，可以创建出不同形状和复杂度的螺旋图形。文章目录运行结果MATLAB源代码代码介绍代码分解与解释运行结果彩色螺旋图，运行结果：MATLAB源代码clc;clear;closeall;theta
贪心算法（题3）区间分组 invincible_Tang 蓝桥杯贪心算法算法
#include#include//sort#include//小根堆usingnamespacestd;constintN=100010;intn;structRange{intl,r;booloperator,greater>heap;//写法for(inti=0;i=r.l)heap.push(r.r);//为空或者不满足创新组else{intt=heap.top();heap.pop();
前端一次性在接口中给后端传多个文件流的集合作为参数柠檬花开_ 前端 javascript 上传文件文件流
前端上传文件后，文件流暂存在数组中。保存时，接口传参多个文件流一、前端暂存文件流//上传附件，attachFiles前端暂存文件流为一个数组httpSuggestionRequest:function(param){console.log(param,'param')if(this.attachFiles.length===10){this.$message.error('上限10个文件！');r
浅析5G通信技术在铁路中的应用慎独⊥修己 5G 信息与通信网络
引言铁路作为我国最早应用无线通信技术的行业之一，经过几十年的应用发展和技术积累，已形成适应铁路体制的铁路专用通信技术体系。21世纪，为满足我国高速铁路的发展需要，原铁道部正式确定了铁路专用数字移动通信系统(GSM—R)的技术方向。历经10多年发展，我国已建成全球最大的GSM—R网络。但伴随着智能铁路等新的建设要求提出，GSM—R作为窄带无线通信的技术局限性越发突出，无法满足铁路行车应用和运营维护业
通过配置核查，CentOS操作系统当前无多余的、过期的账户；但CentOS操作系统存在共享账户r***t jerry-89 LINUX linux
通过配置核查,CentOS操作系统当前无多余的、过期的账户;但CentOS操作系统存在共享核查CentOS操作系统中的用户账户，可以使用以下命令：查看当前活跃用户：awk-F:'/\$1\$/{print$1}'/etc/shadow查看多余账户（非活跃账户）：awk-F:'BEGIN{for(i=7;i<=999;i++)a[i]++}/\$1\$/{print$1}'/etc/shadow查看
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

HtmlUnit、httpclient、jsoup爬取网页信息并解析

你可能感兴趣的:(R/Hbase/Solr)