Mr_OOO

java爬虫系列（五）——今日头条文章爬虫实战

文章目录

项目源码
爬虫目标
爬虫设计思路

爬取方式

动态解析网页方式爬取
解析接口方式爬取

解析思路

破解入口
接口对比
破解加密参数

参数生成方式
解析js

分析接口返回值
解析原文地址

java项目解析

基本功能
队列和线程池
操作界面——swagger2

总结
补充
同系列文章

项目源码

https://github.com/a252937166/toutiaocrawler.git

爬虫目标

爬取某一头条号下面所有文章。

爬虫设计思路

爬取方式

动态解析网页方式爬取

之前介绍过使用webdriver的方式爬取网页内容，这样做的话好处非常明显，只需要考虑如何解析网页的element标签就行了，当然弊端也非常明显，就是效率不高。

解析接口方式爬取

没遇到反爬手段逆天的网页，我一般不推荐使用webdriver的方式，作为一名技术人员，始终要把项目性能放到第一位，所以这次的项目我选择使用破解今日头条接口的方式去拿取他们的文章。

解析思路

破解入口

以台海网为例，一般大型平台都会有pc和H5两种网页。
pc：https://www.toutiao.com/c/user/50502347096/#mid=50502347096

![这里写图片描述](https://img-blog.csdn.net/20180326152729252?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01yX09PTw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) **图(1)**

h5：http://m.toutiao.com/profile/50502347096/#mid=50502347096（切换到文章的TAB）

![这里写图片描述](https://img-blog.csdn.net/20180326154605302?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01yX09PTw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) **图(2)**

由Network的信息可以得到两个文章接口：
pc：
https://www.toutiao.com/c/user/article/?page_type=1&user_id=50502347096&max_behot_time=0&count=20&as=A1B57ACB48A9D4F&cp=5AB8F92DD4CFBE1&_signature=NVHtvxAab.D7OmttJlHb-zVR7a
h5：
https://www.toutiao.com/pgc/ma/?page_type=1&max_behot_time=&uid=50502347096&media_id=50502347096&output=json&is_json=1&count=20&from=user_profile_app&version=2&as=A125DA2BD89A381&cp=5AB81AE3C8116E1&callback=jsonp3

接口对比

很明显，pc端的接口比h5的接口多一个_signature参数，我私下尝试过破解_signature的生成方法，结果发现异常复杂，我的前端水平根本搞不定，方法是window.TAC.sign，有兴趣的同学可以去试试。

![这里写图片描述](https://img-blog.csdn.net/20180326160115790?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01yX09PTw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) **图(3)**

无奈只能选择h5的接口了，现在只需要破解as和cp两个参数就行了。

破解加密参数

参数生成方式

第一部当然是找参数怎么生成的，很遗憾，这一步没有捷径，只能复制好as和cp，去每一个js文件里面匹配，需要一点耐心。

![这里写图片描述](https://img-blog.csdn.net/20180326161018555?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01yX09PTw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) **图(4)**

解析js

格式化该方法：

!function(t) {
    var i = {};
    i.getHoney = function() {
        var t = Math.floor((new Date).getTime() / 1e3)
          , i = t.toString(16).toUpperCase()
          , e = md5(t).toString().toUpperCase();
        if (8 != i.length)
            return {
                as: "479BB4B7254C150",
                cp: "7E0AC8874BB0985"
            };
        for (var s = e.slice(0, 5), o = e.slice(-5), n = "", a = 0; 5 > a; a++)
            n += s[a] + i[a];
        for (var l = "", r = 0; 5 > r; r++)
            l += i[r + 3] + o[r];
        return {
            as: "A1" + n + i.slice(-3),
            cp: i.slice(0, 3) + l + "E1"
        }
    }
    ,
    t.ascp = i
}(window, document)

不算太难，一个简单的MD5加密方式，转成java方法也很简单：

    public static Map getAsCp(){
        String as = "479BB4B7254C150";
        String cp = "7E0AC8874BB0985";
        int t = (int) (new Date().getTime()/1000);
        String e = Integer.toHexString(t).toUpperCase();
        String i = DigestUtils.md5DigestAsHex(String.valueOf(t).getBytes()).toUpperCase();
        if (e.length()==8) {
            char[] n = i.substring(0,5).toCharArray();
            char[] a = i.substring(i.length()-5).toCharArray();
            StringBuilder s = new StringBuilder();
            StringBuilder r = new StringBuilder();
            for (int o = 0; o < 5; o++) {
                s.append(n[o]).append(e.substring(o,o+1));
                r.append(e.substring(o+3,o+4)).append(a[o]);
            }
            as = "A1" + s + e.substring(e.length()-3);
            cp = e.substring(0,3) + r + "E1";
        }
        Map map = new HashMap<>();
        map.put("as",as);
        map.put("cp",cp);
        return map;
    }

分析接口返回值

media_id：该媒体ID
message：是否成功
next.max_behot_time：下一页的请求参数
has_more：是否有下一页
data.article_url：文章的html地址
其他参数都不重要了，这里并没有直接返回文章的内容，下一步就是去原文地址爬取文章内容了。

解析原文地址

基本是个静态网页，直接提取标签里面的内容就行了。

java项目解析

基本功能

为了方便，我使用spring boot框架，设计成了一个web项目，以访问接口的方式启动或者停止爬虫。

队列和线程池

因为是接口的方式启动爬虫，所以不可能等10多万个爬虫任务结束之后再返回成功，只能异步执行任务，所以需要线程池。

光有线程池还不够，几十万甚至更多的任务全部甩给线程池，显然不是一个好的选择。所以这里就需要java的Queue，我选择的是LinkedBlockingDeque，不过最后还是没用到双端的特性，所以使用LinkedBlockingQueue是一样的，把所有需要爬取的任务先放入Queue队列中，开始爬取的时候再从里面拿去地址，这样就可简单的解决高并发的问题。

如果任务量特别大，而且有对详细日志的需求，可以选择换成kafka。

操作界面——swagger2

使用postman发送请求还是不太方便，还要填地址之类的，我考虑有个前端界面来操作就最好了，但是前端水平有限，不想花太多时间写，所以选择了集成swagger2。
打开http://127.0.0.1:9091/swagger-ui.html#/

![这里写图片描述](https://img-blog.csdn.net/20180326163832731?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01yX09PTw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) **图(5)** ![这里写图片描述](https://img-blog.csdn.net/20180326164531276?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01yX09PTw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) **图(6)**

一看就知道怎么用了，我就不多介绍了，有兴趣的同学，可以根据这五个接口，写一个前端界面，一个针对头条号的爬虫就算完成了。

![这里写图片描述](https://img-blog.csdn.net/20180326170608699?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01yX09PTw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) **图(7)**

总结

爬虫最难的地方其实并不在代码上，而在于对爬取网页的分析上，比如制定爬取方式，攻破对方的反爬手段等等，需要一些耐心和分析能力，所谓熟能生巧，最主要的还是要多尝试，累计经验。

补充

经网友提示发现，每个mid下的内容页的结构方式略有不同，本文中的mid的内容页是静态页面，所以使用Jsoup解析，另外有些mid，比如1558737777313793（AI财经社），它的内容页是动态页面，我使用的是正则匹配获取对应数据，示例在dev1.0分支上，大家可以借鉴一下，掌握这两种解析方式，解析其他mid都大同小异了。

同系列文章

java爬虫系列（一）——爬虫入门
java爬虫系列（二）——爬取动态网页
java爬虫系列（三）——漫画网站爬取实战
java爬虫系列（四）——动态网页爬虫升级版

你可能感兴趣的:(爬虫,最简单的java爬虫)

python期末题库和答案,python 期末卷及答案 www55597 人工智能
大家好，给大家分享一下python期末题库和答案，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！6.foriinrange(2,n):ifn%i==0:breakifi==n-1:print('是素数')else:print('不是素数')7.'abcabcabc'.count('abc')的值为__3__。8.对于有else子句的for循环和while循环，但循环因循环条件不成立而自
C语言中求余的作用 Ethan@LM c语言哈希算法开发语言
1.判断奇偶性求余运算常用于判断一个整数是否为偶数或奇数：偶数：n%2==0奇数：n%2!=0#includeintmain(){intnum=5;if(num%2==0){printf("%d是偶数\n",num);}else{printf("%d是奇数\n",num);}return0;}判断3的倍数：#includeintis_multiple_of_3(intn){returnn%3==0
STM32的USART串口通讯我淦嵌入式 stm32
文章目录一、寄存器与固件库1、基于寄存器方式的开发特点2、基于固态库方式的开发特点二、STM32的USART串口通讯程序STM32的USART简介1、实验要求2、实验环境3、实验准备4、实验代码5、程序烧录6、实验结果三、总结一、寄存器与固件库基于寄存器与基于固件库的stm32LED流水灯例子的编程方式差异比较：1、基于寄存器方式的开发特点（1）具体参数更直观（2）程序运行占用资源少（3）寄存器更
java快速入门之判断与循环天启互联网工作室 java 开发语言
一、流程控制语句在一个程序执行的过程中，各条语句的执行顺序对程序的结果是有直接影响的。所以，我们必须清楚每条语句的执行流程。而且，很多时候要通过控制语句的执行顺序来实现我们想要的功能。1.1流程控制语句分顺序结构判断和选择结构(if,switch)循环结构(for,while,do…while)二、判断语句：if语句2.1if语句格式1格式1：if(关系表达式){语句体;}执行流程：①首先计算关系
Vue Router 中如何获取路由传递过来的参数？晚夜微雨问海棠呀面试题整理专题 vue.js javascript 前端
在VueRouter中，可以通过多种方式获取路由传递过来的参数。以下是几种常见的方法：使用this.$route.params在组件中，可以通过this.$route.params来访问路由参数。例如，假设你有一个路由配置如下：constroutes=[{path:'/user/:id',component:UserComponent}];在UserComponent组件中，你可以这样获取id参数
YOLOv8改进，YOLOv8检测头融合DiverseBranchBlock，并添加小目标检测层（四头检测），适合目标检测、分割等挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉深度学习
摘要一种卷积神经网络（ConvNet）的通用构建模块，以在不增加推理时间成本的情况下提高性能。该模块被命名为多样分支块（DiverseBranchBlock，DBB），通过结合不同尺度和复杂度的多样分支来丰富特征空间，包括卷积序列、多尺度卷积和平均池化，从而增强单个卷积的表示能力。在训练后，DBB可以等效地转换为一个单独的卷积层以进行部署。与新型ConvNet架构的进步不同，DBB在保持宏观架构的
YOLOv10改进，YOLOv10改进主干网络为GhostNetV3(2024年华为的轻量化架构，全网首发)，助力涨点挂科边缘 YOLOv10改进 YOLO 计算机视觉目标检测人工智能 python 深度学习
摘要GhostNetV3是由华为诺亚方舟实验室的团队发布的，于2024年4月发布。摘要：紧凑型神经网络专为边缘设备上的应用设计，具备更快的推理速度，但性能相对适中。然而，紧凑型模型的训练策略目前借鉴自传统模型，这忽略了它们在模型容量上的差异，可能阻碍紧凑型模型的性能提升。在本文中，通过系统地研究不同训练成分的影响，我们介绍了一种用于紧凑型模型的强大训练策略。我们发现，适当的重参数化和知识蒸馏设计对
JavaScript 运算符详解一蓑烟雨.. javascript笔记 javascript js
JavaScript（3）运算符详解1.算数运算符//当对非Number类型的值进行运算时，会将其转换为Number类型//任何值和NaN做运算都为NaN//对字符串做加法，结果返回字符串//任何值和字符串做加法运算，都会先转化为字符串再计算vara=123+223;vara=true+1;vara='123'+'456';vara='123'+456;//转化成字符串vara=123+'';//
Vue.js 的组合式 API 与状态管理
随着现代前端开发的不断发展，Vue.js作为一个渐进式JavaScript框架，已经成为开发动态和交互式用户界面的流行选择之一。Vue.js的设计旨在通过简洁的语法和强大的功能来提升开发者的生产力。在Vue3中引入的组合式API（CompositionAPI）及其状态管理功能，为开发者提供了一种灵活且可扩展的方式来构建复杂的应用程序。本文将深入探讨Vue.js的组合式API，并结合状态管理的概念，
Linux 如何使用parted进行磁盘分区？ linux
简介Linux中的parted命令是一个用于创建、修改和管理磁盘分区的多功能工具。它支持传统的MBR（MasterBootRecord：主引导记录）和现代的GPT（GUIDPartitionTable：GUID分区表）分区方案。磁盘分区的主要原因最佳性能：正确管理分区可以提高系统的速度和响应性。例如，将操作系统文件从用户数据中分离出来，或者将频繁访问的数据放在磁盘上更快的部分上，都可以提高性能。数
软件工程的熵减：AI代码生成器如何降低系统复杂度前端
软件开发的世界，如同一个不断膨胀的宇宙。随着项目规模的增长，代码库日益庞大，系统复杂度也随之水涨船高。维护、扩展和协作的难度成倍增加，这如同物理学中的熵增原理一样，系统朝着混乱无序的方向发展。为了对抗这种“熵增”，我们需要寻找有效的手段，而AI代码生成器的出现，为我们提供了一种强大的武器。在传统的软件开发模式下，开发者花费大量时间处理重复性工作，例如编写大量的样板代码，这不仅效率低下，而且容易引入
Windchill配置-数据库相关的基础操作这城有海系统配置 Windchill二开数据库
数据库相关的基础操作一、数据库访问1.1访问方式1.2数据库服务器1.2.1Windows/Linux1.2.2监听相关命令1.2.3进入sqlplus的方式1.2.4基础SQL命令二、常用的SQL语句2.1数据库表空间使用情况查询2.1.1统计2.1.2明细2.2数据库表空间扩容2.2.1单机环境2.2.2集群环境（OracleRAC）2.3游标查询2.3.1查询最大游标数和最大打开游标数2.3
一枚程序猿对AI的看法码畜sokach 人工智能
AI如何改变IT行业一、对软件开发的影响好的方面：对于程序员来说，AI可以帮你做一些简单重复的代码编写工作。比如，你要写一个功能，像登录页面的代码，以前你得一行一行敲，现在AI可以帮你写个大概，你只要修改修改，补充一些细节就行，能让你干活更快。这意味着你可以把更多时间花在设计软件更有趣、更复杂的部分，像做一个很酷炫的游戏功能，或者开发一个新的应用程序，让你能发挥更多创意，提升自己的技能。如果你是新
轻量级限流算法的实现，拿走即用！程序员
引言在后端服务里，流量控制是确保系统稳定运行的关键之一。今天给大家介绍一个非常简单的漏桶限流算法的实现，很轻量级，无需任何第三方依赖。packagewin.liyufan.im;importjava.util.HashMap;importjava.util.Iterator;importjava.util.Map;/***漏桶算法*/publicclassRateLimiter{privatest
深入理解检查约束：确保数据质量的重要工具
title:深入理解检查约束：确保数据质量的重要工具date:2025/1/20updated:2025/1/20author:cmdragonexcerpt:在数据库管理中，检查约束是一种重要的约束类型，用于确保表中某一列或某些列的数据符合特定条件，从而维护数据的有效性和一致性。检查约束通过对数据的有效性进行验证，防止无效或不合逻辑的数据进入数据库。categories:前端开发tags:检查约
2024年AI浪潮：基础设施重构、模型演进与挑战并存前端
2024年，人工智能领域呈现出蓬勃发展的景象，投资持续增长、基础设施发生变革，技术应用加速落地。各大科技公司和初创企业纷纷涌入，试图在这一充满机遇的领域分一杯羹。本文将深入探讨2024年AI发展的三大核心趋势：AI基础设施的重构、模型发展的新趋势以及AI发展带来的挑战，并重点关注企业如何从AI投资中获得回报，以及AI智能体技术的巨大潜力。选择合适的AI代码生成器将成为企业提升效率的关键。AI基础设
软件安全工程：AI代码生成的风险评估与防御前端
随着软件开发需求的日益增长，提高开发效率成为重中之重。AI写代码工具的出现为软件开发带来了前所未有的机遇，它能够显著提高代码编写速度，降低开发成本。许多工具，例如ScriptEcho（轻微提及，避免过度广告），已经开始在软件开发领域发挥作用。然而，AI代码生成技术也带来了新的安全挑战，我们需要对这些风险进行全面的评估和防御，确保软件的安全性。本文将深入探讨AI代码生成的安全风险，并提出相应的防御策
【RocketMQ 消息中间件】RocketMQ篇之-消息存储为什么性能高 CommitLog 刷盘机制同步异步 java中间件消息队列
RocketMQ篇之-消息存储RocketMQ作为一款分布式消息中间件，高可靠性是其最重要的特性之一。所以需要将消息进行持久化存储，以保证消息不丢失。RocketMQ的消息存储是RocketMQ的核心组件之一，负责消息的存储和传输。RocketMQ的消息存储主要包括CommitLog、ConsumeQueue、IndexFile、Checkpoint等几个部分。（前置）消息存储交互流程生产者发送消
小红书成立应用算法部：平衡生态与变现的战略之举前端
小红书近期将商业化、社区、电商算法部门整合，成立了全新的“应用算法部”，这一举动引发了业界广泛关注。这不仅体现了小红书对算法驱动增长的高度重视，也标志着其在平衡内容生态和商业变现之间迈出了关键一步。本文将深入探讨小红书成立应用算法部的战略意义及其对未来发展的影响，并分析其扁平化管理模式在其中的作用。作为一款以内容创作和分享为核心的平台，小红书对高效的AI写代码工具的需求日益增长，而算法的优化则成为
使用多模态大模型转换 office 文档人工智能图像识别
背景介绍随着大模型的技术的不断发展，如何将各种office文档转换为markdown成为了一个刚需，包括微软在内的不少公司都给出了解决方案，但是都需要经过繁琐的步骤再本地或云端进行部署，有的对本地还有一定算力要求。现在各家的多模态大模型都在不断降价，1块钱都能处理几百张图片，不少提供商还每日提供免费额度，所以使用多模态大模型转换office文档成为一个廉价而简单的解决方案。技术方案这里介绍的是使用
淘宝店铺详情API接口的开发、应用与收益前端后端运维数据挖掘api
淘宝作为中国最大的电商平台之一，拥有海量的商品和店铺数据。为了更好地利用这些数据，淘宝开放平台提供了丰富的API接口，允许开发者通过调用接口获取淘宝平台上的商品和店铺信息。本文将深入探讨淘宝店铺详情API接口的开发、应用及其带来的收益，并提供示例代码以供参考。一、淘宝店铺详情API接口的开发1.注册淘宝开放平台账号首先，开发者需要在淘宝开放平台注册一个开发者账号。注册过程涉及填写个人信息或企业信息
精通爬虫技术：从入门到入狱——网络数据爬虫的合法性与法律边界
了解数据爬虫的原理、用途、法律风险与合规性。本文深入解析网络爬虫的工作机制，探讨其在数据采集、搜索引擎等领域的应用。同时，重点关注Robots协议、反爬虫技术、开放数据等合规性问题，并分析相关法律案例，助您合法安全地使用爬虫技术。文章目录什么是网络数据爬虫？数据爬虫的工作原理数据爬虫的应用与影响数据爬虫的广泛用途数据爬虫带来的负面影响和潜在风险数据爬虫的合规性问题开放数据与非开放数据Robots协
OpenBayes 一周速览丨ShowUI专注GUI自动化，可解析屏幕截图和用户指令；U-MATH数据集上线
公共资源速递5个数据集：U-MATH数学推理数据集AlMedicalChatbot医学对话数据集Tecnalia电子设备废物高光谱数据集WaterlooExploration大规模图像质量评估数据库WasteClassification可回收物及生活垃圾分类数据集3个教程：一键部署QwQ-32B-PreviewHunyuanVideo腾讯混元文生视频DemoShowUl：专注GUI自动化的视觉-语
ofa.js：无需打包的MVVM框架，前端开发的轻量之选前端
近年来，前端开发领域涌现了许多优秀的框架，如React、Vue和Angular，它们极大地提升了开发效率和代码可维护性。然而，随着项目复杂度的增加，这些框架的学习曲线和构建工具链的复杂性也让许多开发者感到头疼。在这样的背景下，ofa.js应运而生，它号称“无需打包的MVVM框架”，试图为前端开发带来一种全新的体验。那么，ofa.js究竟有何独特之处？它与其他MVVM框架相比又有哪些优势？本文将为你
AI生成前端页面：解放前端开发，拥抱AI时代的高效前端
在数字时代，效率是企业和个人的核心竞争力。而对于前端开发人员来说，重复性工作和繁琐的代码编写常常成为效率提升的瓶颈。幸运的是，随着人工智能技术的飞速发展，一个新的时代已经到来——AI代码生成器（例如ScriptEcho）的出现，正以前所未有的方式改变着前端开发的格局。本文将探讨人工智能在日常应用中的广泛影响，并着重介绍如何利用AI技术，例如ScriptEcho，来提升前端开发效率，从而更好地应对当
Vue 3.5 中的 useId：深入解析与应用实践程序员
随着Vue3.5的发布，开发者们迎来了许多新特性和改进。其中，useId是一个备受关注的工具函数，它为开发者提供了一种简单而高效的方式来生成唯一的ID。本文将深入解析useId的实现原理、使用场景以及在实际项目中的应用实践。一、什么是useId？useId是Vue3.5中引入的一个CompositionAPI函数，用于生成唯一的ID。它的主要用途是为组件或DOM元素分配唯一的标识符，避免在SSR（
python的schedule模块 weijiuzhu007 python
这里写自定义目录标题一，schedule模块1.什么是schedule模块2.具体应用二，详细源码一，schedule模块1.什么是schedule模块schedule模块进行job管理，具体可以执行定时任务，schedule方法是串行的，也就是说，如果各个任务之间时间不冲突，那是没问题的；如果时间有冲突的话，会串行的执行命令2.具体应用1，安装方法pipinstallschedule2，使用im
华为OD机试C卷--手机App防沉迷系统（Java & JS & Python & C）飞码创造者华为OD机试题库华为od c语言 java javascript python
获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：1.在一天24小时内，可以注册每个App的允许使用时段2.一个时间段只能使用一
大端模式和小端模式蝌蚪123456 java开发
转载自http://blog.csdn.net/hackbuteer1/article/details/7722667在各种计算机体系结构中，对于字节、字等的存储机制有所不同，因而引发了计算机通信领域中一个很重要的问题，即通信双方交流的信息单元（比特、字节、字、双字等等）应该以什么样的顺序进行传送。如果不达成一致的规则，通信双方将无法进行正确的编/译码从而导致通信失败。目前在各种体系的计算机中通常
AI赋能职业发展：程序员的未来之路前端
程序员，这个充满挑战和机遇的职业，正站在技术浪潮的潮头。一方面，蓬勃发展的科技不断催生着新的编程语言、框架和技术，要求程序员持续学习，快速适应；另一方面，激烈的行业竞争也使得程序员需要不断提升自身技能，才能在竞争中脱颖而出。然而，AI技术的崛起为程序员的职业发展带来了新的希望，它不仅能提升效率，还能帮助程序员拓展技能，应对未来的挑战。本文将探讨AI技术，特别是像ScriptEcho这样的AI辅助工
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他