Aintnot

【php爬虫】百万级别知乎用户数据爬取与分析

代码托管地址：https://github.com/HectorHu/zhihuSpider

这次抓取了110万的用户数据，数据分析结果如下：

开发前的准备

安装Linux系统（Ubuntu14.04），在VMWare虚拟机下安装一个Ubuntu；

安装PHP5.6或以上版本；

安装MySQL5.5或以上版本；

安装curl、pcntl、pdo扩展。

使用PHP的curl扩展抓取页面数据

PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

本程序是抓取知乎的用户数据，要能访问用户个人页面，需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候，之所以能够看到用户的信息，是因为在点击链接的时候，浏览器帮你将本地的cookie带上一齐提交到新的页面，所以你就能进入到用户的个人中心页面。因此实现访问个人页面之前需要先获得用户的cookie信息，然后在每次curl请求的时候带上cookie信息。在获取cookie信息方面，我是用了自己的cookie，在页面中可以看到自己的cookie信息：

一个个地复制，以"__utma=?;__utmb=?;"这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

初始的示例：

    $url = 'http://www.zhihu.com/people/mora-hu/about'; //此处mora-hu代表用户ID
    $ch = curl_init($url); //初始化会话
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  //设置请求COOKIE
    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  //将curl_exec()获取的信息以文件流的形式返回，而不是直接输出。
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);  
    $result = curl_exec($ch);
    return $result;  //抓取的结果

运行上面的代码可以获得mora-hu用户的个人中心页面。利用该结果再使用正则表达式对页面进行处理，就能获取到姓名，性别等所需要抓取的信息。

图片防盗链

在对返回结果进行正则处理后输出个人信息的时候，发现在页面中输出用户头像时无法打开。经过查阅资料得知，是因为知乎对图片做了防盗链处理。解决方案就是请求图片的时候在请求头里伪造一个referer。

在使用正则表达式获取到图片的链接之后，再发一次请求，这时候带上图片请求的来源，说明该请求来自知乎网站的转发。具体例子如下：

function getImg($url, $u_id)
{
    if (file_exists('./images/' . $u_id . ".jpg"))
    {
        return "images/$u_id" . '.jpg';
    }
    if (empty($url))
    {
        return '';
    }
    $context_options = array(  
        'http' =>  
        array(
            'header' => "Referer:http://www.zhihu.com"//带上referer参数 
    　　)
　　);
      
    $context = stream_context_create($context_options);  
    $img = file_get_contents('http:' . $url, FALSE, $context);
    file_put_contents('./images/' . $u_id . ".jpg", $img);
    return "images/$u_id" . '.jpg';
}

爬取更多用户

抓取了自己的个人信息后，就需要再访问用户的关注者和关注了的用户列表获取更多的用户信息。然后一层一层地访问。可以看到，在个人中心页面里，有两个链接如下：

这里有两个链接，一个是关注了，另一个是关注者，以“关注了”的链接为例。用正则匹配去匹配到相应的链接，得到url之后用curl带上cookie再发一次请求。抓取到用户关注了的用于列表页之后，可以得到下面的页面：

分析页面的html结构，因为只要得到用户的信息，所以只需要框住的这一块的div内容，用户名都在这里面。可以看到，用户关注了的页面的url是：

不同的用户的这个url几乎是一样的，不同的地方就在于用户名那里。用正则匹配拿到用户名列表，一个一个地拼url，然后再逐个发请求（当然，一个一个是比较慢的，下面有解决方案，这个稍后会说到）。进入到新用户的页面之后，再重复上面的步骤，就这样不断循环，直到达到你所要的数据量。

Linux统计文件数量

脚本跑了一段时间后，需要看看究竟获取了多少图片，当数据量比较大的时候，打开文件夹查看图片数量就有点慢。脚本是在Linux环境下运行的，因此可以使用Linux的命令来统计文件数量：

ls -l | grep "^-" | wc -l

其中， ls -l 是长列表输出该目录下的文件信息（这里的文件可以是目录、链接、设备文件等）； grep "^-" 过滤长列表输出信息， "^-" 只保留一般文件，如果只保留目录是 "^d" ； wc -l 是统计输出信息的行数。下面是一个运行示例：

插入MySQL时重复数据的处理

程序运行了一段时间后，发现有很多用户的数据是重复的，因此需要在插入重复用户数据的时候做处理。处理方案如下：

1）插入数据库之前检查数据是否已经存在数据库；

2）添加唯一索引，插入时使用 INSERT INTO ... ON DUPLICATE KEY UPDATE...

3）添加唯一索引，插入时使用 INSERT INGNORE INTO...

4）添加唯一索引，插入时使用 REPLACE INTO...

第一种方案是最简单但也是效率最差的方案，因此不采取。二和四方案的执行结果是一样的，不同的是，在遇到相同的数据时， INSERT INTO ... ON DUPLICATE KEY UPDATE 是直接更新的，而 REPLACE INTO 是先删除旧的数据然后插入新的，在这个过程中，还需要重新维护索引，所以速度慢。所以在二和四两者间选择了第二种方案。而第三种方案， INSERT INGNORE 会忽略执行INSERT语句出现的错误，不会忽略语法问题，但是忽略主键存在的情况。这样一来，使用 INSERT INGNORE 就更好了。最终，考虑到要在数据库中记录重复数据的条数，因此在程序中采用了第二种方案。

使用curl_multi实现I/O复用抓取页面

刚开始单进程而且单个curl去抓取数据，速度很慢，挂机爬了一个晚上只能抓到2W的数据，于是便想到能不能在进入新的用户页面发curl请求的时候一次性请求多个用户，后来发现了curl_multi这个好东西。curl_multi这类函数可以实现同时请求多个url，而不是一个个请求，这是一种I/O复用的机制。下面是使用curl_multi爬虫的示例：

        $mh = curl_multi_init(); //返回一个新cURL批处理句柄
        for ($i = 0; $i < $max_size; $i++)
        {
            $ch = curl_init();  //初始化单个cURL会话
            curl_setopt($ch, CURLOPT_HEADER, 0);
            curl_setopt($ch, CURLOPT_URL, 'http://www.zhihu.com/people/' . $user_list[$i] . '/about');
            curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie);
            curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36');
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 
            curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
            $requestMap[$i] = $ch;
            curl_multi_add_handle($mh, $ch);  //向curl批处理会话中添加单独的curl句柄
        }

        $user_arr = array();
        do {
                        //运行当前 cURL 句柄的子连接
            while (($cme = curl_multi_exec($mh, $active)) == CURLM_CALL_MULTI_PERFORM);
            
            if ($cme != CURLM_OK) {break;}
                        //获取当前解析的cURL的相关传输信息
            while ($done = curl_multi_info_read($mh))
            {
                $info = curl_getinfo($done['handle']);
                $tmp_result = curl_multi_getcontent($done['handle']);
                $error = curl_error($done['handle']);

                $user_arr[] = array_values(getUserInfo($tmp_result));

                //保证同时有$max_size个请求在处理
                if ($i < sizeof($user_list) && isset($user_list[$i]) && $i < count($user_list))
                {
                    $ch = curl_init();
                    curl_setopt($ch, CURLOPT_HEADER, 0);
                    curl_setopt($ch, CURLOPT_URL, 'http://www.zhihu.com/people/' . $user_list[$i] . '/about');
                    curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie);
                    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36');
                    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 
                    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
                    $requestMap[$i] = $ch;
                    curl_multi_add_handle($mh, $ch);

                    $i++;
                }

                curl_multi_remove_handle($mh, $done['handle']);
            }

            if ($active)
                curl_multi_select($mh, 10);
        } while ($active);

        curl_multi_close($mh);
        return $user_arr;

HTTP 429 Too Many Requests

使用curl_multi函数可以同时发多个请求，但是在执行过程中使同时发200个请求的时候，发现很多请求无法返回了，即发现了丢包的情况。进一步分析，使用 curl_getinfo 函数打印每个请求句柄信息，该函数返回一个包含HTTP response信息的关联数组，其中有一个字段是http_code，表示请求返回的HTTP状态码。看到有很多个请求的http_code都是429，这个返回码的意思是发送太多请求了。我猜是知乎做了防爬虫的防护，于是我就拿其他的网站来做测试，发现一次性发200个请求时没问题的，证明了我的猜测，知乎在这方面做了防护，即一次性的请求数量是有限制的。于是我不断地减少请求数量，发现在5的时候就没有丢包情况了。说明在这个程序里一次性最多只能发5个请求，虽然不多，但这也是一次小提升了。

使用Redis保存已经访问过的用户

抓取用户的过程中，发现有些用户是已经访问过的，而且他的关注者和关注了的用户都已经获取过了，虽然在数据库的层面做了重复数据的处理，但是程序还是会使用curl发请求，这样重复的发送请求就有很多重复的网络开销。还有一个就是待抓取的用户需要暂时保存在一个地方以便下一次执行，刚开始是放到数组里面，后来发现要在程序里添加多进程，在多进程编程里，子进程会共享程序代码、函数库，但是进程使用的变量与其他进程所使用的截然不同。不同进程之间的变量是分离的，不能被其他进程读取，所以是不能使用数组的。因此就想到了使用Redis缓存来保存已经处理好的用户以及待抓取的用户。这样每次执行完的时候都把用户push到一个already_request_queue队列中，把待抓取的用户（即每个用户的关注者和关注了的用户列表）push到request_queue里面，然后每次执行前都从request_queue里pop一个用户，然后判断是否在already_request_queue里面，如果在，则进行下一个，否则就继续执行。

在PHP中使用redis示例：

<?php
    $redis = new Redis();
    $redis->connect('127.0.0.1', '6379');
    $redis->set('tmp', 'value');
    if ($redis->exists('tmp'))
    {
        echo $redis->get('tmp') . "\n";
    }

使用PHP的pcntl扩展实现多进程

改用了curl_multi函数实现多线程抓取用户信息之后，程序运行了一个晚上，最终得到的数据有10W。还不能达到自己的理想目标，于是便继续优化，后来发现php里面有一个pcntl扩展可以实现多进程编程。下面是多编程编程的示例：

    //PHP多进程demo
    //fork10个进程
    for ($i = 0; $i < 10; $i++) {
        $pid = pcntl_fork();
        if ($pid == -1) {
            echo "Could not fork!\n";
            exit(1);
        }
        if (!$pid) {
            echo "child process $i running\n";
            //子进程执行完毕之后就退出，以免继续fork出新的子进程
            exit($i);
        }
    }
    
    //等待子进程执行完毕，避免出现僵尸进程
    while (pcntl_waitpid(0, $status) != -1) {
        $status = pcntl_wexitstatus($status);
        echo "Child $status completed\n";
    }

在Linux下查看系统的cpu信息

实现了多进程编程之后，就想着多开几条进程不断地抓取用户的数据，后来开了8调进程跑了一个晚上后发现只能拿到20W的数据，没有多大的提升。于是查阅资料发现，根据系统优化的CPU性能调优，程序的最大进程数不能随便给的，要根据CPU的核数和来给，最大进程数最好是cpu核数的2倍。因此需要查看cpu的信息来看看cpu的核数。在Linux下查看cpu的信息的命令：

cat /proc/cpuinfo

其中，model name表示cpu类型信息，cpu cores表示cpu核数。这里的核数是1，因为是在虚拟机下运行，分配到的cpu核数比较少，因此只能开2条进程。最终的结果是，用了一个周末就抓取了110万的用户数据。

多进程编程中Redis和MySQL连接问题

在多进程条件下，程序运行了一段时间后，发现数据不能插入到数据库，会报mysql too many connections的错误，redis也是如此。

下面这段代码会执行失败：

<?php
     for ($i = 0; $i < 10; $i++) {
          $pid = pcntl_fork();
          if ($pid == -1) {
               echo "Could not fork!\n";
               exit(1);
          }
          if (!$pid) {
               $redis = PRedis::getInstance();
               // do something     
               exit;
          }
     }

根本原因是在各个子进程创建时，就已经继承了父进程一份完全一样的拷贝。对象可以拷贝，但是已创建的连接不能被拷贝成多个，由此产生的结果，就是各个进程都使用同一个redis连接，各干各的事，最终产生莫名其妙的冲突。

解决方法：

程序不能完全保证在fork进程之前，父进程不会创建redis连接实例。因此，要解决这个问题只能靠子进程本身了。试想一下，如果在子进程中获取的实例只与当前进程相关，那么这个问题就不存在了。于是解决方案就是稍微改造一下redis类实例化的静态方式，与当前进程ID绑定起来。

改造后的代码如下：

<?php
     public static function getInstance() {
          static $instances = array();
          $key = getmypid();//获取当前进程ID
          if ($empty($instances[$key])) {
               $inctances[$key] = new self();
          }
     
          return $instances[$key];
     }

PHP统计脚本执行时间

因为想知道每个进程花费的时间是多少，因此写个函数统计脚本执行时间：

function microtime_float()
{
     list($u_sec, $sec) = explode(' ', microtime());
     return (floatval($u_sec) + floatval($sec));
}

$start_time = microtime_float();

//do something
usleep(100);

$end_time = microtime_float();
$total_time = $end_time - $start_time;

$time_cost = sprintf("%.10f", $total_time);

echo "program cost total " . $time_cost . "s\n";

若文中有不正确的地方，望各位指出以便改正。

tiktok开店注意事项 Bella12300 tiktok 新手开店
想在tiktok上开店先别急着砸广告费，摸清平台的隐形规则更重要。tiktok现在没有面对大陆用户开放，稍有不慎就可能被扣保证金、封号，甚至钱货两空，今天就带大家了解一些tiktok开店的注意事项。一、资质审核营业执照：公司名称、经营范围必须与销售商品类目一致，比如卖美妆的营业执照如果写五金建材，审核会直接驳回。个体户只能入驻东南亚市场，且一个执照最多开5国店铺。法人信息：上传身份证需高清无边框，
Linux学习笔记：PCIe内核篇（1）：初始化与枚举流程 ZH_2025 嵌入式协议篇 PCIE
根据system.map查看内核中PCIe加载流程：root@zh-vm:~#cat/boot/System.map-5.15.0-130-generic|greppci|grepinitcallffffffff8350ff68d__initcall__kmod_pci__453_6907_pci_realloc_setup_params0ffffffff83510098d__initcall__
C2远控篇&Golang&Rust&冷门语言&Loader加载器&对抗优势&减少熵值特征
#C2远控-ShellCode-认知&环境1.创建工程时关闭SDL检查2.属性->C/C++->代码生成->运行库->多线程(/MT)如果是debug则设置成MTD3.属性->C/C++->代码生成->禁用安全检查GS4.关闭生成清单属性->链接器->清单文件->生成清单选择否#C2远控-ShellCode-分析&提取ShellCode的本质其实就是一段可以自主运行的代码。它没有任何文件结构，它不
前端React和Vue框架的区别
React和Vue作为前端Web开发的两大主流框架，虽然都用于构建用户界面，但在设计理念、语法风格、生态系统等方面存在显著差异。以下从多个维度对比两者的核心区别，帮助你在技术选型时做出更合适的决策。一、设计理念与架构1.数据流控制React：强制单向数据流（One-WayDataFlow），状态变化只能通过父组件→子组件传递，如需反向通信（如子组件修改父组件状态），需通过回调函数实现。复杂应用中需
nnv开源神经网络验证软件工具
一、软件介绍文末提供程序和源码下载用于神经网络验证的Matlab工具箱，该工具箱实现了可访问性方法，用于分析自主信息物理系统（CPS）领域中带有神经网络控制器的神经网络和控制系统。二、相关工具和软件该工具箱利用神经网络模型转换工具（nnmt）和闭环系统分析、混合系统模型转换和转换工具（HyST）以及CONTINUOUSReachabilityAnalyzer（CORA）三、无需安装即可执行NNV可
嵌入式通信协议框架的四层架构设计与实现比特冬哥嵌入式领域开发嵌入式通信协议分层框架
文章目录一、硬件抽象层：数据收发的基石1.1设计要点1.2代码示例二、协议管理层：智能路由中枢2.1设计要点2.2代码示例三、协议处理层：协议具体实现3.1设计要求3.2代码示例3.2.1协议公共定义3.2.2协议一设计3.2.3协议二设计四、应用层：业务逻辑实现4.1设计要点4.2代码示例4.2.1协议一处理4.2.2协议二处理五、四层协作流程5.1收发流程5.2代码示例总结在嵌入式系统开发中，
微服务：从“大锅菜“到“自助餐“的架构进化 MarkSea. 架构微服务云原生
在软件开发的世界里，架构就像是烹饪艺术。传统的单体应用就像一锅东北大锅菜，所有食材（功能）混在一起熬煮，香是香，但想单独调整某种食材的味道？对不起，得掀翻整锅重来。而微服务架构则像现代化的自助餐厅，每道菜（服务）独立存在，想吃什么拿什么，想调整哪道菜只需要处理那一小部分，其他客人（用户）还能继续享用其他美食。什么是微服务？——火锅店里的"自助小料台"理论将应用拆成多个独立小服务，通过轻量级API（
演练纪实丨同创永益同天支持三家银行灾备切换演练圆满完成数字韧性前端
2025年6月22日，同创永益单日同时支持河南农商联合银行、苏州农商银行、昆山农商银行组织开展2025年灾备切换演练圆满完成。其中共涉及44套关键业务系统，700余个节点，成功率100%，且全部满足恢复指标要求。同创永益于同日成功支持三家银行完成灾备切换演练，充分彰显了企业卓越的交付能力与技术底蕴。此次演练中，最显著的突破在于支持某行银行灾备切换演练时，将灾备技术切换的时间从原本的5分钟压缩至1分
Unity团结引擎实战：鸿蒙游戏开发全指南编号:0517 鸿蒙 harmonyos5.0 unity 华为鸿蒙
鸿蒙游戏开发实战：Unity团结引擎适配指南与代码示例文/技术探索随着鸿蒙生态的快速扩张，Unity游戏向鸿蒙OS（OpenHarmony）的迁移已成为开发者新需求。本文将基于Unity团结引擎（专为鸿蒙定制的Unity分支），详解适配流程并提供可运行的代码示例。一、团结引擎：鸿蒙原生适配的核心工具Unity中国推出的团结引擎（基于Unity2022LTS定制）是当前唯一官方支持的鸿蒙适配方案，其
SpreadJS 迷你图：数据趋势可视化的利器 spreadjs
引言在数据处理和分析领域，直观地展示数据趋势对于理解数据和做出决策至关重要。迷你图作为一种简洁而有效的数据可视化方式，在显示数据趋势方面发挥着重要作用，尤其在与他人共享数据时，能够快速传达关键信息。SpreadJS作为一款强大的电子表格组件，对迷你图功能提供了丰富的支持。本文将详细介绍SpreadJS迷你图的特点、优势、创建方式以及与GcExcel的兼容情况。迷你图的概述与作用迷你图是单个工作表单
数据库设计三范式详解与注意事项步行cgn 数据库数据库 oracle 服务器
数据库设计三范式详解与注意事项数据库设计三范式（NormalForms）是关系型数据库设计的核心理论，用于减少数据冗余、提高数据一致性和完整性。下面我将详细解释三范式的概念、应用场景和实际注意事项。一、三范式核心概念1.第一范式(1NF)：原子性定义：每个列都是不可再分的原子值每行有唯一标识（主键）示例：--不符合1NFCREATETABLEorders(order_idINTPRIMARYKEY
数据库 DML 语句详解：语法与注意事项步行cgn 数据库数据库 oracle
数据库DML语句详解：语法与注意事项DML（DataManipulationLanguage，数据操作语言）用于操作数据库中的数据，主要包括SELECT、INSERT、UPDATE、DELETE等语句。下面我将详细说明每种操作的语法、使用场景和关键注意事项。一、SELECT查询语句基本语法SELECT[DISTINCT]column1,column2,...FROMtable_name[WHERE
数据库级联操作详解：级联删除、更新与置空步行cgn 数据库数据库 oracle sql
数据库级联操作详解：级联删除、更新与置空在数据库设计中，级联操作（CASCADE）是管理关联数据的关键机制，它能自动处理主表与从表之间的数据一致性。下面详细介绍级联删除、更新和置空的语法、使用场景及注意事项。一、级联操作语法1.级联删除（ONDELETECASCADE）--创建表时定义CREATETABLEorders(order_idINTPRIMARYKEY,customer_idINT,FO
【JS-6-ES6中的let和const】深入理解ES6中的let和const：块级作用域与变量声明的新范式 AllenBright #JS javascript es6 开发语言
在ES6(ECMAScript2015)之前，JavaScript中只有var一种变量声明方式，这导致了许多作用域相关的问题。ES6引入了let和const两种新的变量声明方式，彻底改变了JavaScript的作用域规则。本文将深入探讨let和const的特性、优势以及它们与var的区别。1.var的问题与ES6的解决方案1.1var的局限性在ES5及之前版本中，var声明存在几个主要问题：函数作
项目立项主要内容及实例小赖同学啊 test Technology Precious 项目管理
项目立项主要内容及实例项目立项主要内容项目基本信息项目名称：清晰明确地概括项目核心内容，让读者能快速了解项目大致方向。项目发起人：通常是提出项目想法或需求的个人、部门或组织，在项目中有一定决策权和影响力。项目负责人：即项目经理，全面负责项目的规划、执行、监控和收尾等工作。项目起止时间：明确项目开始和预计结束的时间节点，有助于合理安排资源和进度计划。项目背景与必要性背景阐述：分析项目所处的行业环境、
100W QPS 短链系统怎么设计 Java程序员拥抱ai 电商架构大数据
看上去业务简单，其实，覆盖的知识点非常多：高并发、高性能分布式IDRedisBloomFilter高并发、低内存损耗的过滤组件知识分库、分表海量数据存储多级缓存的知识HTTP传输知识二进制、十六进制、六十二进制知识总体来说，高并发、高性能系统的核心领域，都覆盖了。所以，分析下来，得到一个结论：是一个超级好的问题。1、短URL系统的背景短网址替代长URL，在互联网网上传播和引用。例如QQ微博的url
Entering emergency mode. Exit the shell to continue“journalctl‘to view system logs。【比较全的解决办法】
1.进入紧急模式并查看日志输入root密码在紧急模式提示符下，输入root用户的密码以获得访问权限（如果root密码已知）。查看系统日志运行以下命令查看启动日志，定位具体错误原因：journalctl-xb按↑/↓键滚动日志，或使用Ctrl+C退出。关注以下关键错误信息：Failedtomount/sysroot：根文件系统挂载失败。XFS(dm-0):：文件系统错误（如XFS损坏）。dracut
前端基础知识JavaScript系列 - 25（Javascript本地存储）前端小白从0开始前端 javascript 开发语言
一、方式javaScript本地缓存的方法我们主要讲述以下四种：cookiesessionStoragelocalStorageindexedDBcookieCookie，类型为「小型文本文件」，指某些网站为了辨别用户身份而储存在用户本地终端上的数据。是为了解决HTTP无状态导致的问题作为一段一般不超过4KB的小型文本数据，它由一个名称（Name）、一个值（Value）和其它几个用于控制cooki
HarmonyOS实战：打造极简HEventBus事件通知 IT小码哥丶 HarmonyOS harmonyos
前言事件通知在日常开发中十分重要，不同页面之间的事件通信都会用到事件通知，作为Android开发的小伙伴相信都用过EventBus，LiveDataEventBus等事件通信工具。鸿蒙开发中也同样需要一个页面之间通信等工具，本篇文章教你在鸿蒙开发中如何实现一个HEventBus，建议点赞收藏！需求分析全局只存在唯一实例。支持事件注册，反注册。支持一次发送，多处接收。技术实现单例实现在鸿蒙中使用创建
HarmonyOS实战：一招搞定保存图片到相册 IT小码哥丶 harmonyos 华为
前言保存图片功能几乎是每个应用程序必备的功能之一，当用户遇到喜欢的图片时可以保存到手机相册。那么在鸿蒙中保存图片是否也需要申请用户存储权限以及如何将图片保存到相册，本文将详细讲述怎么保存网络图片，指定布局生成图片保存至相册的功能实现。实现效果需求分析一般在Android或iOS上保存图片都需要申请应用存储权限，否则将禁止访问应用存储，不能保存图片到磁盘中。在鸿蒙系统中当然也有存储权限，但是鸿蒙系统
Unity团结引擎深度适配HarmonyOS 5.0：渲染架构与系统能力整合指南 H老师带你学鸿蒙游戏引擎 HarmonyOS5.0 unity 华为鸿蒙 DevEco Studio
随着HarmonyOS5.0的发布，华为操作系统在分布式能力和性能优化方面实现了重大突破。Unity团结引擎作为领先的游戏引擎，深度适配HarmonyOS5.0对开发者来说意义重大。本文将深入探讨Unity在HarmonyOS上的渲染架构优化与系统能力整合，并提供实用的代码示例。一、环境配置与项目设置要开始HarmonyOS5.0下的Unity开发，首先完成环境配置：安装UnityHub2022L
es6 -- 解构赋值可心abc javascript es6 es6 javascript 前端
文章目录1.数组的解构赋值，按次序排列，位置决定2.对象的解构赋值，没有次序，变量与属性同名即可取值,默认undefined3.字符串的解构赋值4.数值和布尔值的结构赋值5.函数结构赋值,被解构的参数`是`传入的参数`，还是`函数参数默认值6.不能使用圆括号场景,区别声明语句与赋值语句6.1可以使用圆括号7.用途：ES6允许按照一定的模式，从数组或对象中提取值，给变量进行赋值，称为解构赋值1.数组
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
鸿蒙HarmonyOS实战开发：实现表情聊天场景案例你我皆是牛马星人 HarmonyOS 鸿蒙开发 OpenHarmony harmonyos 华为 android 鸿蒙 ui 前端
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）介绍本示例主要介绍如何在聊天信息中加入表情图片。通过变量控制表情键盘的显示与
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
高考志愿不会填？ AI 帮你填写高考志愿，手把手教你完成志愿填报 AI、少年郎高考人工智能数据挖掘
一、背景高考成绩一出，志愿填报就成了家长和考生的“头号难题”。选对专业和院校，相当于为未来铺好一条“黄金赛道”！但面对海量院校和专业信息，怎么才能快速锁定适合自己的选项？别慌！今天就教你用AI轻松搞定志愿填报，不过先划重点：AI建议仅供参考，最终决策一定要结合实际、多方求证！本次以AI豆包为例，其他AI工具类似。可能很多人都说AI填报志愿谁不会啊，就是把问题抛给AI，让其帮着分析就行，但是对很多不
php amp 字符串处理,php字符串处理之全角半角转换布博士 php amp 字符串处理
半角全角的处理是字符串处理的常见问题，本文尝试为大家提供一个思路。一、概念全角字符unicode编码从65281~65374(十六进制0xFF01~0xFF5E)半角字符unicode编码从33~126(十六进制0x21~0x7E)空格比较特殊,全角为12288(0x3000),半角为32(0x20)而且除空格外,全角/半角按unicode编码排序在顺序上是对应的所以可以直接通过用+-法来处理非空
.NET多线程任务实现的几种方法及线程等待全面分析百锦再@新空间包罗万象 .net android task Thread 线程并发线程池
文章目录1.引言2..NET多线程编程基础2.1线程概念回顾2.2.NET线程模型概述3.多线程任务实现方法3.1Thread类实现3.2ThreadPool实现3.3TaskParallelLibrary(TPL)3.4Parallel类3.5BackgroundWorker组件3.6Async/Await模式3.7各种方法的比较与选择4.线程等待机制详解4.1基本等待方法4.2同步原语4.3异
【Univer Docs】VUE3中使用Univer Docs（原Luckysheet ）创建在线编辑Excel VT.馒头前端学习之旅 excel vue vue.js
VUE3中使用UniverDocs（原Luckysheet）创建在线编辑Excel文章目录VUE3中使用UniverDocs（原Luckysheet）创建在线编辑Excel一、UniverDocs简介二、安装Univer三、在页面中使用1、在页面中引入对应的文件2、创建一个Univer实例，并注册这些插件3、创建一个空白的UniverSheet4、加载数据与存储加载存储5、完整代码（可以直接复制为
linux学习第五周运维小杨 linux 学习运维
目录1、总结rocky系统的启动流程，grub工作流程1.1系统启动整体流程（基于BIOS/UEFI）1.2硬件初始化阶段1.2.1BIOS（传统模式）1.2.2UEFI（新模式）1.3引导加载程序（GRUB2）阶段1.4内核加载与初始化阶段1.5用户空间初始化（systemd阶段）2、总结内核设计流派及特点。3、总结systemd服务配置文件4、总结DNS域名三级结构，DNS服务工作原理，涉及递
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l