ruanjiayou123

php解析html类

本想做采集系统，但没有趁手的php版解析器。网上搜到一个simple_html_dom-master，全是英文。看了源码可以操作dom。但我很想自己写一个，不需太强大，可做采集即可。

采取的思路是状态标记解析，如python中的htmlparser。将html分块：startTag endTag 文本块注释块...我则加了个单标签块

我的类是个抽象类，用法就是自己继承父类并自己填充抽象方法，提供了参数：显示嵌套深度的level变量没有提供

源码，为了节省内存将块字符串换成了块在html源码中的index，length形式的数组

保存块的数组压入(块类型，标签名，嵌套深度，字符串（index，length）)

array_push($this->BlockArr,array(HTML_TEXT,"",0,substr($this->htmlcode,$posL,$i-$posL+1)));

原先的形式：

$tempstr = substr($this->htmlcode,$posL,$posR-$posL+1);

array_push($this->BlockArr,array(HTML_TAG_ST,$tagname,0,$tempstr));

先给效果图，后面紧接源码

<?php
/*
    时间:2015-12-25 19:04:34
    作者:阮家友
    QQ:1439120442
*/
//定义常量 html文件分4种类型块  
//开始标签
define("HTML_TAG_ST",1);
//结束标签
define("HTML_TAG_END",2);
// <!开头 文档声明和注释
define("HTML_COMMENT",3);
//文本
define("HTML_TEXT",4);
//单标签
define("HTML_SINGLE_TAG",5);

//左方括号
define("CHAR_L_BRACKET","<");
//右方括号
define("CHAR_R_BRACKET",">");
//单引号
define("CHAR_S_QUOTE","'");
//双引号
define("CHAR_D_QUOTE",'"');
//与
define("CHAR_AND","&");
//感叹号
define("CHAR_GanTanHao",'!');
//斜杠 除法  Unix中表示目录
define("CHAR_XieGang",'/');
//反斜杠 转义 
define("CHAR_FanXieGang",'\\');
//tab键
define("CHAR_TAB",'\t');
//空格
define("CHAR_SPACE",' ');
//回车
define("CHAR_ENTENR",'\r');
//换行
define("CHAR_NewLine",'\n');
abstract class parser{
    //成员变量
    //路径
    private $path;
    //html源码
    private $htmlcode;
    //分块数组
    private $BlockArr;
    //分析层级栈 永远是开始标签
    private $Zhan;
    //层级变量
    private $level;
    //属性数组 在标记单标签时借用一下
    private $AttributesArr;
    //构造函数
    function __construct($path){
        $this->htmlcode = "";
        $this->path = $path;
        $this->BlockArr = array();
        $this->AttributesArr = array();
        $this->Zhan = array();
        $this->level=0;
        $datetime = new DateTime('Asia/Hong_Kong');
        print "解析开始！".$datetime->format('Y/m/d H:i:s')."<br/>";
    }
    //析构函数
    function __destruct(){
        $datetime = new DateTime('Asia/Hong_Kong');
        
        print "解析完成！".$datetime->format('Y/m/d H:i:s')."<br/>";
        echo "FileSize:".strlen($this->htmlcode)."<br/>";
        echo "block length:".count($this->BlockArr);
    }
    //获取HTML源码
    function LoadHTML(){
        $this->htmlcode = file_get_contents($this->path);
    }
    //将HTML源码分割为块
    function Split2Block(){
        $tempstr="";//保存截取的临时字符串
        $temp = array();//匹配結果
        $tagname = "";//标签名
        $CurrentPos = 0;//当前字符在字符串中的索引 下标 index
        $N = strlen($this->htmlcode);//字符串的长度
        $posL = 0;//块的左端位置
        $posR = 0;//块的右端位置
        $type = 0;//当前块的类型
        $bCommentOEndTag = false;
        $bSingleTag = false;
        $bTextStart = false;
        $bEndTag = false;
        // < 开始
        $bLSBracketStart = false;
        // > 开始
        $bRSBracketStart = false;
        // " 开始
        $bSQuoteStart = false;
        // ' 开始
        $bDQuoteStart = false;
        for($i=0;$i<$N;$i++){
            //只对<>"'!/感兴趣
            if(!preg_match('/[<>\'\"!\/]/',$this->htmlcode[$i],$temp)){
                continue;
            }
            // 检测到 ! / StartTag Comment EndTag判断 < 开始设置了默认类型是开始标签 后面第一个字符是 ! 则本块是注释 是/ 则是结束标签
            if(true == $bLSBracketStart &&true==$bCommentOEndTag&&(CHAR_GanTanHao== $this->htmlcode[$i]|| CHAR_XieGang == $this->htmlcode[$i])){
                // : ! 本块是注释
                if(CHAR_GanTanHao == $this->htmlcode[$i]){
                    $type = HTML_COMMENT;
                }
                // : / 并且不再字符串内 本块是结束标签
                if(CHAR_XieGang == $this->htmlcode[$i]&&false==$bSQuoteStart&&false==$bDQuoteStart){
                    $type = HTML_TAG_END;
                }
                //本次块的类型判断结束 还原状态 等待下次
                $bCommentOEndTag = false;
                continue;
            }
            //检测到 " '单引号或双引号 true == $bLSBracketStart && HTML_TAG_ST==$type &&(
            if($bLSBracketStart && HTML_COMMENT!=$type && (CHAR_S_QUOTE==$this->htmlcode[$i]|| CHAR_D_QUOTE==$this->htmlcode[$i])){
                //单引号
                if(CHAR_S_QUOTE==$this->htmlcode[$i]){
                    //单引号开始过则此单引号进行闭合操作
                    if(true == $bSQuoteStart){
                        $bSQuoteStart = false;
                    }
                    //双引号开始过则跳过
                    else{
                        if(true == $bDQuoteStart){
                            continue;
                        }
                        //单引号开头的字符串开启
                        else{
                            $bSQuoteStart = true;
                        }
                    }
                }
                //双引号
                else{
                    //双引号开始过则闭合
                    if(true == $bDQuoteStart){
                        $bDQuoteStart = false;
                    }
                    //单引号开始过则跳过
                    else{
                        if(true == $bSQuoteStart){
                            continue;
                        }
                        //双引号开头的字符串开启
                        else{
                            $bDQuoteStart = true;
                        }
                    }
                }
            }//引号处理结束
            //检测到 <字符
            if(CHAR_L_BRACKET==$this->htmlcode[$i]){
                //如果在注释或字符串中则跳过
                if(HTML_COMMENT == $type||$bSQuoteStart||$bDQuoteStart){
                    continue;
                }
                //当前块类型为文本或>开始后遇到<
                //将当前块设为文本并push 重新开启 <
                if($bTextStart||$bLSBracketStart){
                    $bTextStart = false;
                    $temp = trim(substr($this->htmlcode,$posL,$i-$posL));
                    if(""!=$temp){
                        array_push($this->BlockArr,array(HTML_TEXT,"",0,array($posL,$i-$posL)));
                    }
                }
                $posL=$i;
                $type = HTML_TAG_ST;
                $bLSBracketStart = true;
                $bCommentOEndTag = true;
                continue;
            }// < 结束
            //检测到 >字符
            if(CHAR_R_BRACKET==$this->htmlcode[$i]){
                //在字符串内则跳过 或<没开始
                if($bSQuoteStart||$bDQuoteStart||false==$bLSBracketStart){
                    continue;
                }
                $posR = $i;
                $bRSBracketStart = true;
                //开始块 结束块 注释块在此处理
                //文本块不在此处理
                //截取出当前块的内容
                $tempstr = substr($this->htmlcode,$posL,$posR-$posL+1);
                switch($type){
                    case HTML_TAG_ST:
                        //提取标签名
                        $tagname = preg_match("/<\s*(\w+)/i",$tempstr,$temp) ? strtolower($temp[1]):"STerror";
                        if("STerror" == $tagname){
                            array_push($this->BlockArr,array(HTML_TEXT,"",0,array($posL,$posR-$posL+1)));
                            break;
                        }
                        //分析是否是单标签
                        $bSingleTag = preg_match('/\/\s*>$/',$tempstr,$temp)?true:false;
                        if($bSingleTag){
                            //将块压到目标数组中 是单标签
                            array_push($this->BlockArr,array(HTML_SINGLE_TAG,$tagname,0,array($posL,$posR-$posL+1)));
                        }
                        else{
                            //将块压到目标数组中 是开始标签或没正确闭合的标签
                            array_push($this->BlockArr,array(HTML_TAG_ST,$tagname,0,array($posL,$posR-$posL+1)));
                        }
                        
                    break;
                    case HTML_TAG_END:
                        //提取标签名
                        $tagname = preg_match("/<\s*\/\s*(\w+)/i",$tempstr,$temp) ? strtolower($temp[1]):"ENDerror";
                        if("ENDerror"==$tagname){
                            array_push($this->BlockArr,array(HTML_TEXT,"",0,array($posL,$posR-$posL+1)));
                        }
                        else{
                            array_push($this->BlockArr,array(HTML_TAG_END,$tagname,0,array($posL,$posR-$posL+1)));
                        }
                    break;
                    case HTML_COMMENT:
                        //直接将当前块的内容压到目标数组中
                        array_push($this->BlockArr,array(HTML_COMMENT,"",0,array($posL,$posR-$posL+1)));
                    break;
                    default:break;
                }
                //闭合 <
                $bLSBracketStart = false;
                $bTextStart = true;
                $type = 0;
                //为文本做准备
                $posL = $i+1;
            }
        }
    }
    function MarkSingleTag(){
        $bMatched = false;
        for($i=0;$i<count($this->BlockArr)-1;$i++){
            if(HTML_COMMENT == $this->BlockArr[$i][0]||HTML_TEXT == $this->BlockArr[$i][0]||HTML_SINGLE_TAG == $this->BlockArr[$i][0]){
                continue;
            }
            //开始标签
            if(HTML_TAG_ST == $this->BlockArr[$i][0]){
                array_push($this->Zhan,$i);
            }
            //结束标签
            else{
                for($j = count($this->Zhan)-1;$j>=0;$j--){
                    if($this->BlockArr[$this->Zhan[$j]][1]==$this->BlockArr[$i][1]){
                        $bMatched = true;
                        for($k = count($this->Zhan)-1;$k>=0;$k--){
                            if($this->BlockArr[$this->Zhan[$k]][1]!=$this->BlockArr[$i][1]){
                                //没关闭的标签
                                $this->BlockArr[$this->Zhan[$k]][0]=HTML_SINGLE_TAG;
                                array_pop($this->Zhan);
                            }
                            else{
                                array_pop($this->Zhan);
                                break;
                            }
                        }
                    }
                }
                if(false==$bMatched){
                    $this->BlockArr[$i][0]=HTML_SINGLE_TAG;
                }
                $bMatched = false;
            }
        }
    }
    //获取开始标签或单标签的属性数组
    //预处理 私有不可访问
    private function GetAttributes($str){
        $AttrArr = array();
        //属性字符串提取
        $AttrStr = preg_match("/<\s*?[a-zA-Z]+?\s+?([^>\/]*?)[>]/",$str,$temp)?$temp[1]:"";
        //化为kv数组
        preg_match_all('/\s*?([a-zA-Z]+[-]?[a-zA-Z0-9]+)\s*?[=][\s]*?[\'\"]?([^\s\'\"]+?)[\'\"\s]+?/',$AttrStr,$match);
        for($i=0;$i<count($match[0]);$i++){
            $AttrArr[$match[1][$i]] = $match[2][$i];
        }
        return $AttrArr;
    }
    public function BeginParser(){
        //加载html源码
        $this->LoadHTML();
        $datetime = new DateTime('Asia/Hong_Kong');
        print "Loaded HTML:".$datetime->format('Y/m/d H:i:s')."<br/>";
        //html分块
        $this->Split2Block();
        $datetime = new DateTime('Asia/Hong_Kong');
        print "Split2Block:".$datetime->format('Y/m/d H:i:s')."<br/>";
        //寻找单标签
        $this->MarkSingleTag();
        $datetime = new DateTime('Asia/Hong_Kong');
        print "Find SingleTag:".$datetime->format('Y/m/d H:i:s')."<br/>";
        //之前的代码 测试调用 重写父函数抽象方法 的结果
        //不过这个版本的每个BlockArr的块中 最后面的不是字符串而是array($index,$length)保存在字符串在原html中的下标和长度
        $level = 0;
        for($i=0;$i<count($this->BlockArr);$i++){
            switch($this->BlockArr[$i][0]){
                case HTML_TAG_ST:
                    $level++;
                    $this->BlockArr[$i][2]=$level;
                    $this->StartTag($this->BlockArr[$i][1],$this->GetAttributes(substr($this->htmlcode,$this->BlockArr[$i][3][0],$this->BlockArr[$i][3][1])));
                break;
                case HTML_TAG_END:
                    $level--;
                    $this->BlockArr[$i][2]=$level;
                    $this->EndTag($this->BlockArr[$i][1]);
                break;
                case HTML_SINGLE_TAG:
                    $this->BlockArr[$i][2]=$level;
                    $this->SingleTag($this->BlockArr[$i][1],$this->GetAttributes(substr($this->htmlcode,$this->BlockArr[$i][3][0],$this->BlockArr[$i][3][1])));
                break;
                case HTML_TEXT:
                    $this->BlockArr[$i][2]=$level;
                    $this->TextBlock(substr($this->htmlcode,$this->BlockArr[$i][3][0],$this->BlockArr[$i][3][1]));
                break;
                case HTML_COMMENT:
                
                break;
                default:break;
            }
        }
    }
    //遇到开始标签时调用
    abstract function StartTag($tagname,$attrArr);
    //遇到结束标签时调用
    abstract function EndTag($tagname);
    abstract function SingleTag($tagname,$attrArr);
    //遇到文本时调用
    abstract function TextBlock($txt);
}

//例子
class newparser extends parser{
    function StartTag($tagname,$attr){
        echo "starttag:".$tagname."<br/>";
    }
    function EndTag($tagname){
        echo "EndTag:".$tagname."<br/>";
    }
    function SingleTag($tagname,$attr){
        echo "SingleTag:".$tagname."<br/>";
    }
    function TextBlock($str){
        echo "TextBlock:---".$str."<br/>";
    }
}
$parser1 = new newparser("http://localhost/MyHTMLParser/test.html");
//$parser1 = new newparser("http://localhost/MyHTMLParser/maxLength.html");
$parser1->BeginParser();

?>

一次测试（数组说明(块类型，标签名，嵌套深度，块完整字符串)）：

对提取标签属性数组的测试

var_dump(FindAttributes('<meta name="Description"width=100 content="special effect">'));

要想用于采集，分出标签的层次是必须的，找出单标签也不难。开始时我用的递推方法，太傻不拉几了，性能达不到嵌套太深。后来对数组进行栈操作。碰到开始标签则入栈，碰到结束标签则进行归约，不能归约的当做单标签；成功则pop，将中间的开始标签全标记为单标签。

13w多个块，html文档0.55M大小，也只用2s，火狐和谷歌结果是一样的。用来测试的文件很大，Firefox浏览器hold不住，chrome渲染起来也很累

字体编辑用的中日韩Unicode字码表

2025年PHP框架推荐及对比行思理 LNMP 运维 php 开发语言
以下是针对2025年PHP框架的推荐及全方位对比分析，结合性能、功能生态、适用场景等核心维度，帮助开发者做出合理选择：一、主流PHP框架推荐1.Laravel核心特性：以优雅的语法和强大的功能著称，支持EloquentORM、Blade模板引擎、队列系统等，适合复杂业务开发。社区生态丰富，提供大量扩展包（如Passport、Horizon）。性能：RPS约200-500，适合中大型项目，但对高并发
计算机毕业设计PHP保利和院物业服务管理系统小程序（源码+程序+uni+lw+部署）计算机专业毕设程序课程设计 php 小程序
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
基于thinkphp5小区物业管理系统设计与实现(源码+lw+部署文档+讲解等) 阿逸学长 #java毕设精选案例开发语言毕设 php java
基于thinkphp5小区物业管理系统设计与实现(源码+lw+部署文档+讲解等)文章目录基于thinkphp5小区物业管理系统设计与实现(源码+lw+部署文档+讲解等)引言项目概述功能介绍系统管理员：社区业主：技术栈功能截图示例代码数据库操作示例源码获取引言博主介绍：✌专注于Java技术领域和学生毕业项目实战，欢迎大家交流✌主要内容：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、
超越传统！wangEditor编辑器如何实现excel、ppt、pdf及word一键导入？ 2501_90699780 编辑器 excel powerpoint umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片
要求：开源，免费，技术支持编辑器：wangEditor前端：vue2,vue3,vue-cli,html5后端：java,jsp,springboot,asp.net,php,asp,.netcore,.netmvc,.netform群体：学生,个人用户,外包,自由职业者,中小型网站,博客,场景：数字门户,数字中台,站群,内网，外网，信创国产化环境，web截屏行业：医疗，教育，建筑，政府，党政，国
吴大仙带你三分钟学会swoole框架大仙带你飞 php swoole
前言最近在学习swoole这个东西，就写点心得吧。基于swoole的开源框架很多，优缺点自己百度，凡是有用到websocket和消费队列选择基于swoole的框架是不错的选择。好吧话不多说，吴大仙就介绍一下swoole的一个简单入门吧正文swoole有两个部分。一个是PHP扩展，用C开发的，这是核心。另一个是框架，像yii、TP、Laravel一样，是PHP代码写的。swoole扩展本身提供了we
laravel基础 m0_65977885 lavarel
#laravel基础###一、MVC设计模式在php的的主流框架中，大多都采用MVC的设计模式，它可以将代码解耦，让视图代码和逻辑代码分开编写，为后期的维护带来了极大的便利。**MVC是模型（model）、视图（view）、控制器（controller）是组合**，它表示将软件系统分成3个核心部分。-模型model，用于数据处理-视图view，用于显示数据-控制器controller，接收用户请求
PHP前置知识-HTML学习 freesec html 学习前端
HTML学习1、因特网和万维网1.1、Internet因特网：全球资源的总汇，连接网络的网络1.2、TCP/IP协议簇：传输层/网络层协议1.3、万维网：www（worldwideweb）HTTP超文本传输协议作用：接受和发布HTMl页面URL统一资源定位符协议://域名:端口号/文件路径/文件名.文件后缀http://www.QQ.com.cn:80/tq/index.html1.4、W3C组织
PHP入门教程3：数组和字符串操作 Evaporator Core #php程序设计经验 php android 开发语言
PHP入门教程3：数组和字符串操作在前两篇文章中，我们学习了PHP的基础语法、控制结构和函数的使用。本文将重点介绍数组和字符串的高级操作，这些是PHP编程中非常常见且重要的内容。本文将包含以下几个部分：数组的类型和操作多维数组数组函数字符串操作字符串函数1.数组的类型和操作数组是一种可以存储多个值的数据结构。PHP中有三种类型的数组：索引数组、关联数组和多维数组。索引数组索引数组是用数字索引的数组
Java、Python、PHP、Go：网站开发语言全维度对比与选择指南生信天地开发语言 java python
在数字化转型浪潮中，网站开发技术的选择直接影响着项目的成败。Java、Python、PHP、Go四门语言凭借各自特性，在不同场景中展现出独特的竞争力。根据Statista2024年开发者调查报告，Java仍以34%的企业级应用占比位居榜首，而Go以27%的增速成为云原生领域新宠。本文基于技术特性、行业案例及发展趋势，深度解析四大语言的优劣势，助您做出精准技术选型。一、性能与并发能力：高负载场景的生
【Python】爬取高校数据（名字，院校特色，所在地，性质）。可用于判断高校是否为双一流，本科/专科等分析 llzcxdb Python python 开发语言爬虫
源网站：http://college.gaokao.com/schlist/p1利用Python的lxml库进行html解析，源代码：importrequestsfromlxmlimportetreeimportpandasaspdimportcsv#请求URLurl='http://college.gaokao.com/schlist/p'#构建请求头headers={'User-Agent':
[HelloCTF]PHPinclude-labs超详细WP-Level 2-data协议 Haicaji WP php 网络安全 web安全
源码分析重点关注这两行代码echoinclude("data://text/plain;base64,4pedKCrigbDilr/igbAqKeKXnEhlbGxvLUNURnd3");isset($_GET['wrappers'])?include("data://text/plain".$_GET['wrappers']):'';发现这里出现了data协议data://-数据流(RFC239
python基于django/flask体育馆管理系统Django-SpringBoot-php-Node.js-flask QQ_511008285 python django flask spring boot php node.js
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
php开发转go的学习计划及课程资料信息老李要转行 php golang 学习
以下是为该课程体系整理的配套教材和教程资源清单，包含书籍、视频、官方文档和实战项目资源，帮助你系统化学习：Go语言学习教材推荐（PHP开发者适配版）一、核心教材（按学习阶段分类）1.基础语法阶段（阶段一）资源类型名称推荐理由链接/获取方式官方教程Go语言之旅交互式学习，快速上手基础语法官方免费中文书籍《Go语言入门指南》专为有其他语言经验的开发者编写京东/当当速查手册Go速查表PHP与Go语法对比
云贝餐饮独立连锁版v3源码扫码点餐毕业设计参考好选择可二开 DeepinThinks 源码分享课程设计 php 小程序
云贝V3最新版，采用PHP语言和Laravel9框架，前端使用VUE3和小程序uniapp开发。️云贝V3特点：全开源：提供完整的源代码，无版权纠纷。免授权：无需支付额外授权费用。可二开：支持二次开发，满足个性化需求。技术支持：提供开发者技术支持，确保项目顺利进行。最新版本号：V1.7.9新增会员价显示会员价开关(设置-订单设置-商品设置)新增异地外卖下单开关(门店-业务设置-外送设置)新增套餐固
下载 CSS 文件阻塞，会阻塞构建 DOM 树吗？会阻塞页面的显示吗？ liangshanbo1215 前端性能 css 前端
下载CSS文件会对页面的渲染过程产生影响，具体是否阻塞DOM树的构建和页面的显示，取决于浏览器的渲染机制。1.CSS文件下载是否会阻塞DOM树的构建？一般情况下，CSS文件下载不会阻塞DOM树的构建：DOM树的构建是由HTML解析器完成的，解析器会逐行解析HTML并构建DOM树。即使CSS文件正在下载，HTML解析器仍然会继续工作，构建DOM树。但如果JavaScript访问了样式，CSS文件下载
最新计算机专业毕设论文选题大全基于BeautifulSoup的毕业设计详细题目100套优质毕设项目分享(源码+论文)✅ 会写代码的羊毕设选题课程设计 beautifulsoup 毕业设计毕业设计题目毕设题目 python 网络爬虫
文章目录前言最新毕设选题（建议收藏起来）基于BeautifulSoup的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费
HTML编辑器CKEDITOR支持哪些格式的WORD内容导入？ 2501_90699640 html 编辑器 word ckeditor粘贴word ckeditor导入word ckeditor导入pdf ckeditor导入ppt
要求：开源，免费，技术支持编辑器：ckeditor前端：vue2,vue3.vue-cli后端：asp,java,jsp,springboot,php,asp.net,.netcore功能：导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word,导入微信公众号内容,web截屏平台：Windows,macOS,Linux,RedHat,Ubuntu,CentO
PHPer看docker容器的管理详解 PHP开源社区 PHP架构 docker python mysql php
查询容器信息dockerinspcet查询信息，包括运行情况、存贮位置、配置参数、网络设置等。查询容器的运行状态dockerinspect-f{{.State.Status}}【容器】查询容器的IPdockerinspect-f{{.NetworkSettings.IPAddress}}【容器】查询容器日志信息Ωdockerlogs【容器】-f实时打印最新的日志dockerstats实时查看容器所
原来的笔记-pear live user最难理解的conf.php的内容 stone5 user session path integer null email
最难理解的conf.php的内容Posted三月9th,2007bystone5pear最难懂的conf.php的内容放这里ini_set("include_path",'../libs/PEAR/'.PATH_SEPARATOR.ini_get("include_path"));require_once'MDB2.php';require_once'LiveUser/LiveUser.php';
python基于django/flask网上书城系统Django-SpringBoot-php-Node.js-flask QQ_1963288475 python django flask spring boot php laravel node.js
目录技术栈介绍具体实现截图![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/7b88ca45e7124106a000075acaf2f4e8.png)系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研
在 CentOS 7 上安装 PHP 7.3 wjf63000 centos php linux
在CentOS7上安装PHP7.3可以按照以下步骤进行操作：1.安装必要的依赖和EPEL仓库EPEL（ExtraPackagesforEnterpriseLinux）是为企业级Linux提供额外软件包的仓库，yum-utils用于管理yum仓库。sudoyuminstall-yepel-releaseyum-utils2.添加Remi仓库Remi仓库包含了丰富的PHP版本，你可以从中选择PHP7.
GIT日常记录码农汉子 elasticsearch 大数据搜索引擎
sudogitclonehttps://gitee.com/yiketalks/yike_admin.git命令行下载项目命令（进入本地项目地址下）//查看远程仓库地址gitremote-v//切换远程仓库gitremoteset-urloriginhttps://gitee.com/yike_php/yike_work.git分支操作gitbranch//显示分支一览表，同时确认当前所在的分支1
【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
批量检查微信小程序是否被封的Go代码微信微信小程序
概述：这段Go代码通过请求接口https://api.52an.fun/xcx/checkxcx.php?appid={appid}，批量检查多个微信小程序是否被封禁。接口返回的JSON数据中包含code字段，code为1表示小程序正常，code为0表示小程序被封禁，并且会返回封禁原因。程序会根据返回结果输出每个小程序的状态。Go代码示例：packagemainimport("encoding/j
批量检查QQ域名是否被封的C++代码示例 qq
概述：此C++代码示例展示了如何批量请求指定的API接口，检查QQ域名的状态。根据API返回的status值，status为1表示域名正常，status为0表示域名被封禁。我们将使用libcurl来进行HTTP请求，使用jsoncpp解析返回的JSON数据。目标：通过C++编写代码，批量请求https://api.52an.fun/qq/api.php?url=接口，检查多个QQ域名的封禁状态，并
PHP与数据库连接常见问题及解决办法奥顺互联_老张 php教程 php 数据库
PHP与数据库连接常见问题及解决办法在现代Web开发中，PHP与数据库的连接是不可或缺的一部分。无论是构建动态网站、内容管理系统（CMS）还是电子商务平台，PHP与数据库的交互都是核心功能之一。然而，在实际开发过程中，开发者常常会遇到各种与数据库连接相关的问题。本文将探讨PHP与数据库连接中的常见问题，并提供相应的解决办法。1.数据库连接失败问题描述在PHP中，连接数据库时最常见的错误是无法连接到
AJAX PHP：深入理解与实际应用 wjs2024 开发语言
AJAXPHP：深入理解与实际应用引言随着互联网技术的不断发展，前端与后端交互变得更加频繁。AJAX（AsynchronousJavaScriptandXML）和PHP（HypertextPreprocessor）作为两种流行的技术，在实现动态网页和应用程序方面扮演着重要角色。本文将深入探讨AJAXPHP的工作原理、应用场景以及实际开发中的注意事项。AJAXPHP概述AJAXAJAX是一种基于Ja
mongodb基本使用（四） dibisha7239 数据库 javascript 数据结构与算法 ViewUI
MongoDB条件操作符描述条件操作符用于比较两个表达式并从mongoDB集合中获取数据。MongoDB中条件操作符有：(>)大于-$gt(=)大于等于-$gte(db.col.insert({title:'PHP教程',description:'PHP是一种创建动态交互性站点的强有力的服务器端脚本语言。',by:'菜鸟教程',url:'http://www.runoob.com',tags:['
树莓派搭php,Raspberry Pi 树莓派搭LAMP服务器平平无奇的美女树莓派搭php
目录：为什么要用树莓派?DebianLinux安全性操作系统性能优化配置网络开启sshMakingtheserveravailableontheInternetDNS安装apache安全MySQL安装PHP配置完成本文将会介绍如何把树莓派配置为一台LAMP服务器.这和把XUbuntu配成LAMP服务器有些相似,但是针对树莓派有些需要特殊处理的地方.下面是LAMP服务器的最通用配置:Linux–操作
Android进行Post提交JSON数据注意事项 kerry1789 Android 感慨 android java 单元测试
刚好业务需要写一个测试程序给客户使用，直接入主题吧！请求地址：http://12.32.12.32:91889/testx.php请求参数：{"test1":"顾家家居口味咯咯咯","test2":"把1册","test3":"13512341234","test4":"5rW35Y2X55uR54ux566h55CG5bGA6LCD5bqm5oyH5oyl5bmz5Y","test5":"123
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

php解析html类

你可能感兴趣的:(PHP,php采集,html解析)