winform使用CefSharp嵌入浏览器

网上大部分教程的都是使用Nuget下载CefSharp,但是我试了一下,下载速度慢得要命,折腾了好久都没有下载成功,最后只好下载别人提供好的压缩包

同时,使用CefSharp有几个特别注意的地方:

1   你要安装VC ++ Runtime 2013,不然会报  ‘无法加载文件或’CefSharp.Core.dll’程序集或它的一个依赖’ 的错误,下载地址:

  https://www.microsoft.com/zh-CN/download/details.aspx?id=40784

2  设置项目对应的解决方案设置目标平台为x86或者x64

3  根据你的系统下载32位或者64位的CefSharp,当然你可以使用vistual studio的包管理工具Nuget下载,我这里提供压缩包版下载地址,解压就可以使用,免费并免积分,如果那天需要积分了,请告知我一声,我调回来,有时候csdn那边会乱调我的资源所需的积分值

64位:https://download.csdn.net/download/zxy13826134783/12277612

32位:https://download.csdn.net/download/zxy13826134783/12277907

 

首先介绍一下我的开发环境:

vistual studio 2012

window 7

.net framework 4.6 (查阅资料发现有人说CefSharp与.net framework的版本有很大的关系,我测试发现使用vistual studio 2019可以下载最新版CefSharp,而且是把项目对应的解决方案设置目标平台为x86或者x64后才能下载,但到导入项目时出现诡异的警告,运行报错,最后不得不下载别人提供压缩包版的)

 

详细步骤如下:

1  先安装VC ++ Runtime 2013

2  新建一个winform项目,名为CefSharpDemo1

3   设置项目对应的解决方案设置目标平台为x86或者x64,下面动图是以64位作为演示

4   解压下载好的CefSharp,并在项目中添加下面三个dll(就在解压后的文件夹内)引用:

CefSharp.dll

CefSharp.Core.dll

CefSharp.WinForms.dll

5  把解压后的所有文件拷贝到bin/Debug的目录下(注意是x64那个文件夹内的Debug目录,如果是32位系统,则为x86那个文件夹),具体步骤如下动图:

6  在默认新建的窗体Form1编写代码如下:

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.Windows.Forms;

namespace CefSharpDemo1
{
    public partial class Form1 : Form
    {
        public Form1()
        {
            InitializeComponent();
            InitBrowser();
        }

        public CefSharp.WinForms.ChromiumWebBrowser browser;
        public void InitBrowser()
        {
            CefSharp.Cef.Initialize(new CefSharp.CefSettings());
            browser = new CefSharp.WinForms.ChromiumWebBrowser("www.baidu.com");
            this.Controls.Add(browser);
            browser.Dock = DockStyle.Fill;

        }
    }
}

最终运行效果如下动图所示:

winform使用CefSharp嵌入浏览器_第1张图片

 

 

 

2020年6月2日补充:

与javascript进行交互,可实现模拟键盘输入或者鼠标点击操作

//其它初始化操作省略...

public CefSharp.WinForms.ChromiumWebBrowser browser=new CefSharp.WinForms.ChromiumWebBrowser(url);

//为网页中id号为input J_Input的输入控件设置值

browser.GetBrowser().MainFrame.ExecuteJavaScriptAsync("document.getElementById('input J_Input').value='设置的值'")

//模拟鼠标点击,模拟鼠标点击classname为btn J_Submit的控件

browser.GetBrowser().MainFrame.ExecuteJavaScriptAsync("document.getElementsByClassName('btn J_Submit')[0].click();")

 

 

执行javascript方法,获取网页html代码

 

方法1:获取当前页面html源码,同步完成

 //初始化代码省略...
 public CefSharp.WinForms.ChromiumWebBrowser browser;


private async void btnNext_Click(object sender, EventArgs e){
    //注意,下面一行代码需要放在带async关键字的方法内
    string html = await browser.GetBrowser().MainFrame.GetSourceAsync();
}
 

 

方法2:网页加载完毕后自动获取,有点问题,在获取淘宝的html源码时,发现注册的方法回调多次,


//注册网页加载完毕后回调的方法,其它初始化代码省略...
browser.FrameLoadEnd+=browser_FrameLoadEnd;



private void browser_FrameLoadEnd(object sender, CefSharp.FrameLoadEndEventArgs e)
        {
            StringBuilder sb = new StringBuilder();
            sb.AppendLine("function tempFunction() {");
            sb.AppendLine(" return document.getElementsByTagName('html')[0].innerHTML; ");
            sb.AppendLine("}");
            sb.AppendLine("tempFunction();");
            var task01 = browser.GetBrowser().MainFrame.EvaluateScriptAsync(sb.ToString());
            task01.ContinueWith(t =>
            {
                if (!t.IsFaulted)
                {
                    var response = t.Result;
                    if (response.Success == true)
                    {
                        if (response.Result != null)
                        {
                            
                            string html = response.Result.ToString();
                           
                        }
                    }
                }
            });
        }

 

 

2020年6月6日补充:

案例:抓取淘宝数据,并获取每个商品的历史最高价、历史最低价和现价,帮助用户快速找到那个商品最值得买

 

案例视频演示地址:https://www.bilibili.com/video/BV1Dg4y1i7mC

案例项目源码地址下载:https://gitee.com/zxy15914507674/shared_resource_name/blob/master/%E6%B7%98%E5%AE%9D%E5%95%86%E5%93%81%E6%8E%A8%E8%8D%90.rar

 

 

核心知识点

1  网页源码html的获取

2  使用正则表达式解析html并获取到需要的信息

3   CefSharp与JavaScrtipt交互,模拟键盘输入和鼠标点击(文章前面已经讲述,不再叙述)

 

网页源码html的获取涉及到

1  请求的方式是POST还是GET请求;

2  是否需要ip代理,请求某些网站重要的数据是需要ip代理,不然会被识别为爬虫

3  请求方式为POST请求时,是否需要发送表单数据

下面的代码是获取网站的html源码,需要ip代理并根据设置并发送表单数据:

   /// 
        /// 获取网页的源码
        /// 
        /// 网页url地址
        /// POST或者GET
        /// formData的数据,没有填null
        /// 
        public string GetHtml(string url,string Method,Dictionary formData)
        {

            System.Net.ServicePointManager.SecurityProtocol = SecurityProtocolType.Tls12; //加上这一句
            Uri uri = new Uri(url);
            HttpWebRequest myReq = (HttpWebRequest)WebRequest.Create(uri);
            //设置请求头
            myReq.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36";
            myReq.Accept = "*/*";
            myReq.KeepAlive = false;
            myReq.AllowAutoRedirect = true;
            myReq.Headers.Add("Accept-Language", "zh-CN,zh;q=0.9");

            myReq.ContentType = "application/x-www-form-urlencoded;charset=utf-8";

            //设置请求的方式,是POST还是GET请求
            myReq.Method =Method;
            //设置请求的最长时间,毫秒级别,超过这个时间,就算请求失败
            myReq.Timeout = 1000;

            //产生随机数,从List列表中取出代理ip,目的是为了3个ip能轮流请求,这样被识别为爬虫的概率会降低
            Random r = new Random();
            int ramdom=r.Next(1, 4);
            Console.WriteLine(ramdom);


            //设置代理ip,以:分割,如47.84.102.137:1245通过冒号分割后,str[0]="47.84.102.137",str[1]="1245"
            string[] str = Ip_Port_List[ramdom].Split(':');

            string proxyIp =str[0];// str[0];
            int proxyPort =Convert.ToInt32(str[1]);
            //设置代理ip
            myReq.Proxy = new WebProxy(proxyIp, proxyPort);

            //添加表单数据,通过formData来判断是否有表单数据需要提交
            if (formData != null&&formData.Count>0)
            {
                string formDataParam = "";
                int index = 0;
                foreach (var item in formData)
                {
                    //第一个参数一般不需要加&
                    if (index == 0)
                    {
                        formDataParam += item.Key + "=" + item.Value;
                        index++;
                    }
                    else
                    {
                        //从第二个参考开始后就需要加&
                        formDataParam +="&"+item.Key + "=" + item.Value;
                        
                    }
                    //最终formDataParam类似这样:formDataParam=param1=value1¶m2=value2¶m3=value3
                }
                

                myReq.AllowWriteStreamBuffering = true;
                byte[] buffer = Encoding.UTF8.GetBytes(formDataParam);
                myReq.ContentLength = buffer.Length;
                using (Stream requestStream = myReq.GetRequestStream())
                {

                    requestStream.Write(buffer, 0, buffer.Length);
                    requestStream.Flush();
                }
            }
            HttpWebResponse result;
            try
            {
                result = (HttpWebResponse)myReq.GetResponse();
            }
            catch (Exception)
            {

                return "";
            }

            
            Stream receviceStream = result.GetResponseStream();
            StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8"));
            string strHTML = readerOfStream.ReadToEnd();
            readerOfStream.Close();
            receviceStream.Close();
            result.Close();
            return strHTML;
        }

 

使用正则表达式解析html并获取到需要的信息

1   首先得介绍如何得到淘宝的商品id号,打开淘宝,随便输入商品名称,然后在响应的源码中搜索nid,如下图:

winform使用CefSharp嵌入浏览器_第2张图片

如上图中的"nid":"44839745803",这样的数据格式,如何通过正则表达式获取当前页的所有的商品id呢?

winform使用CefSharp嵌入浏览器_第3张图片

解析的代码在源码中的From1类中的 private async void browser_FrameLoadEnd(object sender, FrameLoadEndEventArgs e)方法中,核心代码如下:

var html ="获取到的源码";
if (html == null || html.Length == 0)
{
     Console.WriteLine("获取网页出错");
     return;
}

//匹配的正则表达式        
string strPattern = "\"nid\":\"\\d*";
Regex reg = new Regex(strPattern, RegexOptions.IgnoreCase);
MatchCollection mc = reg.Matches(html);
if (mc.Count == 0)
{
      Console.WriteLine("获取不到数据");
}

foreach (Match m in mc)
{
  string value = m.Value;
  //接着把"nid":"使用空字符串替换就得到商品的id号了
  value = value.Replace("\"nid\":\"", "");
  Console.WriteLine(value);

}

 

2  获取到商品id号后,需要使用第三方解析平台获取价格信息,请求地址:

http://www.tool168.cn/?m=history&a=view&k=https://item.taobao.com/item.htm?id=554415401017,id后面的是刚才获取的商品id号,把这个链接直接复制到浏览器并访问,得到的结果如下图:

winform使用CefSharp嵌入浏览器_第4张图片

 

但通过分析,价格的信息并不在html源码中,而是需要分三步

2.1 从请求的html源码中获取到checkCode的id号(请求该html源码不需要ip代理),如下图:

winform使用CefSharp嵌入浏览器_第5张图片

如何通过正则表达式获取checkCodeId呢?"checkCodeId"  value="全配,后面的使用\w*通配,加上转义,完整的正则表达式为:     "\"checkCodeId\" value=\"\\w*"   ,最后把多余的部分使用空字符串替换即可

 

2.2 获取到checkCodeId后,通过访问http://www.tool168.cn/dm/ptinfo.php获取code,如下图:

winform使用CefSharp嵌入浏览器_第6张图片

该文件的请求访问为POST,同时带有表单数据,如下图:

winform使用CefSharp嵌入浏览器_第7张图片

获取该html源码代码在源码中的TaoBaoOperation类中,如下:

与前面介绍的方法GetHtml唯一不同的是,这个方法不使用ip代理

  /// 
        /// 获取网页源码,不使用代理
        /// 
        /// 
        /// 
        /// 
        /// 
        public string GetHtmlWithOutProxy(string url, string Method, Dictionary formData)
        {

            System.Net.ServicePointManager.SecurityProtocol = SecurityProtocolType.Tls12; //加上这一句
            Uri uri = new Uri(url);
            HttpWebRequest myReq = (HttpWebRequest)WebRequest.Create(uri);
            myReq.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36";
            myReq.Accept = "*/*";
            myReq.KeepAlive = false;
            myReq.AllowAutoRedirect = true;
            myReq.Headers.Add("Accept-Language", "zh-CN,zh;q=0.9");

            myReq.ContentType = "application/x-www-form-urlencoded;charset=utf-8";


            myReq.Method = Method;
     
            //添加Form  Data
            if (formData != null && formData.Count > 0)
            {
                string formDataParam = "";
                int index = 0;
                foreach (var item in formData)
                {
                    if (index == 0)
                    {
                        formDataParam += item.Key + "=" + item.Value;
                        index++;
                    }
                    else
                    {
                        formDataParam += "&" + item.Key + "=" + item.Value;

                    }
                }


                myReq.AllowWriteStreamBuffering = true;
                byte[] buffer = Encoding.UTF8.GetBytes(formDataParam);
                myReq.ContentLength = buffer.Length;
                using (Stream requestStream = myReq.GetRequestStream())
                {

                    requestStream.Write(buffer, 0, buffer.Length);
                    requestStream.Flush();
                }
            }



            HttpWebResponse result = (HttpWebResponse)myReq.GetResponse();
            Stream receviceStream = result.GetResponseStream();
            StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8"));
            string strHTML = readerOfStream.ReadToEnd();
            readerOfStream.Close();
            receviceStream.Close();
            result.Close();
            return strHTML;
        }

调用如下:

 //获取商品的CodeId
 string checkCodeId="c014ceadcf3bcc8ac922f0e8b13c1b5b";
 string shopId="554415401017";
 string con = "https://item.taobao.com/item.htm?id=" + shopId;
 string codeIdUrl = "http://www.tool168.cn/dm/ptinfo.php";
 string CodeId = GetCodeId(codeIdUrl, checkCodeId, con);


 /// 
        /// 获取CodeId
        /// 
        /// 
        /// 
        /// 
        /// 
        private string GetCodeId(string url,string checkCodeId,string con)
        {
            Dictionary formData = new Dictionary();
            formData.Add("checkCode", checkCodeId);
            formData.Add("con", con);
            string codeId = "";
            string html = GetHtmlWithOutProxy(url, "POST", formData);


            string strPattern = "{\"code\":\"\\w*";
            Regex reg = new Regex(strPattern, RegexOptions.IgnoreCase);
            MatchCollection mc = reg.Matches(html);
           
            foreach (Match m in mc)
            {
                codeId = m.Value;
                codeId = codeId.Replace("{\"code\":\"", "");
                Console.WriteLine("codeId:"+codeId);
            }

           
            return codeId;
        }

 

2.3  获取code的id号后,就可以通过访问链接http://www.tool168.cn/dm/history.php?code=0f72c0c84e6f722de6fb57f9feb3691e26545bc2991ffc290ed35271bb855499c9da68f2257e9a908086de963a5ea291dfb568333e84958e获取商品的价格了(获取该html源码需要ip代理),返回的数据格式如下图:

winform使用CefSharp嵌入浏览器_第8张图片

如何通过正则表达式获取到每天的价格呢?使用到了特殊的技巧,先拿一个数据来分析:

winform使用CefSharp嵌入浏览器_第9张图片

 

 

项目运行的必备条件:

1  需要去淘宝购买ip代理,两块钱即可,购买链接:https://item.taobao.com/item.htm?spm=a1z09.2.0.0.1ee32e8dA9OdA6&id=570636814039&_u=62bg4snuf5b8

选择购买3个动态ip即可(2块钱),然后在TaoBaoOperation类输入购买到的链接,如下图:

winform使用CefSharp嵌入浏览器_第10张图片

返回的数据格式类似:

47.84.102.137:1245

23.23.45.139:1356

234.234.134.4:1567

 

2  在TaoBaoOperation类中输入淘宝账号和淘宝登录密码,如下图:

 

 

你可能感兴趣的:(C#编程,CefSharp,C#,内嵌,winform)