;win32汇编环境,网络编程入门之十八
;在这一教程里,学习一下,如何判断访问的网页是什么编码,以下示例只判断是 UFT-8 还是 GB2312编码,其它的编码方式可以此类推
;为什么需要这个东西?网页一般是html语言写的,或者php等,它们都要标示出我是什么编码写的
;因为你电脑前的键盘上的这些键,这些字母和符号,叫ASCII码,它们每个都占用一个字节。
;但是,世界上的语言很多,比如中文。中文的每个字用一个字节表示不够,但究竟用多少个字节,表达的方式就多了。有UTF-8编码,有GB2312编码等。
;所以,每个网页需要自已声明,自已是什么编码的。其它的电脑访问,知道了之后,才明白用什么方式解码出来。
;在前面的教程里,我们假设所访问的网页编码都是UFT-8,但这并非唯一的。如果遇到其它编码的网页,那获取的数据显示出来就是乱码。
;所以,我们需要提前分析出网页的编码
;这里,我们需要知道,网页的编码不是在HTTP报头里,而是在html语言头里
;这又涉及到html语言了,在这里,只能假设你懂得一些基本的html语言
;比如在html语言里有类似这样的内容
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
; Include 文件定义
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
include windows.inc
include user32.inc
include kernel32.inc
include wininet.inc ;需要添加的wininet头文件
includelib user32.lib
includelib kernel32.lib
includelib wininet.lib ;需要添加的wininet库文件
; 自定义函数声明
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
DlgProc proto :DWORD,:DWORD,:DWORD,:DWORD ;对话框窗口函数
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
; Equ 等值定义
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
MAINDIALOG equ 1
ICO_MAIN equ 1000 ;图标
ID_BUTTON01 equ 41
ID_EDIT01 equ 11
ID_EDIT02 equ 12
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
; 数据段
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
.data
szMsg db "提示",0
szErr db "错误",0
szEnter db 13,10,0 ;回车换行符
szAgent db "Microsoft Internet Explorer",0 ;骗网站说自已是IE浏览器
szHostName db "www.kepai2023.cn",0 ;要访问的主机域名
szUrlPath db "/A/A01.html",0 ;要访问的页面
szVerb db "GET",0 ;GET方法访问
szAccept db "Accept: text/html",0 ;只接受text或html文件返回
szUTF_8 db "UTF_8",0
szGB2312 db "GB2312",0
.data?
hInstance HINSTANCE ?
hEdithwnd01 HWND ?
hEdithwnd02 HWND ?
hInternet dd ?
hHttpSession dd ?
hHttpRequest dd ?
.const
; 代码段
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
.code
start:
invoke GetModuleHandle, NULL
mov hInstance,eax
invoke DialogBoxParam, hInstance, MAINDIALOG,NULL, addr DlgProc, NULL
invoke ExitProcess,eax
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
;处理接收到的字符串,把网页编码提取出来
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
_HandleCoding proc _lpData,_dwSize
LOCAL @hType ;用来当记号,为0时则为UFT-8编码,为1时则为GB2312编码
LOCAL @szBuffer[128]:byte
mov esi,_lpData
mov @hType,0
mov ebx,0
;循环检查字符串,寻找 UFT-8 或GB2312单词
.while TRUE
.break .if ebx == _dwSize
.if byte ptr [esi+ebx] == "U" && byte ptr [esi+ebx+1] == "T" && byte ptr [esi+ebx+2] == "F" && byte ptr [esi+ebx+3] == "-" && byte ptr [esi+ebx+4] == "8"
mov @hType,0
mov eax,0
ret
.endif
.if byte ptr [esi+ebx] == "u" && byte ptr [esi+ebx+1] == "t" && byte ptr [esi+ebx+2] == "f" && byte ptr [esi+ebx+3] == "-" && byte ptr [esi+ebx+4] == "8"
mov @hType,0
mov eax,0
ret
.endif
.if byte ptr [esi+ebx] == "G" && byte ptr [esi+ebx+1] == "B" && byte ptr [esi+ebx+2] == "2" && byte ptr [esi+ebx+3] == "3" && byte ptr [esi+ebx+4] == "1" && byte ptr [esi+ebx+5] == "2"
mov @hType,1
mov eax,1
ret
.endif
.if byte ptr [esi+ebx] == "g" && byte ptr [esi+ebx+1] == "b" && byte ptr [esi+ebx+2] == "2" && byte ptr [esi+ebx+3] == "3" && byte ptr [esi+ebx+4] == "1" && byte ptr [esi+ebx+5] == "2"
mov @hType,1
mov eax,1
ret
.endif
inc ebx
.endw
mov eax,@hType
ret
_HandleCoding endp
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
_WorkThread proc _lParam
LOCAL @dwBytesReaded
LOCAL @szBuffer[256]:byte
LOCAL @szRecBuffer[1024]:byte
LOCAL @szSaveBuffer[1024]:byte
LOCAL @szShowEdit02[256]:byte
LOCAL @stCR:CHARRANGE
LOCAL @szContentLength[128]:byte
LOCAL @szStatusCode[128]:byte
LOCAL @Totallength
invoke InternetOpen,addr szAgent,INTERNET_OPEN_TYPE_DIRECT,NULL,NULL,0 ;初始化应用程序的 WinINet 函数的使用
mov hInternet,eax
invoke InternetConnect,hInternet,addr szHostName,80,NULL,NULL,INTERNET_SERVICE_HTTP,0,0 ;为给定站点打开文件传输协议(FTP)或 HTTP 会话,80是http的端口
mov hHttpSession,eax
.if eax == NULL
invoke MessageBox,NULL,addr szErr,addr szMsg,MB_OK
.endif
invoke HttpOpenRequest,hHttpSession,addr szVerb,addr szUrlPath,NULL,addr szAccept,0,0,0 ;创建 HTTP 请求句柄
mov hHttpRequest,eax
invoke HttpSendRequest,hHttpRequest,NULL,0,NULL,0 ;将指定的请求发送到 HTTP 服务器,可以附加数据,后面再说,先实现基本效果先
invoke SendMessage,hEdithwnd01,WM_SETTEXT,0,0
.while TRUE ;通过循环反复读取,直到读到0字节为止
invoke RtlZeroMemory,addr @szRecBuffer,sizeof @szRecBuffer
invoke RtlZeroMemory,addr @szSaveBuffer,sizeof @szSaveBuffer
mov @dwBytesReaded,0
invoke InternetReadFile,hHttpRequest,addr @szRecBuffer,1024,addr @dwBytesReaded ;从打开的句柄读取数据,
.break .if @dwBytesReaded == 0
invoke _HandleCoding,addr @szRecBuffer,1024 ;调用得到判断网页编码的函数
.if eax == 0
invoke SendMessage,hEdithwnd02,WM_SETTEXT,0,addr szUTF_8
.elseif eax == 1
invoke SendMessage,hEdithwnd02,WM_SETTEXT,0,addr szGB2312
.endif
invoke MultiByteToWideChar,65001,0,addr @szRecBuffer,1024,addr @szSaveBuffer,1024 ;将UTF8编码数据转为UNICODE编码
invoke GetWindowTextLength,hEdithwnd01 ;从后面添加内容,防止覆盖上去
mov @stCR.cpMin,eax
mov @stCR.cpMax,eax
invoke SendMessageW,hEdithwnd01,EM_EXSETSEL,0,addr @stCR
invoke SendMessageW,hEdithwnd01,EM_REPLACESEL,FALSE,addr @szSaveBuffer
.endw
ret
_WorkThread endp
;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
DlgProc proc hWnd:HWND, uMsg:UINT, wParam:WPARAM, lParam:LPARAM
LOCAL @stWsa:WSADATA
.if uMsg == WM_INITDIALOG
invoke LoadIcon,hInstance,ICO_MAIN
invoke SendMessage,hWnd,WM_SETICON,ICON_BIG,eax
invoke GetDlgItem,hWnd,ID_EDIT01
mov hEdithwnd01,eax
invoke GetDlgItem,hWnd,ID_EDIT02
mov hEdithwnd02,eax
.elseif uMsg == WM_COMMAND
mov ebx,wParam
.if bx == ID_BUTTON01
invoke CreateThread,NULL,0,offset _WorkThread,0,NULL,0 ;启动连接线程,用线程的原因是不让网络等待卡住主进程
.endif
.elseif uMsg == WM_CLOSE
invoke InternetCloseHandle,hHttpRequest ;反向清除各类HINTERNET 句柄,即先生成的后清除,后生成的先清除
invoke InternetCloseHandle,hHttpSession
invoke InternetCloseHandle,hInternet
invoke EndDialog,hWnd,NULL
.else
mov eax,FALSE
ret
.endif
mov eax,TRUE
ret
DlgProc endp
end start
;下面为rc文件内容
#include "resource.h" //提示缺少该文件,可以在资源里下载
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
#define MAINDIALOG 1
#define ICO_MAIN 1000 //图标
#define ID_BUTTON01 41
#define ID_EDIT01 11 //编辑框标识符
#define ID_EDIT02 12
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
ICO_MAIN ICON "Main.ico"
//>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
//定义对话框
MAINDIALOG DIALOG 10, 10, 180, 250
STYLE DS_CENTER | WS_CAPTION | WS_MINIMIZEBOX |
WS_SYSMENU | WS_VISIBLE | WS_OVERLAPPED | DS_MODALFRAME | DS_3DLOOK
CAPTION "对话框程序模版"
FONT 11, "方正姚体"
BEGIN
PUSHBUTTON "访问网页", ID_BUTTON01, 120,20,50,12
CONTROL "显示搜索结果",ID_EDIT01,"Edit",WS_CHILDWINDOW|WS_VISIBLE|WS_TABSTOP|ES_MULTILINE|ES_WANTRETURN|ES_AUTOVSCROLL|WS_VSCROLL,10, 50, 160, 190,WS_EX_CLIENTEDGE //设置成多行编辑框,按回车时加回车符
CONTROL "显示网页标题",ID_EDIT02,"Edit",WS_CHILDWINDOW|WS_VISIBLE|WS_TABSTOP|ES_MULTILINE|ES_WANTRETURN|ES_AUTOVSCROLL|WS_VSCROLL,10, 10, 100, 30,WS_EX_CLIENTEDGE
END