iOS模拟登录方正教务系统获取课表

最近做学校教务系统爬虫,这里写一下我遇到的一些问题和心得。

1.用到的工具

Chrome的开发者工具:分析网页行为,查看每次HTTP请求命令与参数等。
TFhepple: HTML解析库。
demo中关于网络请求部分是直接使用原生NSURLSession来完成的。

2.分析网页行为

2.1打开教务系统网页

  • 当我输入教务系统网址,可以看到网页行为如图所示:

    iOS模拟登录方正教务系统获取课表_第1张图片

    一个个点开来看:这里访问页面全部都是通过GET方式。(其中那个blank的404暂时不知道有什么用,而且也不影响,就忽略它吧)
    1.第一个200:没有什么特别重要的信息,忽略。
    iOS模拟登录方正教务系统获取课表_第2张图片

    2.接下来是连续三个重定向(response header里面的Location就是重定向的网址):
    iOS模拟登录方正教务系统获取课表_第3张图片

    iOS模拟登录方正教务系统获取课表_第4张图片

    iOS模拟登录方正教务系统获取课表_第5张图片

    iOS模拟登录方正教务系统获取课表_第6张图片

    这里我们可以看到,在访问http://jw2005.scuteo.com/ 时得到了一个cookie(这个cookie只有在第一次访问时才会产生)。
    在重定向的最后,我们可以看到Request URL中附加了一个字段,这个字段是随机产生的,而且后续的网页访问中这个随机字段也会出现在url中,因此要把这个随机字段保存起来(在第二张图的Request URL中也有另一个随机字段,但此时重定向并没有完成,我们要保存的是最后的那个随机字段)。

    另外还有一点,在实际测试中发现,我们学校的教务系统,上面重定向最后的Request URL中的host地址是会变化的,可能这次访问的host地址是110.65.10.191下次访问得到的host地址就是110.65.10.204了。所以在这里我们也要把host地址保存下来。

  • 关于验证码
    在网上看到很多文章都说可以绕过验证码,但现在方正教务系统好像已经修复这个bug了。验证码识别有很多种方法,在项目中我选择把验证码图片获取下来,然后让用户手动输入。
    这里和验证码有关的是CheckCode.aspx(看到了吧?那个随机字段又出现了)。如果我们在浏览器上直接访问图中那个Request URL,的确是可以获得验证码图片,但实际上它不是我们在教务系统上看到的那张。实际上,获取验证码是需要带上之前获取的那个cookie的,这个cookie保证了我们的验证码,是和账号密码在同一个网页上的。


    iOS模拟登录方正教务系统获取课表_第7张图片

这里总结一下,在打开教务系统网页时我们需要获取什么:1.cookie、2.重定向最后产生的随机字段、3.重定向最后的Host地址

2.2登录


登录时是POST方式,虽然被重定向,但是这一次提交,完成了数据的验证,验证的字段如图所示,第一个字段是登陆界面的一个隐藏字段,这个viewstate每次都得在登陆前获取,还是通过上面GET请求得到页面通过HTML分析工具得到对应的viwestate。txtUserName是用户名(学号),TextBox2是密码,txtSecretCode是验证码,RadioButtonList1代表的是学生。


iOS模拟登录方正教务系统获取课表_第8张图片

重定向访问:(遮挡的部分是学号)


3.代码实现模拟登录

一些属性的说明:

@property (nonatomic ,strong)NSURLSession *session;
@property (nonatomic ,strong)NSString *mainUrl;//教务系统网址@"http://jw2005.scuteo.com/"
@property (nonatomic ,copy)NSString *viewState;//viewstate隐藏字段
@property (nonatomic ,copy)NSString *randomStr;//随机字段
@property (nonatomic ,copy)NSString *httpHost;//host地址
@property (nonatomic ,strong)NSMutableData *httpData;//html数据

@property (weak, nonatomic) IBOutlet UIImageView *img;//验证码图片
@property (weak, nonatomic) IBOutlet UITextField *txf;//验证码输入框
  • 获得view state、随机字段和host:
 - (IBAction)viewStateAndRandomStrGetting:(id)sender {
    NSURL *url = [NSURL URLWithString:self.mainUrl];
    NSMutableURLRequest *request = [NSMutableURLRequest requestWithURL:url];
    request.HTTPMethod = @"GET";
    self.task = [self.session dataTaskWithRequest:request];
    self.task.taskDescription = @"getViewStateAndRandomStr";
    [self.task resume];
}

在这里重定向是交给NSURLSession代理方法去做的,每次重定向由completionHandler(request);来实现,不需要人工手动重定向。

//重定向
 - (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task
willPerformHTTPRedirection:(NSHTTPURLResponse *)response
        newRequest:(NSURLRequest *)request
 completionHandler:(void (^)(NSURLRequest * _Nullable))completionHandler{
    completionHandler(request);
    NSLog(@"%s,",__func__);
}

重定向结束,就可以在响应头(重定向最后200那一步的响应头)获得host和随机字段(这里的做法不太美观。。)

//获取host和随机串
 - (void)URLSession:(NSURLSession *)session dataTask:(NSURLSessionDataTask *)dataTask didReceiveResponse:(NSURLResponse *)response completionHandler:(void (^)(NSURLSessionResponseDisposition))completionHandler{
    completionHandler(NSURLSessionResponseAllow);
    if ([dataTask.taskDescription isEqualToString:@"getViewStateAndRandomStr"]) {
        NSLog(@"getCookies---response:\n%@",response);        
        self.httpHost = response.URL.host;
        //这里要用正则表达式提取比较好
        self.randomStr = [response.URL.absoluteString substringWithRange:NSMakeRange(21, 26)];
        NSLog(@"%@",self.randomStr);
    }
}

获取view state要从response Data中获取,响应的数据不是一次性返回的没所以要在- URLSession: dataTask: didReceiveData:方法中把数据拼接起来。在网络请求结束时再提取viewState。然后还有一点,viewState里面的特殊字符“+”和"="要做编码处理,+替换成%2B,=替换成%3D
然后关于编码问题:正方教务管理系统IOS客户端这篇文章里面说到:

正方教务系统用的编码是GB2312 框架获取下来的NSString虽然已经自动解码,但是很不稳定,有时候会得到空字符串,但是获取下来的DATA就没有这个问题,所以就要手动解码将DATA转为NSString。而且光转码也不行,在分析HTML的时候因为网页头部的编码信息也有问题,所以要做手动修改,这样才能被TFhepple正确解析。

//拼接数据 获取viewState
- (void)URLSession:(NSURLSession *)session dataTask:(NSURLSessionDataTask *)dataTask didReceiveData:(NSData *)data{
   [data enumerateByteRangesUsingBlock:^(const void * _Nonnull bytes, NSRange byteRange, BOOL * _Nonnull stop) {
       [self.httpData appendBytes:bytes length:byteRange.length];
   }];
}

- (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didCompleteWithError:(NSError *)error{
   if (error) {
       NSLog(@"error:%@",error);
       return;
   }
   if ([task.taskDescription isEqualToString:@"getViewStateAndRandomStr"]) {
       //转码
       NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding (kCFStringEncodingGB_18030_2000);
       NSString *transtr = [[NSString alloc]initWithData:self.httpData encoding:enc];
       //修改编码
       NSString *htmlUTF8Str = [transtr stringByReplacingOccurrencesOfString:@"" withString:@""];
       NSData *htmlDataUTF8 = [htmlUTF8Str dataUsingEncoding:NSUTF8StringEncoding];
       TFHpple *xpathParser = [[TFHpple alloc]initWithHTMLData:htmlDataUTF8];
       NSArray *elements  = [xpathParser searchWithXPathQuery:@"//input[@name='__VIEWSTATE']"];
       for (int i=0; i<[elements count]; i++) {
           TFHppleElement *element = [elements objectAtIndex:i];
           self.viewState=[element objectForKey:@"value"];
           NSLog(@"提取到得viewstate为%@",self.viewState);
           self.viewState = [self.viewState stringByReplacingOccurrencesOfString:@"+" withString:@"%2B"];
           self.viewState = [self.viewState stringByReplacingOccurrencesOfString:@"=" withString:@"%3D"];
       }
       self.httpData = nil;
   }
}
  • 获取验证码
 -(void)shuaXinYanZhengMa{
    NSURL *url = [NSURL URLWithString:[NSString stringWithFormat:@"http://%@/%@/CheckCode.aspx",self.httpHost,self.randomStr]];
    NSMutableURLRequest *UrlRequest = [NSMutableURLRequest requestWithURL:url];
//    UrlRequest.HTTPShouldHandleCookies = YES;
    NSHTTPCookieStorage *cookieJar = [NSHTTPCookieStorage sharedHTTPCookieStorage];
    NSHTTPCookie *cookie = [[cookieJar cookiesForURL:[NSURL URLWithString:self.mainUrl]]firstObject];
    [UrlRequest setValue:[NSString stringWithFormat:@"%@=%@", [cookie name], [cookie value]] forHTTPHeaderField:@"Cookie"];
    NSURLSessionDataTask *task = [self.session dataTaskWithRequest:UrlRequest];
    task.taskDescription = @"getCheckCode";
    [task resume];
}
 - (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didCompleteWithError:(NSError *)error{
if ([task.taskDescription isEqualToString:@"getCheckCode"]){
        dispatch_async(dispatch_get_main_queue(), ^{
            self.img.image = [[UIImage alloc]initWithData:self.httpData];
            self.httpData = nil;
        });
    }
}

获取cookie:

NSHTTPCookieStorage *cookieJar = [NSHTTPCookieStorage sharedHTTPCookieStorage];
    NSHTTPCookie *cookie = [[cookieJar cookiesForURL:[NSURL URLWithString:self.mainUrl]]firstObject];
  • 登录



    登录这里按照格式构造post参数即可。中文编码要注意一下。

 - (IBAction)login:(id)sender {
    NSString *paraStr = [NSString stringWithFormat:@"__VIEWSTATE=%@&txtUserName=%@&TextBox2=%@&txtSecretCode=%@&RadioButtonList1=学生&Button1=&lbLanguage=&hidPdrs=&hidsc=",self.viewState,xuehao,mima,self.txf.text];
    NSURL *url = [NSURL URLWithString:[NSString stringWithFormat:@"http://%@/%@/default2.aspx",self.httpHost,self.randomStr]];
    NSMutableURLRequest *request = [NSMutableURLRequest requestWithURL:url];
    request.HTTPMethod = @"POST";
    NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding (kCFStringEncodingGB_18030_2000);
    request.HTTPBody = [paraStr dataUsingEncoding:enc];
    NSURLSessionDataTask *task = [self.session dataTaskWithRequest:request];
    task.taskDescription = @"login";
    [task resume];
}

登录成功后,主要这里要获得一个学生姓名的参数,这个姓名的值在后面获取课表的时候要用到。在html中像是这样的:



如果登录失败,就提取相应的错误信息对用户进行提示。

 - (void)URLSession:(NSURLSession *)session task:(NSURLSessionTask *)task didCompleteWithError:(NSError *)error{
    if ([task.taskDescription isEqualToString:@"login"]) {
        NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding (kCFStringEncodingGB_18030_2000);
        NSString *transtr = [[NSString alloc]initWithData:self.httpData encoding:enc];
        NSString *utf8HtmlStr = [transtr stringByReplacingOccurrencesOfString:@"" withString:@""];
        NSData *htmlDataUTF8 = [utf8HtmlStr dataUsingEncoding:NSUTF8StringEncoding];
        TFHpple *xpathParser = [[TFHpple alloc]initWithHTMLData:htmlDataUTF8];
        NSArray *elements  = [xpathParser searchWithXPathQuery:@"//span[@id='xhxm']"];
        if (elements.count > 0) {
            for (int i=0; i<[elements count]; i++) {
                TFHppleElement *element = [elements objectAtIndex:i];
                NSString *content = [element text];
                self.name=[content substringToIndex:[content length]-2];
                NSLog(@"姓名为%@",self.name);
            }
        }
        else{
            NSArray *errElement = [xpathParser searchWithXPathQuery:@"//script[@language='javascript']"];
            TFHppleElement *scriptNode = errElement.lastObject;//验证码不正确
            NSString *alertMessage = [[scriptNode.content componentsSeparatedByString:@";"]firstObject];
            alertMessage = [[alertMessage componentsSeparatedByString:@"("]lastObject];
            alertMessage = [[alertMessage componentsSeparatedByString:@")"]firstObject];
           ......略
        }
        self.httpData = nil;//清空数据
    }
}

4.获取课表


获取课表这里其实原理上也差不多的,按照截图的格式去构造URL就可以了,访问网页用的还是GET方式。(截这张图的时候因为我太久没操作教务系统了,所以系统给我自动退出了只好重新登录,截图里的随机字段会和上面的不一样,但实际上代码实现用的还是同一个随机字段)。
关于URL的说明:xh后接的是学号,xm后的是姓名(就是登录时候获取的那个,中文字符编码要处理一下),gnmkdm=N121603这个固定就好(不清楚是啥)
带有中文的url和NSString中文的转换

- (IBAction)courseGetting:(id)sender {
    NSString *urlstr = [NSString stringWithFormat:@"http://%@/%@/xskbcx.aspx?xh=%@&xm=%@&gnmkdm=N121603",self.httpHost,self.randomStr,xuehao ,self.name];
    urlstr = [urlstr stringByAddingPercentEncodingWithAllowedCharacters:[NSCharacterSet URLFragmentAllowedCharacterSet]];
    NSURL *url = [NSURL URLWithString:urlstr];
    NSMutableURLRequest *request = [NSMutableURLRequest requestWithURL:url];
    request.HTTPMethod= @"GET";
    [request addValue:[NSString stringWithFormat:@"http://%@/%@/xs_main.aspx?xh=%@",self.httpHost,self.randomStr,xuehao] forHTTPHeaderField:@"Referer"];//这句一定不能漏
    NSURLSessionDataTask *task = [self.session dataTaskWithRequest:request];
    task.taskDescription = @"courseget";
    [task resume];
}

这里还有一个问题要注意一下的,[request addValue:[NSString stringWithFormat:@"http://%@/%@/xs_main.aspx?xh=%@",self.httpHost,self.randomStr,xuehao] forHTTPHeaderField:@"Referer"];这句一定不能漏,表明这个页面时从哪里跳转过来的(做模拟登录时还不要求一定要提供Referer请求头)。

请求成功后就可以从获取到的html Data 中得到课程数据了,具体要怎么解析,根据实际获得的html数据格式实际分析吧。

最后的一点感想:
不同学校的方正教务系统或多或少都会有些不同,但本质上原理还是相同的。在做教务系统爬虫的时候根据实际情况实际分析,多利用浏览器的开发者工具分析网页行为。
demo在这里

正方教务管理系统IOS客户端
使用 ASIHttpRequest 模拟登陆正方教务系统的几点心得
毕业设计想把学校教务系统的功能模块做成手机APP?
PHP模拟登陆正方系统获取课表、成绩(一看就懂!!!)
关于TFHpple第三方库解析html的用法:
https://yq.aliyun.com/articles/30672
https://segmentfault.com/a/1190000003860297

你可能感兴趣的:(iOS模拟登录方正教务系统获取课表)