Java调用Python并传递参数(爬虫8)

前因

最近确实学习了不少的东西。
在两方面的感受最深刻:

  1. 一款APP的开发,从前到后的流程原来是这样啊。
  2. 每门语言都有它的强大之处,不是它能不能实现,而是你想不想实现。

联调方案

爬虫这边已经把数据存进MySQL了。
但是和后台那边还没有想好怎么联调。

  • 想法一:
    安卓组直接提供爬虫组需要的用户信息。
    怎么给?http协议?反正我不知道…

  • 想法二:
    安卓就相当于是前端,它的后台就是后台小哥。
    直接让后台把用户信息存成一张表。
    读取每一条用户信息,调用爬虫组的Python程序,参数传入。
    爬虫组直接将数据又存进后台的数据库里。

这个想法应该是可以的,毕竟Java和Python都很强大。

Java调用Python

总体思想:

在有新用户加入或者有新的数据需要更新的时候,Java直接调用爬虫并传入参数。结果就是数据存入到了数据库。

了解到Java有Runtime.getRuntime().exec()
这样就好办多了。
这个方法其实就好像是cmd命令行一样的执行python 程序:

Runtime.getRuntime().exec("python D:\\studentdb.py id password");

id和password就是传入的参数。
把原爬虫程序改为:

if __name__ == '__main__':
    # 初始化爬虫对象
    xs = XDspiderStudent()
    # 登录(在此处传入正确的个人学号与密码信息)
    #从Java里传入参数
    xs.login((sys.argv[1]), (sys.argv[2]))
    xs.Store()
    xs.saveMysql()

这样即可。

这样需要一个服务器也就可以了。
就是不知到怎么部署,还需要学习。

后果

之前试过用Java调用Python,到真正用的时候才发现是一个乌龙。

error

错误就是我的程序太多了,程序命名混乱,导致执行了不该执行的程序,而我以为它跑通了。

这个方法:

Runtime.getRuntime().exec("python D:\\studentdb.py id password");  

并不能传递形参!!!
只可以这样使用:

 Runtime.getRuntime().exec("python D:\\studentdb.py 12345678 666666"); 

这样是可以把学号和密码传入Python文件,并且执行。
而前者的形参方法,是会直接把形参当成字符串直接传进Python…
这也就是说,这个方法只可以传递字符串。
前几天调到半夜发现的真理。

那么还有解决办法吗?
肯定有,要么是我不知道,要么是我不会。

新方法Jython

查找资料发现这个第三方包Jython是可以用来传递Python参数并且执行代码。
之前也有注意到这个方法,但是由于考虑到它的复杂性,和Runtime.getRuntime().exec()方法的简单性,就没有往这里想,毕竟程序员是最懒的。

首先得下载Jython这个第三方包。

调试记录

1、

console: Failed to install '':java.nio.charset.UnsupportedCharsetException: cp0.

Run As>Run Configurations,选择第二个页签Arguments,在VM arguments中添加-Dpython.console.encoding=UTF-8即可,然后Apply>Run就行了
2、java用jython.jar调用python脚本,脚本中import了第三方库时,报错:import xxx: no module named xxx.
两种解决方法:
(1)下载或pip install需要的第三方库,将jython.jar改成jython.zip,并解压缩,将下载的第三方库(以库名定义的文件夹)放到jython文件夹下的/Lib或/Lib/site-packages下,最后将jython文件夹重新打包(注意:打包时不要直接对jython文件夹打包,只打包jython根目录下的所有文件),并改后缀为.jar,配置到java的工程目录中(构建路径)。
(2)配置python的系统路径,java解析脚本时会到sys.path中找import的第三方库,只要sys.path中能找到第三方库的文件夹即可。
注:在java端通过语句:PySystemState sys = Py.getSystemState();
System.out.println(sys.path.toString());打印路径信息。

最后的bug与悔悟

一步步的将各个遇到的bug击破,遇到最大的障碍:识别不了requests包。
和队友们思前想后,觉得这可能是和Python的版本有关系。
我们统一用的是Python35,从这个第三包的名字就可以的看出Jython2.7就能看得出它是支持Python27的。

但是事物的发展不就是要走在最前沿的吗!
这个问题肯定有它的解决办法。只是我不知道和不会。
现在最蠢的解决办法有两种:
1. 重写Python3程序为Python2
2. 后台将获得的学号密码生成为CSV文件保存到本地,再直接执行Python程序。Python程序里读取本地CSV文件,获取学号密码,进行爬虫活动,存数据到MySQL,再删除CSV。

第一种方法需要花时间。
第二种方法太笨,在处理多并发的活动时可能会崩塌。而且效率低。

思前想后,为了以后工作的顺利进行,还是选择第一种吧,重新写Python程序为2。

你可能感兴趣的:(爬虫-python)