BetBrain提供的数据,完全是按照关系建模,严格遵守三范式,xml数据下载到本地以后,无法直接看懂这些数据的意思。所以必须按照他们的套路,将所有数据首先解析,入库,然后用sql查询。
然而他们的数据模型非常庞大,共计有59个表,参见https://everymatrix.atlassian.net/wiki/display/BF/Event。这么多的数据表,要弄一套完全入库的逻辑,如果按照一般的做法,需要比较长的时间,主要是这些事情比较枯燥,字段多,手工容易出错。
所以在处理的过程当中,用了以下的手法,达到了快速,准确的目的:
1. 重复的事情尽量用机器做,人工只处理逻辑的部分。
1.1 首先要采集这些模型,将所有模型分别截图,然后找到了一个在线识别图片文字的网站http://www.newocr.com/,输入图片,输出表名以及字段名,避免手工敲的时候出错,写漏。但是识别图片也有误差,所有的弄完以后,还是人工校验一次。
1.2 当整个数据模型的表,以及字段名都采集下来以后,考虑写程序,将所有的数据,写入数据库。这里面涉及到建表,写java从domain, dao到service的各个层次的程序,一共59个表,如果纯手工的话,写完以后又要测试什么的,很难保证全部正确,费时费力。所以考虑了写模板,然后生成所有的代码这个办法。最后在线上找到了一个网站http://klmu.v099.10000net.cn/,可以一次生成从页面,到数据入库用mybatis的所有逻辑。只需录入包名,表名,以及字段,都生成了。大概总共花了一天的时间,就生成了全部的模型代码,并且测试增删改查数据通过。这个就是工具的威力。
1.3 在模型代码都生成完毕以后,要进行xml解析,里面一些逻辑,还是不可避免的有些简单重复的代码,就写了个freemaker的模板,运行java程序,生成代码。
package com.hym.odds.util; import java.io.BufferedWriter; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStreamWriter; import java.io.Writer; import java.util.Map; import org.slf4j.Logger; import org.slf4j.LoggerFactory; import freemarker.template.Configuration; import freemarker.template.DefaultObjectWrapper; import freemarker.template.Template; import freemarker.template.TemplateException; import freemarker.template.TemplateExceptionHandler; /** * FreeMarkerUtil * * @project betbrain * @author huyumin * @date 2011-9-17 */ public class FreeMarkerUtil { public static Logger logger = LoggerFactory.getLogger(FreeMarkerUtil.class); public static boolean geneHtmlFile(String vsource, @SuppressWarnings("rawtypes") Map propMap,String vpath, String vtarget) { FileOutputStream fos = null; OutputStreamWriter osw = null; Writer out = null; try { Configuration freemarker_cfg = new Configuration(); freemarker_cfg.setDirectoryForTemplateLoading(new File("F:\\test\\betBrain\\src\\com\\hym\\odds\\util"));//模板移到根目录了 freemarker_cfg.setObjectWrapper(new DefaultObjectWrapper()); freemarker_cfg.setDefaultEncoding("UTF-8"); freemarker_cfg.setTemplateExceptionHandler(TemplateExceptionHandler.IGNORE_HANDLER); Template template = freemarker_cfg.getTemplate(vsource); template.setEncoding("UTF-8"); //creatDirs(vpath + vtarget); File afile = new File(vpath + vtarget); fos = new FileOutputStream(afile); osw = new OutputStreamWriter(fos, "UTF-8"); out = new BufferedWriter(osw); template.process(propMap, out); out.flush(); } catch (TemplateException e) { e.printStackTrace(); return false; } catch (IOException e) { e.printStackTrace(); return false; } finally { if (out != null) { try { out.close(); } catch (IOException e) { logger.error(e.getMessage()); } } if (osw != null) { try { osw.close(); } catch (IOException e) { logger.error(e.getMessage()); } } if (fos != null) { try { fos.close(); } catch (IOException e) { logger.error(e.getMessage()); } } } return true; } public static boolean creatDirs(String path) { File aFile = new File(path); if (!aFile.exists()) { return aFile.mkdirs(); } else { return true; } } }
1.4 整套代码在处理的过程当中,不可避免的出现字段名弄错的情况,校正这种错误,就写了个ant脚本,对错误的部分进行替换。
<?xml version="1.0" encoding="utf-8" ?> <project default="main" basedir="."> <target name="main"> <!-- <echo>replace sql...</echo> <replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8"> <replacefilter token="varchar(100)" value="varchar(255)"/> <replacefilter token="AUTO_INCREMENT=17 " value=""/> <replacefilter token="auto_increment" value=""/> </replace> --> <!-- <echo>replace mapper.xml...</echo> <replace dir="F:\test\betBrain\src\com\hym\odds\persistence" includes="*.xml" encoding="UTF-8"> <replacefilter token="(`" value="(`id`,`"/> <replacefilter token="values (" value="values (#{id},"/> <replacefilter token="`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`" value="`id`"/> <replacefilter token="#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id}" value="#{id}"/> </replace> --> <!-- <echo>replace ocationRelation...</echo> <replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8"> <replacefilter token="ocationReIation" value="ocationRelation"/> </replace> --> <!-- <echo>replace 标注...</echo> <replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8"> <replacefilter token="private" value="@XStreamAsAttribute private"/> </replace> --> <echo>replace ventAtion...</echo> <replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8"> <replacefilter token="ventAtion" value="ventAction"/> </replace> </target> </project>
2. 选对正确的xml的解析工具。针对这个特点,基本上是xml一个模型,对应一张表,所以选用的Xstream来处理。这个里面就只有日期类型不匹配,betbrain的日期是yyyy-MM-dd HH:mm:ss.SSS的格式的,就需要进行单独的处理,自己首先写了一个DateConverter,但是没有解决问题,最后只有debugger到xstream的代码中,跟了两次执行过程,把Xstream中的DateConverter拷贝出来,然后添加相应的日期格式就好了,日期全部更新入库。
3. 泛型的使用。在使用xstream解析xml模型,转换成domain的过程中,如果不用泛型,要写大量的重复代码。运用泛型,只需几行代码搞定。
package com.hym.odds.util; import java.util.regex.Matcher; import java.util.regex.Pattern; import com.hym.odds.dto.UpdateDataDTO; import com.thoughtworks.xstream.XStream; import com.thoughtworks.xstream.io.xml.XppDomDriver; public class XMLParseUtil { @SuppressWarnings({ "rawtypes", "unchecked" }) public static <T> T parseInitXML(Class<T> clazT, Class clazD, String xml) { try { String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", ""); Matcher m = Pattern.compile("(<entities>.*?</entities>)").matcher( xmlContent); T dto = null; if (m.find()) { String s = m.group(); XStream xs = new XStream(new XppDomDriver()); xs.registerConverter(new DateConverter()); xs.processAnnotations(clazT); xs.alias("entities", clazT); xs.alias(clazD.getSimpleName(), clazD); xs.addImplicitCollection(clazT, "entities"); dto = (T) xs.fromXML(s); } return dto; } catch (Exception e) { e.printStackTrace(); } return null; } @SuppressWarnings({ "rawtypes", "unchecked" }) public static UpdateDataDTO parseUpdateXML(String xml) { try { String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", ""); Matcher m = Pattern.compile("(<UpdateData.*?</UpdateData>)") .matcher(xmlContent); UpdateDataDTO dto = null; while (m.find()) { String s = m.group(); XStream xs = new XStream(new XppDomDriver()); xs.registerConverter(new DateConverter()); xs.processAnnotations(UpdateDataDTO.class); xs.alias("UpdateData", UpdateDataDTO.class); dto = (UpdateDataDTO) xs.fromXML(s); } return dto; } catch (Exception e) { e.printStackTrace(); } return null; } }
4. 数据性能,整个数据有8G多,在插入的时候,如果都是一条,一条的插入,相当的耗时。所以考虑用batch insert。但是批量插入的时候,一次数据也不能超多,太多了的话,也很慢。所以只能对数据进行分页插入。
@SuppressWarnings("rawtypes") public static void insertObjectToDB(List list, String className, ApplicationContext context) { if ("BettingOffer".equals(className)) { BettingOfferService bettingOfferService = (BettingOfferService) context .getBean("bettingOfferService"); // for (Object object : list) { // bettingOfferService.insert((BettingOffer) object); // } int start = 0; int end = 499; int size = list.size(); if (end >= size) { end = size; } while (end <= size && start < end) { List subList = list.subList(start, end); bettingOfferService.insertBatch(subList); System.out.println("batch insert start = " + start + ", end = " + end); start = start + 500; end = end + 500; if (end >= size) { end = size; } } //bettingOfferService.insertBatch(list); } else if ("BettingOfferStatus".equals(className)) {