医学数据挖掘流程(二):数据预处理

医学数据挖掘基本素养:每一步都要校对数据!!!!!!!!!!!!!!!!!

看数据量、特征数据缺失情况、离散情况、差异情况、特征包含情况(频次、dosage和日剂量)、运行结果。要不然建模数据不好,得重新返工。

代码没思路,多看原始数据逻辑顺,才能写代码顺。深刻理解原始数据,才能理清逻辑。才能决定手工操作方便还是代码方便,在用药数据重复和交叉的情况需要百度药物药效属性,才能决定该合并还是删除。不看数据,没有发言权!!!!!!

数据处理注意事项:

  • 简略查看主要数据:用药和tdm。先提取用药数据,纳排后与tdm数据拼一块,查看数据量和patient_id个数,像日剂量计算、身高体重等字段可以先不加。分轻重缓急
  • 明确限定:
    • 时间限定
    • <

你可能感兴趣的:(数据挖掘,数据挖掘,数据处理)