lagoon_lala

肝移植笔记3:相关论文汇总

找计算机方面，医学方面的好期刊发表交叉学科论文

医学方面期刊

cell, cancer, lancet, journal of clinical medicine

国内去知网看看，带中国、中华开头的杂志都不错, 就找肝相关的杂志,分泌、内科相关的搜一下

论文pdf寻找可以去学校图书馆里找找,或者谷歌学术

小样本的搜下关键字，看下都有啥期刊

计算机方面的在dblp搜：

dblp: computer science bibliography

https://www.sciencedirect.com/science/article

https://stat.paperswithcode.com/

然后看所发表的期刊会议直接看Ccf目录：

中国计算机学会(CCF)推荐国际学术会议和期刊目录(2019)-单页 - Ying ZHANG

SCI期刊影响因子查询_2021影响因子查询_唯问Justscience_中外核心期刊查询系统

小样本高维特征问题

针对关键词搜索

1.高维小样本

2.并发症

高维小样本上使用演化算法的多分类

代码

scikit数据集

集成特征选择（高维、低样本数据）

RNN特征选择（高维小样本）

DNP

小样本高维特征问题

参考：机器学习如何在小样本高维特征问题下获得良好表现？ - 知乎

用各种机器学习算法不如用统计检验的方法做前期的特征工程。例如著名的T检验。关于传统统计模型大体分两部分：参数估计和假设检验。比如对于时间序列数据，先后需要acf/pacf验证并差分去除平稳性，ma/ar模型参数估计，假设检验。

手工实现特征工程是一件极为繁琐的事情，尤其是对于图像处理领域，存在大量的图像处理算子（例如SIFT、HOG、LBP）。对于新手来说，很难找到适合对应问题的图像处理算子。因此，这时候我们就需要一种AutoML算法，能够自动选择合适的图像处理算子对图像特征进行提取。随后，提取好的特征使用一个SVM进行训练即可。

小样本图像/表格数据学习可以考虑使用基于Genetic Programming的AutoML算法提取图像/表格特征，并使用简单的模型（线性模型/决策树）实现学习。

至于表格类数据的特征提取，有兴趣的同学可以看一下我的另一篇知乎文章[1]，或者是华南理工大学钟竞辉老师在2021年TETCI上的文章[2]。

表格数据特征提取：

https://zhuanlan.zhihu.com/p/378444073

华南理工大学钟竞辉老师文章：

Wei T, Liu W L, Zhong J, et al. Multiclass Classification on High Dimension and Low Sample Size Data using Genetic Programming[J]. IEEE Transactions on Emerging Topics in Computing, 2020

Y. Bi, B. Xue and M. Zhang, "Genetic Programming for Image Classification: An Automated Approach to Feature Learning," 2021, Springer International Publishing

开源代码：https://github.com/YingBi92/BookCode

1）迁移学习。即让模型先在一个大样本下其他场景上的数据集做预训练，得到一个基础模型；然后根据业务需要，迁移到小样本的场景。

2）高维特征，容易过拟合，那么可以通过一些分析获得主要的特征，选择一些主要特征作为模型的输入。

3）集成或bagging的思路。训练多个模型，一起做预测；像随机森林一样，引入特征或数据集方面的随机性。

迁移学习+元学习

迁移学习用来提取特征，元学习用来增强训练。

防止过拟合，数据增强多多的，参数少少的。

提供几个关键词：

贝叶斯，active learning（少量样本(uncertain, informative,diverse )情况提升性能），transfer learning

目前的接触过的应对方法：

简单的可解释性高的模型，能线性模型就不非线性，特征提取+特征工程+统计学习可以的，就不上黑匣子deep Learning。从工业界推荐系统来看，样本量小，用深度模型不如用特征丰富的LR或GBDT模型
简单的假设，假设特征稀疏性，只有少量特征与任务相关，上L1正则化；能二分类不多分类，能样本平衡就不给自己加戏用更多不平衡的样本。

（此处意思是舍弃样本还是做上采样等处理？）

严格的交叉验证，三折五折交叉验证那是少的，恨不得每个都LOOCV，减少样本集合划分的随机性；有时候超参也用交叉验证来调，避免人为选择，就得上嵌套交叉验证。
谨慎地特征工程/特征选择/特征压缩。先验知识也好，统计信息也好，PCA也好，把特征维度降下来，把关键特征找出来，最后哪怕不展示模型只展示关键特征呢，效果不好不要紧，泛化能力好最要紧。就这个话题而言，交叉验证意义不大，怎么交叉都是在自己实验室的小数据集里，各种偏倚都没保障，不在最开始就根据数据量和维度严格限制住特征数的话，怎么说解决泛化问题都是自欺欺人。归根结底，先有数据才能选方法然后建模然后有成败，而发这种paper往往是先定下分析方法，那么花了经费拿到数据以后自然骑虎难下。
迁移学习，医疗影像里，拿比较容易获得标记的数据做训练，例如ImageNet，公开数据集等，迁移到目标任务上。效果好皆大欢喜，效果不好再试着调调，调了还不好那就是命。
如果少量样本回归也不适合回归适合大数据样本和连续性数据否则容易过拟合！建议决策树随机深林或者干脆用无监督聚类以及贝叶斯这些都适合小样本

参考：2000多个特征，2000个数据可以用深度学习吗？ - 知乎

https://www.zhihu.com/question/30904663/answer/362673462

是不是imbalanced classes，sparsity，missing rate 高不高这些都会影响。实在要用，做好feature selection和regulation。附上一篇针对HDLSS的论文

https://www.ijcai.org/proceedings/2017/0318.pdf

关键词：sample complexity classification

1. 如果sample中没有label，也就是说unsupervised learning的话，PCA是可以使用的2. 如果sample中有label, 可以使用supervised learning method的话，可以尝试与PCA类似的LDA algorithm (Linear Discriminant Analysis)Python Scikit-learn package中有写到有关的介绍，两者的区别主要是PCA选择 a set of attributes that explain for the most variance in the data, while LDA selects a set of attributes that account for the most variance between classes (label).

建议了解Feature Screening这种方法，在2008由Jianqing Fan和Jingchi Lv提出，专门用于处理超高维（高维少样本，维度是样本的指数阶），具体可以采用一个Feature Screening加Lasso的两步法，可以参看2012JASA Wei Zhong，Runze Li等人提出的DC-SIS方法。當然Feature Screening是建立在稀疏的基礎上，反之可以參考充分降維的一些方法。

启发式特征选择，SVM-RFE

manifold learning降维，scikit-learn里有库

建议读一下优雅的使用SCIPY （elegant scipy）. 里面开篇就谈到了小样本高纬度

小样本问题

炼丹笔记四：小样本问题 - 知乎

迁移学习（one-shot learning/few shot learning），即在训练集中，每一类都有一张或者几张样，主要方法可以关注迁移学习、meta-learning，metric-learning的相关研究进展。单例学习是迁移学习/Domain Adaptation的一个特例。模型在source domain训练好之后，迁移到target domain，target domain只用一个标记样本去训练模型的参数就可以了。

模型可以从source domain学到表示车的有效特征，比如有轮子、轮子尺寸大小、有踏板、方向盘或龙头等。测试时，在target domian，只需要一个或很少一些target domain的标记样本，比如只需要在模型可以准确识别车的条件下，给模型一张平衡车的标记图片

数据增强：

第一，利用流信息学习one-shot模型，常见的有半监督学习和transductive learning，探讨的是如何用无标签数据去做one-shot learning。

第二，在有预训练模型时，用这些预训练模型进行数据增强。

第三，从相近的类别借用数据，来增强训练数据集。

第六，属性引导的增强方法。具体大家可以在文章里进行详细了解。

针对关键词搜索

1.高维小样本

dblp搜High Dimension and Low Sample Size Data，找到的大多是特征选择方面的：

1.Correlation structure regularization via entropy loss function for high-dimension and low-sample-size data

基于熵损失函数的高维低样本数据相关结构正则化，2021年

Communications in Statistics - Simulation and Computation（SCI4区）

2.Ensemble feature selection in high dimension, low sample size datasets: Parallel and serial combination approaches

高维、低样本数据集的集成特征选择:并行和串行组合方法，2020年

Knowledge-Based Systems（JCR Q1）跨学科、面向应用（interdisciplinary and applications-oriented）的期刊

特征选择方法可以分为三类，filter、wrapper和embedded methods[10]、[11]、[12]。一般来说，过滤方法通过使用一些评分函数对给定的特征进行排序，以探索数据的内在属性。另一方面，包装器和嵌入式方法在选择过程中涉及到与分类器的交互，前者优化分类器以搜索最优特征子集，后者将搜索构建到分类器结构中。

选取了20个涉及不同领域问题的HDLSS数据集。数据集从UCI机器学习知识库[43]中收集

3.Recurrent Neural Network Based Feature Selection for High Dimensional and Low Sample Size Micro-array Data

基于递归神经网络的高维小样本微阵列数据特征选择

2019 IEEE International Conference on Big Data

一种基于递归神经网络(RNN)的特征选择框架来选择特征子集。具体地说，该框架已应用于从微阵列（基因表达数据实验结果）数据中选择特征用于细胞分类（cell classification）

4. Deep Neural Networks for High Dimension, Low Sample Size Data

HDLSS的DL

Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence（CCFa）

https://www.ijcai.org/proceedings/2017/0318.pdf

深度神经网络(DNN)在大样本应用中取得了突破。然而，在面对高维、低样本量(HDLSS)数据时，如生物信息学中利用遗传数据进行表型预测的问题，DNN存在过拟合和高方差梯度。在本文中，我们提出了一种适合于HDLSS数据的DNN模型——深度神经追踪(Deep Neural Pursuit, DNP)。DNP选择一个高维特征子集来减轻过拟合，并在多个退出项上取平均值，以计算低方差梯度。DNP作为首个应用于HDLSS数据的DNN方法，具有高非线性、高维鲁棒性、小样本学习能力、特征选择稳定性和端到端训练等优点。我们通过对合成和真实生物数据集的经验结果证明了DNP的这些优势。

Papers | USENIX没找到

查找论文和其对应的开源代码The latest in Machine Learning | Papers With Code：

5. An efficient ADMM algorithm for high dimensional precision matrix estimation via penalized quadratic loss

An efficient ADMM algorithm for high dimensional precision matrix estimation via penalized quadratic loss | Papers With Code

基于惩罚二次损失函数的精确矩阵估计算法。在高维低样本容量的设置下，本算法的计算复杂度在样本容量和参数个数上是线性的，这与计算样本协方差矩阵相同

算法方面的，不一样

2.并发症

complication

利用机器学习筛查糖尿病微血管并发症

Screening Cardiovascular Autonomic Neuropathy in Diabetic Patients With Microvascular Complications Using Machine Learning: A 24-Hour Heart Rate Variability Study

IEEE Access, vol. 9, pp. 119171-119187, 2021

在机器学习算法中嵌入超过24小时的心率变异性(HRV)特征，以提供对CAN患者的完整筛查的可行性。24小时动态心电图数据来自孟加拉国的一个队列(n = 95例患者[75例糖尿病患者和25例健康患者])。从HRV信号的每5分钟片段中提取HRV特征，作为四种机器学习算法的输入，每小时进行训练和测试。开发了一个完整的层次分步诊断程序(4个测试);即测试1，检查是否健康或是否患有糖尿病;试验2检查是否有微血管并发症(包括神经病变如CAN、周围神经病变(DPN)、肾病(NEP)和视网膜病变(RET));测试3检查是否只有CAN存在;测试4检查是否合并或合并CAN。最高水平的性能达到了85.5%(测试1 -卷积神经网络(CNN))， 98.5%(测试2 - CNN)， 98.3%(测试3 -一类支持向量机(SVM))，和90.9%(测试4 -随机森林)。

2. 2型糖尿病并发症诊断

Diagnosis of complications of type 2 diabetes based on weighted multi-label small sphere and large margin machine

2021，APPLIED INTELLIGENCE（Q2）

将其转化为一个多标签分类问题，将大血管、微血管、神经病变作为三个标签。此外，我们发现每个标签都是一个不平衡的分类问题。为此，本文提出了一种基于二值关联(BR)的加权多标记small sphere and large margin machine (WML-SSLM)诊断T2DM并发症的新方法。与BR方法相比，WML-SSLM通过给不同的实例赋予不同的权重来考虑标签的相关性。以中国人民解放军总医院的糖尿病数据集为研究对象，采用我们提出的WML-SSLM对T2DM大血管、微血管和神经病变的诊断进行研究，t检验分析各并发症的相关特征

3. 建立糖尿病并发症预测模型的机器学习算法的比较分析

A Comparative Analysis of Machine Learning Algorithms to Build a Predictive Model for Detecting Diabetes Complications.

2021 Informatica (Slovenia)

http://www.informatica.si/index.php/informatica/article/view/3111 db/journals/informaticaSI/informaticaSI45.html#AbakerS21

预测哪些患者在入院时更有可能出现复杂的健康状况。这些数据是2018年1月至2019年4月从Alsukari医院收集的644份电子健康记录。

机器学习方法:logistic回归、随机森林和k-最近邻(KNN)。logistic回归算法比其他算法表现更好，准确率为81%，召回率为81%，F1得分为75%。使用了序列特征选择(SFS)算法，将特征减少到6个

4. 癌症患者术后并发症的可预测性:

On the predictability of postoperative complications for cancer patients: a Portuguese cohort study

2021 BMC Medical Informatics and Decision Making（Q3）

针对2016年至2018年期间接受手术的847名癌症患者的回顾性队列研究，开发和评估基于机器学习的风险评分，评估4项结果:(1)术后是否存在并发症，(2)并发症的严重程度，(3)在ICU (Intermediate Care Unit)住了多少天，(4)术后1年内的死亡率。另外一个来自同一中心的137名癌症患者队列被用于验证。第二，提高预测模型的可解释性。为了实现这些目标，我们提出了一种学习风险预测因子的方法，为临床决策过程提供了新的视角和见解。根据发展队列计算，术后并发症的受试者工作特征曲线(Receiver Operating Characteristic Curve, AUC)为0.69，并发症严重程度的AUC为0.65,ICU天数的平均绝对误差为1.07天，术后1年死亡率的AUC为0.74

5. 多标签分类模型在糖尿病并发症诊断中的应用

Application of multi-label classification models for the diagnosis of diabetic complications

2021 BMC Medical Informatics and Decision Making（Q3）

2013年5月至2020年6月南京医科大学附属常州第二人民医院的患者的人口统计学特征和实验室数据。数据包括93项生化指标，9765例患者。我们使用Pearson相关系数(PCC)从统计学角度分析不同糖尿病并发症之间的相关性。我们使用了基于随机森林(RF)技术的MLC模型，利用这些相关性并同时预测四种并发症。我们探索了四种不同的MLC模型;a标签功率集(Label Power Set, LP)、分类器链(Classifier chain, CC)、集成分类器链(Ensemble Classifier chain, ECC)和校准标签排名(calibration Label Ranking, CLR)。我们使用传统的二元关联(BR)作为比较。我们使用了11种不同的性能指标和接受者工作特征曲线(AUROC)下的面积来评估这些模型。我们分析了学习模型的权重，并说明了(1)不同并发症的前10个关键指标以及(2)不同糖尿病并发症之间的相关性。

6. GWO with adaptive middle filter调参+SVM预测糖尿病并发症

Improvement of grey wolf optimizer with adaptive middle filter to adjust support vector machine parameters to predict diabetes complications

2021Neural Computing and Applications（Q1）

支持向量机的缺点之一是它的参数调整，可以使用元启发式算法，如粒子群优化算法(PSO)、遗传算法或灰狼优化器(GWO)来完成。在本文中，我们通过预处理和数据集的准备来进行数据挖掘，然后利用SVM来预测糖尿病的并发症。我们采用动态自适应中滤波器改进了GWO的选择过程，中滤波器是一种非线性滤波器，根据数据值为每个值分配适当的权重。与多层感知器神经网络、决策树、简单贝叶斯和时间模糊最小-最大神经网络(TFMM-PSO)等分类方法的最终结果进行比较，表明了该方法较好

所需数据由马赞达兰医学科学大学内分泌学系收集。文件信息为2015年下半年。有1573例患者的初始记录，其中53例信息不完整。患者平均年龄53岁，男性占30%，女性占其余。70%的患者有糖尿病家族史。在此阶段对患者的实验室特征进行评估和识别。每位患者有23个特征，包括姓名、家庭、档案编号、地址、身高、体重、年龄、体重指数、性别、遗传、最高血压、最低血压、教育程度、空腹血糖、2小时血糖、胆固醇、有害脂肪、有用脂肪、甘油三酯、尿素、肌酐、活动率、吸烟、8个并发症包括高血脂、眼部并发症、高血压、透析史、心脏问题、中风、糖尿病足溃疡、糖尿病昏迷

7. 妇科手术和机器学习:并发症和住院时间预测

Gynecological Surgery and Machine Learning: Complications and Length of Stay Prediction.

2021，In book: Public Health and Informatics，ISO Press

在这项研究中，我们使用机器学习方法开发预测妇科手术后住院时间、并发症和手术时间的模型。本研究是根据女性生殖系统疾病患者的资料进行的。这些患者于2010-2020年期间入住Almazov国家医学研究中心(俄罗斯圣彼得堡)。这项研究包括8170份住院病人的电子医疗记录，包括3500份手术协议。资料包括生活记录、疾病记录、实验室检查、严重程度、手术结果、主要和共病诊断、并发症、病例结果。数据集随机分成70%的训练数据集和30%的测试数据集。使用测试数据集进行的验证提供了以下手术模型后住院时间的预测指标。训练得分:ROC曲线下面积(AUC): 0.9582230976834093;K-fold CV平均得分:-8.73;MSE: 5.65;RMSE: 2.83

网格搜索，5折交叉验证，平均绝对误差(MAE)作为性能指标寻找模型及其参数

用了一系列在scikit中可用的分类模型:随机森林、梯度Boost和Voiting回归器，

计算Shapley指数以确定最常见的并发症预测因子

妇科手术并发症和住院时间预测
Gynecological Surgery and Machine Learning: Complications and Length of Stay Prediction

2021，In book: Public Health and Informatics，ISO Press

网格搜索，5折交叉验证，平均绝对误差(MAE)作为性能指标寻找模型及其参数
用了一系列在scikit中可用的分类模型:随机森林、梯度Boost和Voiting回归器
计算Shapley指数以确定最常见的并发症预测因子

患者于2010-2020年期间入住Almazov国家医学研究中心(俄罗斯圣彼得堡)。
8170份住院病人的电子医疗记录，包括3500份手术协议。资料包括生活记录、疾病记录、实验室检查、严重程度、手术结果、主要和共病诊断、并发症、病例结果。

数据没描述和代码都没给

8. COVID-19患者并发症的临床预测系统

Clinical prediction system of complications among COVID-19 patients: a development and validation retrospective multicentre study

paperwithcode

使用了2020年4月1日至4月30日期间在阿联酋阿布扎比(AD) 18家医院收治的3352名COVID-19患者的数据。根据地理邻近程度将医院划分为AD Middle region和AD Western & Eastern region，分别为A和B，评估我们提出的系统的学习通用性。利用入院前24小时收集的数据，基于机器学习的预后系统预测住院期间发生七种并发症中的任何一种的风险。并发症包括继发性细菌感染、AKI、ARDS，以及与患者病情加重相关的生物标志物升高，包括d-二聚体、白细胞介素-6、转氨酶和肌钙蛋白。在训练期间，系统对每个特定于复杂性的模型应用排除标准、超参数调优和模型选择。该系统在所有并发症和两个区域都实现了良好的准确性。在测试集A(587例患者)中，AKI的AUROC为0.91，大多数其他并发症的>为0.80 AUROC。在测试组B(225例患者)中，AKI、肌钙蛋白升高和白细胞素-6升高的各自系统的AUROC为0.90，而大多数其他并发症的>为0.80 AUROC。我们系统选择的表现最好的模型主要是梯度增强模型和logistic回归模型

我们将入院后24小时内记录的数据作为我们预测模型的输入特征。这些数据包括与患者基线信息、人口特征、生命体征和实验室检测结果相关的连续和分类特征。在患者的基线和人口信息、年龄和身体质量指数(BMI)被视为连续的特性,而性,预先存在的疾病(如高血压、糖尿病、慢性肾病和癌症),在入学记录和症状(例如,咳嗽,发烧,呼吸急促,喉咙痛,和皮疹)被视为二元特征。

对于生命体征测量和实验室检测结果，我们排除了任何用于确定是否存在并发症的变量，以避免标签泄露。特别地，我们考虑了7个连续的生命体征特征，包括收缩压、舒张压、呼吸频率、外周脉搏频率、氧饱和度、辅助温度和格拉斯哥昏迷评分，以及19个实验室检测结果，包括白蛋白、活化部分凝血酶活时间(APTT)、胆红素、钙、氯、c反应蛋白、铁蛋白、红细胞压积、血红蛋白、国际标准化比(INR)、乳酸脱氢酶(LDH)、淋巴细胞计数、凝血酶原时间、降钙素原、钠、红细胞计数

(红细胞)、尿素、尿酸和中性粒细胞计数。所有生命体征测量和实验室检测结果被处理为最小、最大和平均统计量。我们还定义了7个二进制输入特征来表示复杂性是否在入院的前24小时内发生，以允许模型从复杂性之间的任何依赖关系中学习

Clinical prediction system of complications among COVID-19 patients: a development and validation retrospective multicentre study | Papers With Code

（2020）https://arxiv.org/pdf/2012.01138v1.pdf

https://github.com/nyuad-cai/COVID19Complications

9. 通过潜在因素建模的迁移学习改进手术并发症的预测

Transfer Learning via Latent Factor Modeling to Improve Prediction of Surgical Complications

使用潜在因素模型来学习更大的源数据集和目标数据集之间的依赖结构。该方法的目的是建立一个手术患者的风险评估模型，使用机构和国家的手术结果数据。国家手术结果数据是通过NSQIP(国家手术质量改进计划)收集的，该数据库包含来自700多家不同医院的近400万患者。迁移学习获得潜在因素(latent factor)模型+hierarchical prior on the loadings matrix以适当地解释数据中的不同协方差结构。通过scale mixture formulation using stick-breaking properties扩展了这个模型来处理更复杂的人群之间的关系

居然没有代码

Transfer Learning via Latent Factor Modeling to Improve Prediction of Surgical Complications | Papers With Code

（2016）https://arxiv.org/pdf/1612.00555v1.pdf

10. Interpretable Multi-Task Deep Neural Networks for Dynamic Predictions of Postoperative Complications

用于术后并发症动态预测的可解释多任务深度神经网络

假设新的深度学习技术在预测术后并发症方面优于logistic回归模型。在一项单中心纵向队列研究中，43,943名接受52,529例重大住院手术的成年患者中，对于所有9种并发症，深度学习比logistic回归具有更大的辨识度。当充分利用术前和术中生理时间序列电子健康记录数据时，预测性能最强。单一的多任务深度学习模型比单独的模型在单个复杂情况下训练的效果更好。综合梯度解释机制显示了缺失数据的重要意义。可解释的、多任务的深度神经网络可以做出准确的、患者水平的预测，有可能增强外科决策。

没代码

（2020）https://arxiv.org/pdf/2004.12551v1.pdf

11．通过多视图多任务学习对癌症幸存者的心脏并发症风险分析

Cardiac Complication Risk Profiling for Cancer Survivors via Multi-View Multi-Task Learning

现有的方法面临着两个挑战。首先，数据异质性是指那些仅从单一视图利用临床数据的方法，而数据可以从多个视图考虑(例如，临床访问顺序，临床特征集)。其次，广义预测与大多数专注于单任务学习的方法有关，而每一个并发症的发生都是独立预测的，导致了次优模型。我们提出了一个多视图多任务网络(MuViTaNet)来预测多种并发症的发生，以解决这些问题。特别是，MuViTaNet通过使用多视图编码器对患者表示进行了补充，将临床数据视为临床访问序列和临床特征集，从而有效地提取信息。此外，它利用来自相关标记和未标记数据集的额外信息，通过使用新的多任务学习方案来进行更准确的预测，从而生成更一般化的表示

（2021） https://arxiv.org/pdf/2109.12276v1.pdf

Cardiac Complication Risk Profiling for Cancer Survivors via Multi-View Multi-Task Learning | Papers With Code

https://github.com/pth1993/muvitanet

没有数据

高维小样本上使用演化算法的多分类

第一小节在知乎小样本高维特征问题搜索时,答主推荐的论文

Wei T, Liu W L, Zhong J, et al. Multiclass Classification on High Dimension and Low Sample Size Data using Genetic Programming[J].

IEEE Transactions on Emerging Topics in Computing, 2020（JCR Q1）

Multiclass Classification on High Dimension and Low Sample Size Data using Genetic Programming | IEEE Journals & Magazine | IEEE Xplore

表格数据特征提取

多类分类是数据挖掘中最基本的任务之一。然而，传统的数据挖掘方法依赖于模型假设，在高维低样本(HDLSS)数据上往往存在过拟合问题。为了从另一个角度解决HDLSS数据的多类分类问题，

使用了Genetic Programming (GP)，一种intrinsic evolutionary分类算法，可以实现特征自动构建，无需模型假设。本文提出了一种基于集成的遗传规划分类框架，即基于sigmoid的集成基因表达式编程(SEGEP)。为缓解基于gp的多类分类器的输出冲突问题，提出的方法采用一种具有连续松弛的灵活概率表示来更好地集成所有二进制分类器的输出，是一种有效的数据分割策略，进一步提高集成性能。以及一种新的采样策略来改进现有的基于gp的二值分类器。

Genetic Programming (GP), an intrinsic evolutionary classification algorithm that can implement feature construction automatically without model assumption. This paper develops an ensemble-based genetic programming classification framework, the Sigmoid-based Ensemble Gene Expression Programming (SEGEP). To relieve the problem of output conflict in GP-based multiclass classifiers, the proposed method employs a flexible probability representation with continuous relaxation to better integrate the output of all the binary classifiers, an effective data division strategy to further enhance the ensemble performance, and a novel sampling strategy to refine the existing GP-based binary classifier. The experiment results indicate that SE-GEP can attain better classification accuracy compared to other GP methods.

实验结果表明，SE-GEP与其他GP方法相比，具有更好的分类精度。通过与其他具有代表性的机器学习方法的比较，表明SE-GEP是一种具有竞争力的HDLSS数据多类分类方法。

代码

参考：

https://zhuanlan.zhihu.com/p/378444073

基于演化算法（Genetic Programming）的自动特征构建（automated feature engineering）算法Evolutionary Forest，特征工程方面

automated feature engineering based on

scikit-learn包中的一个问题 “diabetes”，其目标是预测一年后该疾病的进展情况。

对比随机森林和Evolutionary Forest

该框架的一个更重要的目标是获得更多优质的可解释特征，从而提高主流机器学习模型的性能。因此，我们可以基于impurity reduction计算特征的重要性，然后根据这些重要性分数对所有特征进行排序

放弃使用原来的特征，只保留构造好的特征，训练基于新特征的随机森林

自动构建的特征大幅度改进了XGBoost和随机森林的性能。基于这个实验的结果，我们可以得出结论，Evolutionary Forest不仅是一种有效的回归模型构建方法，可以构建一个强大的回归模型，也作为一个自动特征生成方法，可以用于生成可解释的特征以及提高现有机器学习系统的性能

代码：

https://github.com/zhenlingcn/EvolutionaryForest

scikit数据集

scikit-learn包中为合成数据，难以作为源域使用

有关医学的数据集

1.load_breast_cancer 乳腺癌数据集

乳腺癌数据集有569条记录，30个特征

2.load_diabetes 糖尿病数据集：

数据集共442条信息，特征值总共10项, 如下:

# age:年龄

# sex:性别

# bmi = body mass index:身体质量指数，是衡量是否肥胖和标准体重的重要指标，理想BMI(18.5~23.9) = 体重(单位Kg) ÷ 身高的平方 (单位m)

# bp = blood pressure :血压

# s1,s2,s3,s4,s4,s6 (六种血清的化验数据)

3.load_linnerud 体能训练数据集

集成特征选择（高维、低样本数据）

Ensemble feature selection in high dimension, low sample size datasets: Parallel and serial combination approaches

高维、低样本数据集的集成特征选择:并行和串行组合方法，2020年

Knowledge-Based Systems（JCR Q1）跨学科、面向应用（interdisciplinary and applications-oriented）的期刊

集成学习改进的特征选择（并行、串行组合结合并、交、多交方法中两种或三种不同的特征选择结果）

选取了20个涉及不同领域问题的HDLSS数据集。数据集从UCI机器学习知识库[43]中收集

数据集：

No.	Dataset	Features	Instances	Classes
1	SPECTF	44	267	2
2	segmentationData	58	706	2
3	Sonar	60	208	2
4	MEU-Mobile KSD 2016	71	2856	56
5	urban_land_cover	147	675	9
6	MUSK_Clean1	166	476	2
7	SCADI	205	69	6
8	Arrhythmia	278	420	12
9	Madelon	500	2600	2
10	Secom	564	55	2
11	Gastroenterology	698	152	2
12	ORL	1024	400	40
13	Colon	2000	62	2
14	oh15.wc	3100	913	10
15	oh10.wc	3238	1050	10
16	leukemia	7070	72	2
17	Amazon_initial_50_30_10000	10,000	1500	50
18	orlraws10P	10,304	100	10
19	CLL_SUB_111	11,340	111	3
20	SMK_CAN_187	19,993	187	2
	肝移植项目	587	425	5+1

RNN特征选择（高维小样本）

基于递归神经网络的高维小样本微阵列数据特征选择

2019 IEEE International Conference on Big Data

四种具有不同结构的递归神经网络的特征选择模型，包括门控递归单元(GRU)、长短期记忆(LSTM)、RNN和双向LSTM

DNP

数据集:

Data Sample size Dimensionality Data Sample size Dimensionality

Colon 62 2,000 ALLAML 72 7,129

Prostate GE 102 5,966 SMK CAN 87 187 19,993

Leukemia 72 7,070 GLI 85 85 22,283

你可能感兴趣的:(人工智能,医学计算机,机器学习,人工智能,高维小样本)

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
Maya自定义右键菜单样例教程 holy-pills
本文还有配套的精品资源，点击获取简介：本文详细指导如何在Maya中通过脚本节点自定义右键菜单，增强工作效率和个性化工作环境。自定义右键菜单允许用户根据个人习惯调整菜单项，使之更加便捷。文章介绍了创建脚本节点、编写菜单脚本、关联菜单到视图以及保存和加载自定义菜单的具体步骤。同时提供了实际操作样例，帮助用户更好地理解和应用这一技巧。1.Maya自定义右键菜单的重要性Maya，作为三维动画制作的行业标准
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Vue3组件库实战: 打造高复用UI系统武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js layui 毕业设计
Vue3组件库实战:打造高复用UI系统介绍什么是Vue3组件库在前端开发中，UI组件库是非常重要的一部分。Vue3组件库是基于Vue.js3.x版本开发的一套可用于构建Web应用的UI组件集合，可以帮助开发者快速搭建页面并保证页面的一致性和美观性。目标关键词：Vue3组件库设计与构建设计原则组件库的设计需要遵循一定的原则，比如易用性、可维护性、扩展性等。在设计阶段需要考虑到不同场景的使用，并且保证
GoView 强势入驻 GitCode：拖拽低代码，打造高颜值数据大屏 GitCode 代码君 gitcode 低代码开源
信息可视化时代，数字大屏日益成为展示核心KPI、运营状态、监控预警的主流形式。然而，用传统方式开发一个定制化数字大屏需要解决多少问题？1.繁复的数据源集成，各种不同的协议和格式……2.让人晕头转向的可视化逻辑，调动艰难的样式、布局、动画，和往往难以统一的风格3.牵一发而动全身的代码结构，就想换个主题色结果开启的全局CSS大冒险……现在，一个开源项目即可搞定上述问题——拖拽式低代码数字可视化平台Go
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
el-timeline时间线（Plus）左边图标改为自定义图片顾尘眠 javascript 前端 vue.js
（目前图片有点小，还需要自己去调整下大概样式，比较懒，就放了个大概样子）时间线左侧正常根据文档内容，是填写的icon，但通过icon属性还有另外一个类型，component，可以搭配h函数写一组img元素，实现将图标改为本地图片{{activity.content}}import{h}from'vue'constactivities=[{content:'Eventstart',timestamp
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Spring WebFlux 响应式编程原理与实战指南
SpringWebFlux响应式编程原理与实战指南一、技术背景与应用场景随着微服务与高并发的迅速发展，传统的阻塞式编程模型在处理大量并发请求时容易导致线程资源耗尽、响应延迟增高。SpringWebFlux基于ReactiveStreams规范，通过非阻塞、背压机制，实现高吞吐、低延迟的Web服务。典型应用场景包括：实时数据推送：WebSocket或Server-SentEvents场景。高并发AP
蓝桥杯2023年第十四届省赛真题-岛屿个数撰卢蓝桥杯算法职场和发展
目录题目题目描述输入格式输出格式样例输入样例输出思路：两次DFS（染色法+合并）-Dotcpp编程社区代码：题目题目描述小蓝得到了一副大小为M×N的格子地图，可以将其视作一个只包含字符‘0’（代表海水）和‘1’（代表陆地）的二维数组，地图之外可以视作全部是海水，每个岛屿由在上/下/左/右四个方向上相邻的‘1’相连接而形成。在岛屿A所占据的格子中，如果可以从中选出k个不同的格子，使得他们的坐标能够组
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
线性代数同济教材每一部分的现实意义 ZhuBin365 其它算法
一、行列式(Determinants)的现实意义：不仅仅是数字，而是“尺度”和“特性”行列式虽然计算结果是一个数值，但它绝不是一个孤立的数字，它在现实世界中代表着“尺度”和“特性”的重要信息：现实意义核心：“衡量变化的能力”和“判定系统特性”“尺度”：衡量体积/面积的缩放比例：在现实世界中，很多变换都会改变物体的形状和大小。行列式就像一个“尺度”，衡量了线性变换对面积(二维)或体积(三维及以上)的
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
7. TCP 和 UDP 的区别 yqcoder 前端面试-服务协议网络网络协议 http
总结TCP面向连接，需要三次握手建立连接，UDP无连接，不需要握手，直接发送数据。UDP有较好的实时性，效率比TCP高。TCP面向字节流，实际上是TCP把数据看成一连串无结构的字节流，UDP是面向报文的，一次交付一个完整的报文，报文不可分割，报文是UDP数据报处理的最小单位。每一条TCP连接时一对一的，UDP可以一对多，多对一，多对多。UDP分组首部开销小，八个字节，TCP首部开销大约20字节。U
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
计算机科学与技术柳依依@ 学习前端 c4前端后端
计算机科学是一个庞大且关联性强的学科体系，初学者常面临以下痛点：-**知识点零散**：容易陷入"只见树木不见森林"的学习困境-**方向不明确**：面对海量技术栈不知从何入手-**体系缺失**：难以建立完整的知识网络1.计算机基础-计算机组成原理-冯·诺依曼体系-CPU/内存/IO设备-操作系统-进程与线程-内存管理-文件系统-计算机网络-TCP/IP模型-HTTP/HTTPS-网络安全2.编程能力
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

论文主题	该论文发表时间/刊物	使用方法	数据	代码
高维、低样本数据集的集成特征选择 Ensemble feature selection in high dimension, low sample size datasets: Parallel and serial combination approaches	2020, Knowledge-Based Systems（JCR Q1）	集成学习改进的特征选择（并行、串行组合结合并、交、多交方法中两种或三种不同的特征选择结果）对比主成分分析(PCA)、遗传算法(GA)和C4.5决策树表示滤波方法、包装方法和嵌入方法	选取了20个涉及不同领域问题的HDLSS数据集。数据集从UCI机器学习知识库中收集		相似代码和数据集https://github.com/agoscinski/EnsembleMethodsForFeatureSelection
基于RNN的高维小样本数据特征选择 Recurrent Neural Network Based Feature Selection for High Dimensional and Low Sample Size Micro-array Data	2019 IEEE International Conference on Big Data	四种具有不同结构的递归神经网络的特征选择模型，包括门控递归单元(GRU)、长短期记忆(LSTM)、RNN和双向LSTM	真实数据（micro-array）细胞分类
高维小样本深度学习 Deep Neural Networks for High Dimension, Low Sample Size Data	2017 Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence（CCFa）	适合于HDLSS数据的DNN模型——深度神经追踪(Deep Neural Pursuit, DNP)。DNP选择一个高维特征子集来减轻过拟合，并在多个dropouts上取平均值，以计算低方差梯度	6个公开的生物数据集 Biological datasets: http://featureselection.asu. edu/datasets.php		paper: https://www.ijcai.org/proceedings/2017/0318.pdf 文中附另两个算法代码"GBFS code: http://www.cse.wustl.edu/ ̃xuzx/ research/code/GBFS.zip HSIC-Lasso code: http://www.makotoyamada-ml. com/software.html"
高维小样本上演化算法的多分类 Multiclass Classification on High Dimension and Low Sample Size Data using Genetic Programming	2020 IEEE Transactions on Emerging Topics in Computing（JCR Q1）	使用了Genetic Programming (GP)，一种intrinsic evolutionary分类算法，实现自动特征构建（automated feature engineering）。本文提出了一种基于集成的GP分类框架，即基于sigmoid的集成Gene Expression Programming(SEGEP)	生物信息(bio-information)数据集4个基因表达数据集6个图像信息，多分类数据集1个 1 http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi 2https://archive.ics.uci.edu/ml/datasets/SCADI 3https://archive.ics.uci.edu/ml/datasets/Lung+Cancer 4https://schlieplab.org/Static/Supplements/CompCancer/datasets.htm 5http://featureselection.asu.edu/old/datasets.php 6https://archive.ics.uci.edu/ml/datasets/Urban+Land+Cover 7https://archive.ics.uci.edu/ml/datasets/Wine	github.com/YingBi92/BookCode
		自动特征构建框架（Evolutionary Forest）-可解释性机器学习对比随机森林和Evolutionary Forest直接分类使用Evolutionary Forest构建的特征改进随机森林和XGBoost性能	scikit-learn中的“diabetes”442条样本，特征值10项	Evolutionary Forest: https://github.com/zhenlingcn/EvolutionaryForest
ML筛查糖尿病微血管并发症 Screening Cardiovascular Autonomic Neuropathy in Diabetic Patients With Microvascular Complications Using Machine Learning: A 24-Hour Heart Rate Variability Study	2021, IEEE Access	accuracy 1.CNN， 85.5% 2 CNN， 98.5% 3.SVM， 98.3% 4.随机森林,90.9%	24小时动态心电图孟加拉国95例患者[75例糖尿病患者和25例健康患者]
2型糖尿病并发症诊断 Diagnosis of complications of type 2 diabetes based on weighted multi-label small sphere and large margin machine	2021，APPLIED INTELLIGENCE（Q2）	多标签(multi-label)分类问题，将大血管、微血管、神经病变作为三个标签,每个标签都是一个不平衡的分类问题。本文提出了一种基于binary relevance(BR)的加权多标记small sphere and large margin machine (WML-SSLM)诊断T2DM并发症的新方法。与BR方法相比，WML-SSLM通过给不同的实例赋予不同的权重来考虑标签的相关性。	糖尿病数据集来自中国人民解放军总医院(301医院) 14980例2型糖尿病观察中，每例均有50个特征，即1个性别变量、1个年龄变量、46个生化变量、1个糖化变量、1个类变量
糖尿病并发症预测模型的机器学习算法的比较分析 A Comparative Analysis of Machine Learning Algorithms to Build a Predictive Model for Detecting Diabetes Complications	2021 Informatica (Slovenia)	预测哪些患者在入院时更有可能出现复杂的健康状况机器学习方法:logistic回归、随机森林和k-最近邻(KNN)。logistic回归算法比其他算法表现更好，准确率为81%，召回率为81%，F1得分为75%。使用了序列特征选择(SFS)算法，将特征减少到6个	数据集来自Alsukari医院 ß包含2018年1月至2019年4月期间入院的29个属性和644个诊断糖尿病患者记录。		http://www.informatica.si/index.php/informatica/article/view/3111 db/journals/informaticaSI/informaticaSI45.html#AbakerS21
糖尿病并发症诊断的多标签分类模型 Application of multi-label classification models for the diagnosis of diabetic complications	2021 BMC Medical Informatics and Decision Making（Q3）	使用Pearson相关系数(PCC)从统计学角度分析不同糖尿病并发症之间的相关性基于随机森林(RF)的MLC模型，利用这些相关性并同时预测四种并发症探索了四种不同的MLC模型;(Label Power Set, LP)、(Classifier chain, CC)、(Ensemble Classifier chain, ECC)和(calibration Label Ranking, CLR)。使用传统的二元关联(BR)作为比较。我们使用了11种不同的性能指标和接受者工作特征曲线(AUROC)下的面积来评估这些模型分析了学习模型的权重，与(1)不同并发症的前10个关键指标(2)不同糖尿病并发症之间的相关性。	2013年5月至2020年6月南京医科大学附属常州第二人民医院的患者的人口统计学特征和实验室数据。数据包括93项生化指标，9765例患者。		致谢中提到另两篇论文作者给他代码
动态自适应 filter改进GWO 调参+SVM预测糖尿病并发症 Improvement of grey wolf optimizer with adaptive middle filter to adjust support vector machine parameters to predict diabetes complications	2021 Neural Computing and Applications（Q1）	支持向量机的缺点之一是需要参数调整，可以使用元启发式算法，如粒子群优化算法(PSO)、遗传算法或灰狼优化器(GWO)。本文通过预处理和数据集的准备来进行数据挖掘，然后利用SVM来预测糖尿病的并发症。我们采用动态自适应滤波器改进了GWO的选择过程，一种非线性滤波器，根据数据值为每个值分配适当的权重。与多层感知器神经网络、决策树、简单贝叶斯和时间模糊最小-最大神经网络(TFMM-PSO)等分类方法的最终结果进行比较	数据由马赞达兰医学科学大学内分泌学系收集 2015年下半年有1573例患者的初始记录，其中53例信息不完整。每位患者有23个特征，包括姓名、家庭、档案编号、地址、身高、体重、年龄、体重指数、性别、遗传、最高血压、最低血压、教育程度、空腹血糖、2小时血糖、胆固醇、有害脂肪、有用脂肪、甘油三酯、尿素、肌酐、活动率、吸烟、8个并发症包括高血脂、眼部并发症、高血压、透析史、心脏问题、中风、糖尿病足溃疡、糖尿病昏迷
COVID-19并发症预测 Clinical prediction system of complications among COVID-19 patients: a development and validation retrospective multicentre study	2020 https://arxiv.org/pdf/2012.01138v1.pdf	表现最好的模型是gradient boosting模型和logistic回归模型	使2020年4月1日至4月30日期间在阿联酋阿布扎比(AD) 18家医院收治的3352名COVID-19患者的数据根据地理邻近程度将医院划分为AD Middle region和AD Western & Eastern region，记为A和B，分别划分测试集评估通用性利用入院前24小时收集的数据预测住院期间发生七种并发症中的任何一种的风险并发症包括：继发性细菌感染、AKI、ARDS，以及与患者病情加重相关的生物标志物升高，包括d-二聚体、白细胞介素-6、转氨酶和肌钙蛋白输入特征：患者基线信息、人口特征、生命体征和实验室检测结果相关的连续和分类特征。在患者的基线和人口信息、年龄和身体质量指数(BMI)被视为连续的特性,而性别,预先存在的疾病(如高血压、糖尿病、慢性肾病和癌症),在入院记录和症状(例如,咳嗽,发烧,呼吸急促,喉咙痛,和皮疹)被视为二元特征	https://github.com/nyuad-cai/COVID19Complications	Clinical prediction system of complications among COVID-19 patients: a development and validation retrospective multicentre study \| Papers With Code
迁移学习改进手术并发症的预测 Transfer Learning via Latent Factor Modeling to Improve Prediction of Surgical Complications	2016 https://arxiv.org/pdf/1612.00555v1.pdf	迁移学习潜在因素Transfer Learning Latent Factor Model (TL-LFM)模型+hierarchical prior on the loadings matrix以适当地解释数据中的不同协方差结构。通过scale mixture formulation using stick-breaking properties扩展了这个模型来处理更复杂的人群之间的关系	美国外科医生学会(ACS)创建了国家手术质量改善计划(NSQIP)，数据是通过NSQIP收集，包含来自700多家不同医院的近400万患者（输入特征情况文中没有特别说明）目标数据是指当地医院或预测的目标分布，源数据将参考多医院NSQIP数据		Transfer Learning via Latent Factor Modeling to Improve Prediction of Surgical Complications \| Papers With Code
多视图多任务学习对癌症幸存者预测心脏并发症风险 Cardiac Complication Risk Profiling for Cancer Survivors via Multi-View Multi-Task Learning	2021 https://arxiv.org/pdf/2109.12276v1.pdf	我们提出了一个多视图多任务网络(MuViTaNet)来预测多种并发症的发生，以解决两个挑战首先，数据异质性是指那些仅从单一视图利用临床数据的方法，而数据可以从多个视图考虑(例如，临床访问顺序，临床特征集)。其次，广义预测与大多数专注于单任务学习的方法有关，而每一个并发症的发生都是独立预测的，导致了次优模型。	六个真实的保险索赔数据集 Truven Health2提供的MarketScan商业索赔和遭遇(CCAE)数据库中提取女性乳腺癌患者的临床记录（数据特征情况文中没有特别说明）https://truvenhealth.com/markets/life- sciences/products/data- tools/ marketscan- databases	https://github.com/pth1993/muvitanet	Cardiac Complication Risk Profiling for Cancer Survivors via Multi-View Multi-Task Learning \| Papers With Code