1.一种基于机器学习的花岗岩构造环境判别方法,其特征在于,包括如下步骤:S1、对花岗岩中的样本数据进行预处理,并将处理好的数据划分为训练数据集和测试数据集;
S2、对上述数据集进行特征分析;
通过如下协方差矩阵进行特征值分解,得到特征值和特征向量,进一步获得PCA的载荷图,明显差异的元素拟作为判别花岗岩构造环境的重要因素;
;
其中: 是协方差矩阵Σ的第i行第j列的元素, 是标准化后数据矩阵Z的第k个样本在第i个变量上的取值, 是标准化后数据矩阵Z的第k个样本在第j个变量上的取值,是第i个变量的所有样本值的样本均值, 是第j个变量所有样本值的样本均值, 为变量的个数;
S3、构建半监督卷积随机森林模型SCRF;
(1)构建半监督随机森林模型;
(2)构建用于从地球化学元素数据中提取特征信息的CNN模型,并通过词嵌入法将将文本数据转换为适合CNN的输入格式;
(3)使用训练好的CNN模型提取花岗岩地球化学数据的特征,并生成CNN模型特征;
(4)根据CNN模型提取的特征,结合花岗岩样本的标记信息,构建训练集和测试集;
(5)在训练集上对半监督随机森林模型进行训练后,通过CNN模型提取地球化学特征并生成预测,并将这些预测结果作为特征输入到半监督随机森林模型中,生成半监督卷积随机森林模型SCRF;
S4、通过特征重要性分析,构建判别图解;
采用Shapley值进行特征重要性计算,SHAP值对于j特征和样本X的计算公式为:;
其中: 表示特征j对于样本X的SHAP值, 是模型预测的基准值, 是特征的总数, 是特征集合中的一个子集合, 是模型对样本X在特征集合S上的预测输出,是子集合S的权重,通常为S的特征组合数的倒数, 是子集合S的特征数量, 代表在特征集合S上对应的输入样本, 是在特征集合S的基础上加入特征j,形成的特征子集, 是模型对于输入样本X在特征集合S并加入特征j后的预测输出值;
S5、综合模型评估,通过训练的模型进行花岗岩构造环境判别。
2.根据权利要求1所述的基于机器学习的花岗岩构造环境判别方法,其特征在于,步骤S1中,所述预处理包括:(1)、通过最小二乘法建立线性回归模型来对数据缺失值进行预测,其中,线性回归模型为:;
式中, 是含有缺失值的变量j, 是其他变量的观测值,是回归系数, 是误差项;通过最小化目标函数:
得到回归系数的估计值,用于对缺失值进
行估计和插补;
(2)、对处理后的数据集进行标准化处理,标准化公式如下:;
式中: 为原始数据, 为标准化数据; 为每一列数据的平均值, 为标准差。
3.根据权利要求1所述的基于机器学习的花岗岩构造环境判别方法,其特征在于,还包括:步骤S6: 对花岗岩数据集中未使用的测试数据利用混淆矩阵和特征曲线进行预测评估,具体包括:(1)将预测结果分类;
(2)计算出模型的各种性能指标:准确率、召回率、精确率、F1‑score;准确率Accuracy:是所有正确预测的样本数占总样本数的比例,计算公式为:Accuracy=(TP+TN)/(TP+FP+FN+TN);精确度:是所有被模型正确预测为正类别的样本数占所有被模型预测为正类别的样本数的比例,计算公式为:Precision=TP/(TP+FP);召回率Recall:是所有被模型正确预测为正类别的样本数占所有实际正类别的样本数的比例,计算公式为:Recall=TP/(TP+FN);
F1‑score:是精确度和召回率的调和平均数,计算公式为:F1‑score=2×Precision×Recall/(Precision+Recall)。
4.根据权利要求1所述的基于机器学习的花岗岩构造环境判别方法,其特征在于,所述词嵌入法包括:(1)将每个地球化学元素含量值作为一个单词,对于每个地球化学元素含量值,将其转换为对应的向量表示,形成预处理文本数据;
(2)构建一维卷积神经网络结构,对预处理文本数据进行转换。