IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 基于CNN的libs多组分定量分析方法 -> 正文阅读

[人工智能]基于CNN的libs多组分定量分析方法

原论文:Spectrochimica Acta Part B,A laser-induced breakdown spectroscopy multi-component quantitative analytical method based on a deep convolutional neural network

Lu-Ning Li, Xiang-Feng Liu, Wei-Ming Xu, Jian-Yu Wang, Rong Shu?

摘要:LIBS的一个主要技术难点在于实现目标样品中多种化学成分达到理想精度的定量分析能力,在本论文中突出了一种基于CNN构造的LIBS多分量定量分析的方法,从23个中国国家标准参考材料中收集了1400多个LIBS光谱用于训练并验证CNN的能力,硬件部分使用了MarSCoDe的LIBS系统。为了评估CNN的性能,使用了预测结果的均方根误差(RMSE)作为量化标准,同时考虑了整体的RMSE和分量的RMSE,并进一步研究了每个分量的预测相对误差。论文将CNN与BPNN和PLS回归两种备选方案进行了性能比较(其中PLS包含了两种方法,EPLS1和PLS2)。除了RMSE外,论文还进行了一些统计分析,此外还研究了基线预处理对每种方法预测能力的影响,结果表明CNN方法在总体准确度方面性能最好,无论是否对基线光谱数据进行了预处理。由于样本数量相对较少,因此实验结果不适合立即推广,仅作为一种新的分析方法,具有良好的准确性和高效率。

1.引言

? ? ? ? MarSCoDe是2020年中国第一次火星探测任务的火星探测车上的火星表面成分探测器,本论文中去用了其中的LIBS系统,具体硬件图如下图所示。

? ? ? ? ?LIBS在定性分析中的性能已经达到了相当高的水平,但实际使用过程中在定量分析达到理想精度方面一直存在一定的问题,主要原因由以下三点:

? ? ? ? Ⅰ.不同类物质的基质效应;

? ? ? ? Ⅱ. 自吸收所表现的饱和效应;

? ? ? ? Ⅲ. LIBS信号的稳定性和可重复性相对较低。

? ? ? ? 目前常用的解决方案基本都是基于经验给出的,大致可分为三类:第一类是通过等离子体调制技术(如双脉冲激励、空间限制或火花放电),以提高信噪比、信号稳定性和重复性;第二类方法取决于不同种类的光谱标准化或标准化方法以及特定的数据处理方法,这些方法可以部分纠正由上述原因带来的误差;第三类也与数据密切相关,但侧重于定量分析法,而不是原始光谱的初步矫正,此类解决方案在早期旨在借助多元分析模型(多元线性回归、主成分回归或PLS)校准回归曲线,后来又尝试了一些更复杂的线性机器学习技术(如最小绝对收缩和选择算子等)。由于线性分析本身的性质,LIBS信号各种干扰效应而产生的非线性会限制线性分析的有效性。而另一方面非线性机器学习方法具有处理非线性问题的能力。

? ? ? ? 在本文中,分析样本元素成分时选择了非线性深度学习的网络CNN而非常用的线性深度学习网络BPNN,在此前有相关研究使用了浅层CNN(仅有一个卷积层和一个池化层作为隐藏层)进行了单组分(这里应该是某单个元素的含量)定量分析。本文中使用了更深的CNN进行网络构建,且仅使用一维数据(即强度)进行定量分析,论文基于Keras构建了神经网络,并与基于BPNN和PLS的两种方案进行了对比实验,其中PLS方法又分为PLS1(回归结果为单变量),和PLS2(回归结果为多变量)两种方式。

2.样本设置

? ? ? ? 实验是由MarSCoDe进行的,由于本次研究仅针对LIBS进行实验,因此校准目标和二维向镜并未激活,光谱仪由三个光谱通道组成,覆盖了三个波段,分别为240~340nm,340~540nm以及540~850nm,三个通道各有1800个像素,每个通道的光谱采样间隔(SSI)为一个常数,根据此实验系统,每个光谱都可以解释为一个1800x3的矩阵。后续由于每个光谱通道的边缘像素输出信号可能不可信,会通过预处理屏蔽掉一部分无效像素,具体参数如下:

? ? ? ? 实验采用了23种符合中国国家标准的参考样本(矿质),在此次实验中对于样本中的8种主成分进行了预测分析,分别为:二氧化硅,三氧化二铝,三氧化二铁,氧化钙,氧化锰,氧化钾,氧化亚铁。这八种成分通常是火星地球化学调查关注的问题,每种成分都广泛存在于23个样本中。

? ? ? ? 一个样品的多种化学成分浓度使用一个1x8的矩阵表示,矩阵被称为组分浓度载体(CCV)也即:

?

? ? ? ? ?下图为所有样品对应元素的成分浓度分布,以重量百分比表示

? ? ? ? ?对于每个样品,使用了63次激光照射并收集了63个LIBS光谱,在23个样品中10号样品(硅质砂岩)由于几次照射后就变成了松散粉末,因此只收集到了15个可用光谱,最终从23个样品中获得了22x63+15=1401个有效LIBS光谱作为数据集。

? ? ? ? 在进行CNN训练之前,LIBS光谱通常需要一系列的数据预处理步骤,然而在本研究中,只对原始libs数据进行了初步预处理,即:暗减法、波长校准和无效像素掩蔽,由于实验中的三个光谱通道具有相对独立的环境及参数,因此每个通道都要分别减去暗背景的影响,利用四个标准校准灯仔细执行波长校准(仅从网络训练角度看,波长校准并不必要,单波长校准使得可以根据国家标准与技术研究所维护的LIBS数据库识别特定元素的特征谱线),无效像素掩蔽则是根据波长校准结果和每个光谱通道的制定波长范围,讲每个通道中的前100个像素和后50个像素作为无效像素,因此每个通道都屏蔽了150个像素点,最后每个光谱的数据都转变为了1650x3的矩阵表示,作为CNN的输入。其他一些常见的预处理步骤(如仪器响应矫正、强度归一化和特征选择等)则不包含在这项工作中。

? ? ? ? 实验将上述经过预处理后的光谱数据集作为S1光谱,S2光谱数据集则是在S1光谱预处理的基础上进行了基线去除(非对称最小二乘ALS)用于研究基线去除对CNN性能的影响。后续如未经说明则数据集均使用的S1光谱。

3. CNN网络结构

????????具体网络结构如下图所示(类似于VGG),共有5层卷积层、2层池化层(使用最大池化)、展平后两层全连接层(全连接层之间使用丢弃法)最终输出一个1x8的CCV。激活函数除最后一层使用sigmod作为输出外,其余层使用ReLU激活函数,梯度下降优化算法使用Adam,损失函数使用均方根误差(RMSE)

?4. 实验及结果

? ? ? ? 训练使用了k折交叉验证的方式,选22个样本作为训练集,1个样本作为验证集,逐一将验证样本的样本号从1更改为23。分别计算均方根误差,计算公式如下:

????????其中M为单个样本的光谱数量,除了10号样本M=15外其余样本M=63,L=8为CCV的长度.

? ? ? ? 一共23个验证案例,产生了23个RMSE值,下图为使用不同分析训练方法得到的不同预测样本对应的RMSE,可以看出CNN网络表现良好。

?下表中展示了RMSE的具体取值情况,可以看出使用CNN的误差更低,效果更好

? ? ? ? ?为了研究基线去除对当前网络的影响,作者在相同条件情况下将1401个S2光谱数据作为CNN的输入数据,同样使用BPNN和PLS方案进行比较,下图为对应的RMSE值的折线图

? ? ? ? ?下表列出了S2数据集上RMSE取值的具体情况,最后一行为与S1相比降低了RMSE的样本个数,可以看出基线去除操作后的光谱数据集S2在CNN与BPNN上的并没有明显提升,甚至有所下降,而对于PLS2由于样本19的RMSE值过高导致的,可以将样本19的RMSE作为离群值处理,也即,基线去除操作对于PLS2与PLS1的预测性能都有一定的提升。

? ? ? ? ?CNN、BPNN、PLS1和PLS2四种模型对应到23个不同样本分别产生了23x8=184个输出,四个模型共产生4x184个不同的RMSE值,分别对应不同样本的不同元素含量,统计每个样本的每个元素中取得的RMSE最优解所在的模型(如1号样本的二氧化硅含量预测的均方根误差最小值在PLS2中),构建统计图如下:

? ? ? ? ?为了更直观的评估每种方法的定量精度,又使用了预测相对误差对于预测浓度结果进行了计算:

? ? ? ? 其中P为预测值,R为标准值,?相对误差RE值以%为单位,统计数据设置了6个相关的误差值范围来表示不同的准确度,范围1表示误差在0%~5%内,范围2表示5%~10%,范围3表示10%~50%,范围4表示50%~100%,范围5代表100%~1000%,范围6代表1000%~∞,因为当实际浓度值为0时相对误差可被视为无限大,,下图为S1和S2数据集的统计结果。

? ? ? ? ?除了以上两种方式对模型进行评估外,还是用了浓度预测的标准偏差,在此不再进行详细介绍。本次研究的总体结果表明CNN方法在四种LIBS定量分析方法中具有最佳的预测性能,PLS对于存在非线性效应的数据的预测能力受限,且无法考虑LIBS光谱的波长顺序(BPNN也不能)。CNN通过卷积核的运算,可将局部区域中的相邻数据点之间的相关性进行特征提取,从而充分利用了每个谱峰的统一性和内部相关性。且当使用经过初级预处理的光谱(S1光谱)时CNN比其他三种方法具有更好的结果,然而在使用基线去除预处理后(S2光谱)CNN方法的整体性能略有下降,与BPNN方法性能类似。但无论是CNN还是BPNN都很难确定基线去除是否能改善预测性能。因为基线既包含一些有利于学习的信息,又包含一定的噪声,因此基线去除的效果主要取决于特征光谱的数据特征,但考虑到CNN的特征提取能力,可以合理推断出即使不去除基线,CNN通常也能运行良好。

? ? ? ? 尽管从统计图可以看到即使使用CNN预测浓度,但它的定量预测精度也远远不够理想,对于任一光谱数据集,最常见的相对误差水平为10%~50%,且存在不少相对误差超过1000%的情况,由于各种因素导致浓度与样品的有效光谱之间并没有唯一的相关性,虽然数据处理方法难以彻底解决这类问题,但通过使用具有相似基质的样品可以在一定程度上消除基质效应的影响,从而进一步了解定量分析方法的性能。此外增大数据集也是一个不错的方法。

5. 结论

? ? ? ? 论文提出了一种新的LIBS多组分定量分析方法,首次将CNN用于多组分预测矿质中主要的8种元素含量,并将结果分别与LIBS定量分析时的其他三种常用方法进行了比较,结果表明在此实验中CNN的误差相比于其他方法有了明显的降低,虽然由于实验数据集相对较小其结果与结论存在一定的局限性,但这一研究为今后更大范围的数据集应用提供了基础,并为CNN在LIBS领域各种场景中的应用提供了一定的思路。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-09 16:16:59  更:2021-10-09 16:17:30 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 10:40:56-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码