基于近红外光谱结合网格搜索-随机森林-自适应提升算法无损检测牛肉新鲜度

任智磊,赵霄霄,冯 景,毕景然,张公亮,侯红漫*

(大连工业大学食品学院,辽宁 大连 116034)

摘 要:为提高近红外光谱技术对牛肉新鲜度的预测精度,基于网格搜索(grid search,GS)、随机森林(random forest,RF)、自适应提升(adaptive boosting,AdaBoost)算法,提出了一种GS-RF-AdaBoost的组合预测模型。首先,单独使用RF和AdaBoost建立近红外光谱预测模型,分析其对牛肉总挥发性盐基氮(total volatile basic nitrogen,TVB-N)含量预测的准确度;其次,使用RF将训练集训练成多个弱学习器,再用AdaBoost根据不同权重将多个弱学习器组成一个强学习器,建立双集成模型;然后,利用GS算法对RF进行优化,构建以GS-RF作为弱学习器的AdaBoost模型,通过近红外光谱对牛肉TVB-N含量进行预测;最后,将基于近红外光谱建立的GS-RF-AdaBoost模型与常见的偏最小二乘回归、RF、AdaBoost、RF-AdaBoost模型的牛肉TVB-N含量预测效果进行对比分析。结果表明:利用近红外光谱对牛肉新鲜度进行预测,相较于其他模型,GS-RF-AdaBoost模型具有最低的预测集均方根误差和最高的预测集相关系数、决定系数和残差预测偏差,分别为1.731、0.969、0.924、4.331,证实基于近红外光谱结合GS-RF-AdaBoost模型可有效提高牛肉TVB-N含量的预测性能。

关键词:近红外光谱;网格搜索;随机森林;自适应提升;牛肉新鲜度

肉类在人们的饮食中有着举足轻重的地位。牛肉因其低脂肪、高蛋白、口感好的特性而备受消费者的青睐,成为全球饮食中不可或缺的一部分。然而,牛肉在运输、加工、零售过程中,会因温度、水分等因素导致品质变化[1]。牛肉新鲜度是确定牛肉质量变化程度和衡量其是否可食用的重要指标[2]。总挥发性盐基氮(total volatile basic nitrogen,TVB-N)含量通常用于评价牛肉的新鲜度,其能够准确反映肉类腐败过程中的生物化学变化。挥发性盐基氮是蛋白质在微生物和内源酶作用下发生降解的产物,主要包括氨、三甲胺、二甲胺等碱性含氮化合物,在腐败的肉类中,其含量逐渐积累[3]。当肉的新鲜度降低时,TVB-N含量相应增加,因此该指标能够客观量化肉品的新鲜度状态。测定TVB-N含量的传统方法为凯氏定氮法,其表现出许多缺点,如效率低、耗时、耗力且具有样品破坏性,不适合现代肉类工业的现场检测[4]。因此,有必要建立一种创新、简单、方便的方法测定牛肉中的TVB-N含量。

近年来,近红外光谱由于其快速、简单、准确和无损的优点,在食品领域得到广泛应用[5]。该技术的工作原理为当光线照射到样品表面时会被吸收,光的吸收主要由样品化学成分决定[6]。近红外光谱通过检测不同样品之间—CH、—OH和—SH分子键振动的变化提供样品组成的细节[7]。通过将近红外光谱与化学计量学结合分析,预测样本的新鲜度。

随着人工智能技术的快速发展,机器学习在石油化工、食品药品等行业的应用日益广泛,尤其是在食品新鲜度检测领域,近红外光谱技术结合化学计量学方法已成为研究热点[8]。然而,尽管现有研究取得了一定进展,但其局限性也日益凸显,亟需更先进的机器学习方法来解决传统模型的不足。在食品新鲜度预测方面,卢文超等[9]利用近红外光谱,通过调整不同预处理方法并与偏最小二乘法组合,建立了一种基于TVB-N含量的小龙虾新鲜度定量预测模型。刘瑜明等[10]为快速测定冷藏猪肉TVB-N含量、pH值和水分含量,利用近红外光谱技术结合化学计量学方法建立了预测冷藏猪肉TVB-N含量、pH值和水分含量的偏最小二乘模型。方瑶等[11]分别采用偏最小二乘法和主成分回归法建立金鲳鱼鱼肉TVB-N含量的近红外光谱预测模型,得到最优模型的预测集决定系数(coefficient of determination of prediction set,)为0.884。这些研究证实了基于近红外光谱技术分析食品新鲜度的可行性。然而,尽管这些研究证实了近红外光谱技术在食品新鲜度检测中的潜力,但其采用的机器学习方法多为传统的基本学习模型,如偏最小二乘法、决策树、逻辑回归和线性回归等。这些方法虽然简单易用,但在处理复杂数据时存在明显局限性:首先,它们对异常值较为敏感,容易导致模型性能下降;其次,这些模型的泛化能力较差,难以适应多样化的实际应用场景;最后,传统模型在处理高维数据时往往表现不佳,难以捕捉数据中的非线性关系[12]。因此,针对利用近红外光谱技术预测牛肉新鲜度这一具体问题,亟需引入更先进的机器学习方法,以克服传统模型的不足。

集成学习作为机器学习的一个分支,通过集成规则将多个弱学习器组合成一个强学习器,弥补单个模型的不足,使集成模型具有更强的泛化能力。因此,集成学习凭借其稳定性强、预测能力强、过拟合少等优点逐渐占据越来越重要的地位[13]。随机森林(random forest,RF)和自适应提升(adaptive boosting,AdaBoost)是集成学习的典型算法。RF通过构建多棵决策树,在训练过程中引入随机性,并通过每棵决策树的平均值预测防止模型过拟合。RF具有抗噪声能力强、训练时间短、擅长处理特征较多的高维数据等诸多优点。但当决策树数量较多时,空间和时间复杂度较高。AdaBoost通过组合多棵决策树作为弱学习器,充分考虑了每个弱学习器的权重,以此提高模型准确性。但AdaBoost抗噪能力差,容易过拟合[14]。RF和AdaBoost算法各有优劣,单独使用RF或AdaBoost算法存在一定的局限性。因此,尝试将集成模型进行结合来解决模型的局限性,进一步提高模型的预测结果。王小艺等[15]以大米的危害物检测数据为例,提出一种集成改进层次分析算法与极端梯度提升树算法的食品安全风险预测模型。吴静珠等[16]基于高光谱与集成学习构建玉米种子水分含量的定量模型,通过集成RF和AdaBoost算法的特征提取构建基于加权策略的改进RF预测模型,其达0.793。祁浩浩等[17]选取水分、挥发分、灰分和固定碳含量作为模型输入,建立煤炭低位发热量的预测模型。提出将RF算法作为AdaBoost的弱学习器,以提高模型在工业煤质分析中的发热量预测精度和泛化能力。陈亚丽等[18]建立基于RF-极端梯度提升算法的汽油辛烷值损失预测模型,其达0.783。根据这些研究可以得出,当模型的性能难以提高时,可以通过构建组合模型改进。因此,在集成模型二次组合的研究趋势下,本研究尝试将准确率高、优缺点互补的RF和AdaBoost算法二次组合成双集成模型,并结合近红外光谱预测牛肉新鲜度。然而,RF-AdaBoost算法结合近红外光谱在牛肉新鲜度预测中仍存在不足。RF的性能很容易受到超参数的影响。超参数是模型的独特特征,其值无法从数据本身推断出来。超参数值必须在训练过程开始之前建立。因此,确定最适合模型的超参数有助于实现更高的预测准确性[19]。本研究采用网格搜索(grid search,GS)解决这一问题,GS具有较强的适用性、灵活性和全面性,在参数优化方面具有良好的效果。

因此,本研究提出了一种基于近红外光谱结合GSRF-AdaBoost的牛肉新鲜度预测模型。研究的主要内容包括:采集不同牛肉样品的TVB-N含量和近红外光谱数据,分别建立牛肉新鲜度的RF和AdaBoost预测模型,随后将RF和AdaBoost进行结合,将AdaBoost当作框架,通过AdaBoost集成策略将多个RF模型作为弱学习器进行二次集成,以充分发挥RF和AdaBoost 2 种学习模型的最大效果。然后使用GS优化RF的决策树数量和最小叶子节点样本数,解决RF参数选择困难的问题。将优化后的GS-RF作为弱学习器与AdaBoost算法结合,构建基于近红外光谱结合GS-RF-AdaBoost的牛肉新鲜度预测模型。并将GS-RF-AdaBoost模型的预测性能与传统的偏最小二乘回归(partial least squares regression,PLSR)及RF、AdaBoost和RF-AdaBoost模型的预测性能进行比较,系统考察模型性能,验证所提方法对牛肉新鲜度预测的有效性。旨在为牛肉新鲜度的快速、无损检测方法开发提供新的见解,为肉制品的安全、健康发展提供技术支撑。

1 材料与方法

1.1 材料与试剂

牛背最长肌 市购。

硼酸 天津大茂化学试剂厂;氧化镁 天津市科密欧化学试剂有限公司;盐酸 西陇科学股份有限公司;甲基红 上海阿拉丁生化科技股份有限公司;亚甲基蓝上海麦克林生化科技股份有限公司;无水乙醇 天津富宇精细化工有限公司;以上试剂均为分析纯。

1.2 仪器与设备

GN1324电子天平 上海民桥精密科学仪器有限公司;K9840半自动凯氏定氮仪 山东海能未来技术集团股份有限公司;SupNIR-2700近红外光谱分析仪 杭州聚光科技股份有限公司。

1.3 方法

1.3.1 样品准备

将采购的新鲜牛背最长肌放置在4 ℃的保温箱内并迅速运送到实验室,以减少运输过程中外界环境的影响。尽可能去除牛背最长肌表面的筋膜及脂肪组织后,沿着垂直肌纤维方向精确切割成半径为40 mm的圆形样品,共获得108 个有效样品。将样品保存在4 ℃条件下,连续6 d采集样本的近红外光谱及TVB-N含量数据。

1.3.2 近红外光谱采集

使用近红外光谱分析仪收集近红外光谱。将样品置于25 ℃条件下,使样品温度保持在25 ℃,进行光谱扫描。采集光谱前,将光源预热30 min。光源为电压5 V、功率10 W的卤钨灯,检测器为铟镓砷。用白板对光谱仪进行校准,以减轻外部环境因素对光谱数据准确性的不利影响。将样品放置在样品室中,并从样品的横截面表面收集光谱。扫描范围1 000~1 800 nm,光谱分辨率(1.0±0.3)nm,吸收模式。为增加肌肉扫描的面积,并尽量减少采样误差,每个样本扫描3 次,求平均值,得到最终的光谱数据。

1.3.3 TVB-N含量测定

参考GB 5009.228—2016《食品安全国家标准 食品中挥发性盐基氮的测定》中的自动凯氏定氮仪法进行测定。将样品在绞肉机中搅碎,称取2 g样品放入消化管中,加入25 mL去离子水,浸渍0.5 h,加入1 g氧化镁,放入半自动凯氏定氮仪中,用0.1 mol/L盐酸溶液进行滴定。TVB-N含量按式(1)计算:

式中:V1为样品消耗0.1 mol/L盐酸溶液的体积/mL;V2为空白(以等质量去离子水替代样品)消耗0.1 mol/L盐酸溶液的体积/mL;c为盐酸溶液浓度/(mol/L);m为样品质量/g。

1.3.4 样本划分

在本研究中,通过视觉评估和识别初步排除异常光谱,获得106 组有效的光谱数据,供后续分析使用。采用肯纳德-斯通(Kennard-Stone,KS)方法和基于X-Y联合距离的样本集划分(sample set partitioning based on joint X-Y distance,SPXY)算法将样本按约3∶1的比例划分为校正集和预测集。使用校正集(80 个样本)建立校正模型,使用预测集(26 个样本)评估模型的预测能力。

1.3.5 模型构建

1.3.5.1 RF

RF是一种集成学习算法,是基于决策树模型的自助采样(Baggin)模型[20]。RF由各种单独的决策树组成,这些决策树作为一个集成运行。本研究设置35 棵决策树,将最小叶子节点的样本数设置为2。每棵树的数据集从全部数据中随机抽取,且树的特征也是随机选择。这种随机化有助于减少过拟合并提高模型的泛化能力[21]。RF算法可以对每个预测变量的相对重要性进行排名。变量重要性基于袋外数据的回归预测误差(out-of-bag error,OOB Error),OOB Error用于评估模型性能。在预测时,RF将每棵决策树的预测结果平均,从而得到最终预测结果。

1.3.5.2 AdaBoost

AdaBoost算法是Boosting集成算法的成功代表之一。AdaBoost算法的思想是合并多个依赖的弱学习器的输出[22]。典型的AdaBoost是将决策树作为弱学习器。AdaBoost通过迭代纠正它们的错误、增强它们的能力,有效解决了弱学习器的局限性。AdaBoost每次迭代训练添加1 个弱学习器,并增加在上次迭代中回归错误样本的权重[23]。本研究将迭代次数设置为10,通过整合迭代过程,AdaBoost将这些最初的弱模型转换为强模型。为创建一个稳健的最终模型,使用加权投票方案将多个弱学习器组合在一起。每个弱学习器的权重反映其对整个模型准确性的贡献。通过这种方式,AdaBoost生成最终输出模型,从而得到最终结果。

1.3.5.3 RF-AdaBoost

RF-AdaBoost集成模型是指通过AdaBoost将多个RF模型作为弱学习器进行集成。RF属于基于决策树的Bagging集成算法,而AdaBoost属于基于决策树的Boosting集成算法。RF-AdaBoost本质上是使2 种集成策略协同工作,并通过Boosting策略不断改进Bagging,以实现时间长度和可扩展性的优势互补[24]。RF模型精度高、抗过拟合能力强、抗噪声能力好。但当决策树数量较多时,空间和时间复杂度较高。AdaBoost模型准确率高,弱学习器结构简单,易于理解,但抗噪能力差[25]。因此将准确率高、优缺点互补的2 种模型结合起来,成为一个新的强模型,从而充分发挥RF和AdaBoost 2 种学习模型的最大效果。本研究设置35 棵决策树、最小叶子节点的样本数为2、迭代10 次作为RF-AdaBoost模型的参数,以最大限度提高模型的效率和预测性能。

1.3.5.4 GS-RF-AdaBoost

GS是一种确定模型最适合超参数的方法,通过使用所有可能的设置自动训练模型识别最佳超参数配置[26]。利用GS优化RF的最优决策树数量和最优最小叶子节点的样本数,以提高RF的准确率。本研究将决策树数量范围设置为0~35,每隔7 棵决策树取1 次;将最小叶子节点的样本数范围设置为0~10,每隔2 个选取1 次。以GS-RF模型作为弱分类器,使用AdaBoost算法迭代训练10 个GS-RF模型,从而提高GS-RF的准确率,构建GS-RF-AdaBoost状态预测模型。

1.3.6 模型评价

为了评估模型的性能和准确性,需采用特定的参数进行评估。在本研究中,通过校正集均方根误差(root mean square error of correction set,RMSEC)、预测集均方根误差(root mean square error of prediction set,RMSEP)、校正集决定系数(R-square of correction校正集相关系数(correlation coefficient of correction set,Rc)、预测集相关系数(correlation coefficient of prediction set,Rp)、校正集残差预测偏差(residual prediction deviation of correction set,RPDc)和预测集残差预测偏差(residual prediction deviation of prediction set,RPDp)综合评价定量分析模型的性能。RMSEC、RMSEP越小,RcRp越接近1,RPDc、RPDp越高,模型的预测效果越好[27]。RMSEC、RMSEP、、RPDp分别按式(2)~(5)计算:

式中:n为样本数;ym为实际测量值/(mg/100 g);yp为模型预测值/(mg/100 g);SD为测量值的标准差。

1.4 数据处理

使用MATLAB(version R2022b)软件对光谱数据进行分析、对模型进行评价。使用Origin 2021软件绘图。

2 结果与分析

2.1 不同贮藏时间牛肉样品的TVB-N含量分析

由图1可知,样品的TVB-N含量随贮藏时间的延长而增加。这是由于牛肉中的酶或微生物降解蛋白质,产生氨、胺类等挥发性含氮物质,导致TVB-N含量相应增加。本研究中,虽然贮藏第2~5天样品的TVB-N含量分布相对集中,但整个贮藏期间,样品整体分布离散,适合建立牛肉TVB-N含量的预测模型[28]

图1 不同贮藏时间牛肉样品TVB-N含量的变化
Fig. 1 Change in TVB-N content of beef samples at different storage times

2.2 近红外光谱分析

由图2可知,不同贮藏时间样品的光谱变化趋势相同,但光谱吸收强度不同,主要是因为冷藏过程中,样品的核心化学物质发生分解。样品近红外光谱吸光度与TVB-N含量呈负相关,这可能是由于蛋白质降解过程中产生氨和胺,这些有机化合物影响肉的光吸收性能,导致吸光度逐渐下降[29]。波长1 184~1 231 nm处的吸收峰主要与C—H和S—H拉伸振动的第二泛音有关[30]。此外,波长1 272~1 323 nm处识别的吸收峰与分子间和分子内氢键的O—H伸缩振动有关[31]。波长1 434~1 546 nm处观察到的宽吸收峰可能与蛋白质和氨基酸残基等有机化合物的酰胺III和II谱带的N—H和C—N伸缩振动有关[32]。这些结果表明,近红外光谱提供了丰富的与TVB-N含量变化相关的分子化学信息。然而,由于近红外光谱中存在明显重叠,利用近红外光谱准确预测牛肉的TVB-N含量仍具有挑战性[33]

图2 牛肉样品的原始近红外光谱
Fig. 2 Raw NIR spectra of beef samples

2.3 样本划分方法的确定

如表1所示,对于KS、SPXY 2 种样本划分方法,校正集与总集的TVB-N含量最大值和最小值相同,均为37.10、4.55 mg/100 g,且预测集的范围包括在校正集内。但利用SPXY法划分样本的预测集范围较窄,仅为17.04~23.45 mg/100 g,这可能会削弱模型的泛化能力,增加过拟合风险,从而影响评估的准确性[34]。同时,相较于利用KS划分样本,利用SPXY法划分样本的校正集和预测集的牛肉TVB-N含量平均值和标准差的差异更大,这也说明利用SPXY法划分样本的数据分布不合理。不同样本划分方法的差异主要由样本划分方法的设计目标和数据分布特性导致。因此,选择KS法划分牛肉样本。

表1 牛肉样品TVB-N含量的统计结果
Table 1 Statistical results of TVB-N content in beef samples

?

2.4 RF模型预测结果

在RF模型中,OOB Error是评估变量重要性和模型特征的重要指标[35]。由图3A可知,随着决策树数量的增多,OOB Error减小且下降趋势逐渐平缓。在6 棵决策树后,OOB Error开始缓慢减少;在6~15 棵时,结果轻微波动;在15 棵后,结果基本趋于稳定,OOB Error在0.014左右。这可能是由于决策树较少时,每个决策树模型随机,导致OOB Error较大,但随着决策树数量的不断增加,RF模型的稳定性也随之增加,使OOB Error逐步稳定。RF模型的具体内部决策过程不透明、难以解释[36],变量重要性得分能够可视化RF模型的特征变量。如图3B所示,绝大多数变量的重要性得分在0.17左右,1 000~1 136、1 317~1 390、1 462~1 524 nm处重要性得分较高,重要性得分越高,则表明该波段的预测能力越强。由图3C可知,该模型的测量值与预测值偏差较小,大部分数据点均围绕对角线分布,模型的为0.900 8,RMSEP为1.975 6,模型效果不太理想。

图3 基于近红外光谱的牛肉TVB-N含量RF模型预测结果
Fig. 3 Prediction of TVB-N content in beef by RF model based on NIR spectra

A.不同决策树数量下RF模型的OOB Error;B.变量重要性得分分布图;C.测量值和预测值拟合图。

2.5 AdaBoost模型预测结果

本研究的AdaBoost模型设置了10 次迭代,因此共由10 个弱学习器组成。由图4A可知,每个弱学习器的平均绝对误差相差较大,这可能是由于决策树的预测能力较差,被错误预测的样本更多,这些样本会以更高的权重进入下一次迭代过程中,从而影响弱学习器的绝对误差[37]。强学习器的平均绝对误差为1.595 1。其中共6 个弱学习器的平均绝对误差高于强学习器,分别为2.649 5、2.657 9、2.116 8、1.908 1、2.282 5和2.284 1。这种现象证明AdaBoost通过加权组合动态调整样本权重,能够有效降低整体误差。强学习器的性能优于部分弱学习器,这是AdaBoost算法的优势所在。如图4B所示,弱学习器的绝对误差是10 棵决策树预测误差的平均值,每个预测集样本的强学习器绝对误差均小于弱学习器,表明近红外光谱结合AdaBoost模型通过集成弱学习器可以更准确地预测牛肉的TVB-N含量。由图4C可知,AdaBoost模型的为0.893 9,RMSEP为2.042 9。

图4 基于近红外光谱的牛肉TVB-N含量AdaBoost模型预测结果
Fig. 4 Prediction results of beef TVB-N content by AdaBoost model based on NIR spectra

A.强、弱学习器的平均绝对误差;B.强、弱学习器预测值绝对误差;C.测量值和预测值拟合图。图5同。

2.6 RF-AdaBoost模型预测结果

RF模型和传统的AdaBoost模型在进行预测时会受到较大异常值和噪声值等的影响,导致其预测精度较低。现将AdaBoost作为模型框架,将传统AdaBoost的决策树改为预测能力更强的RF作为弱学习器,RF的决策树数量仍设置为35,最小叶子节点的样本数仍设置为2,建立RF-AdaBoost模型,从而优化近红外光谱的牛肉TVB-N含量预测模型。由图5A可知,每个弱学习器的平均绝对误差相差较小,强学习器的平均绝对误差为1.300 3,弱学习器的平均绝对误差略高或略低于强学习器,这是由于将RF作为弱学习器时,每个弱学习器的预测效果好,每次迭代中被错误预测的样本减少。RF-AdaBoost的平均绝对误差低于AdaBoost,这是因为RF-AdaBoost结合了RF和AdaBoost的优点,能够更好地平衡偏差和方差,减少过拟合,并提升模型的鲁棒性和泛化能力。如图5B所示,预测集样本弱学习器的绝对误差高于强学习器,且强、弱学习器的绝对误差基本相同,这证明将RF作为AdaBoost的弱学习器可以增强模型的预测效果。如图5C所示,利用近红外光谱与RF-AdaBoost结合对牛肉TVB-N含量的预测结果与测量结果更加一致,达0.957 6,达0.913 3,比单独的RF模型和AdaBoost模型的更高,进一步证明近红外光谱结合RF-AdaBoost模型的预测能力更强。

图5 基于近红外光谱的牛肉TVB-N含量RF-AdaBoost模型预测结果
Fig. 5 Prediction results of beef TVB-N content by RF-AdaBoost model based on NIR spectra

2.7 GS-RF-AdaBoost模型预测结果

通过GS算法对RF的决策树数量和最小叶子节点的样本数进行调节,进而优化RF以提高其性能,然后再与AdaBoost进行集成,从而组成更强的强学习器,进一步提高模型的预测能力。根据最小交叉验证均方根误差确定最优参数组合。由图6A可知,决策树的数量为35且最小叶子节点的样本数为6时,RMSEC最小。为了可视化展示基于GS-RF-AdaBoost模型的预测能力,如图6B所示,其预测值与测量值非常接近,表明GS-RF-AdaBoost模型能较好地反映近红外光谱与牛肉TVB-N含量之间的关系,具有优良的泛化能力。测量值和预测值的拟合结果进一步验证了这一点,如图6C所示,所有数据点均在xy线附近,表明预测值和测量值的偏差较小,为0.952 6,RMSEC为1.695 8,为0.923 8,RMSEP为1.731 1。结果表明,GS-RF-AdaBoost方法更适用于结合近红外光谱对牛肉的TVB-N含量进行预测。

图6 基于近红外光谱的牛肉TVB-N含量GS-RF-AdaBoost模型预测结果
Fig. 6 Prediction results of beef TVB-N content by GS-RF-AdaBoost model based on NIR spectra

A.超参数优化的三维响应面图;B.泛化能力展示图;C.测量值和预测值拟合图。

2.8 不同模型预测性能分析

为了更加直观地对比不同模型在近红外光谱技术预测牛肉TVB-N含量上的有效性,本研究将传统PLSR模型与RF、AdaBoost、RF-AdaBoost、GS-RF-AdaBoost模型进行对比。如表2所示,利用近红外光谱建立的PLSR模型对牛肉样品预测结果的为0.772,RPDp为2.502,预测效果不太理想。这可能是由于PLSR模型在处理高维数据时难以捕捉数据中的非线性关系。RF-AdaBoost预测集的RPDp为4.060,RF和AdaBoost的RPDp分别为3.795和3.670,RF-AdaBoost模型的预测效果优于单一RF模型和单一AdaBoost模型。可见,在基于近红外光谱的牛肉TVB-N含量预测方面,双集成模型优于单一集成模型。这可能是由于RF-AdaBoost模型集成了RF和AdaBoost的优点,使其成为具有更强拟合能力的强学习器,进而提升了模型的预测精度。综合考量RMSEC、RMSEP、RcRp、RPDc、RPDp等指标,可以看出GSRF-AdaBoost是近红外光谱预测牛肉TVB-N含量的最优模型,其RMSEP最低为1.731,、RPDp均最高,分别为0.969、0.924和4.331。这是由于采用GS对RF进行优化,提高了RF的预测能力,然后采用GS-RF模型作为AdaBoost的弱学习器,使弱学习器的预测能力增强,再经过迭代,强学习器的预测能力愈发提高,导致模型的预测效果更加准确。各模型RMSEC、RMSEP、Rp、RPDc、RPDp优劣表现为:PLSR模型<RF模型<AdaBoost模型<RF-AdaBoost模型<GS-RF-AdaBoost模型。因此,近红外光谱结合GS-RF-AdaBoost模型具有更强的预测能力和更好的泛化能力,对牛肉TVB-N含量的预测结果与测量结果更一致。

表2 基于近红外光谱的牛肉TVB-N含量不同模型预测结果对比
Table 2 Comparison of prediction results of different models for TVB-N content in beef based on NIR spectra

?

3 结 论

本研究提出了一种基于近红外光谱结合GS-RFAdaBoost综合学习模型的牛肉TVB-N含量预测模型。单独的RF和AdaBoost模型对近红外光谱预测牛肉TVB-N含量的效果不佳。为进一步提高预测的准确性和稳定性,将RF作为AdaBoost的弱学习器,结合这2 个模型的优势,Rp2可达0.913,增强了模型的泛化能力和抗过拟合能力。但由于RF有多个参数,调参过程相对繁琐。因此,本研究采用GS对RF的超参数进行优化,以提高模型的预测能力。以GS-RF模型作为弱分类器,采用AdaBoost算法进行训练,该模型的RMSEP低至1.731,达0.924。通过各种统计指标评估PLSR、RF、AdaBoost、RF-AdaBoost和GS-RF-AdaBoost这5 种模型的可靠性,经比较得出,近红外光谱结合GS-RF-AdaBoost模型具有最好的预测效果。本研究提出的方法能够有效预测牛肉TVB-N含量,可作为食品工业中精确检测猪肉新鲜度的潜在工具,为现代肉类加工业的快速、无损现场检测提供了可行的解决方案和理论依据。未来还需要更大量、范围更广的样本进一步提高模型的适用性,将该方法应用到更广泛的实际问题中。

参考文献:

[1] LIU H, ZHU W Y, ZHANG N, et al. Rapid assessment of the quality attributes of beef Musculus longissimus lumborum during chilled storage using fluorescence spectra excited at 340 nm[J]. Food Control,2023, 152: 109881. DOI:10.1016/j.foodcont.2023.109881.

[2] 左晓佳, 再努热·吐尔孙. 肉品新鲜度评价及保鲜技术研究进展[J].肉类研究, 2023, 37(12): 69-75. DOI:10.7506/rlyj1001-8123-20231213-112.

[3] QU F F, REN D, HE Y, et al. Predicting pork freshness using multiindex statistical information fusion method based on near infrared spectroscopy[J]. Meat Science, 2018, 146: 59-67. DOI:10.1016/j.meatsci.2018.07.023.

[4] LENG T, LI F, CHEN Y, et al. Fast quantification of total volatile basic nitrogen (TVB-N) content in beef and pork by near-infrared spectroscopy: comparison of SVR and PLS model[J]. Meat Science,2021, 180: 108559. DOI:10.1016/j.meatsci.2021.108559.

[5] 田文强, 王巧华, 徐步云, 等. 基于近红外光谱的腌制期咸鸭蛋理化指标无损检测[J]. 食品科学, 2023, 44(2): 319-326. DOI:10.7506/spkx1002-6630-20220429-384.

[6] 李晋, 张琛, 刘红, 等. 近红外光谱联合化学计量学在柑橘类水果质量无损检测方面的最新研究及应用进展[J]. 食品与发酵工业, 2024,50(5): 367-379. DOI:10.13995/j.cnki.11-1802/ts.037981.

[7] CEBI N, DURAK M Z, TOKER O S, et al. An evaluation of Fourier transforms infrared spectroscopy method for the classification and discrimination of bovine, porcine and fish gelatins[J]. Food Chemistry,2016, 190: 1109-1115. DOI:10.1016/j.foodchem.2015.06.065.

[8] CAFFERKY J, SWEENEY T, ALLEN P, et al. Investigating the use of visible and near infrared spectroscopy to predict sensory and texture attributes of beef M. longissimus thoracis et lumborum[J]. Meat Science, 2020, 159: 107915. DOI:10.1016/j.meatsci.2019.107915.

[9] 卢文超, 邱亮, 熊光权, 等. 近红外光谱技术快速检测小龙虾新鲜度[J]. 肉类研究, 2022, 36(6): 36-41. DOI:10.7506/rlyj1001-8123-20220311-017.

[10] 刘瑜明, 王巧华, 陈远哲, 等. 猪肉理化指标的近红外光谱无损检测[J].光谱学与光谱分析, 2024, 44(5): 1346-1353.

[11] 方瑶, 谢天铧, 郭渭, 等. 基于近红外光谱的金鲳鱼新鲜度快速检测技术[J]. 江苏农业学报, 2021, 37(1): 213-218. DOI:10.3969/j.issn.1000-4440.2021.01.028.

[12] 冯静达, 焦学军, 李启杰, 等. 基于心率和呼吸特征结合的睡眠分期研究[J]. 航天医学与医学工程, 2020, 33(2): 152-158. DOI:10.16289/j.cnki.1002-0837.2020.02.009.

[13] 邹其. 基于CNN与集成学习的近红外光谱分析模式识别研究[D].张家口: 河北建筑工程学院, 2023. DOI:10.27870/d.cnki.ghbjz.2023.000086.

[14] 王昳昀, 马芸芸, 杨冕清, 等. 基于高光谱成像技术和自适应增强网络的水蜜桃产地溯源[J]. 食品安全质量检测学报, 2024, 15(23): 77-87. DOI:10.19812/j.cnki.jfsq11-5956/ts.20241009001.

[15] 王小艺, 王姿懿, 赵峙尧, 等. 集成改进AHP与XGBoost算法的食品安全风险预测模型: 以大米为例[J]. 食品科学技术学报, 2022, 40(1):150-158.

[16] 吴静珠, 张乐, 李江波, 等. 基于高光谱与集成学习的单粒玉米种子水分检测模型[J]. 农业机械学报, 2022, 53(5): 302-308.DOI:10.6041/j.issn.1000-1298.2022.05.031.

[17] 祁浩浩, 茅大钧, 陈思勤. 基于改进自适应增强算法的混煤发热量预测方法[J]. 电力科学与工程, 2024, 40(6): 69-78.

[18] 陈亚丽, 苟苗苗, 邵露娟, 等. 基于RF-XGBoost算法的汽油辛烷值损失预测模型[J]. 炼油技术与工程, 2021, 51(12): 49-53.

[19] 周宇坤, 陈孝敬, 谢忠好, 等. 一种近红外光谱数据预处理组合优化策略[J]. 光谱学与光谱分析, 2025, 45(1): 52-58. DOI:10.3964/j.is sn.1000-0593(2025)01-0052-07.

[20] TEJEDOR V, VOITURIEZ R, BÉNICHOU O. Optimizing persistent random searches[J]. Physical Review Letters, 2012, 108(8): 088103.DOI:10.1103/PhysRevLett.108.088103.

[21] EVERINGHAM Y, SEXTON J, SKOCAJ D, et al. Accurate prediction of sugarcane yield using a random forest algorithm[J]. Agronomy for Sustainable Development, 2016, 36(2): 27. DOI:10.1007/s13593-016-0364-z.

[22] 侯娟, 周为峰, 樊伟, 等. 基于集成学习的南太平洋长鳍金枪鱼渔场预报模型研究[J]. 南方水产科学, 2020, 16(5): 42-50.DOI:10.12131/20200022.

[23] 邓彬, 林宏, 黄颖祺, 等. 基于加权决策树算法的调度指令风险评估方法[J]. 电子设计工程, 2022, 30(16): 10-16. DOI:10.14022/j.issn1674-6236.2022.16.003.

[24] LING J X, SUN W, HUO J Z, et al. Study of TBM cutterhead fatigue crack propagation life based on multi-degree of freedom coupling system dynamics[J]. Computers & Industrial Engineering, 2015, 83:1-14. DOI:10.1016/j.cie.2015.01.026.

[25] JARI A, BACHAOUI E M, HAJAJ S, et al. Investigating machine learning and ensemble learning models in groundwater potential mapping in arid region: case study from Tan-Tan water-scarce region,Morocco[J]. Frontiers in Water, 2023, 5: 1305998. DOI:10.3389/frwa.2023.1305998.

[26] LAN C F, SONG B W, ZHANG L, et al. State prediction of hydroturbine based on WOA-RF-Adaboost[J]. Energy Reports, 2022, 8:13129-13137. DOI:10.1016/j.egyr.2022.09.142.

[27] 王冬, 栾云霞, 王欣然, 等. 近红外光谱无损分析肉类品质的研究进展[J]. 肉类研究, 2024, 38(5): 61-70. DOI:10.7506/rlyj1001-8123-20240513-118.

[28] LI H H, CHEN Q S, ZHAO J W, et al. Nondestructive detection of total volatile basic nitrogen (TVB-N) content in pork meat by integrating hyperspectral imaging and colorimetric sensor combined with a nonlinear data fusion[J]. LWT-Food Science and Technology,2015, 63(1): 268-274. DOI:10.1016/j.lwt.2015.03.052.

[29] YU H D, QING L W, YAN D T, et al. Hyperspectral imaging in combination with data fusion for rapid evaluation of Tilapia fillet freshness[J]. Food Chemistry, 2021, 348: 129129. DOI:10.1016/j.foodchem.2021.129129.

[30] GRASSI S, JOLAYEMI O S, GIOVENZANA V, et al. Near infrared spectroscopy as a green technology for the quality prediction of intact olives[J]. Foods, 2021, 10(5): 1042. DOI:10.3390/foods10051042.

[31] SHI C, QIAN J P, ZHU W Y, et al. Nondestructive determination of freshness indicators for tilapia fillets stored at various temperatures by hyperspectral imaging coupled with RBF neural networks[J]. Food Chemistry, 2019, 275: 497-503. DOI:10.1016/j.foodchem.2018.09.092.

[32] DONG F J, HAO J, LUO R M, et al. Identification of the proximate geographical origin of wolfberries by two-dimensional correlation spectroscopy combined with deep learning[J]. Computers and Electronics in Agriculture, 2022, 198: 107027. DOI:10.1016/j.compag.2022.107027.

[33] GUO M Q, LIN H, WANG K Q, et al. Data fusion of near-infrared and Raman spectroscopy: an innovative tool for non-destructive prediction of the TVB-N content of salmon samples[J]. Food Research International, 2024, 189: 114564. DOI:10.1016/j.foodres.2024.114564.

[34] ZUO J W, PENG Y K, LI Y Y, et al. Nondestructive detection of nutritional parameters of pork based on NIR hyperspectral imaging technique[J]. Meat Science, 2023, 202: 109204. DOI:10.1016/j.meatsci.2023.109204.

[35] PROBST P, WRIGHT M N, BOULESTEIX A L. Hyperparameters and tuning strategies for random forest[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2019, 9(3): e1301.DOI:10.1002/widm.1301.

[36] 孙晓荣, 郑冬钰, 刘翠玲, 等. 小麦粉品质在线无损快速检测系统设计与实现[J]. 食品与机械, 2022, 38(12): 87-91. DOI:10.13652/j.spjx.1003.5788.2022.80152.

[37] 孙康慧, 肖安, 夏侯杰. 基于LightGBM机器学习算法的江西气温短期预报模型研究[J]. 高原气象, 2024, 43(6): 1520-1535.

Non-destructive Detection of Beef Freshness Using Near Infrared Spectroscopy Combined with Grid Search-Random Forest-Adaptive Boosting Algorithm

REN Zhilei, ZHAO Xiaoxiao, FENG Jing, BI Jingran, ZHANG Gongliang, HOU Hongman*
(School of Food Science and Technology, Dalian Polytechnic University, Dalian 116034, China)

Abstract:To improve the prediction accuracy of beef freshness using near-infrared (NIR) spectroscopy, we proposed a predictive model based on the combination of grid search (GS), random forest (RF) and adaptive boosting (AdaBoost).Initially, RF and AdaBoost were employed to establish a NIR spectroscopy prediction model, followed by an analysis of the prediction accuracy for total volatile base nitrogen (TVB-N) content in beef. Subsequently, the RF model, composed of multiple weak learners, was trained using the training set, and AdaBoost was used to integrate these weak learners into a strong learner through varying weights to build an ensemble model. RF was then optimized using GS to develop an AdaBoost model that integrates GS-RF as its weak learner for predicting the TVB-N content in beef. Finally, the prediction performance of the GS-RF-AdaBoost model based on NIR spectroscopy was analyzed and compared with that of the partial least square regression, RF, AdaBoost and RF-AdaBoost models. The results indicated that the GS-RF-AdaBoost model outperformed in predicting the TVB-N content in beef with the lowest root mean square error of predicyion set and the highest correlation coefficient, coefficient of determination and residual prediction deviation of predicyion set, which were 1.731, 0.969, 0.924 and 4.331, respectively. These findings confirm that integrating GS-RF-AdaBoost model based on NIR spectroscopy can effectively enhance predictive performance regarding TVB-N content in beef.

Keywords:near infrared spectroscopy; grid search; random forest; adaptive boosting; beef freshness

收稿日期:2025-02-10

基金项目:“十四五”国家重点研发计划重点专项(2022YFD2100504)

第一作者简介:任智磊(2001—)(ORCID: 0009-0003-9131-8902),女,硕士研究生,研究方向为食品安全。E-mail: 2223019357@qq.com

*通信作者简介:侯红漫(1964—)(ORCID: 0000-0002-1283-9992),女,教授,博士,研究方向为食品安全。E-mail: houhongman@dlpu.edu.cn

DOI:10.7506/rlyj1001-8123-20250210-032

中图分类号:TS251.7

文献标志码:A

文章编号:1001-8123(2025)11-0001-08

引文格式:

任智磊, 赵霄霄, 冯景, 等. 基于近红外光谱结合网格搜索-随机森林-自适应提升算法无损检测牛肉新鲜度[J]. 肉类研究,2025, 39(11): 1-8. DOI:10.7506/rlyj1001-8123-20250210-032. http://www.rlyj.net.cn

REN Zhilei, ZHAO Xiaoxiao, FENG Jing, et al. Non-destructive detection of beef freshness using near infrared spectroscopy combined with grid search-random forest-adaptive boosting algorithm[J]. Meat Research, 2025, 39(11): 1-8. DOI:10.7506/rlyj1001-8123-20250210-032. http://www.rlyj.net.cn