刘 飞 1,邹 昊 1,田寒友 1,汤介兰 2,刘文营 1,李家鹏 1,乔晓玲 1,*
(1.中国肉类食品综合研究中心,肉类加工技术北京市重点实验室,北京 100068;
2.北京中瑞食品有限公司,北京 100260)
摘 要:以市售新鲜冷藏(4 ℃)猪肉为研究对象,采用蒙特卡洛-无信息变量消除算法和连续投影算法对原始近红外光谱的800 个波长变量进行提取,共筛选出与挥发性盐基氮含量直接和间接相关的有效波长变量36 个,并采用偏最小二乘法构建预测模型,验证集的相关系数和标准偏差分别为0.876 4和1.205 7 mg/100 g。关键词:猪肉;蒙特卡洛-无信息变量消除算法;连续投影算法;挥发性盐基氮
猪肉食品是我国接受度最好,商业化最成熟的肉类食品,猪肉的品质对肉类食品工业的健康发展具有重要意义。猪肉的新鲜度是评价猪肉品质的一项重要指标,GB5009.44—2003《肉与肉制品卫生标准的分析方法》也规定,挥发性盐基氮(total volatile basic nitrogen,TVB-N)含量是划分猪肉新鲜度等级的标准。一般来讲,TVB-N的测定方法采用半微量定氮法或微量扩散法,这种方法前处理繁琐、检测周期长、效率低、不能满足当今肉检过程的快速、无损、自动化的需求。
近红外光谱(near infrared spectroscopy,NIR)可记录样品中含氢基团(O-H、C-H、N-H、S-H等)分子中单个化学键的基频振动的倍频和合频信息 [1],反应样品中对应化学成分的含量及变化,因此具有分析速度快、操作简便、非破坏性等优势,同时无需对样品进行预处理、可实现在线检测等特点,在农业、食品、医药等领域得到广泛应用 [2-6]。近年,采用近红外光谱检测技术快速无损检测肉制品挥发性盐基氮的研究较多,侯瑞峰等 [7]用近红外漫反射光谱开展了猪肉新鲜度检测的研究,报道了该方法用于检测猪肉新鲜度的可行性;Cai等 [8]采用偏最小二乘法(partial least squares,PLS)对全光谱信息变量建模,预测猪肉TVB-N值,预测效果良好,验证集相关系数为0.808 4;蔡健荣等 [9]采用间隔偏最小二乘法(siPLS)对猪肉的TVB-N化学值建立预测模型,缩减了光谱的部分冗余信息,获得4 个有效波长变量范围,验证集相关系数为0.823 8;马世榜等 [10]采用无信息变量消除(uninformative variable elimination,UVE)
结合连续投影算法(successive projections algorithm,SPA)提取了牛肉近红外光谱中的8 个有效波长的信息变量,并采用最小二乘支持向量机(least squares support vector machines,LS-SVM)构建了TVB-N的预测模型,验证集的相关系数为0.925,极大限度地减少了无用信息的干扰。后前,近红外光谱预测生鲜肉TVB-N的建模方法和变量选择,逐渐从全光谱信息变量转变成有效波段变量或有效波长变量,以提高模型的准确性和建模的效率,但采用变量选择方法提取与市售猪肉TVB-N相关的特征波长建立快速预测模型,并探讨提取的特征波长变量与预测模型的数量关系以及特征波长变量的物理意义的报道相对较少。本研究拟采用蒙特卡洛-无信息变量消除算法(Monte Calo uniformative variable elimination,MCUVE)和SPA相结合,提取猪肉TVB-N的特征波长变量并探讨其物理意义,进而提高市售猪肉TVB-N的PLS的光谱预测模型的精度和效率,为进一步开发快速使用的检测设备提供参考。
1.1 材料与试剂
猪肉样品均为宰后排酸12 h的猪通脊肉,采购于北京大型商超。
扩散皿(6031-02A型) 日本柴田科学;无水碳酸钾、硼酸、甲基红、次甲基蓝、阿拉伯胶、甘油(均为分析纯) 国药集团化学试剂有限公司;0.010 mol/L盐酸标准滴定液 北京试剂国家化学试剂质检中心。
1.2 仪器与设备
SupNIR-1520型便携式近红外仪(光谱波数范围1 000~1 799 nm,分辨率5 nm,平面漫反射探头、钨灯光源、光谱采集窗口(直径32 mm))、RIMP Client近红外光谱分析软件 聚光科技(杭州)股份有限公司;BSA822-CW型电子天平(精确度0.01 g) 德国赛多利斯科学仪器。
1.3 方法
1.3.1 样品制备
取不同养殖企业和不同品种的市售新鲜猪通脊肉样品(2.0±0.2) kg,分别用塑料袋包裹以减少样品间干扰和水分挥发对样品光谱信息的影响。将所有样品放置于0~4 ℃冷库保藏15 d,使其自然缓慢腐败,每天随机选取10 个样品进行其光谱信息的采集和挥发性盐基氮含量的测定。
1.3.2 样品近红外光谱信息的采集
每次实验前先将便携式近红外仪预热30 min,预热后用参比标准白板进行校准(样品间不再进行校准)。在采集样品光谱信息前,用定性滤纸吸干样品横截面上的水分。采集过程中,将样品的横截面紧贴于便携式近红外仪的平面漫反射探头上,避免因漏光导致采集的样品光谱信息不准确。因光谱信息的采集对温度敏感,所有样品在采集过程中始终保持在0~4 ℃。每个样品选取6 个不同区域进行光谱信息采集,取其平均值作为该样品的最终光谱吸收强度值。
1.3.3 样品挥发性盐基氮含量的测定
对样品进行光谱信息采集后,根据GB/T 5009.44—2003中的微量扩散法,立刻测定选取的10 个样品的TVB-N含量。每个样品做3 个平行,取平均值作为该样品的TVB-N值。样品绞碎时去除脂肪、筋腱等组织。
1.3.4 样本选择及样本集划分
利用主成分分析(principal component analysis,PCA)和统计分析 [11],剔除异常样本和异常理化值样本后剩余有效样本258 个,其原始近红外吸收光谱如图1所示,按3∶1的原则用SPXY(sample set partitioning based on joint x-y distances Algorithm)算法 [12]把258 个样本划分为校正集和验证集,207 个样本作为校正集并建立预测模型,51 个样本作为验证集并验证预测模型的精度和稳定性。校正集和验证集样品的统计分布情况如图2所示。
图1 样品的近红外吸收原始光谱
Fig.1 Raw NIR spectra of pork sample
图2 校正集和验证集样品分布情况
Fig.2 The distribution of calibration and validation samples
1.3.5 数据处理及建模
将样品的光谱信息对应其挥发性盐基氮化学测量值导入Matalab 2012分析软件中,用无信息变量消除算法和连续投影算法对全波段变量(1 000~1 799 nm)进行提取,并用PLS算法建模。
1.3.5.1 蒙特卡洛-无信息变量消除算法和连续投影算法
MCUVE [13-14]是一种新型的无信息变量消除算法,它
在UVE的基础上增加了蒙特卡洛采样原理。可消除不提供信息的变量,减少建模变量数,提高建模速度,降低模型的复杂性。SPA是一种利用向量的投影分析,从光谱信息中寻找含有最低度冗余信息、共线性最小的变量组,大大减少建模所用的变量个数,从而达到改善多变量线性模型预测效果的后的 [15]。MCUVE算法和SPA算法相结合,能够进一步减少建模变量个数,提高建模效率和建模精度。
1.3.5.2 建模及评价
PLS是光谱数据建模分析中应用最为广泛的化学计量学方法 [16-17]。模型的性能用校正集标准偏差(s EC)、校正集相关系数(R c)、验证集标准偏差(s EP)、验证集相关系数(R p)评判。s EC、s EP越小,R c、R p越接近于1,模型越好。
2.1 样品挥发性盐基氮含量的测定结果实验共测定了258 个猪肉样品的挥发性盐基氮,为避免所用样品的待测量范围过小,代表性差,导致不能获得准确的预测模型,由表1可知,本实验建模所用样品的TVB-N含量为7.15~22.44 mg/100 g,平均值
表1 猪肉样品TVB-N含量的测定结果
Table 1 Statistical results of total volatile basic nitrogen in pork samples
样本集样本数含量/(mg/100 g)最大值最小值平均值标准偏差总样品集25822.447.1511.753.93校正集20722.447.1511.753.51验证集5121.767.2511.743.46
11.75 mg/100 g,标准偏差3.93 mg/100 g,涵盖了国标对鲜(冻)畜肉的挥发性盐基氮含量所允许的最大值。
2.2 全波段光谱预处理分析及建模
表2 不同变量选择方法得到的光谱变量建立的PLS模型和预测结果
Table 2 Prediction results of TVB-N by PLS models using raw and variable selected NIR spectra
预处理方法选择方法变量数校正集验证集R cs EC/(mg/100 g)R ps EP/(mg/100 g)变量无无8000.943 71.158 30.826 71.427 6无MCUVE3000.951 51.077 10.849 31.330 9无MCUVE-SPA360.950 91.083 90.876 41.205 7
将原始近红外吸收光谱1 000~1 799 nm范围的全波段数据共800 个变量导入Matlab,用PLS方法构建猪肉TVB-N的预测模型,结果如表2所示。采用全波长构建的预测模型具有较好的预测效果,校正集和验证集的标准偏差分别为1.158 3 mg/100 g和1.427 6 mg/100 g,校正集和验证集的预测相关系数分别为0.943 7和0.826 7,与Cai等 [8]构建的猪肉挥发性盐基氮的siPLS傅里叶近红外光谱模型的结果相近,校正集和验证集的相关系数分别为0.839和0.808。
2.3 用MCUVE提取有效波长
对近红外吸收光谱1 000~1 799 nm范围全波段原始数据构建TVB-N的PLS预测模型,虽然可以得到不错的预测效果,但全波段中包含大量对建模无用的冗余信息。全部作为建模的输入变量,不但影响建模的速度和精度,还对后期开发高精度便携设备带来一定程度的阻碍。用MCUVE算法进行变量选择,可剔除全波段中的无用信息,提取有效波长信息。
图3 基于MCUVE的校正集和验证集的预测相关系数和标准偏差随近红外波长变量数的变化曲线图
Fig.3 Variation of R
c, R
p, s
ECand s
EPvalues with the number of selected variables for TVB-N by MCUVE using NIR spectra
用PLS结合留一法交互验证 [18]确定最佳主成分为10。对校正集全光谱矩阵进行随机采样,每次随机挑选光谱变量总数的2/3建立PLS模型,共采样100 次,计算确定每一个波长变量的稳定值(所有样品在同一波长下的平均值与标准差的商)。将波长变量稳定值的绝对值从大到小排列,每次从数列中增选50 个波长变量建立PLS模型,直到选择所有的波长变量建模。以PLS模型的预测标准偏差)挑选波长变量,选择预测标准偏差最小值时的波长变量数,剩余的其他变量则界定为无信息变量。图3为不同波长变量数对应的校正集和验证集的预测相关系数和标准偏差的关系图。当波长变量为300时,验证集标准偏差值最小,为1.330 9 mg/100 g,此时的校正集标准偏差和验证集相关系数都处于拐点,校正集相关系数随变量数变化不大。图4为全波段光谱800 个变量稳定值的分布,2 条水平虚线为前300 个波长变量的最小稳定值,两线范围之外的变量为有用信息,基本上覆盖了全波长范围的所有区段,代表性较好。采用MCUVE算法进行变量选择后,变量数从800 个减少到300 个,变量个数减少了62%。将筛选出的变量作为输入变量建立PLS模型,预测结果如表2所示,校正集和验证集的预测相关系数分别为0.951 5和0.849 3,校正集和验证集的标准偏差分别为1.077 1 mg/100 g和1.330 9 mg/100 g。与全光谱变量建立的模型相比,输入变量数大幅减少,预测精度有一定程
度的提高。Du等 [19]采用MCUVE变量选择法,删除掉55%的无效波长变量后,其模型预测效果变化不大。由此可见,MCUVE处理后的前300 个波长变量携带的信息具有较好的代表性,可作为预测模型的有效波长变量。
图4 基于MCUVE的TVB-N近红外波长变量稳定值分布图
Fig.4 Stability distribution of each variable for TVB-N by MCUVE using NIR spectra
2.4 用MCUVE-SPA提取有效波长
为进一步提取有效变量,获得TVB-N的近红外特征光谱值,采用SPA算法对MCUVE提取后的光谱变量进行处理,消除变量之间的共线性,提取共线性最小的有效波长变量。波长变量选择数设定为1~50,由校正集内部交叉验证均方根误差(cross-validation root mean square error,RMSECV)值确定最佳有效光谱变量个数 [20]。如图5所示,MCUVE处理后300 个光谱变量中,经SPA算法提取出36 个有效变量。变量个数在MCUVE提取的基础上减少了88%,与原始全光谱变量个数相比,减少了95%。将提取出的36 个有效变量作为输入变量建立PLS模型预测验证集数据,预测模型的拟合公式如下:
将上述近红外光谱对应的特征波长值代入公式,即可预测生鲜猪肉的TVB-N化学预测值。该模型的验证集相关系数和标准偏差(表2)分别为0.876 4、1.205 7 mg/100 g,模型预测精度高于原始光谱和MCUVE处理后的光谱数据构建的预测模型,图6为验证集预测结果的散布图,验证集样本的预测值分布在回归直线两侧,预测效果较好,说明提取的有效波长变量携带的信息具有较好的代表性。马世榜等 [10]采用VUE和SPA结合LS-SVM的方法构建的牛肉挥发性盐基氮的预测模型,提取的有效波长变量个数为8 个,预测相关系数和标准偏差分别为0.925、4.615 mg/100 g。
图5 基于SPA的TVB-N RMSEP值随近红外波长变量变化曲线图
Fig.5 Variation of RMSEP values with the number of selected variables for TVB-N by SPA using NIR spectra
图6 近红外光谱PLS模型对TVB-N预测结果与实测值对比图
Fig.6 Scatter plot of laboratory measured values versus NIR predicted values for TVB-N using PLS model
图7 基于MCUVE-SPA的TVB-N近红外光谱特征波长分布图
Fig.7 Variables wavelength selected by MCUVE-SPA corresponding to raw NIR spectra for TVB-N
由图7可知,图中实线为某份猪肉样品的近红外光谱导数的曲线,空心方框为经MCUVE和SPA结合算法提取的36个特征波长所在位置。其中1 150 nm附近的波长变量与胺和N-H键产生的吸收峰有关 [21],而TVB-N测定值反应的是猪肉样品中的蛋白质分解产生的氨及胺类等碱性含氮物质,故选择该波长区域的变量作为TVB-N的特征波长;一些波长变量与水分子在近红外区产生的吸收峰(1 400 nm附近)有关,也被选择作为TVB-N的特征波长变量,由此可知,通过MCUVE-SPA算法提取的波长变量对TVB-N的预测结果有显著影响。由此可推知,
TVB-N的特征波长变量主要分为两类,一类是含氮基团的特征信息,一类是与氮基团相关,间接影响TVB-N测量结果的物质(水分等)。因此采用MCUVE-SPA算法可以较好的在大量无用信息中提取与猪肉中挥发性盐基氮直接和间接相关的最优波长变量,结合PLS构建预测模型,可以较好的预测猪肉挥发性盐基氮的化学值。
3通过MCUVE-SPA算法提取猪肉近红外光谱的最优波长变量,并建立了PLS的预测模型,实现了猪肉4 ℃条件下TVB-N的无损快速检测。经过提取的最优波长变量为与TVB-N直接和间接相关的近红外波长变量,相比较全波长变量构建的模型相比,变量个数减少了95%,精度得到有效提高,建立的PLS预测模型的验证集相关系数和标准偏差分别为0.876 4、1.205 7 mg/100 g,具有较好的预测精度。由此可见,采用MCUVE-SPA算法和PLS建模方法,能提取最优波长变量,提高建模速度和预测精度,为开发便携、快速的无损检测猪肉TVB-N设备,实现无损快速分级和评价猪肉新鲜度提供参考。
参考文献:
[1] GIL-SANCHERZ L, SOTO J, MARTINEZ-MANEZ R, et al. A novel humid electronic nose combined with an electronic tongue for assessing deterioration of wine[J]. Sensors and Actuators A: Physical, 2011, 171(2): 152-158.
[2] 刘燕德, 陈兴苗, 欧阳爱国. 可见/近红外光谱法无损检测赣南脐橙可溶性固形物[J]. 光学学报, 2008, 28(3): 478-481.
[3] 赵杰文, 郭志明, 陈全胜, 等. 近红外光谱法快速检测绿茶中儿茶素的含量[J]. 光学学报, 2008, 28(12): 2302-2306.
[4] 丁海泉, 卢启鹏, 朴仁官, 等. 土壤有机质近红外光谱分析组合波长的优选[J]. 光学精密工程, 2007, 15(12): 1946-1951.
[5] 刘飞, 何勇, 王莉. 黄酒糖度预测的可见-近红外光谱方法研究[J]. 光学学报, 2008, 27(11): 2054-2058.
[6] 韩东海, 王加华. 水果内部品质近红外光谱无损检测研究进展[J].中国激光, 2008, 35(8): 1123-1131.
[7] 侯瑞锋, 黄岚, 王忠义, 等. 用近红外漫反射光谱检测肉品新鲜度的初步研究[J]. 光谱学与光谱分析, 2007, 26(12): 2193-2196.
[8] CAI J, CHEN Q, WAN X, et al. Determination of total volatile basic nitrogen (TVB-N) content and Warner-Bratzler shear force (WBSF) in pork using fourier transform near infrared (FT-NIR) spectroscopy[J]. Food Chemistry, 2011, 126(3): 1354-1360.
[9] 蔡健荣, 万新民, 陈全胜. 近红外光谱法快速检测猪肉中挥发性盐基氮的含量[J]. 光学学报, 2009, 29(10): 2808-2812.
[10] 马世榜, 彭彦昆, 徐杨, 等. 可见/近红外光谱结合变量选择方法检测牛肉挥发性盐基氮[J]. 江苏大学学报(自然科学版), 2013, 34(1): 44-48.
[11] JOLLIFFE I T. Discarding variables in a principal component analysis. I: artifi cial data[J]. Applied Statistics, 1972, 21(2): 160-173.
[12] ZHANG Z Y. Determination of hesperidin in Tangerine leaf by near-infrared spectroscopy with SPXY algorithm for sample subset partitioning and Monte Carlo cross validation[J]. Spectroscopy and Spectral Analysis, 2009, 29(4): 964-968.
[13] YANG H, KUANG B, MOUAZEN A. Quantitative analysis of soil nitrogen and carbon at a farm scale using visible and near infrared spectroscopy coupled with wavelength reduction[J]. European Journal of Soil Science, 2012, 63(3): 410-420.
[14] CAI W, LI Y, ShAO X. A variable selection method based on uninformative variable elimination for multivariate calibration of nearinfrared spectra[J]. Chemometrics and Intelligent Laboratory Systems, 2008, 90(2): 188-194.
[15] PONTES M J C, GALVA R K H, ARAUJO M C U, et al. The successive projections algorithm for spectral variable selection in classification problems[J]. Chemometrics and Intelligent Laboratory Systems, 2005, 78(1): 11-18.
[16] GELADI P, KOWALSKI B R. Partial least-squares regression: a tutorial[J]. Analytica Chimica Acta, 1986, 185: 1-17.
[17] 叶莺, 陈崇帼, 林熙. 偏最小二乘回归的原理及应用[J]. 海峡预防医学杂志, 2005, 11(3): 3-6.
[18] LEARDI R. Application of a genetic algorithm to feature selection under full validation conditions and to outlier detection[J]. Journal of Chemometrics, 1994, 8(1): 65-79.
[19] DU G, CAI W, SHAO X. A variable differential consensus method for improving the quantitative near-infrared spectroscopic analysis[J]. Science China Chemistry, 2012, 55(9): 1946-1952.
[20] HAO Y, SUN X, ZHANG H, et al. Application of effective wavelength selection methods to determine total acidity of navel orange[J]. Sensor Letters, 2011, 9(3): 1229-1234.
[21] ROSESEL R V, BEHRENS T. Using data mining to model and interpret soil diffuse refl ectance spectra[J]. Geoderma, 2010, 158(1): 46-54.
Rapid Detection of Total Volatile Basic Nitrogen in Pork by Near-Infrared Spectroscopy Using Effective Wavelength Variables
LIU Fei
1, ZOU Hao
1, TIAN Hanyou
1, TANG Jielan
2, LIU Wenying
1, LI Jiapeng
1, QIAO Xiaoling
1,*
(1. Beijing Key Laboratory of Meat Processing Technology, China Meat Research Center, Beijing 100068, China;
2. Beijing Zhongrui Stuff Co. Ltd., Beijing 100260, China)
Abstract:Total volatile basic nitrogen (TVB-N) content is an important reference index for evaluating pork freshness. This study attempted to measure the TVB-N content in pork meat using near infrared spectroscopy with Monte Calo uniformative variable elimination (MCUVE) and successive projections algorithm (SPA). The results showed that 36 effective wavelength variables directly and indirectly related to the TVB-N content were selected with MCUVE and SPA from the 800 wavelength variables in the original NIR spectra of fresh chilled pork (at 4 ℃), and the proposed partial least squares (PLS) model had good performance with correlation coeffi cient of prediction (R p) of 0.876 4, and standard error of prediction (s EP) of 1.205 7 mg/100 g, respectively.
Key words:pork; Monte Calo uniformative variable elimination; successive projections algorithm; total volatile basic nitrogen (TVB-N)
中图分类号:O657.33
文献标志码:A
文章编号:1001-8123(2015)09-0025-05
doi:10.15922/j.cnki.rlyj.2015.09.006
收稿日期:2015-04-02
基金项后:“十二五”国家科技支撑计划项后(2014BAD04B05)
作者简介:刘飞(1983—),男,工程师,博士,研究方向为生鲜肉快速无损检测技术。E-mail:felix.liu.cn@gmail.com
*通信作者:乔晓玲(1964—),女,教授级高工,学士,研究方向为肉制品加工技术。E-mail:cmrcsen@126.com