❤️ ×
各类单机,绅士游戏不断更新:https://www.acghua.com/
网站地址

基于支持向量机算法的矮星系分类研究

杨舟凡 杨尧文 蒋双如

摘  要:矮星系是一类特殊的星系,其对于研究早期宇宙以及恒星系的形成和演化过程十分重要。但是目前人类所能观察到的矮星系有限,如何从巡天项目获取的海量图像中识别出矮星系是研究的热点问题。文章意在通过人工智能的方法将矮星系与非矮星系图像进行分类,解决矮星系识别问题,提出卷积神经网络和一类支持向量机两种方法。经过实验,一类支持向量机分类的准确率更高。

关键词:天文图像;卷积神经网络;一类支持向量机

中图分类号:TP301.6     文献标识码:A 文章编号:2096-4706(2020)15-0101-03

Abstract:Dwarf galaxies are one special kind of galaxies,which are very important for the study of the formation and evolution of the early universe and star systems. However,the number of dwarf galaxies that can be observed is limited. How to identify dwarf galaxies from the massive images obtained by the sky survey project is a hot issue. The purpose of this paper is to classify dwarf galaxy and non dwarf galaxy image by artificial intelligence method,and solve the problem of dwarf galaxy recognition. Two methods of convolution neural network and One-class SVM are proposed. After the experiment,One-class SVM classification accuracy is higher.

Keywords:astronomical image;convolution neural network;One-class SVM

0  引  言

星系是由恒星系与星际尘埃组成的运行系统,矮星系是星系的一种,它是光度最弱的一类星系。由于矮星系的特殊性质,其对于研究早期银河系的形成和演化过程有很大帮助[1]。但是目前人类观察到的矮星系十分有限,如何从观测到的测光数据中将矮星系区分出来是亟待解决的问题。

随着天文望远镜的发展,人类所能观测到的天文数据越来越庞大,传统的数据分析方式已经不再适用。与天文学相关的人工智能领域应运而生,人工智能的兴起为天文数据的分析提供了十分有利的条件。机器学习等方式可以快速、高效地对数据进行处理与训练,算法和模型可以大大节省人力、物力和财力,能够得到相对准确的分析结果。

R.E.González[2]等提出使用卷积神经网络和数据增强进行星系的检测和识别。石超君[3]等提出使用卷积神经网络对恒星光谱进行分类,并将此算法与SVM和BP算法分类结果进行比较,其中卷积神经网络分类的准确率更高。李乡儒[4]等提出使用最近邻方法研究正常星系与类星系光谱的识别问题。闫龙、胡晓鹏[5]提出使用上下文特征和单类支持向量机进行人脸活体检测。

数据增强、支持向量机、神经网络算法在天文图像的分类中均有应用,且效果较好,但目前对于矮星系的分类问题研究较少。本文基于2019年国家级大学生创新创业训练计划项目“基于人工智能算法的天文光谱分类”的研究成果,使用数据增强、卷积神经网络、一类支持向量机算法对矮星系图像的自动分类问题进行研究,主要研究如何区分恒星图像与矮星系图像。

1  算法介绍

1.1  卷积神经网络

卷积神经网络广泛运用于模式识别、图像处理领域。其优点为结构简单、训练参数少、适应性强。卷积神经网络在输入是多维图像的情况下优点更为明显,它使图像可以直接作为网络的输入,无需数据重建过程。

通用结构包括:输入层、卷积层、池化层、全连接层和输出层。

本文使用的卷积神经网络的结构如图1所示。

输入层为训练集,在预处理后大小为64×64。C1层有32个大小为3×3,步长为3的卷积核,激活函数为ReLU,各卷积核提取不同特征,加偏置后经过激活函数得到卷积层C1,生成32张大小为62×62的特征图,卷积计算公式为:

其中,n为神经网络层数,w为卷积核,j为特征图,b为偏置值,f为激活函数,Nj为输入特征图集合,此模型使用的激活函数ReLU函数的表达式为:

S1层为池化层,本文采用最大池化的方法,窗口大小为2×2,S1层生成特征图数量与C1层相同,大小为31×31。C2层有64个大小为3×3,步长为3的卷积核,激活函数为ReLU,输出64张大小为29×29的特征图。S2层下采样得到64张大小为14×14的特征图。C3层有128个大小为3×3,步长为3的卷积核,激活函数为ReLU,输出128张大小为12×12的特征图。S3层下采样得到128张大小为6×6的特征图,为防止过拟合使用dropout层随机拿掉50%的神经元。全连接层神经元个数设置为512,每个神经元与S3层dropout后的所有神经元连接。输出层神经元个数设置为2,激活函数采用Sigmoid函数,函数表达式为:

1.2  一类支持向量机

一类支持向量机属于支持向量机,但是与传统分类回归支持向量机不同,它属于无监督学习方法。此方法可用于奇异点或者异常点检测和样本数量分布不均匀时的分类问题。本文使用的矮星系与非矮星系数据量不平衡,适用此方法。

仅使用一类信息进行训练,希望得到球形边界,并最小化超球体的体积,最终采用超球体进行划分。其本质为一个优化问题,可表示如下:

2  数据介绍

本文使用的数据来自于Sloan数字巡天[6]。Sloan数字巡天开始于2000年,共包括四期,每一期又包含不同的巡天子项目。目前正在进行的是四期巡天SDSS Ⅳ,项目时间是2014—2020年。整个巡天期间Sloan获取了超过10亿个天体的测光数据和超过400万条天体的光谱数据,极大扩展了人类对银河系以及宇宙的认知。

实验使用数据来自于SDSS DR8,实验数据包含11条矮星系数据和439条恒星数据。由于暗的矮星系与恒星在图像上难以区分,因此本文的主要任务是使用机器学习算法区分恒星和矮星系。该研究将有助于在未来的大型巡天望远镜,如LSST中更快速准确地搜寻矮星系。

3  实验过程与结果

3.1  卷积神经网络实验过程及结果

本文采用TensorFlow 2.0框架,软件编程环境为Python 3.7,选用G波段数据进行研究。由于数据源以FITS格式保存在文件中,通过Astropy包解析出数据,得到多个ndarray类型的矩阵。

由于数据大小不一,但是大多数都在64×64以下,所以通过填充0将矩阵统一到64×64的大小。观察到矩阵每个元素的值都在1 000左右,通过乘以1/1 000将每个元素的值控制在[-1,1]区间内。

对训练集数据进行数据增强,使用随机裁剪(random crop),随机左右翻转(random flip left right),转动90°的整数倍(ROT90)。增强后训练集的数据量为1 600条。

为将多个矩阵连续导入到训练集中,将数据转化为TFRecord格式,即进行编码,把数据转化为字节,存储在TFRecord文件中,使用时再对TFRecord文件进行解析。优点为高效、节省内存。

实验采用准确率A(Accuracy)指标评价模型性能。准确率的公式可表示为:

其中,TP(True Positive)为样本真实类别为正,预测类别为正;TN(True Negative)为真实类别为正,预测类别为负,TP+TN为正确分类的样本的个数,P+N为所有样本的个数。A为正确分类的样本占所有样本的比例。得到分类的A值为93.30%。

3.2  一类支持向量机实验过程及结果

选用439条G波段恒星数据作为训练集,测试集包含44条G波段恒星数据,11条G波段矮星系数据。将数据读取后均裁剪为64×64大小,再展为一维数组。

训练误差设定为0.1,核函数使用Linear Kernel。训练后进行测试得到结果。使用精确率P(Precision)、召回率R(Recall)、准确率A(Accuracy)、F1分数F1(F1-score)进行评估。

其中,FP(False Positive)为真实类别为负,预测类别为正;FN(False Negative)为样本真实类别为负,预测类别为负。

此方法得到的A值为96.36%,同时计算出矮星系的P、R和F1,结果如表1所示。

4  结  论

本文为解决矮星系图像分类的问题,基于数据本身的特点使用了卷积神经网络和一类支持向量机两种方法。在使用卷积神经网络前对训练集数据进行了数据增强,以增加样本数量,提升模型的鲁棒性。通过实验发现,一类支持向量机方法分类的准确率更高。

参考文献:

[1] MATEO M. Dwarf Galaxies of the Local Group [J].Annual Review of Astronomy and Astrophysics,1998,36(1):435-506.

[2] GONZ?LEZ R E,MU?OZ R P,HERN?NDEZ C A. Galaxy detection and identification using deep learning and data augmentation [J].Astronomy and Computing,2018(25):103-109.

[3] 石超君,邱波,周亚同,等.基于卷积神经网络的恒星光谱自动分类方法 [J].光谱学与光谱分析,2019,39(4):1312-1316.

[4] 李乡儒,卢瑜,周建明,等.基于最近邻方法的类星体与正常星系光谱分类 [J].光谱学与光谱分析,2011,31(9):2582-2585.

[5] 闫龙,胡晓鹏.基于上下文特征与单类支持向量机的人脸活体检测 [J].电子技术应用,2020,46(6):32-35.

[6] YORK D G,ADELMAN J,ANDERSON J E,et al. The Sloan Digital Sky Survey:Technical Summary [J].The Astronomical Journal,2007,120(3):1579.

作者简介:杨舟凡(1999.09—),女,汉族,安徽合肥人,本科在读,研究方向:统计学、大数据分析;杨尧文(1999.12—),男,汉族,四川德阳人,本科在读,研究方向:统计学、大数据分析;蒋双如(1999.11—),女,汉族,山东潍坊人,本科在读,研究方向:统计学、大数据分析。

相关阅读