摘 要: 传统的图像聚类系统得到的聚类结果往往不是最优结果。为了解决这一问题,基于大数据分析技术设计了一种新的混合属性图像冗余特征聚类系统。系统硬件由图像搜索器、网络端服务器、特征索引器、查询器、预处理器、图像数据库、聚类器组成。图像搜索器利用Spider处理器完成搜索,利用API接口和嵌入式管理系统管理图像数据库,建立颜色直方图实现颜色特征处理。软件由图像搜索、图像特征处理、冗余特征聚类三步组成,利用IGroup算法实现聚类。与传统聚类系统进行实验对比,结果表明,新的聚类系统能够在短时间内输出最优的聚类结果,适合图像处理工作。
关键词: 系统设计; 冗余特征聚类; 混合属性图像; 图像搜索; 大数据分析; 图像处理
本文源自:《现代电子技术》 2020年13期
0 引 言
随着Internet的高速发展,图像被越来越多地使用在内容表达和信息承載上。网络具有规模大、分布范围广、资源增长速度快的特征,互联网拥有的图像数以亿计,想要通过人工的手段将混合属性图像冗余特征聚类到一起十分困难,因此,必须要设计有效的图像冗余特征聚类系统[1]。
图像冗余特征聚类问题与图像信息收集和信息检索问题相关,图像的冗余特征表现形式共有如下几种:空间冗余、时间冗余、视觉冗余、信息熵冗余和知识冗余[2]。不同类型的图像含有的冗余特征不同[3],由于Internet具有边缘化的特点,所以图像信息的格式也往往不同[4]。目前研究的图像冗余特征聚类系统主要有两种:第一种是基于图像内容进行聚类;第二种是基于图像语义进行聚类。基于内容的混合属性图像冗余特征聚类系统能够对图像的内容本身进行分析和研究,基于语义的混合属性图像冗余特征聚类系统能够分析相关文字信息[5]。在目前研发的混合属性图像冗余特征聚类系统中,聚类的准确率和全面率都有所不足,系统的可扩展性也存在很大的问题[6]。
大数据分析技术是一种新的网络技术,能够在短时间内对海量数据进行分析,并且筛选出有效数据,对于冗余特征聚类十分有效[7]。本文基于大数据分析技术,设计了一种新的混合属性图像冗余特征聚类系统,对系统的硬件和软件进行了优化设计,分析了系统进行聚类的工作原理,并给出了相应的聚类算法,通过实验对聚类系统有效性进行探讨。
1 混合属性图像冗余特征聚类系统硬件设计
本文研究的聚类系统针对混合属性图像设计,该系统能够将所有的图像同一特征进行动态聚类,并且配合主题关键词,方便用户查看。
基于大数据分析的混合属性图像冗余特征聚类系统结构如图1所示。
观察图1可知,本文设计的冗余特征聚类系统利用互联网络将各个设备连接到一起。硬件设备主要有图像搜索器、网络端服务器、特征索引器、查询器、预处理器、图像数据库、聚类器,其中,聚类器和预处理器是系统结构的关键组成部分[8]。
1.1 图像搜索器设计
图像搜索器负责聚类系统的引擎搜索工作,能够在众多混合属性图像中搜索冗余特征,并且提供相对满意的搜索结果。搜索引擎中选择的服务器为Spider服务器,该服务器一改传统的超链接拓扑顺序,利用初始的URL列表获取对应的网页。Spider服务器不仅能够获得URL列表,而且还可以根据获取到的结构,寻找其他类型的文件,重复进行,直到搜索到指定数目的冗余特征为止。图像搜索器的设计过程比较简单,Spider处理器占据面积较小[9]。Spider处理器示意图如图2所示。
Spider处理器芯片是一个小型简单的芯片,能够在短时间内完成图像冗余特征的搜索工作。
1.2 图像数据库设计
为了更好地分析混合属性图像冗余特征,本文在系统硬件结构中加入了图像数据库,图像数据库能够为系统工作提供网页的原始数据,并且存储含有冗余特征的混合属性图像[10]。图像数据库使用的管理系统为BERKELEY DB系统,该系统是一个含有开放源代码的嵌入式数据库管理系统,具有极高的管理能力和极强的工作性能。图像数据库的提供很大程度地减轻了程序员的工作负担。图像数据库不需要服务器连接,应用程序直接就能够完成数据的保存、查询、修改以及删除工作。
图像数据库结构如图3所示。
观察图3可知,图像数据库中含有多个API接口能够连接软件程序,同时,采用C语言、C++语言、Java语言、Perl语言等编程语言进行操作,使系统可以在短时间内完成多个图像冗余特征的聚类工作。多语言操作使系统的多个进程可以在同一时间操控访问数据库。数据加锁、事务日志和存储管理位于数据库的底层,与数据库函数完美融合,配合系统的工作。
本文设计的图像数据库自身内存仅有250 KB,能够管理高达380 TB的数据,性能强于目前市面上的其他图像数据库。关键词(Key)是图像数据库的管理基础,关键词(Key)和数据(Data)为对应关系,构成了数据库结构的一个基本单元,用户可以利用这些基本单元实现对数据库的访问,不同的关键词来源于不同的数据。数据库中关键词对应的模型图如图4所示。
混合属性图像中的关键特征在经过计算后得到矩阵,数据在一次计算后,会永久保留在数据库中,随时为用户提供必要的服务。需要特别指出的是,最初得到的冗余特征数据不会直接储存在数据库中,而是要经过预处理器统一分析后,才能储存到对应的关键词模型列表中。
1.3 图像预处理器设计
图像预处理器主要负责处理混合属性图像的冗余特征,包括视觉冗余特征和语义冗余特征。颜色冗余特征是最为广泛的冗余特征,颜色冗余特征对图像本身的尺寸、方向和视角有着很小的依赖性,自身具有很好的稳健性。在处理颜色冗余特征时,系统会自动建立直方图,统计每种颜色出现的次数,利用的统计工具为RGB色彩工具,建立的颜色直方图如图5所示。
图5中,RGB代表不同的色彩分量,R代表红色(Red),G代表绿色(Green),B代表蓝色(Blue)。颜色直方图中每个颜色都拥有256种色彩区间。三种颜色区间加起来共有768维,不需要做特别的降维处理。
在处理语义特征时,要从URL中提取相关的语义信息,分别分析标记信息、网页标题、URL信息和meta标记信息,对不同的信息设立不同的权重值,通过分析权重值完成冗余特征聚类处理工作。
1.4 聚类器设计
聚类器在本文设计的系统中占据着核心地位,能够通过动态的方式将特征分成若干组和若干类,并确保每一组内的数据都有着极高的相似度,不同组的相似度很低。聚类器主要包括三个模块:颜色特征聚类模块、语义特征聚类模块、颜色语义特征聚类模块。通过K?means算法将得到的聚类结果保存在缓存区中,当缓存区的结构达到满负荷时,替换掉缓存区的内容。聚类器结构如图6所示。
2 混合屬性图像冗余特征聚类系统软件设计
根据设计的混合属性图像冗余特征聚类系统硬件结构,对聚类系统软件结构进行设计。软件选用的开发环境为Micorsoft Windows 10,选用的CPU为Celeron,内存高达500 MB,使用的开发工具为VS2005,得到的软件流程如图7所示。
本文设计的软件在工作之前,会建立一个初始的URL列表,利用超链接的拓扑顺序提取不同网页图像的冗余数据,通过对这些冗余特征数据进行分析,能够得到根系结果,再将根系结果输入数据库中,以构建索引库。
软件采用的聚类算法为IGroup聚类算法,该算法工作效率高,通用性强,能够以列表形式将聚类结果反馈给用户。相较于其他聚类算法,IGroup聚类算法耗时更短。通过搜索图像和文本,找到特征数据,进行合并,最后通过精选将得到的结果反馈给用户。该聚类算法能够将复杂的图片聚类转换成文字聚类,工作过程简单,工作效果好。
聚类算法流程如图8所示。
3 实验研究
3.1 实验目的
为了检测本文设计的基于大数据分析的混合属性图像冗余特征聚类系统的实际效果,与传统聚类系统进行了对比,并分析实验结果。
3.2 实验参数设置
实验平台及参数配置见表1。
3.3 实验结果
根据上述实验参数,同时选取本文研究的聚类系统和传统聚类系统对1 000幅混合属性图像冗余特征进行聚类,聚类结果比较如图9所示。
观察图9可知:传统的冗余特征聚类系统聚类数量最高值仅能达到145左右,而本文的冗余特征聚类系统聚类数量能够达到200,图像含有的信息十分丰富,用户查找起来极其方便,得到的聚类结果更优。
4 结 语
本文利用大数据提出了一种新的混合图像冗余特征聚类系统,该聚类系统能够在短时间内分析出图像不同的属性,寻找到冗余特征,给出最优结果。本文在关键参数上进行了动态设计,利用IGroup聚类算法优化了聚类过程,使系统能够实现颜色冗余特征聚类、语义冗余特征聚类。本文研究的系统虽然具备上述优点,但是提供的服务多是针对单一领域,未来该系统应该随着人工智能技术的进步不断深入研究,努力适应各种图像检索技术。
参考文献
[1] 侯莉莎.大数据集合中冗余特征排除的聚类算法设计[J].现代电子技术,2018,41(14):48?50.
[2] 魏霖静,宁璐璐,郭斌,等.大数据中基于熵加权的稀疏分数特征选择聚类算法[J].计算机应用研究,2018,35(8):2293?2294.
[3] 刘先花.基于群体协同智能聚类的大数据存储系统设计[J].现代电子技术,2017,40(23):130?133.
[4] 李珍,刁钢,赵慧峰.基于大数据分析的学生学业分类管理体系:河北农业大学商学院新生入学成绩的K?mean聚类分析[J].河北农业大学学报(农林教育版),2018,20(5):96?99.
[5] 文政颖,李运娣.一种基于模糊层次聚类分析的大数据挖掘算法[J].河南工程学院学报(自然科学版),2018,30(3):70?74.
[6] 徐源,程潜善,李阳,等.基于大数据聚类的电力系统中长期负荷预测[J].电力系统及其自动化学报,2017,29(8):43?48.
[7] 王欣刚.基于大数据分析的业务安全预警系统设计[J].广播与电视技术,2018,45(6):123?126.
[8] 梁耘,王维庆,王海云.基于分裂?合并策略改进多特征聚类算法的风电机组故障分析[J].可再生能源,2017,35(10):1537?1543.
[9] 邓小盾.一种基于大数据的网络日志分析模型构建研究[J].电子设计工程,2017,25(23):97?100.
[10] 徐时芳,罗晓宾,陈阳华.基于Spark的分布式大数据分析建模系统的设计与实现[J].现代电子技术,2018,41(20):172?174.
[11] 商娟叶.基于PSO的云计算环境中大数据优化聚类算法[J].电子设计工程,2018,26(19):80?83.
[12] 赵睿,王庆岭.基于大数据技术在线学习过程行为分析框架设计[J].兰州石化职业技术学院学报,2017,17(4):15?18.
[13] 樊凌,龚伟.无线网络MOOCs大数据聚类方法优化研究[J].计算机仿真,2017,33(7):435?439.