基于机器学习算法的校园网学生上网行为评估方法研究

时间：分类：智能科学技术

　　摘要：随着互联网的迅速发展，大学生上网时间和频率呈指数上升趋势。在大数据环境背景下，作为教育工作者和学生管理者，如何通过上网数据了解大学生真实的学习生活情况，培养学生良好的网络习惯是高等教育质量提升的新机遇和挑战。文章提出了一种在线获取学生网络流量及上网日志的模型，利用随机森林(Random Forest，RF)和梯度增强决策树(Gradient Boosting Decision Tree，GBDT)两种机器学习方法进行数据分析，实现对学生上网行为的准确评估。并且为指导学生养成良好的网络习惯提出相应的建议和对策，以求提高高等教育的质量。

　　关键词：机器学习;网络数据分析;网络爬虫;梯度提升决策树;随机森林;学生上网行为

　　李骞; 王硕; 隋继学，科技创新与应用发表时间：2021-11-18

　　1 背景介绍

　　大学生逐渐成为网络社会的主体，在各高校进行校园信息化建设的过程中，信息化基础设施不断在完善。以河南牧业经济学院三个校区为例，无线、有线网络已基本实现教室、宿舍、校园全覆盖，为学生在校上网提供了便利，学生每日通过校园网上网、聊天、学习、游戏、购物已经成为日常生活中不可或缺的一部分。

　　学生上网行为评估分析主要指的是通过在校园网出口或校园网不同节点采集网络流量，识别上网日志及流量信息中的网络行为轨迹(包括专业网页浏览、游戏娱乐等)，利用智能数据分析方法，对网络资源利用情况和学生上网行为进行评估和分析。随着可视化技术、数据采集技术的提升，进行学生上网行为评估是现代化校园了解学生日常轨迹的一种真实而重要的方式，也为进一步研究学生校园行为活动提供了新的思路和方法。但是，随着校园网速度的加快，网络应用复杂度增加，加密网络和未知网络的更新也给校园网学生上网行为的数据采集与分析带来了新的挑战。

　　因此，本文从学生网络流量数据与日志分析入手，提出了一种基于网络爬虫框架的校园网网络流量数据获取模型，利用机器学习算法来获得理想的数据处理优化模型，比较了基于网络流量数据的梯度增强决策树(Gradient Boosting Decision Tree，GBDT)和随机森林(Random Forests，RF)两种方法，对学生上网数据进行各个角度的详细分析。最后，基于学生上网行为数据分析，从多个方面对高校网络监控和学生教育管理给出对策和建议，为老师们研究分析在校学生学习、生活特征提供了新技术、新方法，同时大数据分析技术也必将促进当前高校信息化建设。

　　2 相关原理工作介绍

　　传统学生沟通在实行过程中具有效率低的致命缺点，并且也很难挖掘到学生提供信息所蕴含的潜在信息及真实的生活学习情况。网络数据与学生的生活息息相关，可以被用于分析学生的行为模式。传统教育理念普遍认为学生上网时长和上网内容会对学生学业和日常生活造成影响，但是却很难建立学生上网行为与学业之间的模型，因而无法进行相关研究。

　　对于学生上网行为分析，主要的难点和研究点集中在：数据流量采集技术、流量准确识别、上网行为分析模型建立三方面。针对数据流量采集技术，根据实现方法可以分为硬件和软件两种类型，硬件实现虽准确度高但是需要购买专门的设备，不适用于研究;软件可以根据实际需求进行开发和部署，灵活性较高。针对流量识别技术，主要集中在 TCP 端口、深度包检测(DIP)和机器学习。其中，TCP 端口识别不适应动态变化，DIP 技术不能应用于加密网络和未知网络，而机器学习不受端口、数据包、加密等复杂动态网络情况的限制[1]，对学生上网情况的分析具有一定的实用价值，也将成为今后高校教育教学研究的一项重要内容[2-3]。

　　国内外许多学者基于大学生的上网数据进行了分析。例如 Miao[4]等人提出了一种区分大学生不同年级的方法，利用校园 WiFi 数据捕捉学生的行为特征，利用这些特征，采用机器学习聚类算法对不同年级的学生进行聚类;Kamal Bunkar[5]等人建立了一个系统，允许学生预测正在学习课程的最终成绩，他们尝试在机器学习中应用一些算法，特别是分类，通过评估学生数据来研究可能影响学生表现的主要属性，从而帮助提高高等教育的质量;Tripti[6]等人使用不同的分类算法，根据学生的社会数据、学术数据和各种情感技能建立预测模型，将 C4.5 和随机树两种算法应用到学生的记录中，发现随机树具有较高的精度。

　　综上所述，个人网络流量数据是评价学生网络习惯的重要指标。为了评估学生的在线习惯，本文通过对学生网络数据中提取的大量网络行为数据训练分类器，建立数学模型。新输入的数据被已经训练的分类器分类为正或负行为(即上网行为良好或者上网行为预警)，最后为便于理解学生的上网习惯进行可视化数据处理，以期从微观的角度来探索网络行为与学生学业之间的关联关系。

　　3 基于机器学习的学生上网行为分析方法

　　学生上网数据行为分析过程可以分为以下两个步骤。

　　(1)数据获取和预处理阶段。利用网络爬虫获取上网数据，按照数据处理形式，对记录进行转换，写入数据仓库，可采用 SQL 语句或批量加载，这一部分是为下一步统计准备有用的数据。

　　(2)基于机器学习的模型建立和分析阶段。利用机器学习建立上网数据与行为的模型，这是整个行为分析的关键部分。需要通过从不同角度对学生上网行为进行统计和分析，帮助教育者掌握学生上网需求，发掘出隐含规律，实现对学生上网情况的全面把握。

　　3.1 基于网络爬虫的上网数据获取

　　为了获取尽量多的学生网络流量数据，本文采用了一个由模拟登录浏览器和从网页下载数据组成的网络爬虫(Spider)。由于学生在登录浏览器时，需输入用户 ID、密码以及验证码，其中验证码是一幅数字和字母的图像。因此，在设计中提出了一个基于 Keras 的卷积神经网络进行验证码自动识别。网络爬虫的框架如图 1 所示，Web 爬虫得到的数据集示例如表 1 和表 2 所示，每天的日志数据量约 4 万条，包括的核心字段有用户账号、用户名称、登录时间、使用时长、IP 地址、使用流量、行为详情等，表 2 给出经过处理后的数据集。

　　3.2 基于机器学习的学生网络行为分类模型

　　学生网络行为可以根据不同的需求对行为进行分类。本研究将网络行为分为网络学习，网络娱乐两个部分，然后通过上网时间等数据对学生上网行为进行综合分析，并进行标记。处理后的数据集将保存到 SQL 中，如表 2。Label 为 1 代表上网行为好，Label 为 0 代表上网行为不良，需进行预警。

　　此外，网上学习的网络行为由两部分组成，专业课学习以及课外学习。判断依据为对专业课的关键词搜索以及相应的视频观看情况。研究根据学生上网浏览信息条数数据和观看时间进行程度等级划分，建立相应的数学模型。网上娱乐的网络行为分为社交、购物、娱乐视频、游戏、其他五种类型，并且在此类页面中停留过长时间。由于时长较难判断，所以主要是通过浏览条数来进行娱乐行为判断。然后将代表程度等级的结果来代替建立相应的数学模型。

　　上网时间是对学生上网行为的一个综合评价指标，因为时间的长短可以反映学生对于网络的使用情况，适当地使用网络有利于学生的学习和娱乐，而过度沉迷则不利于生活和学习。所以上网时间的选取一般是分时段、分时长来判断学生对网络的利用情况和分配情况，图 2 给出了网络行为分类的结构。

　　为了对比结果，本文采用梯度增强决策树和随机森林算法两种方法对数据进行训练，梯度增强决策树(GBDT) 是集成学习 boosting 的代表方法，随机森林(RF)是集成学习bagging 的代表方法[7-9]。GBDT 的主要思路是基于梯度增强和决策树的，思想是训练多个弱分类器获得一个强分类器，得到更好的分类结果[10]。利用损失函数的负梯度拟合，可以用 GBDT 求解一些分类问题;随机森林[11]是它从原始训练样本集中随机抽取 n 个样本，生成一个新的训练样本集，新的训练样本集用于训练分类和回归树(classification and regression tree，CART)。根据这一策略，我们可以生成 M 分类和回归树，形成一个随机森林。新数据的分类结果取决于每个弱学习者，最后一个分类是所有弱学习者投票最多的分类。

　　由于每次迭代的训练集和测试集都不相同，对于上网数据进行分类需要通过 N 次迭代得到训练模型，获得更可靠的结果。每次迭代均从 SQL 中提取数据集，将数据集随机分为训练集和测试集，对数据集进行规范化处理。在所有迭代结束后，将最优模型参数保存到 SQL 中，训练模型流程如图 3。

　　4 学生上网行为分析与结论

　　4.1 网络数据分析方法性能

　　在本文的实验部分中，我们利用网络爬虫获取学生的网络流量数据，并基于这些数据训练分类器，其中计费系统每天产生近 4 万条登录日志，包括的核心字段有用户账号、用户名称、登录时间、使用时长、IP 地址、使用流量等。我们希望通过对用户行为进行分析与分类，这些分类器能够正确地对新样本进行分类，并及时发现学生上网过程中的需要及时注意的行为。

　　为了更直观地理解分类结果，我们提取了每个记录的一些特性，包括登录时间、注销时间和网络流量数据。这些特征以三维形式显示，不同类别的点具有不同的颜色。灰点代表学生上网过程中存在坏记录，需要辅导员和老师特别关注，黑点代表上网习惯的好记录，可以作为学生上网质量的评价标准。同时，图 4 中显示出学生上网行为的百分比。

　　实验中采用了梯度增强决策树和随机森林两种方法，以便增加判断结果的可信度。采用方法程序运行时间如图 5 所示，梯度增强决策树算法花费的时间更少。对于每个算法，我们使用相同的参数集进行多次实验。模型的精度和曲线下面积(AUC)是每次迭代的评价标准，精度和模型 AUC 值越高，质量越好。图 6、图 7 中水平轴表示算法运行的迭代次数，垂直轴表示算法的精度值和 AUC。从性能图来看，随机森林(RF)算法的平均精度和平均 AUC 较高，即使稍高一点，梯度增强决策树(GBDT)的结果也更稳定。根据算法性能的准确性、AUC 和运行时间综合考虑，梯度增强决策树是对学生网络行为分类的较好选择。

　　4.2 学生上网行为分析结果

　　从流量数据中我们可以得到，学生每天产生 100 万条日志信息，可以具体定位到每个用户的上网行为轨迹，其核心字段有 IP 地址、终端类型、记录时间、行为详情。我们从中可以总结出一些学生上网行为的特点与规律：

　　(1)平均上网时间长，且较为集中。通过 IP 地址的统计，学生上网的时间主要集中在 18：00 以后以及课间。由于学生在校期间自由支配时间比较充裕，几乎每个学生都有手机，并且大部分学生都配有手提电脑，上网几乎是学生们的核心活动。

　　(2)上网形式比较单一，以移动接入形式为主。使用移动客户端的上网频率远高于使用 PC 端。在上网数据中，其中通过无线 Portal 接入人数最多，达到 5000 人次。其中，使用频率最高的是手机视频软件，其次是社交软件、网页访问、购物软件、应用程序，其中也包含对旅游、新闻、教育资源的访问。

　　(3)上网缺少目的性，以娱乐为主。根据对网络日志的分析，我们发现学生在上网的过程中注意力分散，自控力差，并且没有集中在进行学习和研究上。其中以视频类为目的的占 25.38%;18.51%为搜索引擎及导航类地址;大约 40%的为在线聊天类、网购类、知识学习类等，网络为学生生活提供便捷和多种交流方式，大约有 20%的学生基本没有通过网络进行知识汲取。

　　(4)上网辨识度低。大学生的好奇心比较强，他们对新事物充满新鲜感，在尝试中损害了自身利益。在样本中，大部分学生的上网行为都符合正常人的行为习惯，但是部分学生在下课时间浏览过赌博性质的网站、黄色网站、借贷网站等，但是不排除是浏览器恶意插件导致的，所以通过对比 IP 及其关联账号，可以定位这部分学生个人信息，及时反馈给学工管理处，时刻观察学生的生活情况，并且督促该部分学生改善上网习惯。

　　4.3 针对学生上网行为分析的建议

　　针对分析结果，在高校的教育工作者进行教育和管理的同时，本文也提出了一些建议：

　　(1)需要不断加强对学生网络管理的力度，学生的自控力普遍较差，学生沉迷网络环境是不可逆转的未来趋势，会对教育质量以及学生的学业造成影响。必须高度重视网络内容管理，营造良好网络环境，通过对学生网络行为分类及预警，减少学生不良网络行为的发生。同时，还要重视来自各个领域的反馈信息，争取提前进行预先疏导，从最大程度上提高大学生的网络免疫能力。

　　(2)学校及院系需要定期开展具有吸引力的文体活动，丰富在校学生的课余时间，一方面为学生提供展示自我的平台，另一方面对于学生依赖网络有较强的分散效果。既可以使学生愉悦身心，也可以使校园内文化氛围更加浓厚，杜绝不良网络环境对学生的影响。

　　(3)利用网络平台，正面宣传网络用途，多鼓励学生上网学习，做到劳逸结合。首先在网上开展丰富多彩网络学习活动，如网络知识讲座、网络知识竞赛等。引导学生进行有效地网络学习，获取专业养料。再次，促进网络教育与传统教育相结合，可以借助班会或集中教育时间来宣传相关网络知识，组建网络心理健康教育中心，定期开展系列活动。实行线上+线下的形式，一方面进行面对面交流，另一方面有老师在网络上进行辅导，满足不同学生的需求。

　　5 结论

　　本文主要以学生网络流量数据对学生上网行为进行分类与分析，并给出相应的分析结果和建议。在实现方法上，我们构建了一个网络爬虫框架获取学生上网数据集。然后对数据集进行处理，通过两种方法梯度提升决策树和随机森林对分类模型进行训练。最后，对这些分类模型进行比较，使分类结果可视化，挖掘出学生的上网习惯。通过对实验结果的分析及可视化便于学生查看在线记录，从而对学生管理提出相应的教学管理对策，该方法可为高效解决类似问题提供一种新的办法，有利于培养良好的在线习惯，辅助高校教育教学管理。

上一篇：基于 vDPA 的虚拟网络转发技术研究与优化
下一篇：基于线驱转向的仿蝴蝶扑翼飞行机器人系统设计与控制

品质、专业的

基于机器学习算法的校园网学生上网行为评估方法研究

获取免费资料

最新文章