成绩挖掘论文范文-盘古文库

成绩挖掘论文范文

来源：莲生三十二

作者：开心麻花

2025-10-16

成绩挖掘论文范文（精选8篇）

成绩挖掘论文第1篇

《英语新课程标准》明确指出:高中英语课程是为每一个高中学生奠定终身发展的共同基础的课程, 高中英语课程的教育教学要面向全体学生。而我们在教学上, 长期以来形成了一种“抓两头, 带中间”的概念, 导致了事实上的“忙两头, 忘中间”的最终局面。在我们日常的教育教学工作中, 能在任课教师脑海中最先记住的名字, 往往是“两头”的学生, 这不仅是他们的学习成绩反差大, 细观察会发现, 能主动与老师谈心说笑的大多是“两头”的学生, 而“中等生”很少。这部分“中等生”大都缺乏主见, 缺乏学习活动热情, 没有与人竞争的勇气和兴趣。这部分“中等生”长期以来缺乏老师应有的关心, 帮助, 教育和培养, 自以为处在冷漠的关系中, 加上对自身认识不够, 形成了精神欲求不足的心理, 这种心理状态与我们所提倡的现代意识是格格不入的, 与素质教育的要求是相背离的。

而对于英语学科, 在高三短短的一年时间, 要想最大限度地提高总体水平, 挖掘学生潜力, 重心也非“中等生”莫属。因为尖子生基本上成绩稳定, 在原有基础上提高的幅度不大, 没有大潜力可挖掘, 后进生由于基础过于薄弱, 短期效应不大。而“中等生”成绩大多在及格左右波动, 有一定的基础, 若教师加以精心地指导和关注, 提高这部分学生的成绩绝对不是一句空话。因此, 抓好班级中数量较多的“中等生”, 同时兼顾“两头”学生, 对提高班级总体的英语水平起着至关重要的作用。

一、“中等生”的心理特点和学习障碍

细心的教师会发现, “中等生”不调皮捣蛋, 不惹麻烦, 比较懂事自律, 甚至循规蹈矩, , 严格遵守学校的规章制度, 他们有自己的追求和向往。然而, 在另一方面, 他们又比较容易满足, 缺乏一定的激情和活力, 缺少拼劲和闯劲。处在一个新的班级中, 他们起初希望得到教师的关注和肯定, 但当教师忽视对他们的关注时, 他们的学习热情会逐渐减弱, 产生不良情绪, 从而做事缺乏自信, 无法信心百倍地去克服困难, 不能潮气蓬勃地奋勇前进, 学习效率不高。如上课回答问题时, 希望自己口齿清楚地答好问题, 但又战战兢兢, 目光游离不安, 结结巴巴, 盼望老师尽快让其坐下, 希望自己豁达乐观, 却时不时要为一时的小事而生闷气。想参与课堂教学活动, 却又担心别人嘲笑, 这种心理易导致自卑, 害怕, 由退缩失望最终导致严重的心理障碍, 影响了学习, 这也不是我们时代所要求的。

二、提高“中等生”英语素质的策略与方法

1、关爱欣赏“中等生”, 走进学生心田。

比较起“两头”的学生, 性格比较内向的“中等生”更希望得到教师的关爱和欣赏。当他们得到教师的关心和爱护时, 就会产生满意、积极、自尊等内心体验, 就会对教师的课产生积极性。教师关注学生的形式, 可以是一个眼神, 一个动作, 一句话等, 纳入到课堂、课间、以及学生的方方面面。教师要理解学生, 把学生看作一个有发展潜力的人, 用欣赏的眼光看待学生的每一个想法, 每一次发现, 发现他们的可爱之处和闪光点, 尽量给予鼓励和热切的期待, 从而发挥学生潜能。

2、保持“中等生”学习兴趣, 增强学习信心。

我们知道, 学生学习外语的心理过程是:好奇兴趣成就自信。学习兴趣对学生起着推波助澜的作用。兴趣一旦形成, 学生便会有强烈的求知欲, 会积极、主动、心情愉快地学习。有了兴趣就能够学好英语, 从而有了成就感, 体验到了成就感, 就会有自信。

因此, 英语教师要设法激发“中等生”学习兴趣, 让他们体验成功, 尽管我们经常拿居里夫人, 爱迪生等大科学家的例子来激励他们, 但是我们忽略了一个事实, 那就是他们都是一些成年人, 心理承受能力比较好, 而我们的学生各方面还没有完全发育成熟, 从某种意义上来讲, 他们还是小孩子, 屡考屡败不可能不受打击, 从而可能会一撅不振。

与此同时, 当学生遭受挫折、失去信心妄自菲薄时, 需要教师及时指出他们的优点, 帮助他们找回曾拥有的成功的喜悦感, 鼓励他们重新树立信心, 相信“我能行, 我肯定能学好英语”, 发现自己的潜能, 发现自己的闪光点, 寻找自信的支点, 正确认识自我。

3、培养竞争意识, 强化“中等生”学习动机

“中等生”处在班级总体水平的中间位置, “比上不足, 比下有余”, 往往容易产生满足感, 竞争意识不强, 学习动机不够明确。然而, 当今社会竞争无处不在。“蛙死温水”的实验也能给我们启示, 那就是当人的大脑处于竞争状态时的效率要比无竞争时的效率高很多。因此, 在课堂上展开各种竞赛活动, 比如听力比赛, 书法比赛, 猜词比赛等都有利于培养学生的竞争意识。

4、加强学法指导, 养成良好学习习惯

“授人以鱼, 不如授人以渔”, 教给学生学习方法比单纯传授知识更为重要。而很多的“中等生”成绩上不去, 缺乏一定的好的学习方法也是一个很重要的因素。提高“中等生”的学习成绩, 笔者认为以下几种方法颇为有效:

(1) 培养语感

多数学生认为, 到了高三, 只要会做题, 语感已经并不重要了, 所以忽略了朗读和背诵的重要性。事实上, 对于学习英语的中国人来说, 由于本身已经缺少了一定的语言氛围, 英语的大声朗读和背诵, 显得尤其重要, 英语学习者要始终让自己的大脑处于英语的空间之中。背诵和朗读的材料可以是课文中的精彩段落和名人名言等。

(2) 培养学生查词典的能力

英语词典是学习的重要工具, 培养学生查词典的能力是培养学生独立阅读的重要方法, 是获取外语知识的重要技能。善于正确使用词典等于是请了一位随时可求教, 可答疑的“好老师”。

(3) 抓基础词汇和句型

高考重视基础和能力的结合, 没有一定的基础就谈不上能力的提高。所以每天有目的的让“中等生”上黑板翻译常用的词组和句型, 狠抓教材, 逐单元消化其中的词汇知识和语法不失为好方法。

(4) 多说英语

不少人怕开口说英语, 潜意识是怕说不好, 这纯属是传统意识在作祟。李阳老师的两个观点能医此症:一个是:I enjoy losing face.另一个是Speak English as loud as possible.Speak English as quickly as possible.Speak English as clearly as possible.鼓励学生多参与学校组织的英语角活动, 课后多与同学用英语交流。

(5) 及时记忆

“艾宾浩斯遗忘曲线”提醒我们, 所学知识要及时记忆。但是很多学生往往是上课的时候, 只知道记笔记, 不动脑筋思考, 记忆。原本可以当堂记住的内容, 要拖到下课去复习, 然而事实上, 大部分学生由于作业或者其他原因, 并不会及时去巩固所学知识, 导致学习效率不高。

(6) 及时复习

课后及时复习能加深和巩固对新学知识的理解和记忆, 系统地掌握新知识达到灵活运用的目的。所以, 科学的、高效率的学习, 必须把握“及时复习”这一环, 心理学研究表明, 学过知识后的短时间内遗忘很快, 而往后遗忘的速度减慢, 因此复习要及时。

(7) 反复练习

语言不是教会的, 而是在使用中学会的, 交际能力只有在交际中得到最有效的训练和培养, 教师应引导学生争取各种训练机会反复练习, 以提高自己的英语水平, 如:在课堂上、在课后、在英语角、在各种英语俱乐部多多练习英语、使用英语, 培养真正的交际能力。

成绩挖掘论文第2篇

一、知识发现与数据挖掘的理论基础

（一）知识发现的研究综述

知识发现（Knowledge Discovery in Databases，KDD）一词最早出现在1989年8月美国底特律召开的第11届国际联合人工智能学术会议上[1]。1996年，知识发现被Fayyad U，Piatetsky，Shapiro G和Smyth P定义为：知识发现是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程[2]。对KDD的研究主要包括从数据库的角度进行研究以强调知识发现的效率，从机器学习的角度进行研究以强调知识发现的有效性，从统计分析的角度进行研究以强调知识发现的正确性，从微观经济学的角度进行研究以强调知识发现的最大效用。KDD过程是多个步骤交互螺旋式上升的学习和总结过程[3]，基本流程包括：

（1）限定学习领域，储备预先知识、确定学习目标；

（2）聚焦目标数据集，选择一个数据集或在多数据集的子集上聚焦；

（3）数据预处理，数据降噪或数据清洗；

（4）数据转换；

（5）确定数据挖掘功能法则；

（6）获得知识信息、运用知识成果并重新选定学习目标。

在创新的过程中，单单依靠显性知识已经不足以支撑整个思维求异和技术创新的全流程。随着数据量的爆炸式增长，传统数据库的检索查询已不能满足信息社会的深层次需求，再加上传统分析手段的落后，大量数据来不及整理、分析或利用就已“时过境迁”成为无效信息，而且被长期积压在数据库中浪费存储资源。为了及时消解数据产生和数据理解之间的矛盾，还必须定期对数据进行深度挖掘，使得大量被隐藏的、有价值的信息得到有效利用。

（二）数据挖掘的理论探索

数据挖掘（Data Mining）是指使用算法来抽取信息和模式，通常是知识发现过程的一个重要步骤。数据挖掘融合了机器学习、模式识别、数据库技术、统计学理论、人工智能及信息管理系统等多门学科的最新成果。应用数据挖掘技术从大型数据库中发现隐藏在其中的规律和有用信息，为管理层决策提供事实型数据和研究模式。

根据KDD的目标任务，数据挖掘任务可分为：分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等。而所要挖掘的对象则可以分为：关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及web等对象的挖掘。从方法论讲，其挖掘方法一般分为：聚类分析、探索性分析、机器、统计、神经网络（Neural Network）、遗传算法（Genetic Algorithm）、数据库、近似推理和不确定性推理、基于证据理论和元模式、现代数学分析、粗糙集（Rough Set）、集成方法等方法[4]。

（三）小结

综上，知识发现用于从大量数据中抽取规律信息，发现非预期或潜在的价值量，而数据挖掘作为知识发现的重要一环是与实践应用紧密相连的，两者不仅仅是对数据的简单检索调用，而是从数据集合中自动提取出隐含在数据中的关系和模式，进而对未来可能发生的行为进行预测，为决策者提供有力支持。

二、高校成绩管理与学科建设

成绩是学生在校学习期间对所学知识理解掌握情况和教师教学质量评价的原始记录，对学校的教学管理和教学改革措施评价具有重要的参考价值[5]。成绩管理是高校教学管理中的最为基础性的一个环节，是根据教学目的和教学任务，

通过学生的实际量化考核分数来进行统计、查阅和分析的综合性数据处理过程。该过程的科学与否，直接关系到教务管理的实际质量和教学工作的可持续发展，特别是在网络化和信息化的新形势下，该项工作被素质教育赋予更加深远的现实意义。本文所指学科成绩不仅限于学生的笔试成绩，还包括了学生参加各种校内外实习和培训，以及其他形式素质教育的量化数据。

（一）高校成绩管理所面临的新形势

从宏观上讲，随着国家高等教育普及工作的不断推进，以及教育战线“以人为本”理念的逐步深入，高校教务在成绩管理这一环节上所面临的任务显得比以往任何时刻都更加繁重。

首先，院校扩建和学生扩招为学科成绩管理模块在数据容量上增加了压力。近几年，随着一些高校教学资源的整合和扩充，许多高校设立了新校区、设置了新专业，反映在学生成绩管理上则是成绩数据的时空容量同时增长。每多出一个学生，从学籍材料到各年度学科数据再到图形化成绩资料都会相应增加，教师教务管理系统所要处理的信息量也会相应增加，这首先在量上增加了数据压力。

同时，素质教育为学科成绩管理如何更好地服务教师施教和学生学习提出了新的课题。素质教育是我国长期以来所推行的一项基本国策。学科成绩是高校学生在校的唯一量化评价指标，如何通过这些数据来及时反映出学生的学习效果和心理需求、反映出教师队伍的教学质量和教学改革进度，已经成为教务管理系统化的一个重要课题。

其次，教学管理模式改革为建立规范化的成绩管理系统并进行深度信息挖掘提出迫切需求。当前许多高校都在积极推进教学管理制度改革，逐步以学分制和选课制替代原有的学年制和班级授课制度，这种模式的改革在提高学生的学习积极性的同时，无形之中也为成绩管理工作带来了一定难度，比如增加了课程设置的不确定性，成绩管理不能再以自然班级为单位，而是必须以单个的学生或者学生组合为单位，使得成绩管理更加复杂。

计算机考试成绩的数据挖掘分析第3篇

关键词：计算机考试系统,考试成绩,统计分析

0 引言

计算机的广泛使用, 促进了传统考试形式的转变, 使用计算机进行考试已经越来越受师生欢迎。客观题及操作题类型为主的课程, 比如数理统计及计算机应用类课程非常适用计算机考试的形式。计算机考试的数据资源地有效利用, 能够更好地为教育评价、决策提供科学依据。

1 研究意义

对理论与实践操作并重的课程, 教学安排既包括理论讲解也包括实例演练, 通过上机操作, 达到更好的理解和运用理论知识进行统计分析的目的, 培养学生的实际操作能力, 使学生的理论和实践更好的结合。在课程的考核上, 采用计算机考试系统考试, 学生直接调用计算机上的专业软件进行操作, 一方面考察了学生对理论知识的理解能力, 另一方面, 也考察了学生对应用能力即专业软件的使用。本研究的目的是基于计算机考试系统, 对考试中的获取的学生作答信息做深层的挖掘分析, 目标是获取学生对某些知识点的掌握程度、专业软件解题操作中存在的问题, 从而更好地指导教学。

传统的学生试卷分析, 提供的是基于学生最终作答分数的分析, 如获取标准差、平均分、最高分、最低分、各分数段的数量等, 可用于分析试卷整体的难易程度, 如果要精细化考察学生对于某一知识点的掌握程度, 将是非常困难。设计和实现满足要求计算机考试系统达到对试卷整体以及对章节知识点的难易程度的考察。

计算机考试系统的题库按照章、节、知识点细化的方式进行设计的, 考试中根据考察的内容设定考试范围, 在考试结束后除可以实现传统的试卷统计分析外, 还可根据知识点细化分析。综合试卷整体分析和知识点细化分析结果, 可分析学生对某类题目的理解程度、学生对专业软件的应用能力、试卷难易程度等。即可获得更多的有助于教学的信息, 而且非常高效的实现, 并没有增加教师的工作量。

2 设计与实现

计算机考试系统的构成由学生考试客户端系统及教师管理系统构成。学生考试客户端系统为学生考试界面, 学生通过身份验证后从教师管理系统获取试卷, 试卷作答完成, 试卷结果提交到教师管理系统;教师管理系统包括学生信息管理、题库管理、组卷管理、试卷分析等几部分构成。

学生作答客户端系统为通常考试系统常见部分, 包括学生身份验证、试卷发卷及作答、交卷几部分。本文主要侧重于教师管理系统内子模块的介绍。

教师管理系统的子模块学生信息管理实现对学生基础信息的管理, 学生考试时用于身份验证以及考试后成绩分析。该模块实现如学生院系、班级、学号、姓名等信息的维护, 包括添加、删除、编辑学生信息等操作。

教师管理系统的子模块题库管理是试卷构成以及评价的基础。经过多年的计算机考试, 在多年的实践中摸索出题库设计细化的重要性, 对题库的类型及组织形式都有较为深入的了解, 并有了大量的习题资源积累。正是基于科学的题库设计基础上, 对题库细化为由章、节、知识点多级构成覆盖面广、难度系数清晰的题目数据库。教师可以通过对题库的操作, 如添加、编辑、删除题目等操作实现对题库的管理。

教师管理系统的子模块组卷管理依托题库管理模块, 组卷规则灵活, 可根据考察范围定位题库中的级别, 如在组卷规则中要求考察到某章、某节以及某知识点;可指定组卷中试题数量、分值、难度系数和考试时间等;可随机在题库中抽取题目组卷, 随机生成的试卷数越多, 越有利于防止考试舞弊行为发生。

教师管理系统的子模块试卷分析实现系统自动阅卷以及输出数据挖掘分析报告。自动阅卷根据试卷中学生作答的答案与题库中对应题目的参考答案比对, 并根据分值汇总形成学生的成绩。

试卷分析模块通过考试系统记录学生的题目作答对错率、知识点作答情况等数据信息, 对这些数据进行数据挖掘分析, 可获知学生对某一知识点的掌握程度、作答偏好等有效信息, 从而更科学、更微观的展现学生的作答情况, 便于老师们根据统计分析结果获取学生对知识点的掌握情况, 有利于日后的教学。试卷分析模块可实现如下考试数据处理:

(1) 成绩基本统计分析:1试卷总体的平均分、最高分、最低分、标准差, 可按班级和授课老师分别统计;2成绩分布情况。人数各分数段布局, 可按班级和授课老师分别统计。

(2) 深入数据挖掘分析, 适用于同一门课多个班级考试的情况, 也适用于一门课、一个班级但是采用多份试卷即随机出卷的情况:1单题统计:统计单个题目的出现次数、错误率、出题人;可提供按班级单题统计, 按授课老师单题统计以及全部单题统计。2按章、节、知识点统计:按照章、节、知识点统计出现的次数、错误率, 并进行排序;可提供按照班级或者授课老师进行统计。

(3) 生成数据分析报告。综合基础统计和深入统计结果, 生成详细的试卷分析报告。

3 总结

对于理论知识和专业软件应用结合紧密的课程, 采用计算机考试方式对学生进行考核, 能真实考察学生的理论和实践相结合的能力, 而对学生机考过程中的数据进行挖掘和分析, 获得对学生对课程理解、软件操作能力更深入的了解, 有助于教师对日后教学中课程的难点重点把握、更好地改进教学方法, 提高教学质量, 这也延伸了考试的作用。在此基础上, 还可以做进一步深入研究和分析。继续深入细化机考的过程, 采集更多的操作数据, 比如考试过程中每道题目的完成时间;比如题目完成的过程, 是一次正确, 还是经过修改才正确, 还是正确又修改成错误;比如按照时间曲线绘制得分情况, 可以分析学生对课程的掌握情况。

参考文献

[1]王丽.基于三层C/S结构的计算机类课程考试系统[J].电脑知识与技术.2007:1132-1133

[2]崔园.数据挖掘技术在机考系统中的应用[J].电子设计工程.2012, 20 (1) :1-3.

[3]刘奇付, 邵换峥.学生成绩信息管理系统的探索与实践[J].软件开发与设计.2011:23-25.

[4]李秀娟, 田川, 冯欣.数据挖掘分类技术研究与分析[J].现代电子技术.2010 (20) :86-88.

[5]武学斌, 赵学军.计算机基础课程机考系统的设计与实现[J].实验技术与管理.2007, 26 (7) :95-97, 106.

[6]宋小景.基于网络的学生成绩管理系统的设计与实现[J].电脑知识与技术.2013 (26) .

成绩挖掘论文第4篇

数据挖掘技术是通过公正客观的统计和分析，从大量数据中发现潜在规律，找出隐含模式，准确掌握未来的动态。建立模型是数据挖掘中的重要环节，需要根据分析选出适合的模型工具。本研究应用数理统计方法对成绩统计开展多角度多层次的分析，选用标准分作为模型工具，淡化原始分数的绝对性，描述出原始分数的相对位置，综合考察学生之间以及学校之间的不同水平和层次;而且标准分更适合纵向比较，从而反映出学生学习和教师教学水平的增长情况。

1 标准分数在评定学生成绩中的必要性和可行性

多年来，评定学生考试成绩采取百分制，规定60分以上为及格，60分以下为不及格，这是不科学的，不能正确反映学生的真正学习情况。例如，一名学生期中考试数学成绩81分，外语成绩96分;两个月后期末考试，该学生数学成绩92分，外语成绩80分，能否根据这些数据判定该学生数学成绩提高了，外语成绩下降了呢，答案是“不一定”，因为两次考试试题的难度不同，题量不同，侧重面可能也不同。所以，用绝对分数不能科学地反映学生的实际学习状况。那么如何解决这个问题?使用标准分就是解决问题的方法之一。

标准分是采取统计学的计算方法计算出的一种数据，这种方法可以过滤掉多次考试因试题量不同和试题难度不同而造成的不确定情况。

标准分数(stardard score)是以标准差为单位来衡量某一分数与平均数之间的离差情况，是反映个体在团体中相对位置的最好统计量。

标准分的计算公式:

其中，Zi为该生的标准分数，xi为该生的原始分数，E(x)为考生团体原始分数的平均值，δ(x)为考生团体原始分数的标准差。标准分数是以标准差为单位来度量考生的原始分数与平均分数之差所得的量值。

使用标准分评价固然具有一定的科学性，但是标准分的计算是比较复杂。如果人工加算盘计算一次200人的3科考试成绩的标准分，最少需要两个人计算5小时以上。如果用计算器，反复输入数据很容易出错，计算结果往往不太可靠[2]。使用本系统计算60000个原始分所对应的标准分，从计算每个成绩的标准分，到最后将对应标准分保存至数据库对应的表中，整个过程总共耗时66.594秒。因此使用本研究可以方便的得到准确的分析结果。

2 成绩分析系统设计

该系统主要是面向中学教育管理服务，进行统计时以班级为最小单位。为了科学合理的进行成绩分析，需要对学校、年级的教学质量进行纵向和横向比较，对教师的评价也进行横向和纵向比较。比较分析结果以直观清楚的图例和数据显示，同时可以导出Excel分析表格。

整个系统模块划分为成绩横向分析、成绩纵向分析、分析结果导出和历史成绩查询四大模块。成绩横向分析和成绩纵向分析均分为单科成绩分析和综合成绩分析;分析结果导出分为横向分析结果导出和纵向分析结果导出;历史成绩查询分为教师历史成绩查询、学生历史成绩查询、班级历史成绩查询、学校历史成绩查询和历史分析成绩结果导出。总体设计框图如图1所示。

在本分析系统中数据库设计从需求分析、概念设计、逻辑设计到物理设计，形成最合适的物理存储结构(包括文件类型、索引结构和数据的存放次序与位逻辑等)、存取方法和存取路径等[3]。物理数据模型中，包括九个个表格：班级、教师、课程、班级_教师、教师_课程、学生、学校，学生_成绩和学校_教师_班级_成绩等。表格之间的关系以外键的形式表示。

3 成绩分析系统实现

系统基于SOA架构标准模范，以JSP、Actionscript 3.0为开发语言，整合struts2、Hibernate开源框架，结合struts分页技术，采用MVC三层架构的开发模式开发而成。系统体现了Java与Flex的通信、其中通信方式采用HttpService，数据格式采用JSON格式，高效快速的得出各个层次的分析结果。系统实现流程图如图2所示。

成绩分析界面主要是以flex技术为主，即将flex生成的swf文件嵌到jsp中完成显示[4]。考试录入完毕进入成绩分析，拥有分析权限的用户登陆后在导航栏的帮助下进行本次考试分析。设置相关条件后查得对应的分析结果，分析结果以柱状图和数据表格同时显示，样式如图3所示[5,6]。

4 系统测试及结论

采用自顶向下的渐增集成方式进行测试。使用集成测试可以较早发现各个模块之间的接口是否存在错误和问题[7]。经过多次功能的使用，完成完整的黑盒测试。对系统验收测试60余次，完全达到预期效果。

该成绩分析系统经过实际使用，能够高效快速的得出各个层次的分析结果。对于一次考试，横向分析可以在一分钟内完成各个层面的分析，包括学校，班级，教师以及学生的分析，同时提供历次考试分析结果的查询;纵向分析可以根据具体的分析对象(学校、班级、教师)为目标，方便快速的查看该对象在历次考试中的成绩，进而掌握其学习情况。

摘要：现有的中学教学管理软件中,很少涉及深层次的成绩分析,不利于充分挖掘这些数据所隐含的信息,无法进行科学的教学评价。利用数据挖掘技术可以精确地展现学生成绩分布的多个方面,找出影响成绩变化的规律性因素。系统采用标准分数作为数学模型,选用SOA架构标准模范,以JAVA、JSP为开发语言,研发出一套科学、高效的成绩分析系统,为学校教务部门提供决策支持信息,促使教学工作更好地开展,最终提高教学质量。

关键词：标准分数,成绩分析,SOA架构,JAVA

参考文献

[1]陈梅.数据挖掘技术在中学教务管理系统中的应用研究[D].贵州:贵州大学,2008.

[2]李清霞,黄桂华.数据挖掘在教室教学质量评估系统中的应用研究[J].软件导刊,2009(7):158-161.

[3]程云志,张帆,崔翔.数据库原理与SQL Server2005应用教程[M].北京:机械工业出版社,2009:77-92.

[4]杨占坡,杨铭,瓮颖.FLEX3RIA开发详解与精深实践[M].北京:清华大学出版社,2009:14-34.

[5]孙鑫.Struts2深入详解[M].北京:电子工业出版社,2008:167-294.

[6]李刚.Struts2.1权威指南[M].北京:电子工业出版社,2009:145-182.

成绩挖掘论文第5篇

1.1 SPSS

SPSS (Statistical Package for the Social Science) 是著名的统计分析软件之一, 2000年SPSS公司将其产品正式更名为SPSS (statistical product and service solutions), 即统计产品与服

务解决方案[1], 它在自然科学、技术科学和社会科学的各个领域都发挥具大的作用。它的基本功能包括数据管理、统计分析、图表分析等。SPSS统计分析过程包括描述性统计分析、均值比较、一般线性模型、相关分析、回归分析等。

1.2 选取数据

为了了解学生入学成绩与在校学习成绩的关系, 选取了2010级学前系一个班学生的入学成绩与在校几年的成绩进行分析, 这样可以避免由于系科差异、班级差异、任课老师差异等对学生在校学习成绩的影响因素。通过删除了一些有缺考、作弊等非正常的数据后, 得到如图1所示的20条数据。

1.3 利用 SPSS 对学生成绩进行相关性分析

相关分析是将事物之间关系通过一定的数量关系表现出来的定量分析方法。利用SPSS中的相关性分析, 选择双变量, Pearson相关系数 (选择另外两个相关系数也有类似的结果), 双侧检验, 得到的结果如图2所示。

从上面4个分析结果可以看出, 学生的中考成绩与学生的在校成绩有一定的关系, 但是中考成绩对于学生在校成绩的相关性在逐年降低, 从0.799到0.521,这也意味着学生的在校学习成绩与初中时相比, 有了明显的变化, 这种变化又来自哪里呢? 另一方面, 将学生的一年级成绩、二年级成绩、三年级成绩与学生四年级的成绩也作了如上的相关性分析,得到的结果如图3所示。

从图3的结果可以看到这种相关性在逐年增加, 尤其是三年级与四年级总分之间的相关性系数达到了0.965, 这也说明学生的成绩趋于稳定。

2 利用 ID3 分析影响学生成绩的因素

2.1 ID3 算法

在当前DT学习的各种算法中, 影响最大的是J R Quinlan于1986年提出的ID3算法[2], ID3算法是决策树算法中的核心算法。如果数据的属性或字段值是离散的, 就完全可以用ID3算法对离散的属性进行决策树学习, 它是人工智能领域基于实例最有影响的算法。ID3算法通过不断的循环处理, 初步求精决策树, 直到找到一个完全正确的决策树。该算法的基础理论清晰, 方法也很简单, 计算速度较快, 全盘使用训练数据, 可得到一棵较为优化的决策树。算法在实际应用中解决了很多问题, 对于非增量式学习任务, ID3算法常常是建立决策树的很好选择。

2.2 数据收集、整理

为了进一步分析影响学生在校学习成绩的因素, 从学生的上课情况、作业情况、听课情况等几方面收集了该班上面分析的这20名同学的一些数据, 如图4所示。

为了利用对学生的成绩进行分析, 需要对学生的成绩进行离散化, 将学生成绩按照每门科目都在80分以上为优秀,有两门及两门以上不及格的为差, 其余学生的成绩为良的标准分类, 并将两个数据进行合并, 结果如图5所示。

2.3 利用 ID3 算法,建立决策树

根据输出成绩“优秀”、“差”, 将20条记录“良好”、分成3类, 其中“优秀”有6条记录,“良好”有10条记录,“差”有4条记录, 参考属性有4种情况, 分别是作业完成情况、听课情况、课余用在学习上的时间和参加活动。

2.3.1 计算信息熵

信息熵就是一组数据所包含的信息, 一组数据越无序,那么它的信息熵就越高。

2.3.2 计算各属性的条件熵

2.3.3 计算信息增益

Gain (作业) =0.5807, Gain (听课) = 0.7284, Gain (活动)=0.2694, Gain (课余) =0.5822

由于属性“听课情况”的信息增益最高, 因此将“听课情况”作为第一层结点。根据 “听课情况”的取值将本样本划分成3个子集, 构成第一层结点的3个分支, 如图6所示。

在“听课情况”为差的集合中, 成绩全是差, 则此分支建树结束。其余两个集合中, 均有不同输出结果, 类似于上面的步骤继续选择决策树的下一层结点属性, 依次类推, 经计算得到如图7的决策树。

从图7可以看出, 从学生的听课情况就能较好地反映该生的学习成绩, 听课认真的同学基本上学习成绩都是优秀,听课不认真的同学学习成绩都不好。

由于数据中存在着一些冗余、噪声等, 会影响整个决策树的深度, 剪枝后的决策树如图8所示。

剪枝后的决策树更容易被理解、读懂, 更加鲜明地表明在高等师范学校, 学生入学时的分数都不高, 虽然学生之间的差异是存在的, 但是学生在校的学习态度对学生在校的学习生活影响很大。

成绩挖掘论文第6篇

关键词：数据挖掘,预警系统,关联规则

随着数据挖掘技术在商业领域获得的成功和广泛应用, 近年来, 越来越多的教育工作者开始利用数据挖掘技术对历史积留下来的海量教学数据库进行研究, 并获得了许多有价值的成果。仅以学生成绩数据库为例, 众所周知, 学生的学习成绩并不是一个偶然事件, 以前的成绩数据往往预示着该生在后续课程中的成绩走向。例如, 一个电磁学不及格的学生, 很可能其电动力学也会出现不及格。这种现象给了我们一些启示, 能否从大量的学生成绩数据中挖掘课程之间的成绩关联, 构建一个成绩预警系统呢?目前, 许多高校已开始加强对“学困生”的全面监督和尽力帮扶, 如果在此之前, 我们能根据一个学生的前期课程的考查结果分析出他本学期有可能出现不及格的课程, 从而提早介入对他该课程的学习监管, 无疑是一件很有意义的工作。以下就数据挖掘中的关联规则技术来浅要分析其在学生成绩预警系统中的实现。

1 关联规则概述

若两个或多个变量的取值之间存在某种规律性, 就称为关联。关联规则的挖掘问题可形式化描述如下:设I{i1, i2, , im}是m个不同项目的集合, D是针对I的交易的集合, 每笔交易包含若干项目i1, i2, , im∈I。则关联规则X=>Y成立的条件是:

1) 它具有支持度s, 即在交易数据库D中至少有s*100%的交易包含X∪Y。

2) 它具有置信度c, 即在交易数据库D中包含X的交易至少有c*100%也包含Y。

关联规则的挖掘问题就是在交易数据库D中找出所有具有用户给定的最小支持度minsup和最小置信度minconf的规则来。该问题可以分解成两个子问题:

1) 找出存在于交易数据库中的所有频繁项目集。若项目集X的支持度support (X) 不小于用户给定的最小支持度minsup, 则称X为频繁项目集;否则为非频繁项目集。

2) 利用频繁项目集生成项目关联规则。对于每个频繁项目集A, 若B∈A, B≠Φ, 且support (A) /support (B) ≥minconf, 则有关联规则B=> (A-B) 。

由于子问题2相对来说较容易, 因此研究的重点集中在第1个问题, 即发现和识别所有的频繁集成为关联算法的核心, 而这其中最有名的是Apriori算法。该算法是一种宽度优先算法, 通过对数据库的多趟扫描并采用递推的方式来发现所有的频繁项目集。尽管该算法在处理大规模数据集时还存在瓶颈, 但通过剪枝和其他改良手段等已经使该算法得到了普遍应用。

2 通过预处理建立分析数据源

要对学生的不及格成绩数据进行挖掘, 首先要有大量的有效数据。笔者从中国科技大学的学生成绩数据库中取出物理学院05级到07级本科生的原始成绩数据表203.mdb文件来进行挖掘并对其进行了一系列预处理工作, 如图1。

1) 删除无用字段和记录

原始数据表 (图1) 中的字段并非都对挖掘有用, 我们只选取感兴趣的xuehao (学号) , kc_code (课程号) , Score (成绩) 三个字段。另外, 由于我们只对不及格的必修课程感兴趣, 因此要删除所有的选修课记录和全部课程都及格的记录, 得到初步预处理后的数据表 (图2) 。

对照照中国科大物理学院本科培养方案我们挑选出17门主干必修课程来进行挖掘研究, 并分别给这17门课程以A~Q的17个字母来标识, 如表1所示。

我们只需保留原始数据表中Kc_code值为上述的17个值的记录即可, 其余为无用记录可做删除。

2) 建立待挖掘数据表

由于表中成绩已经全部是不及格数据, 故无需做特别的离散化处理, 只需要将对应的不及格成绩的课程在记录中予以简单标记即可。为了清晰起见, 我们将Kc_code字段和score字段合成一个字段KS, 其值则代表了不及格的课程的对应标识。例如, 用A表示“单变量微积分不及格”。此时数据表形式如图3所示。

通过以上预处理虽然可得到形如图3的简单的待处理数据, 然而最终待挖掘的数据表应该是按学号不同排列成的事务表。我们可以先创建该表的结构, 再将图3所示的数据表内容转换进来。首先创建该表, 表名为mydata0, 表结构如表2。

再将原先的数据表 (图3) 中的xuehao字段按相同值归并, 并把该xuehao字段对应的所有KS字段值填入表mydata0中。最终生成的表mydata0 (图4) 即为只含不及格成绩的待挖掘数据表。

3 成绩预警系统的模型建立与分析

为简单起见, 笔者使用目前较流行的数据挖掘工具软件WEKA对数据表mydata0进行了挖掘, 得出的关联规则结果如表3所示 (设minsupp=0.1, minconf=0.4) 。以表3得出的关联规则为基础即可生成成绩预警系统的模型 (图5) 。

本模型给出了以下有价值的结论:

1) L, P, Q这三者之间有极高的强关联性。这三门课程分别是电磁学、理论力学和电动力学。当一个学生其中任意两门出现不及格的分数时, 有70%以上的概率使得其另一门课程也会不及格。这给我们以启示:在安排教学计划时, 尽量不把这三门课放在同一学期, 以避免学生同时出现“挂科”。例如可将引发成绩预警的所有规则中置信度最高的L课程 (电磁学) 提到大一的下学期, 而将P, Q这两门课 (理论力学和电动力学) 推到了大二的上学期学习。实践证明, 这对及早发现“学困生”并给予及时的帮扶或学习态度上的纠正起到了良好的作用。

2) 应用该预警模型不但可在学生一门课程出现问题后向学生本人提出警示, 更能及时提醒班主任老师密切关注该生与之相关的后续课程的学习情况, 动员学习帮扶小组对他提早介入帮助。

3) P课程在预警系统中出现的次数最多。可见理论力学这门课程是物理类学生在低年级阶段较易发生问题的关键性课程。在教学管理中应当加强对理论力学课程的教学质量检查与监督。

4) 在minsupp=0.1, minconf=0.4的条件下, 并未得出A==>B和C==>D这样的规则, 这点有些出乎意料, 但恰恰向学生说明了数学, 英语这些基础课程只要肯下功夫, 完全可以摆脱原来差成绩的影响。由于地域等因素的差别, 学生刚进高校时的学习基础参差不齐, 有的学生可能原先基础较差。从预警模型中的关联规则可以看出, 这对后续的课程并无绝对的影响, 只要肯努力追赶完全有可能脱离“差”生的队伍。这对鼓励那些大一刚进校成绩就较差的落后学生, 为他们树立信心提供了科学根据。

4 结束语

该文应用数据挖掘中的关联规则技术, 对学生成绩数据库中的不及格数据进行了挖掘, 并在此基础上建立起学生成绩预警系统的模型。实践证明, 该模型对于在高校中提早发现和监管“学困生”的工作起到了良好的效果。

参考文献

[1]宫杰, 谭跃生, 李慧萍.数据挖掘技术在高校教务管理中的应用[J].科技信息, 2010 (13) .

[2]董彩云, 刘陪华.数据挖掘在学生成绩管理系统中的应用[J].现代计算机, 2009 (2) .

[3]董军凯.数据挖掘技术在成绩分析中的应用[J].科技资讯, 2009 (22) .

[4]张志彦, 李俊峰.关联规则挖掘在学生成绩分析中的应用[J].科技和产业, 2009 (5) .

[5]邱月.数据挖掘方法在学生成绩评价中的应用[J].科技信息.2008 (9) .

[6]董萍.关联规则在学生成绩中的数据挖掘[J].三门峡职业技术学院学报, 2009 (12) .

[7]刘美玲, 李憙, 李永胜.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计, 2010, 31 (5) .

成绩挖掘论文第7篇

1 数据挖掘技术

数据挖掘就是在庞大的数据库中, 提取出隐藏在其中不容易被发现、人们事先不知道的但是很有利用价值的信息的过程。数据挖掘是一个不断完善的数据发现的过程, 通过对海量数据的分析与评价, 不断进行数据挖掘模型的建立和算法的优化, 最终获得最佳数据挖掘方案。学生成绩的挖掘就是在全部学生成绩的超大数据库中去除无效信息, 提取出有用信息, 利用现有的数据挖掘模型和算法进行分析, 得出对高校有用的信息。数据挖掘共有六个阶段:

(1) 定义挖掘问题; (2) 建立数据模型; (3) 分析数据; (4) 数据的准备、选择、预处理和整合; (5) 选择模型; (6) 数据挖掘。

数据挖掘技术是以人工智能为基础的, 主要包括集合论法、蚁群算法、粒子群算法、决策树算法、遗传算法、神经网络方法等。决策树算法分为ID3算法、CLS算法、IBLE算法等。遗传算法包括分布并行遗传算法、进化算法等。数据挖掘的分析方法有聚类分析、关联分析、时序模式分析和分类分析。

2 数据挖掘的过程分析

在进行高校学生成绩进行数据挖掘时需要经过以下几个阶段: (1) 定义研究问题:确定需要解决的目标的背景和发展状况; (2) 建立模型:把待处理的学生成绩存储在大型的数据库中, 例如My Sql/Oracle等。在数据库的基础上建立挖掘对象数据仓库, 并且同时建立统计查询或者建立各种挖掘模型, 如决策树、聚类、关联规则等。这些挖掘模型是系统自身带的, 不需要自己开发, 主要是建立数据仓库; (3) 分析数据:分析学生成绩数据从中预测最能影响学生成绩的主要因素, 然后进行整合, 进一步发现关键因素; (4) 准备数据:主要包括三个方面的数据:原始数据、目标数据的提前处理以及综合数据整合; (数据选择:从准备挖掘的数据中选择相关数据和外部数据, 构建出对进行下一步工作最为有用的数据集和。数据的预处理:分析数据集合的特点, 从中得到更加有价值的信息, 过程中需要对数据进行填补、过滤、离散化、标准化等等。数据的整合:将数据集合整合成为利于挖掘算法的分析模型数据集) ; (5) 选择模型:选择合适的挖掘算法例如:分类分析、聚类分析、神经网络方法、决策树算法等; (6) 数据挖掘:将从以上得到的信息进行分析, 得出相应的原因和解决办法。保证决策的准确性和可靠性。

3 数据挖掘系统的设计

针对高效学生成绩进行数据挖掘系统的具体设计:

3.1 系统功能设计

本系统采用K-Means聚类算法对高校学生成绩进行挖掘、分析和评价。首先对系统开发可行性和必要性进行分析。系统要实现信息初始化、数据采集、数据预处理、数据挖掘、数据分析五大功能。

3.2 系统的信息初始化设计

系统的初始化就是准确的对所研究的数据进行各项数据的收集、核对、修改、记录等。例如:在进行数据教师水平的评价时, 就需要对教师的学历、职称、教学年限等进行采集和整理。信息初始化需要完成以下任务: (1) 明确挖掘目标。针对学生的学习情况、期中期末成绩、教师的职称等学生成绩影响因素进行分析, 为以后工作提供经验和指导。 (2) 对不同来源的数据进行数据的集合。 (3) 数据集合完成后, 由数据集合生成各种信息趋势表。

3.3 数据采集

数据采集是整个系统构建需要人力最多的阶段。需要学生教师等多方面的进行有价值数据的采集。数据采集可以采用联机采集、脱机采集、人工输入等。利用计算机进行信息数据库的采集和构建。采集的数据内容包括教师数据。学生情况数据、考试成绩集合等。

3.4 数据预处理

数据的预处理主要包括数据的集成:将多个数据合并在一起。数据清理:将一些不准确, 影响数据分析的数据进行修改和删除。重复记录和冲突记录处理:在要发生冲突的部分进行预先处理, 为以后节省时间开销。

3.5 数据挖掘分析

通过以上几步的数据处理, 得到了准确性、可操作性极高的数据, 对其进行分析和处理, 提出影响学生成绩的因素和解决方法, 促进高校教育水平的发展。

4 结语

数据挖掘技术是对海量数据进行分析的技术。在现如今这个信息化的时代, 数据挖掘已经应用到各行各业, 例如金融业、电信业、教育业、服务行业等。数据挖掘在教育行业发展很慢, 需要进一步推广发展。本文提出将数据挖掘技术应用到高校学生成绩分析中, 提出了新的数据获取形式。在进行数据挖掘前, 要对数据进行数据清理、数据转换等完成数据的预处理, 然后进行建模分析挖掘。这对于教育事业的发展起到了巨大的推动促进作用。

参考文献

[1]王祥瑞.数据挖掘技术中关联规则挖掘的应用研究[J].煤炭技术, 2011.

成绩挖掘论文第8篇

学生成绩管理是整个学校教务管理工作中的关键环节之一, 目前, 大部分高校开发了学生成绩管理系统, 但现有的成绩管理系统在成绩数据的管理和实现上存在不足:成绩表中数据记录众多, 系统的查询速度不快, 效率不高;或成绩数据表个数众多, 系统管理复杂;另外, 多数成绩管理系统, 成绩数据只是简单存储, 潜藏在成绩中的信息未被利用, 难以揭示"教"与"学"的规律。

针对现有成绩管理系统的不足, 本人提出采用类字段名来进行成绩管理, 将成绩表中某一个字段定义成一个类, 如:假定成绩表的第5个字段是用来保存第一学期第一门课程成绩的, 那么将所有学生第一学期第一门课程的成绩都保存在此。在显示数据时采用相应字段名加权法来实现, 不同系别、不同专业、不同年级、不同班级、不同学期的学生成绩数据的保存只需一个成绩表, 且成绩表中记录是相当少的, 学生有多少, 成绩表记录才多少, 当然还有一个班级课程的加权表, 但班级课程的加权表也不会超过成绩表的记录数。因而数据库记录数量不会很大, 大大提高了系统的查询速度, 加速系统的执行效率。

应用数据挖掘技术来提高系统的分析水平, 通过对考试结果深入、科学的分析, 可使学生从横向、纵向等多个方面来了解个体在群体中的相对位置, 明确个人学习的得失以及与他人的差异, 来促进个人的学习;同时, 可使得教师和学校教育决策者洞悉教学中存在的问题, 对教育教学质量进行反思。如:检查课程体系是否合理, 相关课程之间的衔接与安排是否恰当, 从而最大限度地利用成绩所提供的信息优化教育教学的计划与决策。

2. 数据挖掘技术

数据挖掘 (Duty Mining) 就是从大量的、不完全的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘是一个多学科的交叉领域, 一方面, 从数据库技术、统计学、机器学习、可视化和信息科学等学科领域汲取营养。另一方面, 数据挖掘也为这些学科领域的发展带来了新的机遇和挑战。今天, 数据挖掘已经不再仅仅是数据库的研究者和开发者关注的问题, 它已经成为统计学、机器学习等诸多领域的研究者和开发者的热点课题之一。

数据挖掘的研究方兴未艾, 具有非常广阔的前景。数据挖掘原型系统和商业软件已开始在多个方面得到应用:

(1) 客户分析:在银行信用卡和保险业中, 确定有良好信誉和无不良倾向的客户是经营成功与否的关键。数据挖掘可以从以往的交易记录"总结"出客户这些方面的信息。

(2) 客户关系管理:数据挖掘可以识别产品使用模式或协助了解客户行为, 从而可以改进通道管理 (channel management) 。

(3) 零售业:数据挖掘对顾客购物篮数据 (basket data) 的分析可以协助货架布置、确定促销活动时间、促销商品组合以及了解畅销和滞销商品状况。

(4) 产品质量保证:通过对历史数据的分析, 数据挖掘可发现某些不正常的数据分布, 暴露制造和装配操作过程中出现的问题。

(5) Web站点的数据挖掘:电子商务网站每天都可能有上百万次的在线交易, 生成大量的纪录文件和登记表, 可以对这些数据进行分析和挖掘, 充分了解客户的喜好、购买模式, 甚至是客户的一时冲动, 设计出满足不同客户群体的个性化网站, 甚至从数据中推测客户的背景信息, 进而增加其竞争力。

将数据挖掘应用到成绩管理系统中, 能更高效, 更快捷地为学校的相关人员 (如教师、学生、管理者) 提供成绩数据的查询和使用;充分利用现存的信息、现代技术和手段, 不仅发现其表面的信息, 更可以发掘表面信息上潜在的信息;充分利用成绩管理系统的数据, 揭示"教"与"学"之间的联系与规律, 更好地为教学服务。

3. 系统功能设计

本系统是一个基于Web的系统, 教师提交学生成绩, 学生查询本人成绩都可通过Internet来实现, 在教师提交学生成绩后, 系统就完成了原始数据的采集, 对经过有关处理后的数据, 采用数据挖掘的有关算法, 进行预测和判断, 揭示一些"教"与"学"的现象和规律, 更好地指导教师的"教"和学生的"学", 为教育教学的计划和决策提供依据, 提高教学的效率与成果。

本系统设置4种用户类型, 分别是学系教务秘书、普通教师、学生、学系领导。其中学系教务秘书是系统的超级用户, 可以设定用户的级别, 可以对系统的的所有班级, 人员信息, 专业信息等数据进行新增、删除和修改, 对系统的数据进行备份和恢复;普通教师能查询和修改本人的基本信息、修改个人登录密码、任课状况、学期末或考试结束后, 提交本人所任班级课程的成绩;学生可以修改本人基本信息、修改登录密码、查询本人在校期间的所有成绩;学系领导可以查看学系的所有成绩, 可以按班级查看学生的成绩状况。

本系统在功能上分为前、后台两大部分功能, 前台部分主要实现数据的收集和发布, 后台部分则负责数据和信息的处理。

3.1 前台功能:

本系统前台部分的主要功能是实现各类数据的查询和部分数据的收集、报送, 如学生查询考试成绩, 教师网上报送成绩等。

(1) 学生通过浏览器查询成绩;

(2) 教师获取教学班学生名单;

(3) 教师通过浏览器报送课程成绩;

(4) 班主任查询班级成绩;

3.2 后台功能:

本系统后台部分的主要功能是实现各类数据处理、统计等功能。后台由5大功能模块组成, 包括学籍管理、课程管理、公共信息管理、成绩管理、数据的统计与分析管理。

(1) 学籍管理:完成新生学籍注册、基本信息、奖惩情况、学籍变动等情况处理;

(2) 课程管理:对任课教师信息、课程信息和教学班级信息进行管理和编排;

(3) 公共信息管理:包括班级设置、专业设置、用户管理等功能;

(4) 成绩管理:完成学生成绩管理, 包括成绩编辑、查询、打印以及成绩表的生成等功能;

(5) 数据的统计与分析管理:对成绩的数据进行统计与分析, 揭示相关的教与学的规律, 提高教与学的效果。

4. 数据挖掘在系统中的应用

数据挖掘的基本过程:首先定义所要解决的问题, 而后根据问题从系统数据库中选择信息, 建立数据仓库。数据仓库建立后, 便可对数据进行分析, 拟定初步的数据模型, 包括选择变量, 选择记录集合, 对变量进行转化或者创建新的变量。然后对模型进行合理的评估, 如果模型和实际系统有较大的误差, 则模型需要重新修改, 直到模型和实际系统比较接近, 再对模型进行解释, 并作为辅助决策信息传递给管理人员。

4.1 数据仓库建立

围绕"分析专业能力与学科成绩的关系"的主题创建数据仓库, 建立数据仓库需要对系统数据库中的数据进行预处理, 因为对于分析专业能力与学科成绩的关系, 数据库中的成绩数据有很多是冗余的不必要的信息, 只要从数据库中提取相关的信息形成相关的表就可以了。对于决策树的发现任务来说, 一般关联的数据表仍然是多余的, 因为在一般相关性数据提取中, 所有的对象属性都以同等的重要性处理, 然而对于知识发现的特定任务来说, 有的属性是不重要的, 甚至是不相关的。对于决策树的知识发现任务来说, 将数据进行相关性分组可以使得数据挖掘工作在更相关的环境中进行。它包括了以下内容:

(1) 数据集成

数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理, 解决语义的模糊性。数据集成并非是简单的数据合并, 而是把数据进行统一化和规范化处理的复杂过程。它需要统一原始数据中的所有矛盾之处, 如字段的同名异义、异名同义、单位不统一、字长不一致等, 从而把原始数据在最低层次上加以转换、提炼和聚集, 形成最初始的挖掘数据。在对专业能力基本信息的收集上, 摒除了成绩数据中的一些与知识发现不相关的属性。比如:学生的家庭住址、学生的联系电话、兴趣爱好等等。而从众多的信息中找出专业能力相关课程的成绩的信息, 形成了一张相关于数据挖掘的基本信息表。

(2) 数据清选

数据清洗是要去除原数据集中的噪声数据和无关数据, 处理遗漏数据和清洗脏数据, 去除空白数据域和知识背景上的白噪声, 考虑时间顺序和数据变化等。在为数据挖掘建立数据仓库创建关联表的过程中, 在涉及的字段中有一些无用的或者是空白的数据。通过数据清理, 使每个表中的数据都是唯一和没有疑义的, 同时根据一些方法对于空白数据进行填补或者删除。

4.2 模型的建立

为了寻找课程成绩和专业能力的关系, 选用的模型是基于决策树的SLIQ算法模型, SLIQ是数据挖掘中广为人知的算法, 是ID3算法, C4.5算法的改进, 并继承了它们的全部优点。本系统希望通过构建一个SLIQ决策树的模型, 预测课程成绩和专业能力的关系规则。

4.3 模型的实现

算法流程如下:

4.4 结果的输出

算法生成的决策树通过前序遍历的方式存入输出表。输出表的每个记录保存着以下几个字段: (C ID, PID, 1Chi1d ID, r Child ID, Att Tag.Attval, result) 。前面四个字段记录决策树拓扑, Att Tag标示该字段是numeric还是categorical字段, Att Val标示该字段对于属性的取值, Result为节点的最终归属类。

假定以计算机基础, 微机故障排除与维护, 实用软件三门课程成绩, 来衡量学生软硬件操作专业能力, 则生成的决策树如下:

通过决策树的训练和构建, 得到一棵关于专业相关课程成绩与专业能力的决策树模型, 在这棵决策树中, 我们可以发现专业相关课程成绩与专业能力好坏的一些规则。如决策树中的节点N3, N3是没有子树的节点, 通过N3节点指向根节点的路径, 确立一条专业能力好坏的规则, 即微机故障排除与维护成绩好且实用软件成绩好, 软硬件操作专业能力就好;从N5, N6节点回溯到根节点的通路看, 计算机基础成绩无论好坏微机软硬件操作专业能力都不好, 即计算机基础成绩好坏与微机软硬件操作专业能力好坏关系不大。

可以得出如下结论:决定专业能力的主要是专业课程, 从而在制定教学目标与教学计划时, 针对不同的培养目标, 增加相应专业主干课程的课时和比例, 提高学生的专业能力和竞争力。

5. 结束语

数据挖掘作为一种新兴的数据分析技术, 其研究取得了令人瞩目的成就, 已经成功地应用到了许多领域。而在教育信息化的大趋势下, 数据挖掘技术应用于教育领域内的数据分析, 必然会有十分广阔的前景。数据挖掘可以从大量的数据中发现潜在的有用信息, 提高成绩分析水平, 使教师和学校教育决策者洞悉教学中存在的问题。

参考文献

[1].罗海蛟, 刘显.数据挖掘中分类算法的研究及其应用[J].微机发展, 2003, 13 (6) :48-50.

[2].Jiawei Han.数据挖掘概念与技术.第2版.范明, 孟小峰译.北京:机械工业出版社, 2007.3.