




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、湖南工程學(xué)院畢業(yè)設(shè)計(jì)(論文)數(shù)據(jù)挖掘在教學(xué)系統(tǒng)中的應(yīng)用摘 要:隨著時(shí)代不斷進(jìn)步發(fā)展,大量的信息充斥在我們的社會(huì)中,這就要求我們從中及時(shí)發(fā)現(xiàn)有用的知識(shí),做出正確的分析,從而提高決策的正確性。如隨著基于園區(qū)網(wǎng)絡(luò)教務(wù)管理數(shù)據(jù)倉(cāng)庫(kù)中學(xué)生成績(jī)記錄的急劇增長(zhǎng),現(xiàn)在的教務(wù)管理人員很難再像從前那樣直接根據(jù)學(xué)生的成績(jī)數(shù)據(jù)分布找出規(guī)律,并根據(jù)此規(guī)律進(jìn)行決策。因此必須借助于相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)分析工具,自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律或模式,為決策提供支持。數(shù)據(jù)挖掘技術(shù)可以用于從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的關(guān)系,它通常采用機(jī)器自動(dòng)識(shí)別的方式,不需要更多的人工干預(yù)。采用數(shù)據(jù)挖掘技術(shù),可以為用戶的決策分析提供智能的、自
2、動(dòng)化的輔助手段。本文正是從數(shù)據(jù)挖掘的角度討論了如何在日常的教學(xué)中應(yīng)用數(shù)據(jù)挖掘,從中得到教學(xué)上需要的信息,為我們的職業(yè)教育添磚加瓦。通過(guò)對(duì)數(shù)據(jù)挖掘技術(shù)的概念、挖掘過(guò)程和方法等知識(shí)的簡(jiǎn)單介紹,本文就如何在成績(jī)分析系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘,從中得到促進(jìn)教學(xué)的所需信息等內(nèi)容進(jìn)行了探討, 并提出了數(shù)據(jù)挖掘技術(shù)在各部分的具體作法,接著論述了如何利用數(shù)據(jù)挖掘的技術(shù)實(shí)現(xiàn)題庫(kù)系統(tǒng)的智能化。最后在教學(xué)評(píng)價(jià)數(shù)據(jù)分析中引入關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),通過(guò)發(fā)現(xiàn)和運(yùn)用關(guān)聯(lián)規(guī)則來(lái)提高教學(xué)評(píng)價(jià)數(shù)據(jù)的客觀性和可靠性,實(shí)踐證明這是一種比較科學(xué)有效的方法。給出了一個(gè)完整的數(shù)據(jù)挖掘系統(tǒng)一教學(xué)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)過(guò)程。關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;聚類(lèi)
3、規(guī)則;分類(lèi)規(guī)則 47data mining in teaching systems applicationabstract : progresses unceasingly along with the time develops, the massive information flood in ours society, this requests our prompt discovery useful knowledge, makes the correct analysis, thus enhances policy-making the accuracy. if along with
4、 based on the campus network educational administration managerial data warehouse middle-school student track records rapid rise, presents educational administration administrative personnels were very difficult to look like formerly such directly to discover the rule again according to students res
5、ult data distribution, and carried on the decision-making according to this rule. must therefore draw support the corresponding data warehouse analysis tool, in the automatic diagnosis data hides the rule or the pattern, provide the support for the decision-making. the data mining technology may use
6、 from the massive data discovering hideaway in after that the rule or the data relations, it usually uses the machine automatic diagnosis the way, not need more manual interventions. uses the data mining technology, may provide intelligent, the automated supplementary means for users decision analys
7、is. how was this article precisely discussed from the data mining angle in the daily teaching the application data mining, obtained the information which in the teaching needed, contributed labor and materials for ours vocational education.through to data mining knowledge and so on technologys conce
8、pt, excavation process and method introduced simply how this article in the result analysis system the application data mining, did obtain the promotion teaching to need contents and so on information to carry on the discussion, and proposed the data mining technology in various part of concrete met
9、hods, how then did elaborate has realized the question bank systems intellectualization using the data mining technology. finally introduces the connection rule data mining technology in the teaching appraisal data analysis, enhances the teaching appraisal data through the discovery and using the co
10、nnection rule the objectivity and the reliability, the practice proved that this is one quite scientific effective method. gave a complete data mining system teaching systems design with to realize the process.key words: data mining; connection rule; classifying rule; result analysis 前 言 隨著科學(xué)技術(shù)的飛速發(fā)展
11、,信息化已成為國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展的重要驅(qū)動(dòng)力,信息產(chǎn)業(yè)成為未來(lái)的支柱產(chǎn)業(yè)和先導(dǎo)產(chǎn)業(yè)。在未來(lái)學(xué)習(xí)型的社會(huì)中,教育與信息技術(shù)的高度融合,正在成為世界各國(guó)教育發(fā)展的新趨勢(shì),這將孕育出嶄新的經(jīng)濟(jì)增長(zhǎng)模式和教育形態(tài),不斷推動(dòng)社會(huì)經(jīng)濟(jì)和教育產(chǎn)業(yè)的跨越發(fā)展,同時(shí)也對(duì)傳統(tǒng)的教育管理方式提出挑戰(zhàn)。隨著教育信息化進(jìn)程的推進(jìn),教育管理手段逐步實(shí)現(xiàn)了信息化,較之傳統(tǒng)的教育管理手段,無(wú)論是在效率、效益還是效果上都有顯著的提高。并在各種教育管理系統(tǒng)和業(yè)務(wù)處理子系統(tǒng)中積累了大量的、寶貴的數(shù)據(jù)。這為數(shù)據(jù)挖掘技術(shù)在教育管理中的應(yīng)用奠定了良好的基礎(chǔ)。通過(guò)數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)隱藏在大量數(shù)據(jù)背后的一些有用的知識(shí),用這些知識(shí)來(lái)指導(dǎo)管理
12、者改進(jìn)管理手段,有針對(duì)性地加強(qiáng)管理。隨著數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)被廣泛的應(yīng)用于企業(yè)管理、產(chǎn)品銷(xiāo)售、科學(xué)計(jì)算和信息服務(wù)等領(lǐng)域,數(shù)據(jù)量的不斷增長(zhǎng)對(duì)數(shù)據(jù)的存儲(chǔ)、管理和分析提出了更高的要求,急需新一代的計(jì)算技術(shù)和工具, 能夠智能化的從大量的數(shù)據(jù)中提取出有用的信息和知識(shí),于是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生, 且在零售、金融、電信等行業(yè)的到廣泛的應(yīng)用。但在教育領(lǐng)域卻并沒(méi)有引起人們的普遍關(guān)注, 隨著教育信息化進(jìn)程的推進(jìn), 產(chǎn)生積累了大量的、復(fù)雜的數(shù)據(jù)。面對(duì)如此巨大的數(shù)據(jù)資源, 人們?nèi)o(wú)法更充實(shí)、更有效的加以利用。因此, 將數(shù)據(jù)挖掘應(yīng)用于教育教學(xué)中,從大量的學(xué)生成績(jī)中發(fā)現(xiàn)隱藏的、有用的信息來(lái)指導(dǎo)老師的
13、教學(xué),成為當(dāng)今勢(shì)在必行的重要的研究課題。正是由于數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,高校在該方面積累的數(shù)據(jù)越來(lái)越多。這些數(shù)據(jù)背后隱藏著許多重要的信息,但由于目前的成績(jī)數(shù)據(jù)分析方法不能從大量原始數(shù)據(jù)中深入分析和發(fā)掘?qū)虒W(xué)工作有用的信息,致使成績(jī)管理仍停留在學(xué)籍處理等簡(jiǎn)單的統(tǒng)計(jì)分析上。面對(duì)”數(shù)據(jù)爆炸卻知識(shí)貧乏”的矛盾,人們希望能夠利用一種更新的技術(shù)對(duì)豐富的數(shù)據(jù)資源進(jìn)行更高層次的分析,以更好的利用數(shù)據(jù)。近年來(lái)一種新技術(shù)應(yīng)運(yùn)而生數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是一種將不同數(shù)據(jù)源中的數(shù)據(jù),通過(guò)一定的工具與方法尋找出有價(jià)值的知識(shí)的一類(lèi)深層次的數(shù)據(jù)分析方法。該方法主要有:關(guān)聯(lián)規(guī)則挖掘、分類(lèi)規(guī)則挖掘、聚類(lèi)規(guī)則挖
14、掘等。本文在成績(jī)分析方面的運(yùn)用主要介紹數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘方法。目前許多院校采用的是傳統(tǒng)的題庫(kù)系統(tǒng),雖然利用了數(shù)據(jù)庫(kù)系統(tǒng)自身的優(yōu)勢(shì),可以有效的實(shí)現(xiàn)數(shù)據(jù)的排序,查詢,組卷,分?jǐn)?shù)統(tǒng)計(jì)計(jì)算等操作,但還存在一些問(wèn)題:例如 (1)雖然題庫(kù)系統(tǒng)可以較好地組卷,卻不能自動(dòng)完成全部的閱卷工作(只能評(píng)判客觀題,難以評(píng)判主觀題);(2) 當(dāng)數(shù)據(jù)數(shù)量繁多時(shí),又不能高效地完成任務(wù),滿足用戶的實(shí)時(shí)性要求?;谶@些問(wèn)題我們提出了智能題庫(kù)系統(tǒng),運(yùn)用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)題庫(kù)系統(tǒng)的智能化。教育是一個(gè)復(fù)雜的系統(tǒng)工程,而質(zhì)量則是評(píng)價(jià)該系統(tǒng)中的重要指標(biāo)。對(duì)于教學(xué)質(zhì)量評(píng)價(jià)卻沒(méi)有一個(gè)固定的標(biāo)準(zhǔn),如何正確、有效地評(píng)價(jià)教學(xué)質(zhì)量,建立一個(gè)行之
15、有效的教學(xué)評(píng)價(jià)模型已成為教育研究中的一項(xiàng)重要課題。教學(xué)評(píng)價(jià)中有幾種常用的方法。如標(biāo)準(zhǔn)差,通過(guò)描述一組數(shù)據(jù)的標(biāo)準(zhǔn)差反映分散程度,雖然可以總體評(píng)價(jià)在一定范圍內(nèi)成績(jī)的差異情況,但不能說(shuō)明分?jǐn)?shù)的高低究竟與哪些因素有關(guān),無(wú)法得知教學(xué)中的成功與失敗之處;如試卷的有效度、難度、知識(shí)含量、信度等參數(shù)也只能對(duì)考試的總體難易水平、知識(shí)點(diǎn)考察全面度、測(cè)量結(jié)果的可靠性進(jìn)行衡量;如對(duì)教師的評(píng)價(jià),則基本上根據(jù)學(xué)生或者相關(guān)人員對(duì)教師的各項(xiàng)指標(biāo)打分,雖然可以統(tǒng)計(jì)出分?jǐn)?shù)的高低,但也無(wú)法相信說(shuō)明那些指標(biāo)起到?jīng)Q定性作用,或科學(xué)得出各指標(biāo)在評(píng)分當(dāng)中的權(quán)重。教學(xué)評(píng)價(jià)在教育教學(xué)的各個(gè)環(huán)節(jié)作用重,不斷提高教學(xué)評(píng)價(jià)數(shù)據(jù)的客觀性、可靠性是提高
16、教學(xué)評(píng)價(jià)質(zhì)量的重要途徑和手段。本文在教學(xué)評(píng)價(jià)數(shù)據(jù)分析中引入關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),通過(guò)發(fā)現(xiàn)和運(yùn)用關(guān)聯(lián)規(guī)則來(lái)提高教學(xué)評(píng)價(jià)數(shù)據(jù)的客觀性和可靠性,實(shí)踐證明這是一種比較科學(xué)有效的方法。教育評(píng)價(jià)在當(dāng)今世界教育領(lǐng)域中,同教育基礎(chǔ)理論和教育發(fā)展一起,被譽(yù)為三大研究課題。教育評(píng)價(jià)對(duì)于教育發(fā)展和改革,對(duì)于教育的管理與決策,都有至關(guān)重要的作用,因而備受各國(guó)教育界和政府部門(mén)的重視。其中,教學(xué)評(píng)價(jià)尤為重要。教學(xué)評(píng)價(jià)不僅對(duì)教學(xué)起著調(diào)節(jié)、控制、指導(dǎo)和推動(dòng)作用,而且有很強(qiáng)的導(dǎo)向性,是學(xué)校教學(xué)管理工作的重要組成部分,是評(píng)價(jià)教學(xué)工作成績(jī)的主要手段。影響教學(xué)評(píng)價(jià)成功或失敗的因素很多,這不僅取決于評(píng)價(jià)方案的合理性,評(píng)價(jià)工具的有效性,
17、評(píng)價(jià)方法的科學(xué)性,評(píng)價(jià)活動(dòng)組織的嚴(yán)密性,還取決于獲取的評(píng)價(jià)數(shù)據(jù)的可靠性。評(píng)價(jià)所采集的數(shù)據(jù)是否可靠,是保證評(píng)價(jià)結(jié)果科學(xué)、客觀、公正的關(guān)鍵。數(shù)據(jù)挖掘技術(shù)能在錯(cuò)綜復(fù)雜信息的海洋中發(fā)現(xiàn)隱藏的關(guān)系和規(guī)則。通過(guò)數(shù)據(jù)挖掘分析,其評(píng)價(jià)結(jié)果能給教學(xué)帶來(lái)前所未有的收獲。第1章 數(shù)據(jù)挖掘基本理論 1.1 數(shù)據(jù)挖掘技術(shù)早期文獻(xiàn)中,數(shù)據(jù)挖掘,也稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是從數(shù)據(jù)庫(kù)中的數(shù)據(jù)抽取隱含的、未知的和潛在有用的信息(如知識(shí)規(guī)則、約束和規(guī)律等)的非平凡的過(guò)程。確切地講,數(shù)據(jù)挖掘(簡(jiǎn)記為dm)是一種決策支持過(guò)程,它主要基于ai、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析各組織原有的數(shù)據(jù),做出歸納的推理,從中挖掘出潛在的模
18、式,為管理人員決策提供支持。從功能上可以將dm的分析方法劃分為以下四種(根據(jù)ibm的劃分方法):關(guān)聯(lián)分析;序列模式分析;分類(lèi)分析;聚類(lèi)分析。關(guān)聯(lián)規(guī)則挖掘算法是一種重要的數(shù)據(jù)挖掘方法。dm系統(tǒng)不是多項(xiàng)技術(shù)的簡(jiǎn)單組合,而是一個(gè)完整的整體,它還需要其他輔助技術(shù)的支持,才能完成數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表述、算法評(píng)價(jià)這一系列任務(wù)。根據(jù)功能,整個(gè)dm系統(tǒng)可以大致劃分為三級(jí)結(jié)構(gòu)(如圖1.1所示) 圖1.1 dm系統(tǒng)結(jié)構(gòu)圖dm的數(shù)據(jù)分析過(guò)程可以分成數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表述及評(píng)價(jià)四個(gè)步驟。數(shù)據(jù)準(zhǔn)備階段主要是準(zhǔn)備適合分析的數(shù)據(jù);數(shù)據(jù)挖掘階段是最關(guān)鍵的階段,主要是選定合適的挖掘算法,對(duì)數(shù)據(jù)進(jìn)行分析,以得出真正合
19、理有用的知識(shí);結(jié)果表述階段是把挖掘階段得出的知識(shí)以便于用戶理解的方式進(jìn)行描述;評(píng)價(jià)階段是用戶根據(jù)已有的知識(shí)對(duì)挖掘的結(jié)果進(jìn)行合理性分析,若有不合理的方面,再重復(fù)上述三個(gè)步驟,以保證挖掘結(jié)果的合理性。dm與其他數(shù)據(jù)庫(kù)工具既存在區(qū)別又存在聯(lián)系。查詢工具、驗(yàn)證型工具、發(fā)掘型工具各自的側(cè)重點(diǎn)不同,因此適用范圍和針對(duì)的用戶也各不相同。發(fā)掘型的應(yīng)用主要負(fù)責(zé)從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式,預(yù)測(cè)趨勢(shì)和行為,與驗(yàn)證型工具一個(gè)很大的不同在于,用戶在整個(gè)信息的挖掘過(guò)程中無(wú)需或只需很少的指導(dǎo)。數(shù)據(jù)挖掘就是一種發(fā)掘型工具,與驗(yàn)證型工具不同,數(shù)據(jù)挖掘是一種展望和預(yù)測(cè)的工具,它能挖掘數(shù)據(jù)間潛在的模式,發(fā)現(xiàn)經(jīng)營(yíng)者可能忽略的信息,并為
20、企業(yè)作出前攝的、基于知識(shí)的決策。查詢工具、驗(yàn)證型工具和發(fā)掘型工具是相互補(bǔ)充的,只有很好的結(jié)合起來(lái),才能達(dá)到最好的效果。數(shù)據(jù)挖掘被信息產(chǎn)業(yè)界視為數(shù)據(jù)庫(kù)技術(shù)的前沿,數(shù)據(jù)庫(kù)技術(shù)的新應(yīng)用領(lǐng)域。它在數(shù)據(jù)倉(cāng)庫(kù)、決策支持、市場(chǎng)策略和金融預(yù)測(cè)等領(lǐng)域具有廣泛的應(yīng)用前景。全世界排名前列的大型和超大型公司95以上都建立了數(shù)據(jù)倉(cāng)庫(kù)和應(yīng)用了數(shù)據(jù)挖掘技術(shù)。1.2 關(guān)聯(lián)規(guī)則挖掘算法1.2.1頻繁集的發(fā)現(xiàn)尋找頻繁子集的方法是根據(jù)所有頻繁發(fā)生的集合的子集也是頻繁發(fā)生的。為了生成頻繁項(xiàng)目集,首先遍歷數(shù)據(jù)庫(kù),收集每個(gè)項(xiàng)目集的支持度,取其支持度不低于最低支持度的項(xiàng)目集構(gòu)成頻繁項(xiàng)目集的集合l1;然后兩兩連接l1中的項(xiàng)目集,形成二維項(xiàng)目
21、集的集合,再次遍歷數(shù)據(jù)庫(kù),收集每個(gè)侯選二維項(xiàng)目的支持?jǐn)?shù),取其支持?jǐn)?shù)不低于最低支持項(xiàng)目集構(gòu)成頻繁二項(xiàng)集的集合i2;如此迭代,直到新的侯選集n維集合為空時(shí)為止。1.2.2 關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)假設(shè)每個(gè)頻繁集的支持度都得到,記作p( ),頻繁集,那么可信度confidence(lll2)=p( 1nl2)p( 1)。如果confidence(l1l2)滿足最低信任度,那么這條規(guī)則存在,是有意義的。在已經(jīng)提出的許多算法中,ragrawal等人在文獻(xiàn)中提出的apriori算法是最有影響的。除了最初提出的性能較apriori差的ais算法及其面向sql的變體setm,目前已知的大多數(shù)算法都是以apriori為核
22、心,或是其變體,或是其擴(kuò)展。apriori是一種寬度優(yōu)先算法,通過(guò)對(duì)數(shù)據(jù)庫(kù)d的多趟掃描來(lái)發(fā)現(xiàn)所有的頻繁項(xiàng)目集,在每一趟k中只考慮具有同一長(zhǎng)度k(即項(xiàng)目集中所含項(xiàng)目的個(gè)數(shù))的所有項(xiàng)目集。在第1趟掃描中,apriori算法計(jì)算i中所有單個(gè)項(xiàng)目的支持度,生成所有長(zhǎng)度為i的頻繁項(xiàng)目集。在后續(xù)的每一趟k中,首先以前一趟中所發(fā)現(xiàn)的所有頻繁項(xiàng)目集為基礎(chǔ),生成所有新的候選項(xiàng)目集,即潛在的頻繁項(xiàng)目集,然后掃描數(shù)據(jù)庫(kù)d,計(jì)算這些候選項(xiàng)目集的支持度,最后確定侯選項(xiàng)目集中哪一些真正成為頻繁項(xiàng)目集。重復(fù)上述過(guò)程直到再也發(fā)現(xiàn)不了新的頻繁項(xiàng)目集。算法高效的關(guān)鍵在于生成較小的候選項(xiàng)目集,也就是盡可能不生成和計(jì)算那些不可能成為
23、頻繁項(xiàng)目集的侯選項(xiàng)目集。1.3 聚類(lèi)分析算法聚類(lèi)分析是數(shù)據(jù)挖掘中的一個(gè)很活躍的研究領(lǐng)域,并提出了許多聚類(lèi)算法。這些算法可以被分為劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和基于模型方法。1.3.1 劃分方法(pam:partitioning method)首先創(chuàng)建k個(gè)劃分,k為要?jiǎng)?chuàng)建的劃分個(gè)數(shù);然后利用一個(gè)循環(huán)定位技術(shù)通過(guò)將對(duì)象從一個(gè)劃分移到另一個(gè)劃分來(lái)幫助改善劃分質(zhì)量。典型的劃分方法包括:k-means,k-medoids,clara,clarans fcm。1.3.2 層次方法(hierarchical method)創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下
24、而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合并經(jīng)常要與其它聚類(lèi)方法相結(jié)合,如循環(huán)定位。典型的這類(lèi)方法包括:第一個(gè)是:birch方法,它首先利用樹(shù)的結(jié)構(gòu)對(duì)對(duì)象集進(jìn)行劃分;然后再利用其它聚類(lèi)方法對(duì)這些聚類(lèi)進(jìn)行優(yōu)化。第二個(gè)是:cure方法,它利用固定數(shù)目代表對(duì)象來(lái)表示相應(yīng)聚類(lèi);然后對(duì)各聚類(lèi)按照指定量(向聚類(lèi)中心)進(jìn)行收縮。第三個(gè)是rock方法,它利用聚類(lèi)間的連接進(jìn)行聚類(lèi)合并。最后一個(gè)chemaloen,它則是在層次聚類(lèi)時(shí)構(gòu)造動(dòng)態(tài)模型。1.3.3 基于密度方法根據(jù)密度完成對(duì)象的聚類(lèi)。它根據(jù)對(duì)象周?chē)拿芏龋ㄈ鏳bscan)不斷增長(zhǎng)聚類(lèi)。典型的基于密度方法包括:dbscan:該算法通過(guò)不斷生長(zhǎng)
25、足夠高密度區(qū)域來(lái)進(jìn)行聚類(lèi);它能從含有噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類(lèi)。此方法將一個(gè)聚類(lèi)定義為一組“密度連接”的點(diǎn)集。個(gè)聚類(lèi),而是為自動(dòng)交互的聚類(lèi)分析計(jì)算出一個(gè)增強(qiáng)聚類(lèi)順序。1.3.4 基于網(wǎng)格方法首先將對(duì)象空間劃分為有限個(gè)單元以構(gòu)成網(wǎng)格結(jié)構(gòu);然后利用網(wǎng)格結(jié)構(gòu)完成聚類(lèi)。sting 就是一個(gè)利用網(wǎng)格單元保存的統(tǒng)計(jì)信息進(jìn)行基于網(wǎng)格聚類(lèi)的方法。clique和wave-cluster 則是一個(gè)將基于網(wǎng)格與基于密度相結(jié)合的方法。1.3.5 于模型方法包括:統(tǒng)計(jì)方法cobweb:是一個(gè)常用的且簡(jiǎn)單的增量式概念聚類(lèi)方法。它的輸入對(duì)象是采用符號(hào)量(屬性-值)對(duì)來(lái)加以描述的。采用分類(lèi)樹(shù)的形式來(lái)創(chuàng)建一個(gè)層次聚類(lèi)
26、。1.4 分類(lèi)分析若預(yù)測(cè)的變量是離散的(如批準(zhǔn)或否決一項(xiàng)貸款),這類(lèi)問(wèn)題就稱(chēng)為分類(lèi);如果預(yù)測(cè)的變量是連續(xù)的(如預(yù)測(cè)漲跌情況),這類(lèi)問(wèn)題稱(chēng)為回歸。分類(lèi)一直為人們所關(guān)注。常用的方法有決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯、粗糙集等方法。分類(lèi)分析要分析數(shù)據(jù)庫(kù)中的一組對(duì)象,找出其共同屬性,構(gòu)造分類(lèi)模型,然后利用分類(lèi)模型對(duì)其它的數(shù)據(jù)對(duì)象進(jìn)行分類(lèi)。分類(lèi)目標(biāo)是分析訓(xùn)練集中的數(shù)據(jù),利用數(shù)據(jù)中能得到的特征,為每一類(lèi)建立一個(gè)恰當(dāng)?shù)拿枋龌蚰P?,然后根?jù)這些分類(lèi)描述對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)或產(chǎn)生更恰當(dāng)?shù)拿枋觥5?章 數(shù)據(jù)挖掘技術(shù)的應(yīng)用2.1 挖掘在成績(jī)分析中的運(yùn)用2.1.1 現(xiàn)有成績(jī)分析的弊端教師簡(jiǎn)單的以考試分?jǐn)?shù)來(lái)評(píng)價(jià)學(xué)生學(xué)習(xí)效果,教師
27、在成績(jī)分析這方面所花的時(shí)間較多,在一定程度上牽扯了教師的精力, 使教師沒(méi)有更多的精力關(guān)注教學(xué)的設(shè)計(jì)和過(guò)程的組織。在傳統(tǒng)考試中,由于時(shí)間和條件的限制,教師只能從有限的幾個(gè)方面來(lái)分析考試,如根據(jù)最高分、最低分、平均分了解班級(jí)的整體水平,憑自己的印象尋找錯(cuò)誤率較高的題目加以講解等。在進(jìn)行年級(jí)成績(jī)分析的時(shí)候,只是對(duì)成績(jī)本身進(jìn)行了簡(jiǎn)單統(tǒng)計(jì)的描述。2.1.2 數(shù)據(jù)挖掘的應(yīng)用 (1) 對(duì)試題的分析與評(píng)價(jià) 通過(guò)分析考試成績(jī)及參與考試的樣本,警告出現(xiàn)異常反應(yīng)的試題,以及對(duì)專(zhuān)家估計(jì)的試題屬性值進(jìn)行自動(dòng)校正等等。主要從試題的難度、區(qū)分度、迷惑力幾方面來(lái)評(píng)價(jià)。其中難度用通過(guò)率體現(xiàn),通過(guò)率為組成試卷提供選題依據(jù),影響著
28、分?jǐn)?shù)的分布形態(tài),離散程度,從而制約著測(cè)驗(yàn)的信度和效度。一般而言,整個(gè)試卷的難度平均為 0.5為佳,各個(gè)試題難度均勻分布在 0.20.8之間為好。區(qū)分度反應(yīng)了一個(gè)題目的鑒別能力,由其可以得到三個(gè)方面的信息,題目能否有效的測(cè)量或預(yù)測(cè)所要了解的某些特性或正態(tài);題目能否與其他題目一致的分辨被試;以及被試在該試題的得分和測(cè)驗(yàn)總分?jǐn)?shù)間一致性如何。區(qū)分度取值介于(+1,-1)。迷惑力指多項(xiàng)選擇體中供選擇用的非正確答案被考生選中的可能性,因此這項(xiàng)指標(biāo)只對(duì)多項(xiàng)選擇題有意義。通常用一次測(cè)驗(yàn)中選中某錯(cuò)誤答案的次數(shù)來(lái)估計(jì)大案的迷惑效力??荚囍心骋贿x項(xiàng)無(wú)一人選擇,說(shuō)明該選項(xiàng)無(wú)迷惑力;如果選用的人數(shù)多且低分組的選用多于高
29、分組,說(shuō)明該選項(xiàng)的迷惑力強(qiáng)。如果高、低分組選某項(xiàng)的人數(shù)較少且人數(shù)接近,說(shuō)明該選項(xiàng)的迷惑力較弱。此參數(shù)對(duì)于成績(jī)的分析意義不大,而且我們獲得的數(shù)據(jù)只是學(xué)生一試題一分?jǐn)?shù),沒(méi)有喧響。這樣的數(shù)據(jù),所以此參數(shù)在成績(jī)分析中沒(méi)有采納。(2) 對(duì)試卷的分析與評(píng)價(jià)對(duì)試卷的分析可以利用關(guān)聯(lián)規(guī)則對(duì)試卷數(shù)據(jù)庫(kù)進(jìn)行分析來(lái)得到某次考試的有效性、可信度、得分分布等信息。評(píng)價(jià)從信度、效度、標(biāo)準(zhǔn)分?jǐn)?shù)幾方面來(lái)進(jìn)行。其中信度包括由客觀題構(gòu)成的試卷的信度和由主觀題構(gòu)成的試卷的信度、由主觀題和客觀題并存的試卷的信度,對(duì)信度系數(shù)的大小度量,應(yīng)結(jié)合測(cè)驗(yàn)的用途、條件、內(nèi)容來(lái)看。效度用以了解測(cè)驗(yàn)的質(zhì)量和功能,為進(jìn)一步改進(jìn)測(cè)驗(yàn)或是在幾個(gè)同類(lèi)測(cè)驗(yàn)中
30、合理選擇提供依據(jù)。利用效標(biāo)關(guān)系、效度進(jìn)行預(yù)測(cè)。(3) 對(duì)學(xué)生的分析與評(píng)價(jià)學(xué)生在測(cè)驗(yàn)后總是關(guān)心自己的成績(jī),關(guān)心自己成績(jī)的排名,關(guān)心自己哪些知識(shí)點(diǎn)掌握的好,哪些知識(shí)點(diǎn)掌握得不好,想知道進(jìn)一步努力的方向??梢岳梅治鰧W(xué)生的歷次考試成績(jī)及試卷中各題的得分,分析學(xué)生的進(jìn)步情況、學(xué)習(xí)障礙、知識(shí)點(diǎn)和知識(shí)單元的掌握情況等等。其中包括利用 z分?jǐn)?shù)對(duì)應(yīng)曲線圖對(duì)學(xué)生同時(shí)進(jìn)行的各科目測(cè)試成績(jī)進(jìn)行的橫向比較、利用 z分?jǐn)?shù)對(duì)應(yīng)曲線圖及二列相關(guān)系數(shù)的分析對(duì)學(xué)生分?jǐn)?shù)在歷次測(cè)驗(yàn)中進(jìn)行的縱向比較、利用成績(jī)分布曲線得出學(xué)生成績(jī)頻數(shù)分布圖等。(4) 對(duì)知識(shí)點(diǎn)的分析與評(píng)價(jià)教師除了關(guān)心學(xué)生的考試情況,如成績(jī)分布、平均分、與其他學(xué)生的比較
31、等。更關(guān)心學(xué)生對(duì)知識(shí)點(diǎn)的掌握情況。分析學(xué)生已掌握的教學(xué)內(nèi)容和未掌握的教學(xué)內(nèi)容來(lái)找出教學(xué)的薄弱環(huán)節(jié),通過(guò)分析學(xué)生的異質(zhì)反應(yīng),找到需要單獨(dú)輔導(dǎo)的學(xué)生。這是對(duì)知識(shí)點(diǎn)的分析與評(píng)價(jià)的主要任務(wù),可以結(jié)合數(shù)據(jù)挖掘的相關(guān)功能幫助分析各科成績(jī)或?qū)W生歷次成績(jī)與總體成績(jī)的相關(guān)性、回歸性和方差齊性來(lái)了解學(xué)生某測(cè)試中各知識(shí)點(diǎn)的掌握情況、學(xué)生對(duì)某個(gè)知識(shí)點(diǎn)的總體掌握情況等。2.2 分類(lèi)規(guī)則挖掘在智能題庫(kù)系統(tǒng)中的應(yīng)用2.2.1 運(yùn)用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)智能題庫(kù)系統(tǒng)首先,設(shè)計(jì)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中包含題庫(kù),答案庫(kù)和答案關(guān)鍵字庫(kù),題型庫(kù)中包含科目,題號(hào),題型,題目,難度,分值等字段;答案庫(kù)中包括科目,題號(hào),分值,答案,答案序號(hào)(用于標(biāo)識(shí)同
32、一題的多個(gè)答案)等字段其中題號(hào)是關(guān)鍵字;答案關(guān)鍵字庫(kù)中包含題號(hào),答案序號(hào),權(quán)值和答案關(guān)鍵字。其次:將答案輸入答案庫(kù)。對(duì)于客觀題,輸入唯一的答案即可;對(duì)于主觀題,要求命題教師盡量給出多個(gè)參考答案并將每個(gè)答案的關(guān)鍵字及其所對(duì)應(yīng)的權(quán)值、答案序號(hào)輸入答案關(guān)鍵字庫(kù)。2.2.2 采用決策樹(shù)算法 為每個(gè)問(wèn)題的答案構(gòu)造一個(gè)二叉樹(shù),每個(gè)分支要么是一個(gè)新的決策點(diǎn),要么是一個(gè)葉子節(jié)點(diǎn)。在沿著決策樹(shù)叢上到下的遍歷過(guò)程中,對(duì)每個(gè)問(wèn)題的不同回答導(dǎo)致不同的分支,最后到達(dá)一個(gè)葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)都會(huì)對(duì)應(yīng)確定的權(quán)值,通過(guò)對(duì)權(quán)值的計(jì)算判定得分。如:對(duì)于一道政治主觀題,主要看答案是否包括得分點(diǎn),因此先針對(duì)答案構(gòu)造一個(gè)二叉樹(shù),查詢
33、答案表和答案關(guān)鍵字表,將考生的答案按答題要點(diǎn)進(jìn)行劃分,繼續(xù)跟大案關(guān)鍵字庫(kù)進(jìn)行比較,如果不符合則停止向下搜索,否則繼續(xù)劃分直到不能再分為止。2.2.3 采用模糊論方法利用模糊集合理論,對(duì)實(shí)際問(wèn)題進(jìn)行模糊判斷、模糊決策、模糊模式識(shí)別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫(kù)中的答案進(jìn)行對(duì)照,以確定答案的正確度,從而更客觀準(zhǔn)確的評(píng)定主觀題分?jǐn)?shù)。2.2.4 答案關(guān)鍵字庫(kù)的完善由于主觀題的答案具有多樣性,又因?yàn)閰⒖即鸢负痛鸢柑卣魇怯擅}教師根據(jù)經(jīng)驗(yàn)給出也存在一定的主觀性,因此,答案庫(kù)和答案關(guān)鍵字庫(kù)需要不斷地進(jìn)行完善。我們可以借助人工智能專(zhuān)家系統(tǒng)的思想,通過(guò)知識(shí)
34、的不斷積累不斷完善答案庫(kù)和答案關(guān)鍵字庫(kù),使其包越來(lái)越完善的答案相關(guān)聯(lián)情況,達(dá)到自學(xué)習(xí)的目的。首先,將參考答案作為測(cè)試集,對(duì)各題的分類(lèi)樹(shù)進(jìn)行測(cè)試,檢查測(cè)試結(jié)果。然后針對(duì)結(jié)果,為滿分的序列建立基本的相關(guān)性。如果結(jié)果出現(xiàn)問(wèn)題,就對(duì)相關(guān)性進(jìn)行一定的修正,再反復(fù)測(cè)試直至成功。這樣基本可以確定滿分的關(guān)鍵字序號(hào)及其中關(guān)鍵字之間的相關(guān)性。然后,再?gòu)膶?shí)際考核試卷中挑選一些典型的零分樣本作為測(cè)試集,對(duì)各題的決策樹(shù)進(jìn)行測(cè)試,用于確定零分的關(guān)鍵字序列及其關(guān)鍵字之間的相關(guān)性。最后,從答案關(guān)鍵字庫(kù)中提取出關(guān)鍵字在決策樹(shù)中的有用屬性剔除無(wú)用屬性。2.2.5 答案特征庫(kù)的維護(hù)雖然閱卷系統(tǒng)具有了一定的數(shù)據(jù)挖掘功能從而可以不斷地
35、自我完善,但是它并不能完全地脫離人工干預(yù);教師還應(yīng)對(duì)閱卷結(jié)果進(jìn)行評(píng)價(jià),可以由系統(tǒng)隨機(jī)的在每個(gè)分?jǐn)?shù)檔挑選出一個(gè)答案供教師評(píng)價(jià),同時(shí),將記錄在案的特殊答案調(diào)出,由教師確定其正確性。教師可以在評(píng)價(jià)過(guò)程中,給出一些新關(guān)鍵字組合并將其編入答案關(guān)鍵字庫(kù)。這樣不但充分保證了系統(tǒng)對(duì)考生的高度負(fù)責(zé),提高了系統(tǒng)的客觀性與公正性,而且對(duì)自身的答案特征庫(kù)進(jìn)行了維護(hù)。隨著閱卷次數(shù)的增多,整個(gè)系統(tǒng)必將越來(lái)越可靠。2.2.6 題庫(kù)管理 - 添加試題 在試題庫(kù)中加入編好的試題。有兩種方式加入:?jiǎn)晤}錄入,按預(yù)置的試題格式一道一道地填寫(xiě);批量錄入,將多道試題按預(yù)定的格式形成一個(gè)txt文件,由錄入程序一次性地錄入題庫(kù)。 - 查詢?cè)?/p>
36、題 用戶在查詢界面中輸入試題查詢參數(shù)(包括試題中所有的屬性參數(shù),并可實(shí)現(xiàn)邏輯組合),查出符合條件的試題,供后續(xù)修改或刪除處理。 - 修改試題 查詢出試題后,可對(duì)試題的各項(xiàng)參數(shù)及試題內(nèi)容進(jìn)行修改。 - 刪除試題 查詢出試題后,可刪除該試題。 - 遠(yuǎn)程收集試題 各地教師可通過(guò)網(wǎng)絡(luò)提交試題,提交后試題存儲(chǔ)在一個(gè)緩沖試題庫(kù)中,自動(dòng)形成標(biāo)準(zhǔn)的rtf文檔,供學(xué)科專(zhuān)家審查修改,然后批量錄入題庫(kù)。 - 預(yù)置組卷策略 對(duì)于一些常見(jiàn)的考試組卷,可以預(yù)置一些常用的組卷策略,教師組卷時(shí)可以選擇現(xiàn)成的組卷策略,無(wú)需重復(fù)輸入復(fù)雜的參數(shù)便可組卷。 2.2.7 組卷策略 - 在題庫(kù)系統(tǒng)建設(shè)中,試題質(zhì)量控制與參數(shù)設(shè)置、組卷策略
37、是最重要的兩個(gè)環(huán)節(jié);題庫(kù)建成后,我們需要輸入一些查詢參數(shù),系統(tǒng)將根據(jù)這些參數(shù)抽出最適合參數(shù)要求的試題,組成能夠?qū)嶋H使用的試卷,定義這種查詢參數(shù)以及對(duì)這些參數(shù)進(jìn)行變換算法,我們稱(chēng)之為組卷策略。組卷策略的實(shí)質(zhì)是將比較直觀明了的組卷參數(shù)變換成計(jì)算機(jī)能夠直接操作的試題屬性項(xiàng),然后根據(jù)這些屬性項(xiàng),在題庫(kù)中抽取試題組成試卷。 - 自動(dòng)組卷只需要設(shè)置試卷的一些整體屬性參數(shù)和題型結(jié)構(gòu)參數(shù),便可以組出一份滿意的試卷,參數(shù)設(shè)置簡(jiǎn)單直觀,其組卷的基本步驟為: - 設(shè)置總體參數(shù) 試卷標(biāo)題、考試時(shí)間、總題數(shù)、滿分值、曝光時(shí)間、考察的知識(shí)點(diǎn)、平均難度、平均區(qū)分度。 - 設(shè)置題型比例表,檢查約束條件,生成最終組卷參數(shù)原型表
38、。題型與知識(shí)點(diǎn)分布對(duì)應(yīng):根據(jù)題型比例表,來(lái)計(jì)算某知識(shí)點(diǎn)某類(lèi)題型所出的試題數(shù),并預(yù)寫(xiě)最終組卷參數(shù)表。 - 試卷難度比例的分配 在平均難度計(jì)算模式表中隨機(jī)取一模式值,得出這份試卷的試題的難度比例,將此難度比例變換成最終組卷參數(shù)表中的難度級(jí)別參數(shù)。 - 試卷區(qū)分度比例的分配 在平均區(qū)分度計(jì)算機(jī)模式表中隨機(jī)取一模式值,得出這份試卷的試題的區(qū)分度比例,并將此區(qū)分度比例變換成最終組卷參數(shù)表中的區(qū)分度級(jí)別參數(shù)。 2.2.8 形成最終抽題的組卷參數(shù)表 - 上面所陳述的都是為了使教師使用方便而設(shè)置的組卷參數(shù),而計(jì)算機(jī)進(jìn)行處理時(shí),并不能直接用上述參數(shù)來(lái)抽題,我們需要對(duì)它們進(jìn)行變換。在實(shí)際組卷時(shí),每道試題選取的條件
39、為: - 曝光時(shí)間參數(shù):曝光時(shí)間定義的曝光時(shí)間。- 試題編號(hào)參數(shù):試題編號(hào)已抽出的試題編號(hào)。 - 抽題時(shí)的最終條件為:最終組卷參數(shù)表中的每一項(xiàng)(表與表中的每一項(xiàng)為邏輯“與”的關(guān)系,不包括試題編號(hào))and 曝光時(shí)間定義的曝光時(shí)間 and試題編號(hào)已抽出的試題編號(hào)。 - 若某個(gè)條件抽出的試題數(shù)大于一道,則從抽出的試題中隨機(jī)取一道,若抽不出試題,則順次取消的控制條件為:曝光時(shí)間、認(rèn)知分類(lèi)、區(qū)分度;若仍抽不出試題,則難度進(jìn)行最小程度的變化(變一級(jí));若還抽不出試題,則在考察的知識(shí)點(diǎn)中抽隨機(jī)知識(shí)點(diǎn)值。 2.3 系統(tǒng)功能(1) 專(zhuān)業(yè)代碼及課程代碼設(shè)置:根據(jù)現(xiàn)有專(zhuān)業(yè)設(shè)置專(zhuān)業(yè)代碼庫(kù),統(tǒng)一管理專(zhuān)業(yè)代碼,可方便地增
40、、減及修改專(zhuān)業(yè)代碼,適應(yīng)專(zhuān)業(yè)變化的需要;在專(zhuān)業(yè)代碼系統(tǒng)中下設(shè)課程代碼系統(tǒng),形成課程代碼庫(kù),便于按照專(zhuān)業(yè)課程進(jìn)行試題錄入、瀏覽及試卷生成。(2) 試題錄入:試題庫(kù)按專(zhuān)業(yè)分別建立,同一專(zhuān)業(yè)的各門(mén)課程試題混合存放在試題庫(kù)中,檢索或生成試卷時(shí),按專(zhuān)業(yè)代碼加課程代碼搜索本課程試題,錄入工作可集中進(jìn)行也可隨時(shí)進(jìn)行,錄入過(guò)程中可方便地編輯或增、刪試題,試題錄入過(guò)程也包括參考答案或評(píng)卷答案的錄入,可同時(shí)進(jìn)行也可單獨(dú)進(jìn)行。(3) 試題檢索:試題檢索過(guò)程中提供按專(zhuān)業(yè)課程進(jìn)行的各種檢索方法,包括:全部瀏覽、瀏覽必選題、瀏覽復(fù)習(xí)題、瀏覽已生成的試卷、按題型瀏覽、按難度等級(jí)瀏覽等檢索功能,如需要也可同時(shí)瀏覽相關(guān)試題的答
41、案部分。 (4) 試卷生成:提供按預(yù)定要求全自動(dòng)或人工控制的自動(dòng)生成功能,同時(shí)提供生成試卷對(duì)應(yīng)答案的功能。(5) 復(fù)習(xí)題生成:提供按給定條件限制的復(fù)習(xí)題冊(cè)或練習(xí)題冊(cè)的自動(dòng)生成功能,與試卷生成功能類(lèi)似。(6) 試卷打印:試卷生成的結(jié)果有兩種,一種是固定的打印輸出格式,可直接打印輸出;另一種是生成一個(gè)自由格式的文本文件,可利用本功能直接啟動(dòng)word2000進(jìn)行編輯排版,也可退出本系統(tǒng),啟動(dòng)其他文字處理軟件(如wps2000、wps97等)進(jìn)行編輯處理,處理完畢后可直接打印輸出;復(fù)習(xí)題打印過(guò)程與此基本相同;對(duì)應(yīng)的試卷答案或復(fù)習(xí)題答案可同時(shí)或單獨(dú)打印,過(guò)程類(lèi)似。(7) 系統(tǒng)維護(hù):提供簡(jiǎn)捷方便的修改系統(tǒng)
42、密碼、代碼系統(tǒng)維護(hù)、試題庫(kù)維護(hù)及生成試卷時(shí)使用的各種標(biāo)志(如組卷標(biāo)志、復(fù)習(xí)題標(biāo)志、難度等級(jí)、試題類(lèi)型、分值等)的維護(hù)等功能。(8) 退出系統(tǒng):釋放所占資源并退出本系統(tǒng)。2.4 關(guān)聯(lián)規(guī)則在教學(xué)評(píng)價(jià)數(shù)據(jù)分析中的應(yīng)用教育評(píng)價(jià)在當(dāng)今世界教育領(lǐng)域中,同教育基礎(chǔ)理論和教育發(fā)展一起,被譽(yù)為三大研究課題。教育評(píng)價(jià)對(duì)于教育發(fā)展和改革,對(duì)于教育的管理與決策,都有至關(guān)重要的作用,因而備受各國(guó)教育界和政府部門(mén)的重視。其中,教學(xué)評(píng)價(jià)尤為重要。教學(xué)評(píng)價(jià)不僅對(duì)教學(xué)起著調(diào)節(jié)、控制、指導(dǎo)和推動(dòng)作用,而且有很強(qiáng)的導(dǎo)向性,是學(xué)校教學(xué)管理工作的重要組成部分,是評(píng)價(jià)教學(xué)工作成績(jī)的主要手段。影響教學(xué)評(píng)價(jià)成功或失敗的因素很多,這不僅取決于
43、評(píng)價(jià)方案的合理性,評(píng)價(jià)工具的有效性,評(píng)價(jià)方法的科學(xué)性,評(píng)價(jià)活動(dòng)組織的嚴(yán)密性,還取決于獲取的評(píng)價(jià)數(shù)據(jù)的可靠性。評(píng)價(jià)所采集的數(shù)據(jù)是否可靠,是保證評(píng)價(jià)結(jié)果科學(xué)、客觀、公正的關(guān)鍵。 2.4.1如何保證評(píng)價(jià)數(shù)據(jù)的可靠性評(píng)價(jià)是一種主體性活動(dòng),評(píng)價(jià)者的態(tài)度認(rèn)真與否對(duì)評(píng)價(jià)結(jié)果有直接影響。如果評(píng)價(jià)者的態(tài)度不認(rèn)真,必然會(huì)嚴(yán)重扭曲評(píng)價(jià)結(jié)果。例如,在進(jìn)行教師評(píng)價(jià)時(shí),學(xué)生作為主評(píng)者,是整個(gè)評(píng)價(jià)工作成敗的關(guān)鍵,但目前學(xué)生對(duì)這種教學(xué)評(píng)價(jià)在認(rèn)識(shí)上存在一定的偏差,或出于某種心理,故意抬高或壓低評(píng)分;或認(rèn)為這是例行公事,與己無(wú)關(guān),敷衍了事。這樣得到的結(jié)果顯然是不公正的。所以,通常需要在評(píng)價(jià)前對(duì)評(píng)價(jià)者推行思想教育和評(píng)價(jià)方法的指導(dǎo),
44、盡可能地減少評(píng)價(jià)活動(dòng)的干擾因素,提高評(píng)價(jià)的客觀性、準(zhǔn)確性和一致性。但是,教學(xué)評(píng)價(jià)的過(guò)程畢竟是評(píng)價(jià)者和被評(píng)價(jià)者的整體綜合心理活動(dòng)的過(guò)程,要把握人的心理,保證人人都認(rèn)真負(fù)責(zé)地履行了自己的義務(wù)是件很困難的事。因此,將獲取的評(píng)價(jià)數(shù)據(jù)進(jìn)行科學(xué)的處理,是保證評(píng)價(jià)質(zhì)量的重要環(huán)節(jié)。也就是,除了對(duì)評(píng)價(jià)者進(jìn)行思想教育外,還應(yīng)該在技術(shù)上采取一些措施,盡可能地找出那些不負(fù)責(zé)任的評(píng)價(jià)者所給的評(píng)價(jià)數(shù)據(jù)。特別是那些評(píng)價(jià)時(shí)敷衍了事的評(píng)價(jià)者,他們所給的評(píng)價(jià)結(jié)果數(shù)據(jù)通常是前后矛盾、漏洞百出的,比如給所有的項(xiàng)都打滿分或者相同的分。在實(shí)踐中,我們收集到評(píng)價(jià)數(shù)據(jù)后,會(huì)把全滿分或評(píng)分全部相同的可疑數(shù)據(jù)剔除掉,但是這樣做,只能剔除一小部分
45、無(wú)效數(shù)據(jù)。因此,能否找到一種更行之有效的方法,來(lái)檢驗(yàn)評(píng)價(jià)數(shù)據(jù)的可靠性至關(guān)重要。我們發(fā)現(xiàn),在制定評(píng)價(jià)指標(biāo)體系時(shí),各個(gè)指標(biāo)雖然具有相對(duì)獨(dú)立性,但是由于指標(biāo)是根據(jù)同一目標(biāo)派生而來(lái)的,各個(gè)指標(biāo)之間必然存在著某種內(nèi)在聯(lián)系,這也導(dǎo)致不同評(píng)價(jià)指標(biāo)的各項(xiàng)評(píng)價(jià)數(shù)據(jù)之間存在某種關(guān)聯(lián)性。如果能找出各項(xiàng)評(píng)價(jià)數(shù)據(jù)之間的關(guān)聯(lián)性,就能根據(jù)這種關(guān)聯(lián)性來(lái)檢驗(yàn)所得評(píng)價(jià)數(shù)據(jù)是否可靠。如果所得評(píng)價(jià)數(shù)據(jù)不滿足這種關(guān)聯(lián)性,則可以被認(rèn)為是無(wú)效評(píng)價(jià)數(shù)據(jù)。本文就運(yùn)用了數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則挖掘技術(shù)來(lái)尋找各項(xiàng)評(píng)價(jià)數(shù)據(jù)之間的關(guān)聯(lián)性,從而檢驗(yàn)評(píng)價(jià)數(shù)據(jù)的可靠性。2.4.2 關(guān)聯(lián)規(guī)則的基本概念關(guān)聯(lián)規(guī)則挖掘的研究是近幾年研究較多的數(shù)據(jù)挖掘方法,在數(shù)據(jù)挖
46、掘的各種方法中應(yīng)用得也最為廣泛。在數(shù)據(jù)挖掘的知識(shí)模式中,關(guān)聯(lián)規(guī)則模式是比較重要的一種。關(guān)聯(lián)規(guī)則的概念是agrawal在1993年提出的,是數(shù)據(jù)中一種簡(jiǎn)單但很實(shí)用的規(guī)則。關(guān)聯(lián)規(guī)則模式屬于描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無(wú)監(jiān)督學(xué)習(xí)的方法。令i= ( il i i2 i i3 i . i im為一組屬性的可能取值,稱(chēng)為數(shù)據(jù)項(xiàng)集,其中ik(l,ky在事務(wù)集合d中成立。一般用如下兩個(gè)參數(shù)描述一條關(guān)聯(lián)規(guī)則的屬性:(1) 置信度 如果d中包含x的事務(wù)有c%也同時(shí)包含y,則c為關(guān)聯(lián)規(guī)則x -y的置信度。即,置信度c% =tthhe e number of transactions(x u y) /the n
47、umber of transactions。簡(jiǎn)單地說(shuō),置信度就是指在出現(xiàn)了數(shù)據(jù)項(xiàng)集x的事務(wù)中,數(shù)據(jù)項(xiàng)集y也同時(shí)出現(xiàn)的概率有多大。置信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。(2) 支持度 如果d中有s%的事務(wù)同時(shí)包含數(shù)據(jù)項(xiàng)集x和y,則稱(chēng)s%為關(guān)聯(lián)規(guī)則x-y的支持度。即,支持度s% =the number of transactions (x u y) /the number of transactions(d)。支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量。支持度說(shuō)明了這條規(guī)則在所有事務(wù)中有多大的代表性,顯然支持度越大,關(guān)聯(lián)規(guī)則越重要,應(yīng)用越廣泛。如果不考慮關(guān)聯(lián)規(guī)則的支持度和置信度,那么在數(shù)據(jù)庫(kù)中可以發(fā)現(xiàn)很多關(guān)聯(lián)規(guī)則
48、。事實(shí)上,人們一般只對(duì)滿足一定的支持度和置信度的關(guān)聯(lián)規(guī)則感興趣。因此,為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)闌值:最小支持度和最小置信度,一般稱(chēng)滿足一定要求的(如較大的支持度和置信度)的規(guī)則為強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則挖掘就是在給定的事務(wù)集合d中產(chǎn)生所有滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則的過(guò)程。挖掘關(guān)聯(lián)規(guī)則間題可以分為兩個(gè)子問(wèn)題: 尋找所有這樣的數(shù)據(jù)項(xiàng)集,它們的支持度超過(guò)用戶給定的最小支持度。這樣的數(shù)據(jù)項(xiàng)集稱(chēng)為頻繁數(shù)據(jù)項(xiàng)集,簡(jiǎn)稱(chēng)頻繁集或大項(xiàng)集。由于一般情況下,我們所面臨的數(shù)據(jù)庫(kù)都比較大,所以此步是算法的核心。 應(yīng)用頻繁集產(chǎn)生規(guī)則。一般的想法是:如果 abcd和ab是頻繁集,那么可以通過(guò)計(jì)算置信度con
49、f = supp(ab-cd)/supp(ab)來(lái)確定規(guī)則ab-cd是否成立。當(dāng)置信度conf最小置信度時(shí),規(guī)則成立。其中supp (x)表示x的支持度。關(guān)聯(lián)規(guī)則挖掘算法一apriori算法 i叩ut: db,而nsupp output: result=所有的頻繁項(xiàng)集,和它們的支持度。方法: result:二 ; k: =1; c:=所有的1一項(xiàng)集 while(q)do begin 為每一個(gè)ck中的項(xiàng)集生成一個(gè)計(jì)數(shù)器; for(i=1; i 16,即當(dāng)某教師符合指標(biāo)1(有責(zé)任感,對(duì)自己的工作專(zhuān)心而負(fù)責(zé))和指標(biāo)2(尊重學(xué)生的意見(jiàn))時(shí),他必定符合指標(biāo)6(與其他教師相比,你對(duì)此教師教學(xué)的總體評(píng)價(jià))。
50、該條規(guī)則的支持度是6/10二60%,置信度是10000。根據(jù)這條規(guī)則,如果收集到的評(píng)價(jià)數(shù)據(jù)在指標(biāo)1、指標(biāo)2和指標(biāo)6上不存在關(guān)聯(lián)性,則可認(rèn)為該份評(píng)價(jià)數(shù)據(jù)為無(wú)效數(shù)據(jù),從而盡可能地提高評(píng)價(jià)的準(zhǔn)確性、公正性和客觀性。2.5 基于教學(xué)評(píng)價(jià)的數(shù)據(jù)挖掘技術(shù)介紹及舉例數(shù)據(jù)挖掘技術(shù)已經(jīng)在各種應(yīng)用領(lǐng)域顯示出巨大的潛力,但并非都適用于教學(xué)評(píng)價(jià)的所有數(shù)據(jù)。根據(jù)教學(xué)評(píng)價(jià)數(shù)據(jù)的特點(diǎn)和數(shù)據(jù)挖掘的技術(shù)應(yīng)用,可將數(shù)據(jù)挖掘技術(shù)進(jìn)行以下劃分。2.5.1 數(shù)據(jù)總結(jié)數(shù)據(jù)總結(jié)的目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。目前主要有兩種技術(shù):多維數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。多維數(shù)據(jù)分析方法,也稱(chēng)作聯(lián)機(jī)分析處理。數(shù)據(jù)倉(cāng)庫(kù)是面向決策支持的、
51、集成的、穩(wěn)定的、不同時(shí)間的歷史數(shù)據(jù)集合。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作,這類(lèi)操作的計(jì)算量特別大,可把匯集操作結(jié)果預(yù)先計(jì)算并存儲(chǔ)起來(lái),以便于決策支持系統(tǒng)使用。在對(duì)學(xué)生歷年(歷次)考試成績(jī)分析中可采用聯(lián)機(jī)分析處理來(lái)對(duì)學(xué)生的相同科目成績(jī)進(jìn)行分析,對(duì)查詢的成績(jī)進(jìn)行智能對(duì)比分析,科學(xué)得出學(xué)生成績(jī)變化規(guī)律和結(jié)論。2.5.2 關(guān)聯(lián)分析關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行挖掘。在數(shù)據(jù)挖掘研究領(lǐng)域,對(duì)于關(guān)聯(lián)分析的研究開(kāi)展得比較深入,提出了如apriori、抽樣算法、dic等算法。其目的是挖掘數(shù)據(jù)項(xiàng)的相互關(guān)系,發(fā)現(xiàn)不同數(shù)據(jù)項(xiàng)直接的相關(guān)性,如“70%的學(xué)生在某次考試中a課程優(yōu)秀b可能也是優(yōu)
52、秀”之類(lèi)的知識(shí)。關(guān)聯(lián)規(guī)則挖掘的形式描述是:設(shè)i =i1, i2 ,i3 ,im 是 m 個(gè)不同項(xiàng)目的集合,每個(gè)ik (1 k m )稱(chēng)為數(shù)據(jù)項(xiàng),數(shù)據(jù)項(xiàng)的集合稱(chēng)為數(shù)據(jù)項(xiàng)集,d是針對(duì)i 的事務(wù)集合,每一筆事務(wù)包含若干項(xiàng)目i1ik ,其中ik i ,若t是i 中一組項(xiàng)目的集合,即 ,一條關(guān)聯(lián)規(guī)則就是形如 的蘊(yùn)涵式,其中如果d中c%的包含 x 的交易同時(shí)包含y,則關(guān)聯(lián)規(guī)則 在d中置信度c成立。如果d中s%的交易包含 ,則關(guān)聯(lián)規(guī)則 在d中具有支持度s。關(guān)聯(lián)規(guī)則分析可以運(yùn)用對(duì)學(xué)生多課程成績(jī)分析上,通過(guò)關(guān)聯(lián)分析,可以得出其四屬性含義:可信度:指學(xué)生在a科成績(jī)?yōu)閮?yōu)時(shí),b科也為優(yōu)的概率;支持度:描述學(xué)生a、b兩
53、科成績(jī)均為優(yōu)的概率;期望可信度:在沒(méi)有任何條件約束時(shí),學(xué)生a科成績(jī)?yōu)閮?yōu)的概率;作用度:是可信度與期望可信度的比值,它描述了學(xué)生在a科成績(jī)?yōu)閮?yōu)時(shí)對(duì)b科也為優(yōu)的影響。 2.5.3 分類(lèi)分析若預(yù)測(cè)的變量是離散的(如批準(zhǔn)或否決一項(xiàng)貸款),這類(lèi)問(wèn)題就稱(chēng)為分類(lèi);如果預(yù)測(cè)的變量是連續(xù)的(如預(yù)測(cè)漲跌情況),這類(lèi)問(wèn)題稱(chēng)為回歸。分類(lèi)一直為人們所關(guān)注。常用的方法有決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯、粗糙集等方法。分類(lèi)分析要分析數(shù)據(jù)庫(kù)中的一組對(duì)象,找出其共同屬性,構(gòu)造分類(lèi)模型,然后利用分類(lèi)模型對(duì)其它的數(shù)據(jù)對(duì)象進(jìn)行分類(lèi)。分類(lèi)目標(biāo)是分析訓(xùn)練集中的數(shù)據(jù),利用數(shù)據(jù)中能得到的特征,為每一類(lèi)建立一個(gè)恰當(dāng)?shù)拿枋龌蚰P?,然后根?jù)這些分類(lèi)描述對(duì)
54、測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)或產(chǎn)生更恰當(dāng)?shù)拿枋?。在記錄教師的教學(xué)評(píng)價(jià)數(shù)據(jù)庫(kù)中保存著教學(xué)評(píng)價(jià)記錄,根據(jù)評(píng)價(jià)結(jié)果將教學(xué)評(píng)價(jià)分成四類(lèi):優(yōu)秀、良好、一般、較差,并且類(lèi)別標(biāo)記己賦給了各個(gè)記錄。分類(lèi)分析就是分析該數(shù)據(jù)庫(kù)的記錄數(shù)據(jù),對(duì)每個(gè)評(píng)價(jià)等級(jí)做出準(zhǔn)確描述,如“教學(xué)評(píng)價(jià)好的是指那些教齡在5年以上,職稱(chēng)在副教授以上,態(tài)度認(rèn)真教師”,然后根據(jù)這些描述對(duì)其它具有相同屬性的數(shù)據(jù)庫(kù)記錄進(jìn)行分類(lèi)。2.5.4 聚類(lèi)分析聚類(lèi)用于從數(shù)據(jù)集中找出相似的數(shù)據(jù)并分成不同的組。與分類(lèi)分析不同,聚類(lèi)分析輸入的是一組未分類(lèi)記錄,并且這些記錄應(yīng)分成幾類(lèi)事先也不知道。聚類(lèi)分析就是通過(guò)分析數(shù)據(jù)庫(kù)中的記錄數(shù)據(jù),根據(jù)一定的分類(lèi)規(guī)則,合理地劃分記錄集合,確定每個(gè)記錄所在類(lèi)別。聚類(lèi)分析的方法很多,其中包括系統(tǒng)聚類(lèi)法、分解法、加入法、動(dòng)態(tài)聚類(lèi)法、模糊聚類(lèi)法、運(yùn)籌方法等等。采用不同的聚類(lèi)方法,對(duì)于相同的記錄集合很可能有不同的劃分結(jié)果。聚類(lèi)分析可以運(yùn)用在對(duì)學(xué)生的分類(lèi)上,充分考慮到學(xué)生的成績(jī)與成績(jī)之間、成績(jī)與各項(xiàng)綜合表
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026屆甘肅省白銀市平川區(qū)中恒學(xué)?;瘜W(xué)高三上期末綜合測(cè)試模擬試題含解析
- 信息技術(shù)學(xué)業(yè)講解
- 西方醫(yī)學(xué)與精神科護(hù)理學(xué)
- 小升初古詩(shī)詞選擇題專(zhuān)項(xiàng)練習(xí)(含答案)
- 食品超微粉碎技術(shù)
- 軟件項(xiàng)目驗(yàn)收匯報(bào)
- 獸醫(yī)臨床診斷技術(shù)
- 小學(xué)生關(guān)聯(lián)詞講解
- 2026屆四川省綿陽(yáng)市三臺(tái)中學(xué)化學(xué)高一上期末復(fù)習(xí)檢測(cè)模擬試題含解析
- 如何制作圖文講解
- 《廣聯(lián)達(dá)培訓(xùn)教程》課件
- 減少門(mén)診投訴PDCA課件
- 職業(yè)暴露與防護(hù)41p
- 醫(yī)療廢物處理登記表
- 二手房屋買(mǎi)賣(mài)物品交接清單
- 左手流程-右手人才-章義伍
- 橋梁安全事故案例警示
- 智慧樹(shù)創(chuàng)意學(xué)經(jīng)濟(jì)答案-2018創(chuàng)意學(xué)經(jīng)濟(jì)期末答案
- YY 0054-2023血液透析設(shè)備
- 黃岡市臨床重點(diǎn)專(zhuān)科申報(bào)-模板-副本
- SB/T 10460-2008商用電開(kāi)水器
評(píng)論
0/150
提交評(píng)論