




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第1章緒論1.1數(shù)據(jù)概述1.2數(shù)據(jù)與社會變革1.3數(shù)據(jù)挖掘的定義1.4數(shù)據(jù)挖掘的發(fā)展與應用1.5數(shù)據(jù)挖掘的任務與挑戰(zhàn)1.6本書內(nèi)容與組織本章小結(jié)
1.1
數(shù)據(jù)概述
1980年,美國著名未來學家阿爾溫·托夫勒闡述了科技發(fā)展所引起的社會變化及其未來的發(fā)展趨勢,并且出版了鴻篇巨作《第三次浪潮》(TheThirdWave)。他認為人類社會正進入一個嶄新的時期———第三次浪潮文明時期。如圖1-1所示,浪潮文明一共有三次,在第三次浪潮文明之前,人類已經(jīng)經(jīng)歷了兩次浪潮文明。圖1-1
人類歷史文明發(fā)展的三次浪潮
第一次浪潮文明是“農(nóng)業(yè)革命”,歷時數(shù)千年,帶領(lǐng)人類從原始野蠻的漁獵時代進入以農(nóng)業(yè)為基礎的新時代,其特點是家庭式的農(nóng)耕和定居生活。第二次浪潮文明是“工業(yè)革命”,歷時三百年。“工業(yè)革命”摧毀了古老的文明社會,改變了人類的生產(chǎn)方式,并在第二次世界大戰(zhàn)后達到頂峰,其特點是化石燃料成為能源基礎、科學技術(shù)發(fā)展突飛猛進、協(xié)作
方式變?yōu)楣S式等。第三次浪潮文明是一個以電子工業(yè)、宇航工業(yè)、海洋工業(yè)、遺傳工程組成工業(yè)群的新時期,其特點是全球化協(xié)作。在第三次浪潮文明中,社會進步不單以技術(shù)發(fā)展水平和物質(zhì)生活標準來衡量,豐富多彩的文化生活水平也成為新的指標。
影響數(shù)據(jù)及其應用的兩大因素包括大容量存儲設備與高性能計算機,其中大容量存儲設備為大數(shù)據(jù)存儲奠定基礎,高性能計算機為海量數(shù)據(jù)分析提供計算平臺。在存儲器方
面,磁盤容量已從兆字節(jié)級別發(fā)展到現(xiàn)在的太字節(jié)級別,這為大數(shù)據(jù)的自由存儲與分析提供了物理基礎。
基于大容量存儲設備和高性能計算機方面的發(fā)展,移動互聯(lián)網(wǎng)應運而生,隨之產(chǎn)生的又一重要概念就是大數(shù)據(jù)。
在商業(yè)、經(jīng)濟及其他領(lǐng)域中,決策將基于數(shù)據(jù)及其分析而產(chǎn)生,而非以往的經(jīng)驗和直覺。對此,哈佛大學社會學教授加里·金指出:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進程,無論學術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進程?!奔永铩そ鸬陌l(fā)言絕不是空穴來風,在21世紀,信息感知和采集終端負責實時收集海量數(shù)據(jù),以云計算為代表的大型計算平臺則對所收集到的數(shù)據(jù)進行有效分析,借此構(gòu)建起一個與物質(zhì)世界相平行的數(shù)據(jù)世界。目前,這樣的技術(shù)已經(jīng)成功應用到政務、商業(yè)、城市交通、醫(yī)療、教育等各行各業(yè),如圖1-2所示。圖1-2數(shù)據(jù)已深度融入社會
1.2數(shù)據(jù)與社會變革
1.2.1-數(shù)據(jù)改變思維模式數(shù)據(jù)已被廣泛應用在經(jīng)濟、政治、文化和生活的方方面面,對人們的行為、生活和交往方式都造成了深遠的影響。與此同時,人們的生產(chǎn)、生活方式也隨之發(fā)生了改變,最終導致傳統(tǒng)思維的崩塌及新思維方式的形成。
這體現(xiàn)在以下三個方面:
(1)決策使用全部數(shù)據(jù),而非部分數(shù)據(jù)。
(2)接受以不精確性取代精確性。
(3)接受關(guān)聯(lián)性,拋棄因果性。
1.2.2數(shù)據(jù)改變社會模式
在信息化社會,數(shù)據(jù)發(fā)展主要呈現(xiàn)出資源化、基礎化、系統(tǒng)化等特點。
(1)資源化:數(shù)據(jù)成為企業(yè)和社會關(guān)注的重要戰(zhàn)略資源,并已成為大家爭相搶奪的新焦點。
(2)基礎化:如同計算機和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)很有可能是新一輪技術(shù)革命的基礎。
(3)系統(tǒng)化:大數(shù)據(jù)世界不只是一個單一的、巨大的計算機網(wǎng)絡,而是一個由大量活動構(gòu)件與多元參與者元素所構(gòu)成的生態(tài)系統(tǒng),一個由終端設備提供商、基礎設施提供商、網(wǎng)絡服務提供商、網(wǎng)絡接入服務提供商、數(shù)據(jù)服務使用者、數(shù)據(jù)服務提供商、觸點服務商、數(shù)據(jù)服務零售商等一系列參與者共同構(gòu)建的生態(tài)系統(tǒng)。
1.2.3數(shù)據(jù)改變國家戰(zhàn)略
2013年,百度公司總裁李彥宏指出:“大數(shù)據(jù)不僅是互聯(lián)網(wǎng)企業(yè)的事,更應是國家的事,要從國家層面發(fā)展大數(shù)據(jù),實施網(wǎng)絡安全與信息化戰(zhàn)略?!本腿騺砜?西方發(fā)達國家多年前就積極主動開放大數(shù)據(jù),甚至為開放大數(shù)據(jù)立法,確保寶貴的大數(shù)據(jù)不被浪費。
在我國,由于企業(yè)、個人與政府部門的地位不對等,數(shù)據(jù)安全等因素造成政府部門開放大數(shù)據(jù)的主觀意愿并不強烈。中國政務大數(shù)據(jù),除了一些大企業(yè)以及政府合作企業(yè)能獲得外,大部分企業(yè)與個人均無法使用,這就造成了數(shù)據(jù)的極大浪費,也阻礙了中國企業(yè)的發(fā)展與創(chuàng)新。此外,我國各個公司在數(shù)據(jù)共享方面的合作也亟待加強。
為了改變現(xiàn)狀,2015年經(jīng)李克強總理簽批,國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》(以下簡稱《綱要》),系統(tǒng)性部署大數(shù)據(jù)發(fā)展工作。《綱要》明確推動大數(shù)據(jù)發(fā)展和應用,在未來5~10年內(nèi)打造精準治理、多方協(xié)作的社會治理新模式,建立運行平穩(wěn)、安全高效的經(jīng)濟運行新機制,構(gòu)建以人為本、惠及全民的民生服務新體系,開啟大眾創(chuàng)業(yè)、萬眾創(chuàng)新的創(chuàng)新驅(qū)動新格局,培育高端智能產(chǎn)業(yè)發(fā)展新生態(tài)。
《綱要》部署三方面主要任務。
一要加快政府數(shù)據(jù)開放共享,推動資源整合,提升治理能力。
二要推動產(chǎn)業(yè)創(chuàng)新發(fā)展,培育新興業(yè)態(tài),助力經(jīng)濟轉(zhuǎn)型。
三要強化安全保障,提高管理水平,促進健康發(fā)展。
1.3數(shù)據(jù)挖掘的定義
如圖1-3所示,數(shù)據(jù)挖掘(DataMining)是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-DiscoveryinDatabase,KDD)的關(guān)鍵步驟之一,是指從原始數(shù)據(jù)中通過算法提取隱藏信息的過程。準確來說,數(shù)據(jù)挖掘是在大型數(shù)據(jù)庫中自動地發(fā)現(xiàn)有用信息的過程,它具有利用挖掘出來的模式理解與分析復雜問題并預測未來的能力。圖1-3數(shù)據(jù)挖掘與數(shù)據(jù)庫知識發(fā)現(xiàn)
定義1.1(學科層面定義)
數(shù)據(jù)挖掘?qū)儆诮徊鎸W科(如圖1-4所示),它是數(shù)據(jù)庫(Database)、人工智能(ArtificialIntelligence)、機器學習(MachineLearning)、統(tǒng)計學(Statistic)、知識工程(KnowledgeEngineering)等技術(shù)的融合。圖1-4數(shù)據(jù)挖掘是交叉學科
定義1.2(模式層面定義)
數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)是通過對數(shù)據(jù)進行相應的操作,提取有趣、未知模式的過程。在模式層面定義下的數(shù)據(jù)挖掘,其三大要素是以數(shù)據(jù)為研究對象、對數(shù)據(jù)進行計算操作、從數(shù)據(jù)中提取未知有用模式。模式層面定義如圖1-5所示。圖1-5數(shù)據(jù)挖掘是模式挖掘過程
1.4數(shù)據(jù)挖掘的發(fā)展與應用
1.4.1-數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)挖掘經(jīng)歷了三個歷史階段,即萌芽階段、形成階段和高速發(fā)展階段,如表1-1所示。
1.萌芽階段
數(shù)據(jù)挖掘始于20世紀下半葉,是在當時多個學科的基礎上發(fā)展起來的。隨著數(shù)據(jù)庫技術(shù)的發(fā)展和數(shù)據(jù)總量的不斷增加,簡單的查詢和統(tǒng)計已經(jīng)無法滿足企業(yè)的商業(yè)需求,急需一些嶄新的技術(shù)去挖掘數(shù)據(jù)背后的信息。
2.形成階段
1989年召開了第11屆國際人工智能聯(lián)合會議專題討論會,會上研究人員首次提出了知識發(fā)現(xiàn)這個術(shù)語。到目前為止,知識發(fā)現(xiàn)的重點已經(jīng)從發(fā)現(xiàn)方法轉(zhuǎn)向了實踐應用,而數(shù)據(jù)挖掘則是知識發(fā)現(xiàn)的核心部分,它是從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的有用信息的非平凡過程,這些信息的表現(xiàn)形式一般為規(guī)則、概念、規(guī)律及模式等。
3.高速發(fā)展階段
在21世紀,數(shù)據(jù)挖掘已經(jīng)成為一門比較成熟的交叉學科,相關(guān)技術(shù)也伴隨著信息技術(shù)的發(fā)展日益成熟起來??傮w來說,數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學、高性能計算、模式識別、神經(jīng)網(wǎng)絡、數(shù)據(jù)可視化、信息檢索和空間數(shù)據(jù)分析等多個領(lǐng)域的理論和技術(shù),成為21世紀初期對人類產(chǎn)生重大影響的十大新興技術(shù)之一。
1.4.2數(shù)據(jù)挖掘的應用
數(shù)據(jù)挖掘所要處理的問題就是在龐大的數(shù)據(jù)中找出有價值的隱藏事件并加以分析,以獲取有意義的信息和模式,為決策提供依據(jù)。數(shù)據(jù)挖掘的應用領(lǐng)域非常廣泛,只要存在具有分析價值數(shù)據(jù)的領(lǐng)域,都可以應用數(shù)據(jù)挖掘算法滿足自身在信息方面的需求(可參見圖1-2)
1.金融領(lǐng)域
金融數(shù)據(jù)具有可靠性、完整性和高質(zhì)量等特點,這在很大程度上有利于開展數(shù)據(jù)挖掘與應用。數(shù)據(jù)挖掘在金融領(lǐng)域中有許多具體的應用,例如,通過分析多維數(shù)據(jù)預測金融市場的變化趨勢;運用孤立點分析方法研究洗黑錢等犯罪活動;應用分類技術(shù)對顧客信用進行預測等。除此之外,金融領(lǐng)域的數(shù)據(jù)挖掘方法在不同的細分行業(yè)(如銀行和證券)也存在差別,例如銀行內(nèi)的數(shù)據(jù)挖掘側(cè)重統(tǒng)計建模,數(shù)據(jù)分析對象主要為截面數(shù)據(jù),開發(fā)的模型以離線為主;證券行業(yè)的挖掘工作則更加側(cè)重于量化分析,更多的是分析對象的時間序列數(shù)據(jù),該領(lǐng)域的數(shù)據(jù)挖掘算法旨在從大盤指數(shù)、波動特點、歷史數(shù)據(jù)中發(fā)現(xiàn)趨勢和機會,為客戶進行短期的套利操作提供便利。
2.醫(yī)療領(lǐng)域
在人類遺傳密碼、遺傳史、疾病史以及醫(yī)療方法中,都隱藏著海量的數(shù)據(jù)信息。此外,對醫(yī)院內(nèi)部結(jié)構(gòu)、醫(yī)藥器具、病人檔案以及其他資料的管理也將產(chǎn)生巨量的數(shù)據(jù)。如何利
用數(shù)據(jù)挖掘相關(guān)技術(shù)對這些巨量的數(shù)據(jù)進行處理,從而得到相關(guān)知識規(guī)律以優(yōu)化醫(yī)療資源配給,是醫(yī)療領(lǐng)域數(shù)據(jù)挖掘的難點之一。運用數(shù)據(jù)挖掘技術(shù),在很大程度上有助于醫(yī)療人
員發(fā)現(xiàn)疾病的一些規(guī)律,從而提高診斷的準確率和治療的有效性,不斷促進人類健康醫(yī)療事業(yè)的發(fā)展。
3.科技領(lǐng)域
航天、宇航、氣候預測、通信等科技領(lǐng)域產(chǎn)生了大量非結(jié)構(gòu)化的異質(zhì)數(shù)據(jù)。例如,中國電信融合了語音、圖像、視頻等數(shù)據(jù),將自身發(fā)展成一個全方位立體化的綜合電信服務商。中國電信在發(fā)展過程中,合理運用了數(shù)據(jù)挖掘技術(shù),分析商業(yè)形式和模式并以此制定了合適的商業(yè)計劃,極大地提升了自身的競爭力。
4.交通領(lǐng)域
在交通領(lǐng)域,積累了大量的數(shù)據(jù),比如出租公司積累的乘客出行數(shù)據(jù)、公交公司的運營數(shù)據(jù)等。通過對乘客和運營數(shù)據(jù)進行分析和挖掘,能夠為公交、出租公司和交通部門的科學運營及決策提供依據(jù),使其合理規(guī)劃公交線路,實時為出租車的行駛線路提供建議等。同時,可以提升城市運力和幸福指數(shù),還可以有效減少因交通擁堵問題造成的成本浪費。另外,航空公司也可依據(jù)歷史記錄來尋找乘客的旅行模式,以便提供更加個性化的服務,如合理設置航線等。
目前,交通領(lǐng)域最受人矚目的應用是智能交通系統(tǒng)(IntelligentTransportationSystem,ITS),它是未來交通系統(tǒng)的重點發(fā)展方向之一。它將先進的信息技術(shù)、數(shù)據(jù)通信傳輸技術(shù)、電子傳感技術(shù)、控制技術(shù)及計算機技術(shù)等有效地集成,并運用于整個地面交通管理系統(tǒng),建立一種在大范圍內(nèi)、全方位發(fā)揮作用的,實時、準確、高效的綜合交通運輸管理系統(tǒng)。隨著信息技術(shù)和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,人們可以非常方便地獲取和存儲大量的數(shù)據(jù)。面對海量的數(shù)據(jù),傳統(tǒng)數(shù)據(jù)分析工具只能做一些表層處理,不能獲取數(shù)據(jù)間的內(nèi)在關(guān)系和隱含信息,這種對數(shù)據(jù)分析的需求使得數(shù)據(jù)挖掘得以運用。
1.5數(shù)據(jù)挖掘的任務與挑戰(zhàn)
數(shù)據(jù)挖掘是從海量的、不完全的、有噪聲的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中的有價值的、潛在有用的信息和知識的過程。除此之外,它也是一種決策支持過程,其主要基于人工智能、機器學習、模式學習與統(tǒng)計學等方法,對數(shù)據(jù)進行高度自動化的分析,做出歸納性的推理,并從中挖掘出潛在的模式,以幫助企業(yè)、商家、用戶調(diào)整市場政策、減少風險、理性面對市場,并做出正確的決策。
1.5.1-數(shù)據(jù)挖掘的任務
數(shù)據(jù)挖掘的任務可大致分為預測與描述兩大類。
預測任務是指根據(jù)數(shù)據(jù)對象的屬性值,構(gòu)建數(shù)學模型,并對數(shù)據(jù)對象的屬性進行預判。其中,被預測的屬性稱為因變量,用于建模的屬性稱為自變量,其本質(zhì)是在最大限度滿足已有觀測數(shù)據(jù)的基礎上,盡可能準確地構(gòu)建自變量與因變量之間的函數(shù)關(guān)系。
描述任務是指數(shù)據(jù)挖掘任務是探索性任務,其不能有效明確關(guān)聯(lián)模式,包括軌跡、趨勢、異常等,是需要后處理技術(shù)進行驗證和解釋的一類任務。
按照技術(shù)分類,數(shù)據(jù)挖掘的任務包含分類預測、關(guān)聯(lián)分析、聚類分析與異常檢測四大類,如圖1-6所示。圖1-6基本數(shù)據(jù)挖掘任務
1.分類預測
分類預測(ClassificationandPrediction)涉及兩類任務,即分類(Classification)與回歸(Regression),兩者的主要區(qū)別在于分類對應的因變量是離散值,而回歸對應的因變量是連續(xù)值。分類的任務是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點,并按照分類模式將對象劃分到不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別中。
例1.1-信用卡欺詐行為預測。
考慮如下任務:銀行系統(tǒng)通過申請人的信息判斷申請人存在信用欺詐的可能性。為了簡單起見,只考慮二分類的情況。為了完成這一任務,需要一個數(shù)據(jù)集合,該集合包含兩類申請人的屬性值與類別信息,如房產(chǎn)、婚姻狀況與年收入情況等。通過對數(shù)據(jù)進行分析,構(gòu)建如圖1-7所示的決策樹模型。圖1-7決策樹分類器
2.關(guān)聯(lián)分析
關(guān)聯(lián)分析(AssociationAnalysis)是通過分析發(fā)現(xiàn)數(shù)據(jù)中存在的強關(guān)聯(lián)性組合模式。一般來說,關(guān)聯(lián)分析模式是隱含的。由于特征組合模式的搜索空間呈指數(shù)上升,因此關(guān)聯(lián)分析一般需要對數(shù)據(jù)進行剪枝操作。關(guān)聯(lián)分析旨在設計有效的算法,挖掘最具有代表性的模式。
例1.2牛奶與尿布組合。
表1-2中列舉了某超市一天的銷售數(shù)據(jù),通過關(guān)聯(lián)性分析可發(fā)現(xiàn)顧客頻繁購買的商品的種類。
3.聚類分析
聚類分析(ClusteringAnalysis)類似于分類,但與分類的目的不同。聚類是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個類別,屬于同一類別的數(shù)據(jù)相似性很大,不同類別之間的數(shù)據(jù)相似性很小。致癌基因模塊挖掘、文本聚類分析都屬于聚類分析的范疇。
例1.3致癌基因模塊挖掘。
生物醫(yī)學領(lǐng)域存在一個結(jié)構(gòu)決定功能的假設:有相同或者相似功能的基因具有相同或者相似的功能,呈現(xiàn)出相同或者相似的模式。這一假設為致癌基因模塊挖掘提供了思路。
通常而言,研究人員利用基因表達數(shù)據(jù)構(gòu)建癌癥網(wǎng)絡,通過所構(gòu)建的癌癥網(wǎng)絡進行聚類分析,并提取高度相似的模塊,發(fā)現(xiàn)同一模塊中的基因,進而識別致癌基因。如圖1-8所示,圖中虛線框包含聚類結(jié)果,無填充節(jié)點對應致癌基因。圖1-8致癌基因挖掘示意圖
4.異常檢測
異常檢測(AnomalyDetection)是對不匹配預期模式或數(shù)據(jù)集中的項目、事件或觀測值的識別。異常項目會轉(zhuǎn)變成銀行欺詐、結(jié)構(gòu)缺陷、醫(yī)療問題、文本錯誤等類型的問題。在數(shù)據(jù)挖掘領(lǐng)域中,異常也被稱為離群值、新奇、噪聲、偏差和例外。一個優(yōu)秀的異常檢測算法與檢測器應該具備高檢測率與低誤報率的特點。
例1.4網(wǎng)絡入侵監(jiān)測。
丹寧教授在1986年提出了入侵檢測系統(tǒng)的異常檢測方法。其異常檢測操作一般是通過閾值和統(tǒng)計完成的,但也可以用軟計算和歸納學習的方式完成。在入侵檢測系統(tǒng)中,與異常檢測模式相對應的還有誤用檢測模式。
1.5.2數(shù)據(jù)挖掘面臨的挑戰(zhàn)
大數(shù)據(jù)時代的到來,為數(shù)據(jù)挖掘提供了新的發(fā)展機遇,也提出了嚴峻的挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)分析技術(shù)不能勝任大數(shù)據(jù)挖掘與分析的需要。挑戰(zhàn)可簡要歸納為:數(shù)據(jù)規(guī)模大、數(shù)據(jù)維度高、數(shù)據(jù)異構(gòu)性、數(shù)據(jù)分布式。詳細來說,可分為可伸縮、高維性、異種數(shù)據(jù)和復雜數(shù)據(jù)、數(shù)據(jù)的所有權(quán)與分布、非傳統(tǒng)的分析等類。
(1)可伸縮:由于數(shù)據(jù)產(chǎn)生和收集技術(shù)的進步,吉字節(jié)、太字節(jié)甚至拍字節(jié)的數(shù)據(jù)集越來越普遍。如果數(shù)據(jù)挖掘算法要處理這些海量數(shù)據(jù)集,則算法必須是可伸縮的
(Scalable)。許多數(shù)據(jù)挖掘算法使用特殊的搜索策略處理指數(shù)級搜索空間問題。為實現(xiàn)可伸縮,可能還需要實現(xiàn)新的數(shù)據(jù)結(jié)構(gòu),才能以有效的方式訪問每個記錄。
(2)高維性:現(xiàn)在,常常遇到具有成百上千屬性的數(shù)據(jù)集,而不是幾十年前常見的只具有少量屬性的數(shù)據(jù)集。在生物信息學領(lǐng)域,微陣列技術(shù)的進步已經(jīng)產(chǎn)生了涉及數(shù)千特征的基因表達數(shù)據(jù)。具有時間或空間分量的數(shù)據(jù)集也經(jīng)常具有很高的維度。
(3)異種數(shù)據(jù)和復雜數(shù)據(jù):通常,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類型屬性的數(shù)據(jù)集,或者是連續(xù)的,或者是分類的。隨著數(shù)據(jù)挖掘在商務、科學、醫(yī)學和其他領(lǐng)域的作用越來越大,越來越需要能夠處理異種屬性的技術(shù)。
(4)數(shù)據(jù)所有權(quán)與分布:有時,需要分析的數(shù)據(jù)并非存放在一個站點,或歸屬于一個機構(gòu),而是存放于在地理上分布的多個機構(gòu)中。這就需要開發(fā)分布式數(shù)據(jù)挖掘技術(shù)。分布式數(shù)據(jù)挖掘算法面臨的主要挑戰(zhàn)包括:①如何降低執(zhí)行分布式計算所需的通信量;②如何有效地統(tǒng)一從多個資源得到數(shù)據(jù)挖掘的結(jié)果;③如何處理數(shù)據(jù)安全性問題。
(5)非傳統(tǒng)分析:傳統(tǒng)的統(tǒng)計方法基于一種假設檢驗模式,即提出一種假設,設計實驗來收集數(shù)據(jù),然后針對假設分析數(shù)據(jù)。但是,這個過程勞力費神。當前的數(shù)據(jù)分析任務常常需要產(chǎn)生和評估數(shù)千種假設,因此需要自動地產(chǎn)生和評估假設,這促使人們開發(fā)了一些新的數(shù)據(jù)挖掘技術(shù)。此外,數(shù)據(jù)挖掘所分析的數(shù)據(jù)集通常不是精心設計的實驗的結(jié)果,并且它們通常代表數(shù)據(jù)的時機性樣本(OpportunisticSample),而不是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 村里裝修方案么(3篇)
- 果品倉儲項目建設方案(3篇)
- 墻體廣告策劃活動方案(3篇)
- 混凝土零售方案(3篇)
- 綠化冬季養(yǎng)護計劃方案(3篇)
- 一帶一路倡議
- 物理:杠桿原理實驗操作教學教案
- 堅強伴我成長作文(9篇)
- 邂逅契科夫短篇小說:文學鑒賞能力提升教學教案
- 在線支付安全技術(shù)與支付系統(tǒng)設計探討
- 居住保證書模板
- 電商行業(yè)電商平臺客服解決方案
- 《人工智能基礎》課件-AI的前世今生:她從哪里來
- 丹江口事業(yè)單位筆試真題2024
- 中醫(yī)師承跟師筆記50篇
- GB/T 3648-2024鎢鐵
- 華為-質(zhì)量回溯培訓教材
- 腎細胞癌診斷治療指南解讀
- 宜賓國企公開招聘綜合能力測試題
- DB4201-T 569.6-2018 武漢市反恐怖防范系統(tǒng)管理規(guī)范 第6部分:城市軌道交通
- 化工有限公司3萬噸水合肼及配套項目環(huán)評可研資料環(huán)境影響
評論
0/150
提交評論