




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1 百度排名算法原理(影響度從大到小排列)1. 關(guān)鍵字布局非常重要,幾乎起著決定性的作用。2. 外部鏈接外部鏈接相對于百度來說顯得很是重要。但是,百度也許更聰明,從來他只計算相關(guān)網(wǎng)頁、已經(jīng)有相當(dāng)權(quán)重的網(wǎng)站導(dǎo)出的鏈接。3. 網(wǎng)站大小百度從來對大網(wǎng)站尤其信任。你的二級域名越多,二級域名下面的內(nèi)容越充實(shí),百度對你越青睞。4. 其他的一些網(wǎng)站代碼,頁面布局等因素它間接地影響到你的用戶體驗(yàn)、行為。奉勸你最好重視此類問題5. 網(wǎng)站的年齡很重要,網(wǎng)站的年齡在關(guān)鍵字排名過程中作用非常大。百度往往對有著很深年齡的網(wǎng)站給予更高的權(quán)重。網(wǎng)站的年齡從網(wǎng)站被百度收錄時間開始算起。6. 網(wǎng)站內(nèi)容百度偏向娛樂化,這與中國網(wǎng)
2、情有關(guān)。所以如果你的網(wǎng)站主題以娛樂為主,恭喜你,正合百度胃口。7. 服務(wù)器速度、穩(wěn)定性網(wǎng)站被降權(quán)跟服務(wù)器的速度、性能等有著直接、重要的關(guān)系。8. 域名后綴相對于網(wǎng)站的年齡,域名后綴的作用要小一些gov>.org>.com>.cn9. 用戶行為百度通過用戶搜索行為,書簽收藏,監(jiān)控互聯(lián)網(wǎng),新聞引用等確定網(wǎng)站的用戶滿意度。10. 百度人工賦予的權(quán)重任何搜索引擎都有此類問題,百度也不排除在外。2 關(guān)聯(lián)規(guī)則挖掘過程、分類及其相關(guān)算法1關(guān)聯(lián)規(guī)則挖掘的過程關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(FrequentItemsets,第二階段再由這些高頻
3、項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules。關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(Large Itemsets 。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support,以一個包含A 與B 兩個項(xiàng)目的2-itemset 為例,我們可以經(jīng)由公式(1求得包含A,B項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support 門檻值時,則A,B稱為高頻項(xiàng)目組。一個滿足最小支持度的k-itemset ,則稱為高頻k-項(xiàng)目組(Frequent k-itemset,一般表示為Larg
4、e k 或Frequent k 。算法并從Large k的項(xiàng)目組中再產(chǎn)生Large k+1,直到無法再找到更長的高頻項(xiàng)目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則,在最小信賴度(Minimum Confidence 的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組A,B所產(chǎn)生的規(guī)則AB ,其信賴度可經(jīng)由公式(2求得,若信賴度大于等于最小信賴度,則稱AB 為關(guān)聯(lián)規(guī)則。就沃爾瑪案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對交易資料庫中的紀(jì)錄進(jìn)行資料挖掘,首
5、先必須要設(shè)定最小支持度與最小信賴度兩個門檻值,在此假設(shè)最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則尿布,啤酒,滿足下列條件,將可接受尿布,啤酒的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒>=5%且Confidence(尿布,啤酒>=70%。其中,Support(尿布,啤酒>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時購買的交易行為。Confidence(尿布,啤酒>=70%于此
6、應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會同時購買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購買尿布的行為,超市將可推薦該消費(fèi)者同時購買啤酒。這個商品推薦的行為則是根據(jù)尿布,啤酒關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^去的交易紀(jì)錄而言,支持了“大部份購買尿布的交易,會同時購買啤酒”的消費(fèi)行為。從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個區(qū)間的值對應(yīng)于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。2關(guān)聯(lián)規(guī)則的
7、分類按照不同情況,關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下:1. 基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進(jìn)行處理,將其進(jìn)行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如:性別=“女”=>職業(yè)=“秘書”,是布爾型關(guān)聯(lián)規(guī)則;性別=“女”=>avg(收入)=2300,涉及的收入是數(shù)值類型,所以是一個數(shù)值型關(guān)聯(lián)規(guī)則。2. 基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層的關(guān)聯(lián)規(guī)則中,所有的
8、變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個不同的層次的;而在多層的關(guān) 聯(lián)規(guī)則中,對數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。例如:IBM 臺式機(jī)=>Sony打印機(jī),是一個細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺式機(jī)=> Sony 打印機(jī),是一個較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。3. 基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個維,如用戶購買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會涉及多個維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個屬性之間的某些關(guān)系。例如:啤酒=>尿布,這條規(guī)則只涉及到用戶的購買的
9、物品;性別=“女”=>職業(yè)=“秘書”,這條規(guī)則就涉及到兩個字段的信息,是兩個維上的一條關(guān)聯(lián)規(guī)則。3關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法Apriori 算法:使用候選項(xiàng)集找頻繁項(xiàng)集Apriori 算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻集。該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)
10、的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法??赡墚a(chǎn)生大量的候選集, 以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori 算法的兩大缺點(diǎn)。2. 基于劃分的算法Savasere 等設(shè)計了一個基于劃分的算法。這個算法先把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊,每次單獨(dú)考慮一個分塊并對它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻集至
11、少在某一個分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個處理器生成頻集。產(chǎn)生頻集的每一個循環(huán)結(jié)束后,處理器之間進(jìn)行通信來產(chǎn)生全局的候選k-項(xiàng)集。通常這里的通信過程是算法執(zhí)行時間的主要瓶頸;而另一方面,每個獨(dú)立的處理器生成頻集的時間也是一個瓶頸。3.FP-樹頻集算法針對Apriori 算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FP-樹頻集算法。采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree ),同時依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree 分化成一些條件庫,每個庫和一個長度為1的頻集相關(guān),然
12、后再對這些條件庫分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時候,也可以結(jié)合劃分的方法, 使得一個FP-tree 可以放入主存中。實(shí)驗(yàn)表明,F(xiàn)P-growth 對不同長度的規(guī)則都有很好的適應(yīng)性,同時在效率上較之Apriori 算法有巨大的提高。關(guān)聯(lián)規(guī)則的應(yīng)用就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷?,F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM 機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM 機(jī)的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更
13、大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時也可以顯示出顧客會對什么產(chǎn)品感興趣。同時,一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘,然后設(shè)置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們設(shè)置相應(yīng)的交叉銷售,也就是購買某種商品的顧客會看到相關(guān)的另外一種商品的廣告。3 英文單詞糾錯法主要有誤拼詞典法、詞形距離法、最小編輯距離法、相似鍵法、骨架鍵法、N-gram
14、 法、基于規(guī)則的技術(shù)、詞典及神經(jīng)網(wǎng)絡(luò)技術(shù)。(1誤拼字典法。收集大規(guī)模真實(shí)文本中拼寫出錯的英文單詞并給出相應(yīng)的正確拼寫,建造一個無歧義的誤拼字典。在進(jìn)行英文單詞拼寫檢查時,查找誤拼字典,如命中,則說明該單詞拼寫有誤,該詞的正確拼寫字段為糾錯建議。該方法的特點(diǎn)是偵錯和糾錯一體化,效率高。但英文拼寫錯誤具有隨機(jī)性,很難保證誤拼字典的無歧義性和全面性,因此查準(zhǔn)率低、校對效果差。(2詞形距離法。這是一種基于最大相似度和最小串間距離的英文校對法。其核心思想是構(gòu)造單詞的似然性函數(shù),如該單詞在詞典中,則單詞拼寫正確;否則,按照似然性函數(shù),在詞典中找到一個與誤拼單詞最相似的詞作為糾錯候選詞。該方法的特點(diǎn)是節(jié)省存
15、儲空間,能反映一定的常見拼寫錯誤統(tǒng)計規(guī)律,是一種模糊校對法。(3最小編輯距離法。通過計算誤拼字符串與詞典中某個詞間的最小編輯距離來確定糾錯候選詞。所謂最小編輯距離是指將一個詞串轉(zhuǎn)換為另一個詞串所需的最少的編輯操作次數(shù)(編輯操作是指插入、刪除、易位和替換等 。還有人提出了反向最小編輯距離法,這種方法首先對每個可能的單個錯誤進(jìn)行交換排列,生成一個候選集,然后,通過查詞典看哪些是有 效的單詞,并將這些有效的單詞作為誤拼串的糾錯建議。(4相似鍵法。相似鍵技術(shù)是將每個字符串與一個鍵相對應(yīng)。使那些拼寫相似的字符串具有相同或相似的鍵。當(dāng)計算出某個誤拼字符串的鍵值之后,它將給出一個指針。指向所有與該誤拼字符串
16、相似的單詞,并將它們作為給誤拼字符串的糾錯建議。(5骨架鍵法。通過構(gòu)建骨架鍵詞典,在英文單詞出現(xiàn)錯誤時,先抽取出該錯誤單詞的骨架鍵,然后再去查骨架鍵詞典,將詞典中與該單詞具有相同骨架鍵的正確單詞作為該單詞的糾錯建議。(6N-gram法?;趎 元文法,通過對大規(guī)模英文文本的統(tǒng)計得到單詞與單詞問的轉(zhuǎn)移概率矩陣。當(dāng)檢測到某英文單詞不在詞典中時。查轉(zhuǎn)移概率矩陣,取轉(zhuǎn)移概率大于某給定閾值的單詞為糾錯建議。(7基于規(guī)則的技術(shù)。利用規(guī)則的形式將通常的拼寫錯誤模式進(jìn)行表示,這些規(guī)則可用來將拼寫錯誤蠻換為有效的單詞。對于一個誤拼字符串,應(yīng)用所有合適的規(guī)則從詞典中找到一些與之對應(yīng)的單詞作為結(jié)果,并對每個結(jié)果根據(jù)
17、事先賦予生成它的規(guī)則的概率估計計算一個數(shù)值,根據(jù)這個數(shù)值對所有候選結(jié)果排序。現(xiàn)有的基于上下文的文本錯誤校對方法有三類:利用文本的特征,如字形特征、詞性特征或上下文特征;利用概率統(tǒng)計特性進(jìn)行上下文接續(xù)關(guān)系的分析;利用規(guī)則或語言學(xué)知識,如語法規(guī)則、詞搭配規(guī)則等。(1利用文本上下文的同現(xiàn)與搭配特征可以將文本的校對過程描述為詞排歧過程。若稱待校對的詞為目標(biāo)詞,則建立混淆集C=W1,Wn,其中的每個詞均與文本中的目標(biāo)詞容易發(fā)生混淆或歧義。如假設(shè)C=from,form,如果在文本中出現(xiàn)from 或from 時,就將它看作是一個from 與from 之間的歧義,校對的任務(wù)就是根據(jù)上下文決定哪個詞是我們想要的
18、詞。上下文相關(guān)的校對問題由語句和語句中要被校正的詞構(gòu)成,Bayesian 方法和基于Winnow 的方法都是將這樣的問題表示成有效特征表,每一個有效特征表示目標(biāo)詞的上下文中有一個特殊的語言學(xué)模式存在。目前常使用的特征有兩種類型:上下文的詞和詞的搭配。上下文詞特征用來檢查在目標(biāo)詞周圍的±k個詞的范圍內(nèi)是否有特殊詞存在;詞搭配則用來檢測在目標(biāo)詞的周圍f 個相鄰詞和或詞性標(biāo)注的狀態(tài)。如假設(shè)目標(biāo)詞的混淆集為weather,whether, 若置k=10,f=2,目標(biāo)詞的可用特征包括:目標(biāo)詞前后10個詞范圍內(nèi)的cloudy ;當(dāng)前詞后為to+動詞。特征就預(yù)示著當(dāng)前詞應(yīng)為weather ;而則用
19、來檢查詞搭配,它表明當(dāng)前詞后緊接著一個“to+動詞”的結(jié)構(gòu),表明當(dāng)前詞應(yīng)取whether(如I dont know whether to laugh or cry 。在這種方法中,主要要解決的問題包括混淆集的求取;目標(biāo)詞所在上下文中特征的表示,即如何將語句的初始文本表示轉(zhuǎn)換為有效特征?;谠~語同現(xiàn)與搭配特征的校對方法有很多種,較好的有Bayesian 方法和基于Winnow 方法。各種N-gram 模型,如長距離N-gram 、觸發(fā)對N-gram 等模型,都可以利用目標(biāo)詞上下文中的詞同現(xiàn)特征或搭配特征,采用最大似然估計法、互信息、相關(guān)度等方法檢測文本中的錯誤,并通過相鄰詞間的轉(zhuǎn)移概率確定糾錯候
20、選詞,實(shí)現(xiàn)對目標(biāo)詞的校正。4 貝葉斯網(wǎng)絡(luò)一:定義貝葉斯網(wǎng)絡(luò)用來表示變量間連接概率關(guān)系的DAG 圖。結(jié)點(diǎn)表示:領(lǐng)域變量;有向邊:結(jié)點(diǎn)間的依賴關(guān)系;對每一個結(jié)點(diǎn)都對應(yīng)著一個條件概率分布表,該分布表指明了該變量與父結(jié)點(diǎn)之間的依賴關(guān)系。二:應(yīng)用領(lǐng)域輔助智能決策、數(shù)據(jù)融合、模式識別、醫(yī)療診斷、文本理解、數(shù)據(jù)挖掘 貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)亦稱信念網(wǎng)絡(luò)(Belief Network ,于是1985年由Judea P earl 首先提出。它是一種模擬人類推過程中因果關(guān)系的不確定性處理模型,其網(wǎng)絡(luò)拓樸結(jié)構(gòu)是一個有向無環(huán)圖(DAG。它的節(jié)點(diǎn)用隨機(jī)變量或命題來標(biāo)識,認(rèn)為有直接關(guān)系的命題或變量則用弧來連接。例如,假設(shè)結(jié)點(diǎn)
21、E 直接影響到結(jié)點(diǎn)H ,即E H ,則建立結(jié)點(diǎn)E 到結(jié)點(diǎn)H 的有向弧(E,H,權(quán)值(即連接強(qiáng)度 用條件概率P(H/E來表示。5 數(shù)據(jù)倉庫數(shù)據(jù)倉庫(Data Warehouse )是一個面向主題的(Subject Oriented )、集成的(Integrate )、相對穩(wěn)定的(Non-Volatile )、反映歷史變化(Time Variant )的數(shù)據(jù)集合,用于支持管理決策。6 數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining ,又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery inDatabase, KDD ,就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡
22、過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。7 雪花模型雪花模式中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加的表中,模式圖形成了類似雪花的形狀。通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復(fù)雜性,但同時提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統(tǒng)的逐步建設(shè)要求。 8 OLAP OLAP 是聯(lián)機(jī)分析處理, 是使分析人員、 管理人員或執(zhí)行人員能夠從多角度對信息進(jìn)行快速、 一致、 交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。 它支持復(fù)雜的分析操作, 側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果
23、。 9 決策樹 決策樹是將訓(xùn)練集函數(shù)表示成樹結(jié)構(gòu), 通過它來近似離散值的目標(biāo)函數(shù)。 這種樹結(jié)構(gòu)是一種 有向樹,它以訓(xùn)練集的一個屬性作節(jié)點(diǎn),這個屬性所對應(yīng)的一個值作邊。決策樹一般都是自 上而下的來生成的。 10 企業(yè)面對海量數(shù)據(jù)應(yīng)如何具體實(shí)施數(shù)據(jù)挖掘,使之轉(zhuǎn)換成可行的結(jié)果 模型 企業(yè)面對海量數(shù)據(jù)應(yīng)如何具體實(shí)施數(shù)據(jù)挖掘,使之轉(zhuǎn)換成可行的結(jié)果/模型 首先進(jìn)行數(shù)據(jù)的預(yù)處理,主要進(jìn)行數(shù)據(jù)的清洗,數(shù)據(jù)清洗,處理空缺值,數(shù)據(jù)的集成,數(shù)據(jù) 的變換和數(shù)據(jù)規(guī)約。 11 請列舉您使用過的各種數(shù)據(jù)倉庫工具軟件(包括建模工具,ETL 工具,前端 請列舉您使用過的各種數(shù)據(jù)倉庫工具軟件(包括建模工具, 工具, 展現(xiàn)工具,
24、展現(xiàn)工具,OLAP Server、數(shù)據(jù)庫、數(shù)據(jù)挖掘工具)和熟悉程度。 、數(shù)據(jù)庫、數(shù)據(jù)挖掘工具)和熟悉程度。 ETL 工具:Ascential DataStage ,IBM warehouse MANAGER、Informatica 公司的 PowerCenter、Cognos 公司的 DecisionStream 市場上的主流數(shù)據(jù)倉庫存儲層軟件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 12 請談一下你對元數(shù)據(jù)管理在數(shù)據(jù)倉庫中的運(yùn)用的理解。 請談一下你對元數(shù)據(jù)管理在數(shù)據(jù)倉庫中的運(yùn)用的理解。 元數(shù)據(jù)管理在數(shù)據(jù)倉庫中的運(yùn)用的理解 元數(shù)據(jù)能支持系統(tǒng)對數(shù)據(jù)的管理和維
25、護(hù), 如關(guān)于數(shù)據(jù)項(xiàng)存儲方法的元數(shù)據(jù)能支持系統(tǒng)以最有 效的方式訪問數(shù)據(jù)。具體來說,在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)機(jī)制主要支持以下五類系統(tǒng)管理 功能: ()描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中; ()定義要進(jìn)入數(shù)據(jù)倉庫中的數(shù)據(jù)和從數(shù)據(jù)倉庫中產(chǎn)生的數(shù)據(jù); ()記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時間安排; ()記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況; ()衡量數(shù)據(jù)質(zhì)量。 13 數(shù)據(jù)挖掘?qū)垲惖臄?shù)據(jù)要求是什么? 數(shù)據(jù)挖掘?qū)垲惖臄?shù)據(jù)要求是什么? (1)可伸縮性 (2)處理不同類型屬性的能力 (3)發(fā)現(xiàn)任意形狀的聚類 (4)使輸入?yún)?shù)的領(lǐng)域知識最小化 (5)處理噪聲數(shù)據(jù)的能力 (6)對于輸入順序不敏感 (7)高
26、維性 (8)基于約束的聚類 (9)可解釋性和可利用性 14 簡述 Apriori 算法的思想,談?wù)勗撍惴ǖ膽?yīng)用領(lǐng)域并舉例。 算法的思想,談?wù)勗撍惴ǖ膽?yīng)用領(lǐng)域并舉例。 思想:其發(fā)現(xiàn)關(guān)聯(lián)規(guī)則分兩步,第一是通過迭代,檢索出數(shù)據(jù)源中所有煩瑣項(xiàng)集,即支持度 不低于用戶設(shè)定的閥值的項(xiàng)即集, 第二是利用第一步中檢索出的煩瑣項(xiàng)集構(gòu)造出滿足用戶最 小信任度的規(guī)則,其中,第一步即挖掘出所有頻繁項(xiàng)集是該算法的核心,也占整個算法工作 量的大部分。 在商務(wù)、金融、保險等領(lǐng)域皆有應(yīng)用。在建筑陶瓷行業(yè)中的交叉銷售應(yīng)用,主要采用了 Apriori 算法 附件有一名為“Data Mining in Electronic Com
27、merce” 的電子文檔, 請同學(xué)們翻譯其 中的一段。每位同學(xué)翻譯的段號以大家學(xué)號的最后兩位為準(zhǔn),如 10 號同學(xué)只需翻譯正文的 第 10 段,以此類推。 分類則是一個標(biāo)準(zhǔn)的問題,在數(shù)據(jù)挖掘和在電子商貿(mào)的應(yīng)用-原則下,適當(dāng)?shù)姆椒S機(jī)森 林,支持向量機(jī)(支持向量機(jī)),后勤拉索等有賴于敏銳地在該網(wǎng)站上,該類型的廣告都 是可以收集到的資料。在亞馬遜商務(wù)網(wǎng)站中,該推薦系統(tǒng)已進(jìn)入先前購買和書籍進(jìn)行視察。 這是一個更豐富的信息來源,通過 可以接入(他們只知道這個詞,有人 期待在這次會議上,除非他們有庫克-網(wǎng)頁)。一些企業(yè)獲得更多的信息,從數(shù)據(jù)倉庫中, 如作為 choicepoint 公司,這使得他們的專家來建立高度個性化的分類規(guī)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教學(xué)技能多媒體課件模板
- 沖管封管護(hù)理
- 家紡企業(yè)倫理采購分析報告
- 鋰離子電池 教學(xué)課件
- 鄉(xiāng)鎮(zhèn)婦幼業(yè)務(wù)知識培訓(xùn)課件
- 鄉(xiāng)鎮(zhèn)單位公務(wù)禮儀課件
- 蘆花鞋制作工藝及教學(xué)設(shè)計
- 小學(xué)美術(shù)教學(xué)教案與活動設(shè)計
- 機(jī)械零部件設(shè)計規(guī)范匯編
- 先天行為模式與兒童學(xué)習(xí)發(fā)展研究
- 員工考核情況說明范文(9篇)
- 《古田會議決議》
- 公司慰問金簽收單模板
- 檔案管理學(xué)(新)課件
- (完整版)中醫(yī)傳統(tǒng)五音療法
- 金融控股公司協(xié)同模式與實(shí)務(wù)分析
- 非結(jié)構(gòu)化數(shù)據(jù)管理解決方案白皮書(版)
- 2022年安全生產(chǎn)文明施工措施費(fèi)使用計劃表(完整)
- 臨床營養(yǎng)診療指南
- 深度學(xué)習(xí)的隨機(jī)矩陣?yán)碚撃P蚠v0.1
- T∕CTES 1007-2018 紡織用植物染料 靛藍(lán)
評論
0/150
提交評論