




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、萬維網(wǎng)過多的信息,股票報價,電影評論,市場價格趨勢話題,幾乎所有的東西,可以發(fā)現(xiàn)在點擊一個按鈕。在分析數(shù)據(jù)中發(fā)現(xiàn),許多SAS用戶感興趣在網(wǎng)絡(luò)上,但你得到這個數(shù)據(jù)的SAS環(huán)境呢?有很多方法,如SAS數(shù)據(jù)步驟中的代碼在設(shè)計你自己的網(wǎng)絡(luò)爬蟲或利用SAS%TMFILTER宏?文本挖掘。在本文中,我們將審查一個網(wǎng)絡(luò)爬蟲的總體架構(gòu)。我們將討論獲得網(wǎng)站的方法到SAS的信息,以及審查內(nèi)部所謂的SAS搜索從實驗項目的實驗代碼管道。我們也將提供咨詢?nèi)绾屋p松定制一個網(wǎng)絡(luò)爬蟲,以適應(yīng)個性化需求,以及如何具體的數(shù)據(jù)導(dǎo)入到SAS?企業(yè)礦工?。簡介:互聯(lián)網(wǎng)已經(jīng)成為一個有用的信息來源。通常是Web上的數(shù)據(jù),我們要使用內(nèi)的SA
2、S,所以我們需要找到一種方式來獲得這個數(shù)據(jù)。最好的辦法是使用一個網(wǎng)絡(luò)爬蟲。SAS提供幾個從Web爬行和提取信息的方法。您可以使用基本的SAS數(shù)據(jù)步驟中的代碼,或SAS文本礦工的TMFILTER宏。雖然目前無法使用,SAS搜索管道將是一個功能強大的Web爬行產(chǎn)品,并提供更多的工具,網(wǎng)絡(luò)爬行。每種方法都有其優(yōu)點和缺點,所以取決于你想實現(xiàn)抓取的,它是最好對其進(jìn)行審查。首先,重要的是要了解網(wǎng)絡(luò)爬蟲是如何工作的。你應(yīng)該熟悉數(shù)據(jù)步驟的代碼,宏,和SAS過程PROCSQL然后再繼續(xù)。網(wǎng)絡(luò)爬蟲概述:一個網(wǎng)絡(luò)爬蟲是一個程序,一個或多個起始地址作為種子URL,下載網(wǎng)站這些URL相關(guān)的網(wǎng)頁,在網(wǎng)頁中包含的任何超鏈接
3、提取,并遞歸地繼續(xù)這些超鏈接標(biāo)識下載WebMo從概念上講,網(wǎng)絡(luò)爬蟲是很簡單的。一個Web履帶式有四項職責(zé):1。從候選人中選擇一個網(wǎng)址。2。它下載相關(guān)的Web頁。3。它提取物在網(wǎng)頁中的URL(超鏈接。4。它補充說,未曾遇到的候選集的URL方法1:在WEBSAS數(shù)據(jù)步驟中的代碼履帶式首先創(chuàng)建一個網(wǎng)址的網(wǎng)站的Webcrawler將開始列表。datawork.links_to_crawl;lengthurl$256;inputurl$;datalines;run為了確保我們不抓取相同的URL一次以上,持有環(huán)節(jié)已創(chuàng)建一個數(shù)據(jù)抓取。當(dāng)Web數(shù)據(jù)集將在開始時是空的,但一個網(wǎng)站的網(wǎng)址將被添加到數(shù)據(jù)集履帶式完成
4、抓取該網(wǎng)站。datawork.links_crawled;lengthurl$256;run;現(xiàn)在我們開始爬行!該代碼需要我們的work.links_to_crawl數(shù)據(jù)集的第一個URL。在第一觀察“_N_1”樹址是投入名為next_url宏變量,所有剩余的URL放回我們的種子URL數(shù)據(jù)集,使他們在未來的迭代。/*popthenexturloff*/%letnext_url=;datawork.links_to_crawl;setwork.links_to_crawl;if_n_eq1thencallsymput("next_url”,url;elseoutput;run;現(xiàn)在,從互
5、聯(lián)網(wǎng)上下載的網(wǎng)址。創(chuàng)建一個文件名稱_nexturl。我們讓SAS知道它是一個URL而且可以發(fā)現(xiàn),AT&next_url,這是我們的宏觀變量,它包含的網(wǎng)址我們從拉work.links_to_crawl數(shù)據(jù)集。/*crawltheurl*/filename_nexturlurl"&next_url”建立后的文件名的URL參考,確定一個地方把我們下載的文件。創(chuàng)建另一個文件名引用所謂htmlfilm的條目,并在那里把從url_file.html收集到的信息。/*putthefilewecrawledhere*/filenamehtmlfile"url_file.ht
6、ml”接下來,我們通過數(shù)據(jù)的循環(huán),把它寫htmlfilm的條目文件名參考,并尋找更多的網(wǎng)址添加到我們的work.links_to_crawl數(shù)據(jù)集。/*findmoreurls*/datawork._urls(keep=url;lengthurl$256;filehtmlfile;infile_nexturllength=len;inputtext$varying2000.len;puttext;start=1;stop=length(text;使用正則表達(dá)式一個網(wǎng)站的網(wǎng)址,以幫助搜索。正則表達(dá)式的匹配方法文本字符串,如字,詞,或字符模式。SAS已經(jīng)提供了許多強大的字符串功能。然而,正則表達(dá)式
7、通常會提供一個更簡潔的方式,操縱和匹配的文本.if_n_=1thendo;retainpatternlD;pattern='/href="(A"+"/i';patternlD=prxparse(pattern;end首次觀察到創(chuàng)建一個patternlD將保持整個數(shù)據(jù)步運行。尋找的模式是:“/href="'+這意味著我們正在尋找字符串“HREF=然,后再尋找任何字符串,是至少有一個字符長,不包含引號(笄結(jié)束在引號(”。在我'目的的手段使用不區(qū)分大小寫的方法,以配合我們的正則表達(dá)式。Asaresult,theWebcrawle
8、rwillfindthesetypesofstrings:href="sgfZ2010Zpapers.html”href="”HREF=”hReF=http:ZZ”現(xiàn)在正則表達(dá)式匹配的一個網(wǎng)站上的文字。PRXNEXT需要五個參數(shù):正則表達(dá)式我們要尋找,尋找開始尋找正則表達(dá)式的開始位置,結(jié)束位置停止正則表達(dá)式,一旦發(fā)現(xiàn)字符串中的位置,而字符串的長度,如果發(fā)現(xiàn)的位置將是0,如果沒有找到字符串。PRXNEXT也改變了開始的參數(shù),使搜索重新開始后的最后一場比賽是發(fā)現(xiàn)。callprxnext(patternID,start,stop,text,position,length;代碼中的
9、循環(huán),在網(wǎng)站上找到的所有環(huán)節(jié)顯示的文本。dowhile(positionA=0;url=substr(text,position+6,length-7;output;callprxnext(patternID,start,stop,text,position,length;end;run;如果代碼發(fā)現(xiàn)一個網(wǎng)址,它會檢索唯一的URL的一部分,啟動后的第一個引號。例如,如果代碼中發(fā)現(xiàn)的HREF="http:ZZwww.new-那么它應(yīng)該保持http:ZZwww.new-。使用substr到刪除前的6個字符和最后一個字符的URL的其余部分輸出的work._urls數(shù)據(jù)集。現(xiàn)在,我們插入的U
10、RL代碼只是以跟蹤抓取到一個數(shù)據(jù)集名為work.links_crawled我們已經(jīng)和確保我們不再次瀏覽有。/*addthecurrentlinktothelistofurlswehavealreadycrawled*/datawork._old_link;url="&next_url”;run;procappendbase=work.links_crawleddata=work._old_linkforce;run;下一步是在數(shù)據(jù)集work._urls的過程中發(fā)現(xiàn)的網(wǎng)址列表,以確保:1。我們尚未抓取他們,換句話說URL是不是在work.links_crawled。2。我們沒有排隊抓取的URL(網(wǎng)址換句話說,是不是在work.links_to_crawl。/* onlyaddurlsthatwehavenotalreadycrawled* orthatarenotqueueduptobecrawled* /procsqlnoprint;createtablework._appendasselecturlfromwork._urlswhereurlnotin(selecturlfromwork.links_crawledand
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 老年人誤吸預(yù)防策略
- 尋訪紅色活動蹤跡
- 圖書編輯出差匯報
- 西域旅游政策解讀
- 新修訂憲法解讀
- 分子生物學(xué)轉(zhuǎn)錄后加工
- 景區(qū)消防達(dá)標(biāo)創(chuàng)建方案(3篇)
- 侵占防物資整改方案(3篇)
- 墻體糾偏施工方案(3篇)
- 高級護(hù)理人才必 備技能題庫
- 檢驗科免疫室工作制度
- 湖南省邵陽市新邵縣陳家坊鎮(zhèn)初級中學(xué)-初三開學(xué)第一課主題班會-只爭朝夕 不負(fù)韶華 課件
- 《醫(yī)學(xué)影像檢查技術(shù)學(xué)》課件-跟骨X線攝影
- 行測5000題電子版2025
- 大功率電器用電安全
- 《如何做好公益?zhèn)鞑ァ氛n件
- 2024年中國VHB泡棉膠帶市場調(diào)查研究報告
- PRS-700-312技術(shù)使用說明書
- 安全委員會匯報
- 工程例會管理制度
- 企業(yè)員工職業(yè)道德考核制度
評論
0/150
提交評論