




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
老師:李挺第十三章正則表達式正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規(guī)則字符串”,實現(xiàn)對字符串的一種過濾。01正則表達式正則表達式的定義正則的優(yōu)點1、靈活性、邏輯性和功能性非常強2、可以用簡單的方式快速實現(xiàn)字符串的控制3、在多種編程語言中都有相同使用Regularexpression簡稱RE爬蟲爬取網(wǎng)頁的目的在于獲取網(wǎng)頁上的信息。網(wǎng)頁上的信息太多無關(guān)字符,需要使用簡便方法來提取。正則的庫rere庫是python自帶的庫。無需安裝importre02re庫匹配match()嘗試從字符串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回none,如果匹配,就返回匹配成功的結(jié)果;search()在匹配時,search()方法會依次掃描字符串,直到找到第一個符合規(guī)則的字符串,然后返回匹配內(nèi)容,如果搜索完了還沒有找到,就返回None。findall()搜索整個字符串,然后返回匹配正則表達式的所有內(nèi)容。sub()修改文本,與replace相似;例如:想要把一串文本中的所有數(shù)字都去掉compile()將正則字符串編譯成正則表達式對象,以便在后面的匹配中復(fù)用requests.get(url,params=None,**kwargs)requests.get(url)構(gòu)造一個向服務(wù)器請求資源的Request對象由request庫自動生成請求服務(wù)器接收到請求,會將對應(yīng)資源發(fā)送給客戶端返回一個包含服務(wù)器資源的Response對象url:獲取指定頁面的鏈接params:url中的額外參數(shù),字典或字節(jié)流格式,可選的**kwargs:12個控制訪問的參數(shù),可選的返回的Response信息包含服務(wù)器返回的信息和Requests信息請可打開pycharm觀察源代碼封裝屬性說明r.status_codeHTTP請求的返回狀態(tài),200表示連接成功r.textHTTP響應(yīng)內(nèi)容的字符串形式,即url對應(yīng)的頁面內(nèi)容r.encoding從HTTPheader中猜測的相應(yīng)內(nèi)容編碼方式r.apparent_encoding從內(nèi)容中分析出的相應(yīng)內(nèi)容編碼方式(備選編碼方式)r.contentHTTP相應(yīng)內(nèi)容的二進制形式200表示連接成功,404代表客戶端在瀏覽網(wǎng)頁時,服務(wù)器無法正常提供信息,或是服務(wù)器無法回應(yīng)且不知原因Response對象的信息HTTPheader/get該網(wǎng)站會判斷如果客戶端發(fā)起的是GET請求的話,它返回相應(yīng)的請求信息。添加額外信息現(xiàn)在想添加兩個額外信息,其中name是zhangsan,sex是man例如:info={'name':'zhangsan','sex':'man'}r=requests.get('/get',params=info)r=requests.get('http:///get?name=zhangsan&sex=man')百度和360搜索如何自動的實現(xiàn)搜索關(guān)鍵詞?百度和360搜索為搜索關(guān)鍵詞提供了接口百度搜索接口:https:///s?wd=關(guān)鍵詞360搜索接口:https:///s?q=關(guān)鍵詞求的鏈接自動被構(gòu)造成控制范圍字headers修改請求頭headers內(nèi)容http://host[path]host:合法的Internet主機域名或IP地址
path:請求資源的路徑,指主機服務(wù)器對應(yīng)的地址例如:/https:///creator/featured-question/knowledge-planHTTP的全稱是HyperTextTransferProtocol,中文名叫作超文本傳輸協(xié)議HTTPS的全稱是HyperTextTransferProtocoloverSecureSocketLayer,是以安全為目標(biāo)的HTTP通道,簡單講是HTTP的安全版,即HTTP下加入SSL層,簡稱為HTTPS。URL格式狀態(tài)碼:百度百科狀態(tài)碼即可;POST請求向服務(wù)器傳送數(shù)據(jù)表單信息data:提交字符信息files:文件上傳form:提交表單信息高級部分cookies:Cookies指某些網(wǎng)站為了辨別用戶身份、進行會話跟蹤而存儲在用戶本地終端上的數(shù)據(jù)。http的一個特點無狀態(tài):
http協(xié)議對事務(wù)處理是沒有記憶功能的。當(dāng)我們向服務(wù)器發(fā)送請求后,服務(wù)器解析此請求,然后返回對應(yīng)的響應(yīng),服務(wù)器負責(zé)完成這個過程,而且這個過程是完全獨立的,服務(wù)器不會記錄前后狀態(tài)的變化,也就是缺少狀態(tài)記錄。例如密碼登錄無法實現(xiàn)。用于保持HTTP連接狀態(tài)的技術(shù)就出現(xiàn)了,它們分別是會話和Cookies會話和Cookies會話在服務(wù)端,也就是網(wǎng)站的服務(wù)器,用來保存用戶的會話信息;Cookies在客戶端,也可以理解為瀏覽器端,有了Cookies,瀏覽器在下次訪問網(wǎng)頁時會自動附帶上它發(fā)送給服務(wù)器,服務(wù)器通過識別Cookies并鑒定出是哪個用戶,然后再判斷用戶是否是登錄狀態(tài),然后返回對應(yīng)的響應(yīng)。我們可以理解為Cookies里面保存了登錄的憑證,有了它,只需要在下次請求攜帶Cookies發(fā)送請求而不必重新輸入用戶名、密碼等信息重新登錄了。會話CookiesSet-Cookie高級部分--會話維持利用get()或post()每一次請求都是獨立的,相當(dāng)于每次發(fā)出請求類似打開一個新的瀏覽器訪問,而不是瀏覽器中的選項卡中訪問。如何實現(xiàn)下一次訪問與上一次訪問是相互關(guān)聯(lián)的?兩次請求時設(shè)置一樣的cookies維持同一個會話相當(dāng)于打開一個新的瀏覽器選項卡而不是新開一個瀏覽器如何創(chuàng)建會話維持?requests.session()利用Session,可以做到模擬同一個會話而不用擔(dān)心Cookies的問題。它通常用于模擬登錄成功之后再進行下一步的操作。項目實現(xiàn)—模擬登錄爬取github網(wǎng)頁輸入賬號信息可能出現(xiàn)郵箱驗證進入個人主頁獲取當(dāng)前賬戶的設(shè)置/login/sessions/verified-device/session/settings/profile使用代理服務(wù)器代理服務(wù)器作為一種既是服務(wù)器又是客戶機的中間程序,主要用于轉(zhuǎn)發(fā)客戶系統(tǒng)的網(wǎng)絡(luò)訪問請求。作用例如:1、黑客利
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 崗位職責(zé)與崗位說明書編寫技巧
- 2025-2030光纖生物傳感器醫(yī)療診斷商業(yè)化進程
- 支流水電站施工組織設(shè)計方案
- 2025-2030光纖無線融合接入技術(shù)發(fā)展趨勢研究報告
- 2025-2030光纖聲學(xué)監(jiān)測系統(tǒng)在油氣田勘探中的信號處理技術(shù)進展報告
- 2025-2030光纖傳感領(lǐng)域創(chuàng)新應(yīng)用場景拓展與商業(yè)模式重構(gòu)及政策影響研究報告
- 2025-2030光模塊散熱解決方案創(chuàng)新與能效提升路徑
- 2025-2030光學(xué)薄膜涂層技術(shù)突破方向與顯示行業(yè)需求匹配度分析及市場預(yù)測
- 2025-2030光學(xué)式與電容式指紋識別技術(shù)路線對比及市場選擇偏好
- 2025-2030光子晶體光纖制備工藝突破與商業(yè)化進程評估報告
- 少數(shù)民族維吾爾族民俗文化科普介紹圖文課件
- 游戲:看表情符號猜成語PPT
- 影視鑒賞-第一章-影視鑒賞的基本概念
- 電廠安全生產(chǎn)運行管理培訓(xùn)課件
- 醫(yī)院院前急救病歷 廣州市急救中心
- 輸液室運用PDCA降低靜脈輸液患者外滲的發(fā)生率品管圈(QCC)活動成果
- 集約化豬場的規(guī)劃設(shè)計
- 數(shù)星星的孩子習(xí)題精選及答案
- 摩登情書原著全文下載(通用3篇)
- 材料科學(xué)基礎(chǔ)復(fù)習(xí)題及答案
- 抗栓治療消化道損傷防治策略
評論
0/150
提交評論