




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
黑馬程序員傳智教育旗下
?高端IT教育品牌一樣的教育,不一樣的品質(zhì)
黑馬程序員
《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》
教學(xué)設(shè)計
課程名稱:_____________________
授課年級:_____________________
授課學(xué)期:_____________________
教曲姓名:_____________________
年月
?需駿得豁驟牌
一樣的教育,不一樣的品質(zhì)
計劃
課題名稱第1章認(rèn)識網(wǎng)絡(luò)爬蟲2課時
課時
隨著網(wǎng)絡(luò)的蓬勃發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效提取并利用
這些信息成為一個巨大的挑戰(zhàn)。網(wǎng)絡(luò)爬蟲作為一種自動采集數(shù)據(jù)技術(shù),它憑借
教學(xué)引入
自身強(qiáng)大的自動提取網(wǎng)頁數(shù)據(jù)的能力,成為當(dāng)下萬維網(wǎng)收集數(shù)據(jù)高效靈活的解
決方案之一。本章主要對網(wǎng)絡(luò)爬蟲的基礎(chǔ)知識進(jìn)行詳細(xì)地講解。
?使學(xué)生熟悉網(wǎng)絡(luò)爬蟲的概念及分類,能夠歸納通用網(wǎng)絡(luò)爬蟲和聚焦網(wǎng)絡(luò)爬
蟲的區(qū)別
?使學(xué)生了解網(wǎng)絡(luò)爬蟲的應(yīng)用場景,能夠列舉至少3個網(wǎng)絡(luò)爬蟲的應(yīng)用場景
?使學(xué)生熟悉網(wǎng)絡(luò)爬蟲的Robots協(xié)議,能夠說明robots.txt文件中每個選項
的含義
?使學(xué)生熟悉防網(wǎng)絡(luò)爬蟲的應(yīng)對策略,能夠列舉至少3個應(yīng)對防網(wǎng)絡(luò)爬蟲的
策略
教學(xué)目標(biāo)?使學(xué)生掌握網(wǎng)絡(luò)爬蟲的工作原理,能夠定義通用爬蟲和聚焦爬蟲的工作原
理
?使學(xué)生熟悉網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的流程,能夠歸納網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的完整
流程
?使學(xué)生了解網(wǎng)絡(luò)爬蟲的實現(xiàn)技術(shù),能帔說出使用Python實現(xiàn)網(wǎng)絡(luò)爬蟲有哪
些優(yōu)勢
?使學(xué)生熟悉網(wǎng)絡(luò)爬蟲的實現(xiàn)流程,能夠歸納使用Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流
程
?網(wǎng)絡(luò)爬蟲的工作原理
教學(xué)重點(diǎn)?網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的流程
?Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流程
教學(xué)難點(diǎn)無
教學(xué)方式課堂教學(xué)以PPT講授為主,并結(jié)合多娛體進(jìn)行教學(xué)
第一課時(什么是網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)爬蟲的應(yīng)用場景、Robots協(xié)議、防爬蟲應(yīng)對
策略)
一、教師通過直接導(dǎo)入的方式導(dǎo)入新課
教師首先講解網(wǎng)絡(luò)爬蟲的概念,其次講解網(wǎng)絡(luò)爬蟲歷經(jīng)幾十年的發(fā)展,衍
生出的爬蟲類型,了解了什么是網(wǎng)絡(luò)爬蟲,然后講解網(wǎng)絡(luò)爬蟲的應(yīng)用場景,最
教后講解Robots協(xié)議以及防爬蟲對應(yīng)策略.
學(xué)二、新課講解
過知識點(diǎn)1-什么是網(wǎng)絡(luò)爬蟲
程教師通過PPT的方式講解什么是網(wǎng)絡(luò)爬蟲。
(1)熟悉網(wǎng)絡(luò)爬蟲的概念。
(2)熟悉網(wǎng)絡(luò)爬蟲的分類。
教師通過PPT的方式講解網(wǎng)絡(luò)爬蟲的概念。
網(wǎng)絡(luò)爬蟲(WebCrawler)又稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,它是一種按照一定
規(guī)則,自動瀏覽萬維網(wǎng)的程序或腳本。通俗地講,網(wǎng)絡(luò)爬蟲就是一個模擬真人
瀏覽萬維網(wǎng)行為的程序,這個程序可以代替真人自動請求萬維網(wǎng),并接收從萬
。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)
維網(wǎng)返回的數(shù)據(jù)。與真人瀏覽互聯(lián)網(wǎng)相比,網(wǎng)絡(luò)爬蟲能夠獲取的信息量更大,
效率也更高。
教師通過PPT的方式講解網(wǎng)絡(luò)爬蟲的分類。
(1)通用網(wǎng)絡(luò)爬蟲(GeneralPurposeWebCrawler)又稱全網(wǎng)爬蟲(Scalable
WebCrawler),是指訪問全互聯(lián)網(wǎng)資源的網(wǎng)絡(luò)爬蟲。通用網(wǎng)絡(luò)爬蟲是互聯(lián)網(wǎng)早
期出現(xiàn)的傳統(tǒng)網(wǎng)絡(luò)爬蟲,它是搜索引擎(如百度、谷歌、雅虎等)抓取系統(tǒng)的
重要組成部分,主要用于將互聯(lián)網(wǎng)中的網(wǎng)頁下載到本地,形成一個互聯(lián)網(wǎng)內(nèi)容
的鏡像備份。
(2)聚焦網(wǎng)絡(luò)爬蟲(FocusedCrawler)又稱上題網(wǎng)絡(luò)爬蟲(TopicalCrawler),
是指選擇性地訪問那些與預(yù)先定義好的主題相關(guān)網(wǎng)頁的網(wǎng)絡(luò)爬蟲,它根據(jù)預(yù)先
定義好的目標(biāo),有選擇性地訪問與目標(biāo)主題相關(guān)的網(wǎng)頁,獲取所需要的數(shù)據(jù)。
(3)增量式網(wǎng)絡(luò)爬蟲(IncrementalWebCrawler)是指對已下載的網(wǎng)頁采
取增量式更新,只爬行新產(chǎn)生或者已經(jīng)發(fā)生變化的網(wǎng)頁的爬蟲。
(4)深層網(wǎng)絡(luò)爬蟲(DeepWebCrawler)是指爬行深層網(wǎng)頁的網(wǎng)絡(luò)爬蟲,
它要爬行的網(wǎng)頁層次比較深,需要通過一定的附加策略才能夠自動爬行,實現(xiàn)
難度稍微大一些。
知識點(diǎn)2-網(wǎng)絡(luò)爬蟲的應(yīng)用場景
教師通過PPT的方式講解網(wǎng)絡(luò)爬蟲的應(yīng)用場景。
(1)搜索引擎
<2)輿情分析與監(jiān)測
(3)聚合平臺
(4)出行類軟件
知識點(diǎn)3-Robots協(xié)議
教師通過PPT的方式講解Robots協(xié)議。
(1)Robots協(xié)議又稱爬蟲協(xié)議,它是網(wǎng)站國際互聯(lián)網(wǎng)界通行的道德規(guī)范,
其目的是保護(hù)網(wǎng)站數(shù)據(jù)和敏感信息',確保網(wǎng)站用戶的個人信息和隱私不受侵犯。
(2)網(wǎng)站管理員通常會在網(wǎng)站的根目錄下放置一個符合Robots協(xié)議的
robots.txt文件,通過這個文件告知網(wǎng)絡(luò)爬蟲在抓取該網(wǎng)站時存在哪些限制,哪
些網(wǎng)頁是允許被抓取的,哪些網(wǎng)頁是禁止被抓取的。
知識點(diǎn)4-防爬蟲應(yīng)對策略
教師通過PPT的方式講解防爬蟲應(yīng)用策略。
(1)添加User-Agent字段
瀏覽器在訪問網(wǎng)站時會攜帶固定的User-Agent(用戶代理,用于描述瀏覽
器的類型及版本、操作系統(tǒng)及版本、瀏覽器插件、瀏覽器語言等信息),這么做
的目的是向網(wǎng)站表明自己的真實身份。
(2)降低訪問頻率
如果同一賬戶在較短的時間內(nèi)多次訪問了網(wǎng)頁,那么網(wǎng)站運(yùn)維人員會推斷
此種訪問行為可能是網(wǎng)絡(luò)爬蟲的行為,并將該賬戶加入到黑名單禁止訪問網(wǎng)站。
為防止網(wǎng)站運(yùn)維人員從訪問量上認(rèn)出網(wǎng)絡(luò)爬蟲的身份,我們可以降低網(wǎng)絡(luò)爬蟲
訪問網(wǎng)站的頻率。
(3)設(shè)置代理服務(wù)器
網(wǎng)絡(luò)爬蟲在訪問網(wǎng)站時,若反復(fù)使用同一IP地址進(jìn)行訪問,極易被網(wǎng)站認(rèn)
出網(wǎng)絡(luò)爬蟲的身份后進(jìn)行屏蔽、阻止、封禁等操作,此時便可以在網(wǎng)絡(luò)爬蟲和
Web服務(wù)器之間設(shè)置代理服務(wù)器。
。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)
(4)識別驗證碼
有些網(wǎng)站在檢測到某個客戶端的IP地址訪問次數(shù)過于頻繁時,有時會要求
該客戶端進(jìn)行登錄驗證,并隨機(jī)提供一個驗證碼,此時為了應(yīng)對這種突發(fā)情況,
網(wǎng)絡(luò)爬蟲除了要輸入正確的賬戶密碼之外,還要像人類一樣通過滑動或點(diǎn)擊行
為識別驗證碼,如此才能繼續(xù)訪問網(wǎng)站。
三、歸納總結(jié)
教師回顧本節(jié)課所講的內(nèi)容,并通過測試題的方式引導(dǎo)學(xué)生解答問題并給
予指導(dǎo)。
四、布置作業(yè)
教師通過高校教輔平臺()布置本節(jié)課作業(yè)以及下節(jié)課
的預(yù)習(xí)作業(yè)。
第二課時(網(wǎng)絡(luò)爬蟲的工作原理、網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的流程、網(wǎng)絡(luò)爬蟲的實現(xiàn)
技術(shù)、Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流程)
一、復(fù)習(xí)鞏固
教師通過上節(jié)課作業(yè)的完成情況,對學(xué)生吸收不好的知識點(diǎn)進(jìn)行再次鞏固
講解。
二、教師通過直接導(dǎo)入的方式導(dǎo)入新課
互聯(lián)網(wǎng)中有多種網(wǎng)絡(luò)爬蟲,盡管這些網(wǎng)絡(luò)爬蟲的使用場景不同,但它們的
工作原理大同小異。接下來,本節(jié)課將講解網(wǎng)絡(luò)爬蟲的工作原理、網(wǎng)絡(luò)爬蟲的
工作流程、網(wǎng)絡(luò)爬蟲的實現(xiàn)技術(shù)和Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流程。
三、新課講解
知識點(diǎn)1-網(wǎng)絡(luò)爬蟲的工作原理
教師通過PPT的方式講解學(xué)習(xí)目標(biāo)。
(I)通用網(wǎng)絡(luò)爬蟲的工作原理。
(2)聚焦網(wǎng)絡(luò)爬蟲的工作原理。
教帥通過PPT的方式講解通用網(wǎng)絡(luò)爬蟲的工作原理。
通用網(wǎng)絡(luò)爬蟲的采集目標(biāo)是整個互聯(lián)網(wǎng)上的所有網(wǎng)頁,它會先從一個或多
個初始URL開始,獲取初始URL對應(yīng)的網(wǎng)頁數(shù)據(jù),并不斷從該網(wǎng)頁數(shù)據(jù)中抽
取新的URL放到隊列中,直至滿足一定的條件后停止,如下圖所示。
黑馬程序員
?I高端IT救背茄牌一樣的教育,不一樣的品質(zhì)
知識點(diǎn)2-網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的流程
教師通過PPT的方式講解網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的流程
雖然通用網(wǎng)絡(luò)爬蟲和聚焦網(wǎng)絡(luò)爬蟲的工作原理有?些差別,但它們抓取網(wǎng)
頁的流程是相似的,如下圖所示。
。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)
關(guān)于上圖工作流程的介紹如下。
(1)精心選擇一些網(wǎng)頁,將這些網(wǎng)頁的鏈接作為種子URL。
(2)將種子URL放入到待抓取URL隊列中。
(3)從待抓取URL隊列中依次讀取URL,并通過DNS解析URL,把鏈接
地址轉(zhuǎn)換為網(wǎng)站服務(wù)器所對應(yīng)的IP地玨。
(4)將IP地址和網(wǎng)頁相對路徑名稱交給網(wǎng)頁下載器,網(wǎng)頁下載器負(fù)責(zé)網(wǎng)頁
內(nèi)容的下載。
(5)網(wǎng)頁下載器將相應(yīng)網(wǎng)頁的內(nèi)容下載到本地。
(6)將下載到本地的網(wǎng)頁存儲到頁面庫中,等待建立索引等后續(xù)處理.;與
此同時將下載過網(wǎng)頁的URL放入到已抓取URL隊列中,這個隊列記載了網(wǎng)絡(luò)
爬蟲已經(jīng)下載過的網(wǎng)頁URL,以避免網(wǎng)頁的重復(fù)抓取。
(7)對于剛剛下載的網(wǎng)頁,從中抽取出所包含的所有鏈接信息,并在己抓
取URL中槍直其是否被抓取過,如果還未被抓取過,則將這個URL放入到待
抓取URL隊列中。
(8)下載待抓取URL隊列中的URL對應(yīng)的網(wǎng)頁,如此重復(fù)(3)~(7),
直到待抓取URL隊列為空。
知識點(diǎn)3.網(wǎng)絡(luò)爬蟲的實現(xiàn)技術(shù)
教師通過PPT的方式講解網(wǎng)絡(luò)爬蟲的實現(xiàn)技術(shù)。
?PHP
?Go
?C++
?Java
?Python
知識點(diǎn)4-Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流程
教師通過PPT的方式講解Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流程。
(1)抓取網(wǎng)頁數(shù)據(jù)
抓取網(wǎng)頁數(shù)據(jù)是按照設(shè)定的目標(biāo),根據(jù)所有目標(biāo)網(wǎng)頁的URL向目標(biāo)網(wǎng)站發(fā)
送請求,并獲得整個網(wǎng)頁的數(shù)據(jù)。抓取網(wǎng)頁數(shù)據(jù)的過程類似于用戶在瀏覽器中
鍵入網(wǎng)址,按回車后看到由瀏覽器渲染后的網(wǎng)頁的過程。
(2)解析網(wǎng)頁數(shù)據(jù)
黑馬程序員
?I高端IT救背茄牌一樣的教育,不一樣的品質(zhì)
解析網(wǎng)頁數(shù)據(jù)是采用不同的解析網(wǎng)頁的方式從整個網(wǎng)頁的數(shù)據(jù)中提取出目
標(biāo)數(shù)據(jù)。例如,我們想要采集所有蘋果手機(jī)的價格信息,價格便是提取的目標(biāo)
數(shù)據(jù)。解析網(wǎng)頁數(shù)據(jù)的過程類似于從瀏覽器顯示頁面中找到目標(biāo)標(biāo)簽的文本,
然后將文本復(fù)制下來的過程。
(3)存儲網(wǎng)頁數(shù)據(jù)
儲網(wǎng)頁數(shù)據(jù)的過程也是比較簡單,就是將上一步驟中提取的目標(biāo)數(shù)據(jù)以文
件的形式存放到本地,也可以存儲到數(shù)據(jù)庫,方便后期對數(shù)據(jù)進(jìn)行深入地研究。
四、歸納總結(jié)
教師回顧本節(jié)課所講的內(nèi)容,并通過測試題的方式引導(dǎo)學(xué)生解答問題并給
予指導(dǎo)。
五、布置作業(yè)
教師通過高校教輔平臺(http://tch.ityxb.com)布置本節(jié)課作業(yè)以及下節(jié)課
的預(yù)習(xí)作業(yè)。
教學(xué)后記
黑馬程序員傳智教育旗下
?高端IT教育品牌一樣的教育,不一樣的品質(zhì)
黑馬程序員
《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》
教學(xué)設(shè)計
課程名稱:_____________________
授課年級:_____________________
授課學(xué)期:_____________________
教曲姓名:_____________________
年月
。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)
計劃
課題名稱第2章網(wǎng)頁請求原理4課時
課時
網(wǎng)絡(luò)爬蟲請求網(wǎng)頁的過程可以理解為用戶使用瀏覽器加載網(wǎng)頁的過程,在這一
過程中瀏覽器向網(wǎng)站服務(wù)器發(fā)送請求,網(wǎng)站服務(wù)器響應(yīng)請求后將網(wǎng)頁源代碼傳送回
教學(xué)引入來。因此,了解瀏覽器與服務(wù)器之間的通信方式和交互過程,理解網(wǎng)頁開發(fā)技術(shù)、
結(jié)構(gòu)、分類、數(shù)據(jù)格式,能進(jìn)一步加深對網(wǎng)絡(luò)爬蟲的理解。本章將針對網(wǎng)頁請求原
理的相關(guān)知識進(jìn)行講解。
?使學(xué)生了解瀏覽器加載網(wǎng)頁的過程,能夠復(fù)述出瀏覽器加載網(wǎng)頁的過程
?使學(xué)生熟悉HTTP的基本原理,能夠歸納URL格式、HTTP請求格式和HTTP響
教學(xué)目標(biāo)應(yīng)格式
?使學(xué)生熟悉網(wǎng)頁基礎(chǔ),能夠區(qū)分HTML、JavaScript和CSS三者的區(qū)別
?使學(xué)生掌握HTTP抓包工具Fiddler的使用,能夠獨(dú)立安裝并使用Fddler工具
?Fiddler的下載與安裝
?Fiddler界面詳解
教學(xué)重點(diǎn)
?Fiddler捕獲HTTPS頁面的設(shè)置
?Fiddler的基本使用
教學(xué)難點(diǎn)?Fiddler的基本使用
教學(xué)方式課堂教學(xué)以PPT講授為主,并結(jié)合多媒體進(jìn)行教學(xué)
第一課時(瀏覽器加載網(wǎng)頁的過程、URL簡介、HTTP和HTTPS、HTTP請求格
式、HTTP響應(yīng)格式)
二、復(fù)習(xí)鞏固
教師通過上節(jié)課作業(yè)的完成情況,對學(xué)生吸收不好的知識點(diǎn)進(jìn)行再次鞏固講
解。
三、通過直接導(dǎo)入的方式導(dǎo)入新課
在第1章,我們學(xué)習(xí)了什么是網(wǎng)絡(luò)爬蟲以及網(wǎng)絡(luò)爬蟲的基本實現(xiàn)流程,對于網(wǎng)
絡(luò)爬蟲而言抓取的數(shù)據(jù)都在網(wǎng)頁中,因此理解網(wǎng)頁的相關(guān)內(nèi)容是非常有必要的。接
教下來,本節(jié)將對瀏覽器加載網(wǎng)頁的完成過程、URL簡介、HTPP和HTTPS、HTTP請
學(xué)求格式、HTTP響應(yīng)格式進(jìn)行講解。
過二、新課講解
程知識點(diǎn)1-瀏覽器加載網(wǎng)頁的過程
教師通過PPT的方式講解瀏覽器加教網(wǎng)頁的過程。
(1)瀏覽器通過DNS(DomainNameSystem,域名系統(tǒng))服務(wù)器查找百度服
務(wù)器對應(yīng)的IP地址。
(2)瀏覽器向IP地址對應(yīng)的Web服務(wù)器發(fā)送HTTP請求。
(3)Web服務(wù)器接收HTTP請求后進(jìn)行處理,向瀏覽器返回HTML頁面。
(4)瀏覽器對HTML頁面進(jìn)行渲染呈現(xiàn)給用戶。
知識點(diǎn)2-URL簡介
教師通過PPT的方式講解URL簡介。
(1)熟悉URL的概念。
。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)
(2)熟悉URL的語法格式。
教師通過PPT的方式講解URL的概念。
URL(全稱UniformResourceLocator)又稱URL地址,表示統(tǒng)一資源定位符,
它用于指定因特網(wǎng)上某個資源的位置。
教師通過PPT的方式講解URL的語法格式。
URL的語法格式如下。
scheme://[user]:[password]?host:[port]/path;[params]?[query]#[frag]
?scheme:表示方案,用于標(biāo)識采用哪種傳輸協(xié)議訪問服務(wù)器資源
?user;表示用戶,用于標(biāo)識采用某些方案訪問資源時需要使用的用戶名
?password:表示密碼,用戶名后面可能要包含的密碼,中間以冒號分隔
?host:表示主機(jī)地址,也就是存放資源的服務(wù)器主機(jī)名或IP地址
?port:表示端口,也就是存放資源的服務(wù)器監(jiān)聽的端口號
?path:用于指定本次請求資源在服務(wù)器中的位置
?params:表示訪問資源時使用的協(xié)議參數(shù),參數(shù)之間以;分隔
?query:表示查詢字符串,用于指定查詢的資源,一般使用?與URL的其余
部分進(jìn)行分隔。查詢字符串沒有通用格式,它通常會以&多個參數(shù),每個
參數(shù)的名稱與值使用=進(jìn)行連接。
?frag:表示片段,用于指定訪問資源時某一部分資源的名稱。
知識點(diǎn)3-HTTP和HTTPS
教師通過PPT的方式講解HTTP和HTTPS.
(1)熟悉HTTP的概念。
(2)熟悉HTTPS的概念。
教師通過PPT的方式講解HTTP的概念。
HTTP辦議全稱為超文本傳輸協(xié)議(HypertextTransferProtocol),它用于將Web
服務(wù)滯的超文本資源傳送到瀏覽器中。HTP協(xié)議能夠高效準(zhǔn)確的傳送超文本資源,
但瀏覽器與Web服務(wù)器的連接是?種?次性連接,它限制每次連接只處理?個請
求,這意味著每個請求都是獨(dú)立的,當(dāng)服務(wù)器返回本次請求的應(yīng)答后便立即關(guān)閉連
接,下次請求再重新建立連接。
教師通過PPT的方式講解HTTPS的概念。
HTTPS協(xié)議全稱為超文本傳輸安全協(xié)議(HypertextTransferProtocoSecure),
該協(xié)議是基于HTTP協(xié)議基礎(chǔ)上添加了SSL(SecureSocketsLayer安全套接字協(xié)議),
數(shù)據(jù)在傳輸過程中主要通過數(shù)字證書、加密算法、非對稱密鑰等技術(shù)完成互聯(lián)網(wǎng)數(shù)
據(jù)傳輸加密,實現(xiàn)互聯(lián)網(wǎng)傳輸安全保護(hù)。
知識點(diǎn)4-HTTP請求格式
教師通過PPT的方式講解HTTP請求格式。
(1)熟悉HTTP請求的概念。
(2)熟悉HTTP請求的格式。
(3)熟悉請求行。
(4)熟悉請求頭。
教師通過PPT的方式講解HTTP請求的概念。
一次HTTP通信的過程包括HTTP請求和HTTP響應(yīng),其中HTTP請求是指從瀏
覽器到服務(wù)器端的請求信息。
教師通過PPT的方式講解HTTP請求的格式。
HTTP清求由請求行、請求頭部、空行、以及請求數(shù)據(jù)(有的也稱為請求體)
。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)
這四個部分組成,如下圖所示。
|空格
請求方法1空格IRL協(xié)議版本回車符換行符詰求行
?
頭部字段名,值|:"Ht?.!換行符
…>請求頭部
頭部字段名■值|Pirn換行符
回車符1換行符
請求數(shù)據(jù)
教師通過PPT的方式講解請求行。
請求行的格式如下所示。
GET/item/Python/407313HTTP/1.1
在請求行中,GET表示向服務(wù)器請求網(wǎng)絡(luò)資源時所使用的請求方法,
/item/Python/407313表示請求的URL地址,HTTP/1.1表示使用的HTTP協(xié)議版本。
教師通過PPT的方式講解請求頭。
(1)Host
Host用于指定被請求資源的服務(wù)器主機(jī)名和端II號。
(2)User-Agent
User-Agent用于標(biāo)識客戶端身份,通常頁面會根據(jù)不同的User-Agent信息自動
做出適配,甚至返回不同的響應(yīng)內(nèi)容。
(3)Accept
Accep:用「指定瀏覽器或其他客戶端可以接受的MIME(MultipurposeInternet
MailExtensions,多用途互聯(lián)網(wǎng)郵件擴(kuò)展)文件類型,服務(wù)器可以根據(jù)該字段判斷
并返回適當(dāng)?shù)奈募袷健?/p>
(4)Referer
Referer用于標(biāo)識當(dāng)前請求頁面的來源頁面地址,即表示當(dāng)前頁面是通過此來
源由血里的鏈接進(jìn)入的。
(5)^ccept-Charset
AccepWharset用于指定瀏覽器可以接受的字符集類型,在早期版本的HTTP/1.1
協(xié)議中,規(guī)定了一個默認(rèn)的字符集(ISO-8259-1),但目前每一種內(nèi)容類型都有自己的
默認(rèn)字符集。
(6)Cookie
Cookie是在瀏覽器中寄存的小型數(shù)據(jù)體,它可以記載和服務(wù)器相關(guān)的用戶信
息,也可以用來實現(xiàn)模擬登錄。
(7)Content-Type
Content-Type也叫互聯(lián)網(wǎng)媒體類型(InternetMediaType)或者M(jìn)IME類型,用
于告知服務(wù)器POST請求或PUT請求中的數(shù)據(jù)類型信息。
知識點(diǎn)5-HTTP響應(yīng)格式
教師通過PPT的方式講解HTTP響應(yīng)格式。
(1)熱悉HTTP響應(yīng)的格式。
(2)熟悉狀態(tài)行的組成。
(3)熟悉響應(yīng)頭信息。
(4)熟悉響應(yīng)正文。
教師通過PPT的方式講解HTTP響應(yīng)的格式。
。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)
服務(wù)器端發(fā)送給客戶端的響應(yīng)信息由4個部分組成,分別是狀態(tài)行、響應(yīng)頭、
空行、以及響應(yīng)正文,具體如下圖所示。
版本空格狀杰碼空格原因短語回車將換行符狀態(tài)行
頭部字段名1:值1回車符換行符
…■響應(yīng)頭
頭部字段名II:值1回車符換行符
回車符換行符
響應(yīng)正文|響應(yīng)正文
教師通過PPT的方式講解狀態(tài)行的組成。
狀態(tài)行的格式如下所示。
HTTP/1.1200OK
在狀態(tài)行中,HTTP/1.1表示HTTP協(xié)議的版本號,200表示響應(yīng)狀態(tài)碼,OK表
示響應(yīng)狀態(tài)碼的簡短描述。
教師通過PPT的方式講解響應(yīng)頭信息。
(1)Cache-Control:must-revalidate,no-cache,private
Cache-Control表示服務(wù)端告知客戶端(瀏覽器)當(dāng)前的HTTP響應(yīng)是否可以緩
存,當(dāng)取值為must-revalidate表不在一個緩存過期之后,不能直接使用這個過期的
緩存,必須檢驗之后才能使用;當(dāng)取值為no-cache表示客戶端可以緩存資源,每次
使用緩存資源前都必須重新驗證其有效性;當(dāng)取值為private表示響應(yīng)只能被單個
用戶緩存,不能作為共享緩存。
(2)Connection:keep-alive,closed
Connection表示客戶端是否使用持久HTTP連接,當(dāng)取值為keep-alive表示使用
持久連接;當(dāng)取值為closed表示不使用持久連接。
(3)Content-Encoding:gzip,compress,identity
Content-Encoding表示服務(wù)端對特定媒體類型的數(shù)據(jù)進(jìn)行壓縮,當(dāng)取值為gzip
表示采用Lempel-Ziv壓縮算法;當(dāng)取值為compress表示采用Lempel-Ziv-Welch算法;
當(dāng)取值為identity表示數(shù)據(jù)未經(jīng)壓縮或修改。
(4)Content-Type:text/html;charset=UTF-8
Content-Type表示服務(wù)端告知客戶端實際返回的內(nèi)容的內(nèi)容類型,當(dāng)取值為
text/html;charset=UTF-8表示服務(wù)端返回資源文件的類型為text/html,字符編碼格
式為UTF-8o
教師通過PPT的方式講解響應(yīng)正文。
響應(yīng)正文是服務(wù)器返回的具體數(shù)據(jù),常見的數(shù)據(jù)是HTML文檔。瀏覽器在接收
到HTTP響應(yīng)后,會根據(jù)響應(yīng)正文的不同類型進(jìn)行不同的處理。對于IE瀏覽器來說,
如果響應(yīng)正文是DOC文檔,這時瀏覽器會借助安裝在本機(jī)的Word程序打開這份文
檔;如果響應(yīng)正文是RAR壓縮文檔,這時瀏覽器會彈出一個下載窗口讓用戶下載;
如果響應(yīng)正文是HTML文檔,這時瀏覽器會在自身的窗口中展示該文檔。
三、歸納總結(jié)
教師回顧本節(jié)課所講的內(nèi)容,并通過測試題的方式引導(dǎo)學(xué)生解答問題并給予指
導(dǎo)。
四、布置作業(yè)
教師通過高校教輔平臺(http:〃)布置本節(jié)課作業(yè)以及下節(jié)課的預(yù)
習(xí)作業(yè)。
。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)
第二課時(網(wǎng)頁開發(fā)技術(shù)、網(wǎng)頁的結(jié)構(gòu)、網(wǎng)頁的分類、網(wǎng)頁數(shù)據(jù)的格式)
一、復(fù)習(xí)鞏固
教師通過上節(jié)課作業(yè)的完成情況,對學(xué)生吸收不好的知識點(diǎn)進(jìn)行再次鞏固講
解。
二、教師通過直接導(dǎo)入的方式導(dǎo)入新課
網(wǎng)頁可以看作承載各種網(wǎng)站應(yīng)用和信息的容器,它包含文字、圖像、超鏈接、
音頻、視頻以及動畫等內(nèi)容。網(wǎng)絡(luò)爬蟲抓取的數(shù)據(jù)主要存在網(wǎng)頁中,接下來,本節(jié)
課將講解網(wǎng)頁開發(fā)技術(shù)、網(wǎng)頁的結(jié)構(gòu)、網(wǎng)頁的分類和網(wǎng)頁數(shù)據(jù)的格式。
四、新課講解
知識點(diǎn)1-網(wǎng)頁開發(fā)技術(shù)
教師通過PPT的方式講解網(wǎng)頁開發(fā)技術(shù)。
(1)熟悉什么是HTML。
(2)熟悉什么是CSS。
(3)熟悉什么是JavaScript。
教師通過PPT的方式講解什么是HTMLo
HTML的英文全稱HyperTextMarkupLanguage,即超文本標(biāo)記語言,是一種用
于創(chuàng)建網(wǎng)頁的標(biāo)準(zhǔn)標(biāo)記語言。一個HTML文檔由一系列的HTML元素組成,HTML
元素的組成如下圖所示。
而V今天天氣屈丁笳耳
教師通過PPT的方式講解什么是CSSo
CSS(CascadingStyleSheets)全稱為層疊樣式表,它用于更改HTML頁面中內(nèi)
容的字體、顏色、大小、間距或者添加動回及其他的效果。
教師通過PPT的方式講解什么是JavaScripto
JavaScript是一門獨(dú)立的網(wǎng)頁腳本編程語言,它主要用于向HTML網(wǎng)頁中添加交
互行為。
知識點(diǎn)2.網(wǎng)頁的結(jié)構(gòu)
教師通過PPT的方式講解網(wǎng)頁結(jié)構(gòu)。
(1)熟悉如何查看網(wǎng)頁源代碼。
(2)熟悉HTMLDOM標(biāo)準(zhǔn)。
教師通過PPT的方式講解如何查看網(wǎng)頁源代碼。
如果想要了解一個網(wǎng)頁的結(jié)構(gòu),我們可以直接在瀏覽器打開的右鍵菜單中選擇
“檢查”選項。
教師通過PPT的方式講解HTMLDOM標(biāo)準(zhǔn)。
根據(jù)萬維網(wǎng)聯(lián)盟(WorldWideWebConsortium,簡稱W3C)的HTMLDOM標(biāo)
準(zhǔn),HTMLDOM由節(jié)點(diǎn)組成,HTML文檔的所有內(nèi)容都是節(jié)點(diǎn),整個HTML文檔是
一個文檔節(jié)點(diǎn),每個HTML元素是元素節(jié)點(diǎn),每個HTML屬性是屬性節(jié)點(diǎn),每個注
釋是注釋節(jié)點(diǎn)。把?個HTML文檔中的所有節(jié)點(diǎn)組織在?起,就構(gòu)成了?棵HTML
DOM樹,這些節(jié)點(diǎn)之間存在層級關(guān)系,HTMLDOM節(jié)點(diǎn)樹如下圖。
。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)
知識點(diǎn)3-網(wǎng)頁的分類
教師通過PPT的方式講解網(wǎng)頁分類
(1)熟悉什么是靜態(tài)網(wǎng)頁。
(2)熟悉什么是動態(tài)網(wǎng)頁。
教師通過PPT的方式講解靜態(tài)網(wǎng)頁。
靜態(tài)網(wǎng)頁是純粹HTML格式的網(wǎng)頁,它是?個標(biāo)準(zhǔn)的HTML文件,文件的擴(kuò)展
名為.htm、.html。靜態(tài)網(wǎng)頁可以包含文本、圖像、聲音、FLASH動畫、超鏈接等內(nèi)
容,這些內(nèi)容在編寫網(wǎng)頁源代碼時已經(jīng)確定,基本上不會發(fā)生變化,除非網(wǎng)頁源代
碼被重新修改。
教師通過PPT的方式講解動態(tài)網(wǎng)頁。
動態(tài)網(wǎng)頁相比靜態(tài)網(wǎng)頁,動態(tài)網(wǎng)頁有數(shù)據(jù)庫支撐、包含程序以及提供與用戶交
互功能,比如用戶登錄、用戶注冊、信息查詢等功能,這些功能根據(jù)用戶傳入不同
參數(shù)網(wǎng)頁會顯示不同數(shù)據(jù)。
知識點(diǎn)4-網(wǎng)頁數(shù)據(jù)的格式
教師通過PPT的方式講解網(wǎng)頁數(shù)據(jù)格式。
(1)熟悉網(wǎng)頁數(shù)據(jù)格式的分類。
(2)熟悉XML的概念及特點(diǎn)。
(3)熟悉JSON的概念及特點(diǎn)。
教師通過PPT的方式講解網(wǎng)頁數(shù)據(jù)格式的分類。
(1)非結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,
不方便使用數(shù)據(jù)庫二維表結(jié)構(gòu)表現(xiàn)的數(shù)據(jù),包括文本、圖片、HTML等。
(2)結(jié)構(gòu)化數(shù)據(jù)就是能夠用二維表結(jié)構(gòu)表現(xiàn)的數(shù)據(jù),這種數(shù)據(jù)嚴(yán)格遵循數(shù)據(jù)
格式與長度規(guī)范,包括JSON和XML等。
教師通過PPT的方式講解XML的概念及特點(diǎn)。
(1)XML的概念
XML是ExtensibleMarkupLanguage的縮寫,它是一種類似于HTML的標(biāo)記語言,
稱為可擴(kuò)展標(biāo)記語言??蓴U(kuò)展指的是用戶可以按照XML規(guī)則自定義標(biāo)記。
(2)XML的特點(diǎn)
XML片段如下圖所示。
。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)
〈employees〉
<employee>
<firstName>Bill</firstName>
<lastName>Gates</lastName>
</employee>
<employee>
<firstName>Steve</firstName>
<lastName>Jobs</lastName>
</employee>
〈employee〉
<firstName>Elon</firstName>
<lastName>Musk</lastName>
</employee>
</employees>
?XML元素由開始標(biāo)記和結(jié)束標(biāo)記組成,必須是成對出現(xiàn)的。
?〈employees〉元素是整個XML片段的根元素,它包含了3個(employee〉子
元素。
?每個(employee〉元素又包含了<firstName>、<lastName>Jt2個子元素。
教師通過PPT的方式講解JSON的概念及特點(diǎn)。
(1)JSON的概念
JSON(JavaScriptObjectNotation)是一種輕量級的數(shù)據(jù)交換格式,它采用完全獨(dú)
立于編程語言的文本格式存儲和表示數(shù)據(jù)。
(2)JSON的特點(diǎn)
JSON片段如孑圖所示。
(
"employees":[
(
HfirstNamen:“Bill”,
HlastNamen:"Gates”
},
(
"firstName":"Steve",
HlastNamen:nJobs',
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 聚合工藝作業(yè)安全題庫及答案解析
- 建材行業(yè)安全培訓(xùn)試題及答案解析
- 護(hù)理安全考試題庫及答案解析
- 咸寧安全員b證考試題庫及答案解析
- 中國水利協(xié)會安全員題庫及答案解析
- 2025年國家開放大學(xué)(電大)《戲劇與影視美學(xué)》期末考試備考試題及答案解析
- 2025年血透室醫(yī)院感染知識考試試題及答案
- 2025年礦業(yè)安全試題及答案
- 2025年國家開放大學(xué)(電大)《合同法基礎(chǔ)》期末考試備考試題及答案解析
- 2025年湖北省技能高考(電氣電子類)專業(yè)知識考試題庫(含答案)
- 《中國高血壓防治指南(2024年修訂版)》解讀課件
- 2025年輔警招聘考試題庫(+答案解析)
- 社區(qū)護(hù)士培訓(xùn)課件
- DIEP乳房重建術(shù)后的護(hù)理指南
- 中信財務(wù)管理制度
- 2025至2030年中國硅烷氣體行業(yè)發(fā)展現(xiàn)狀調(diào)查及市場分析預(yù)測報告
- 2025貴陽銀行筆試題庫及答案
- GB/T 17643-2025土工合成材料聚乙烯土工膜
- 藝術(shù)漆涂料施工合同協(xié)議
- 陳皮種植轉(zhuǎn)讓合同協(xié)議
- 小學(xué)科學(xué)教科版六年級上冊全冊教案(共28課)2021年
評論
0/150
提交評論