Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程教學(xué)設(shè)計_第1頁
Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程教學(xué)設(shè)計_第2頁
Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程教學(xué)設(shè)計_第3頁
Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程教學(xué)設(shè)計_第4頁
Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程教學(xué)設(shè)計_第5頁
已閱讀5頁,還剩88頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

黑馬程序員傳智教育旗下

?高端IT教育品牌一樣的教育,不一樣的品質(zhì)

黑馬程序員

《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》

教學(xué)設(shè)計

課程名稱:_____________________

授課年級:_____________________

授課學(xué)期:_____________________

教曲姓名:_____________________

年月

?需駿得豁驟牌

一樣的教育,不一樣的品質(zhì)

計劃

課題名稱第1章認(rèn)識網(wǎng)絡(luò)爬蟲2課時

課時

隨著網(wǎng)絡(luò)的蓬勃發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效提取并利用

這些信息成為一個巨大的挑戰(zhàn)。網(wǎng)絡(luò)爬蟲作為一種自動采集數(shù)據(jù)技術(shù),它憑借

教學(xué)引入

自身強(qiáng)大的自動提取網(wǎng)頁數(shù)據(jù)的能力,成為當(dāng)下萬維網(wǎng)收集數(shù)據(jù)高效靈活的解

決方案之一。本章主要對網(wǎng)絡(luò)爬蟲的基礎(chǔ)知識進(jìn)行詳細(xì)地講解。

?使學(xué)生熟悉網(wǎng)絡(luò)爬蟲的概念及分類,能夠歸納通用網(wǎng)絡(luò)爬蟲和聚焦網(wǎng)絡(luò)爬

蟲的區(qū)別

?使學(xué)生了解網(wǎng)絡(luò)爬蟲的應(yīng)用場景,能夠列舉至少3個網(wǎng)絡(luò)爬蟲的應(yīng)用場景

?使學(xué)生熟悉網(wǎng)絡(luò)爬蟲的Robots協(xié)議,能夠說明robots.txt文件中每個選項

的含義

?使學(xué)生熟悉防網(wǎng)絡(luò)爬蟲的應(yīng)對策略,能夠列舉至少3個應(yīng)對防網(wǎng)絡(luò)爬蟲的

策略

教學(xué)目標(biāo)?使學(xué)生掌握網(wǎng)絡(luò)爬蟲的工作原理,能夠定義通用爬蟲和聚焦爬蟲的工作原

?使學(xué)生熟悉網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的流程,能夠歸納網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的完整

流程

?使學(xué)生了解網(wǎng)絡(luò)爬蟲的實現(xiàn)技術(shù),能帔說出使用Python實現(xiàn)網(wǎng)絡(luò)爬蟲有哪

些優(yōu)勢

?使學(xué)生熟悉網(wǎng)絡(luò)爬蟲的實現(xiàn)流程,能夠歸納使用Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流

?網(wǎng)絡(luò)爬蟲的工作原理

教學(xué)重點(diǎn)?網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的流程

?Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流程

教學(xué)難點(diǎn)無

教學(xué)方式課堂教學(xué)以PPT講授為主,并結(jié)合多娛體進(jìn)行教學(xué)

第一課時(什么是網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)爬蟲的應(yīng)用場景、Robots協(xié)議、防爬蟲應(yīng)對

策略)

一、教師通過直接導(dǎo)入的方式導(dǎo)入新課

教師首先講解網(wǎng)絡(luò)爬蟲的概念,其次講解網(wǎng)絡(luò)爬蟲歷經(jīng)幾十年的發(fā)展,衍

生出的爬蟲類型,了解了什么是網(wǎng)絡(luò)爬蟲,然后講解網(wǎng)絡(luò)爬蟲的應(yīng)用場景,最

教后講解Robots協(xié)議以及防爬蟲對應(yīng)策略.

學(xué)二、新課講解

過知識點(diǎn)1-什么是網(wǎng)絡(luò)爬蟲

程教師通過PPT的方式講解什么是網(wǎng)絡(luò)爬蟲。

(1)熟悉網(wǎng)絡(luò)爬蟲的概念。

(2)熟悉網(wǎng)絡(luò)爬蟲的分類。

教師通過PPT的方式講解網(wǎng)絡(luò)爬蟲的概念。

網(wǎng)絡(luò)爬蟲(WebCrawler)又稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,它是一種按照一定

規(guī)則,自動瀏覽萬維網(wǎng)的程序或腳本。通俗地講,網(wǎng)絡(luò)爬蟲就是一個模擬真人

瀏覽萬維網(wǎng)行為的程序,這個程序可以代替真人自動請求萬維網(wǎng),并接收從萬

。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)

維網(wǎng)返回的數(shù)據(jù)。與真人瀏覽互聯(lián)網(wǎng)相比,網(wǎng)絡(luò)爬蟲能夠獲取的信息量更大,

效率也更高。

教師通過PPT的方式講解網(wǎng)絡(luò)爬蟲的分類。

(1)通用網(wǎng)絡(luò)爬蟲(GeneralPurposeWebCrawler)又稱全網(wǎng)爬蟲(Scalable

WebCrawler),是指訪問全互聯(lián)網(wǎng)資源的網(wǎng)絡(luò)爬蟲。通用網(wǎng)絡(luò)爬蟲是互聯(lián)網(wǎng)早

期出現(xiàn)的傳統(tǒng)網(wǎng)絡(luò)爬蟲,它是搜索引擎(如百度、谷歌、雅虎等)抓取系統(tǒng)的

重要組成部分,主要用于將互聯(lián)網(wǎng)中的網(wǎng)頁下載到本地,形成一個互聯(lián)網(wǎng)內(nèi)容

的鏡像備份。

(2)聚焦網(wǎng)絡(luò)爬蟲(FocusedCrawler)又稱上題網(wǎng)絡(luò)爬蟲(TopicalCrawler),

是指選擇性地訪問那些與預(yù)先定義好的主題相關(guān)網(wǎng)頁的網(wǎng)絡(luò)爬蟲,它根據(jù)預(yù)先

定義好的目標(biāo),有選擇性地訪問與目標(biāo)主題相關(guān)的網(wǎng)頁,獲取所需要的數(shù)據(jù)。

(3)增量式網(wǎng)絡(luò)爬蟲(IncrementalWebCrawler)是指對已下載的網(wǎng)頁采

取增量式更新,只爬行新產(chǎn)生或者已經(jīng)發(fā)生變化的網(wǎng)頁的爬蟲。

(4)深層網(wǎng)絡(luò)爬蟲(DeepWebCrawler)是指爬行深層網(wǎng)頁的網(wǎng)絡(luò)爬蟲,

它要爬行的網(wǎng)頁層次比較深,需要通過一定的附加策略才能夠自動爬行,實現(xiàn)

難度稍微大一些。

知識點(diǎn)2-網(wǎng)絡(luò)爬蟲的應(yīng)用場景

教師通過PPT的方式講解網(wǎng)絡(luò)爬蟲的應(yīng)用場景。

(1)搜索引擎

<2)輿情分析與監(jiān)測

(3)聚合平臺

(4)出行類軟件

知識點(diǎn)3-Robots協(xié)議

教師通過PPT的方式講解Robots協(xié)議。

(1)Robots協(xié)議又稱爬蟲協(xié)議,它是網(wǎng)站國際互聯(lián)網(wǎng)界通行的道德規(guī)范,

其目的是保護(hù)網(wǎng)站數(shù)據(jù)和敏感信息',確保網(wǎng)站用戶的個人信息和隱私不受侵犯。

(2)網(wǎng)站管理員通常會在網(wǎng)站的根目錄下放置一個符合Robots協(xié)議的

robots.txt文件,通過這個文件告知網(wǎng)絡(luò)爬蟲在抓取該網(wǎng)站時存在哪些限制,哪

些網(wǎng)頁是允許被抓取的,哪些網(wǎng)頁是禁止被抓取的。

知識點(diǎn)4-防爬蟲應(yīng)對策略

教師通過PPT的方式講解防爬蟲應(yīng)用策略。

(1)添加User-Agent字段

瀏覽器在訪問網(wǎng)站時會攜帶固定的User-Agent(用戶代理,用于描述瀏覽

器的類型及版本、操作系統(tǒng)及版本、瀏覽器插件、瀏覽器語言等信息),這么做

的目的是向網(wǎng)站表明自己的真實身份。

(2)降低訪問頻率

如果同一賬戶在較短的時間內(nèi)多次訪問了網(wǎng)頁,那么網(wǎng)站運(yùn)維人員會推斷

此種訪問行為可能是網(wǎng)絡(luò)爬蟲的行為,并將該賬戶加入到黑名單禁止訪問網(wǎng)站。

為防止網(wǎng)站運(yùn)維人員從訪問量上認(rèn)出網(wǎng)絡(luò)爬蟲的身份,我們可以降低網(wǎng)絡(luò)爬蟲

訪問網(wǎng)站的頻率。

(3)設(shè)置代理服務(wù)器

網(wǎng)絡(luò)爬蟲在訪問網(wǎng)站時,若反復(fù)使用同一IP地址進(jìn)行訪問,極易被網(wǎng)站認(rèn)

出網(wǎng)絡(luò)爬蟲的身份后進(jìn)行屏蔽、阻止、封禁等操作,此時便可以在網(wǎng)絡(luò)爬蟲和

Web服務(wù)器之間設(shè)置代理服務(wù)器。

。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)

(4)識別驗證碼

有些網(wǎng)站在檢測到某個客戶端的IP地址訪問次數(shù)過于頻繁時,有時會要求

該客戶端進(jìn)行登錄驗證,并隨機(jī)提供一個驗證碼,此時為了應(yīng)對這種突發(fā)情況,

網(wǎng)絡(luò)爬蟲除了要輸入正確的賬戶密碼之外,還要像人類一樣通過滑動或點(diǎn)擊行

為識別驗證碼,如此才能繼續(xù)訪問網(wǎng)站。

三、歸納總結(jié)

教師回顧本節(jié)課所講的內(nèi)容,并通過測試題的方式引導(dǎo)學(xué)生解答問題并給

予指導(dǎo)。

四、布置作業(yè)

教師通過高校教輔平臺()布置本節(jié)課作業(yè)以及下節(jié)課

的預(yù)習(xí)作業(yè)。

第二課時(網(wǎng)絡(luò)爬蟲的工作原理、網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的流程、網(wǎng)絡(luò)爬蟲的實現(xiàn)

技術(shù)、Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流程)

一、復(fù)習(xí)鞏固

教師通過上節(jié)課作業(yè)的完成情況,對學(xué)生吸收不好的知識點(diǎn)進(jìn)行再次鞏固

講解。

二、教師通過直接導(dǎo)入的方式導(dǎo)入新課

互聯(lián)網(wǎng)中有多種網(wǎng)絡(luò)爬蟲,盡管這些網(wǎng)絡(luò)爬蟲的使用場景不同,但它們的

工作原理大同小異。接下來,本節(jié)課將講解網(wǎng)絡(luò)爬蟲的工作原理、網(wǎng)絡(luò)爬蟲的

工作流程、網(wǎng)絡(luò)爬蟲的實現(xiàn)技術(shù)和Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流程。

三、新課講解

知識點(diǎn)1-網(wǎng)絡(luò)爬蟲的工作原理

教師通過PPT的方式講解學(xué)習(xí)目標(biāo)。

(I)通用網(wǎng)絡(luò)爬蟲的工作原理。

(2)聚焦網(wǎng)絡(luò)爬蟲的工作原理。

教帥通過PPT的方式講解通用網(wǎng)絡(luò)爬蟲的工作原理。

通用網(wǎng)絡(luò)爬蟲的采集目標(biāo)是整個互聯(lián)網(wǎng)上的所有網(wǎng)頁,它會先從一個或多

個初始URL開始,獲取初始URL對應(yīng)的網(wǎng)頁數(shù)據(jù),并不斷從該網(wǎng)頁數(shù)據(jù)中抽

取新的URL放到隊列中,直至滿足一定的條件后停止,如下圖所示。

黑馬程序員

?I高端IT救背茄牌一樣的教育,不一樣的品質(zhì)

知識點(diǎn)2-網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的流程

教師通過PPT的方式講解網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的流程

雖然通用網(wǎng)絡(luò)爬蟲和聚焦網(wǎng)絡(luò)爬蟲的工作原理有?些差別,但它們抓取網(wǎng)

頁的流程是相似的,如下圖所示。

。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)

關(guān)于上圖工作流程的介紹如下。

(1)精心選擇一些網(wǎng)頁,將這些網(wǎng)頁的鏈接作為種子URL。

(2)將種子URL放入到待抓取URL隊列中。

(3)從待抓取URL隊列中依次讀取URL,并通過DNS解析URL,把鏈接

地址轉(zhuǎn)換為網(wǎng)站服務(wù)器所對應(yīng)的IP地玨。

(4)將IP地址和網(wǎng)頁相對路徑名稱交給網(wǎng)頁下載器,網(wǎng)頁下載器負(fù)責(zé)網(wǎng)頁

內(nèi)容的下載。

(5)網(wǎng)頁下載器將相應(yīng)網(wǎng)頁的內(nèi)容下載到本地。

(6)將下載到本地的網(wǎng)頁存儲到頁面庫中,等待建立索引等后續(xù)處理.;與

此同時將下載過網(wǎng)頁的URL放入到已抓取URL隊列中,這個隊列記載了網(wǎng)絡(luò)

爬蟲已經(jīng)下載過的網(wǎng)頁URL,以避免網(wǎng)頁的重復(fù)抓取。

(7)對于剛剛下載的網(wǎng)頁,從中抽取出所包含的所有鏈接信息,并在己抓

取URL中槍直其是否被抓取過,如果還未被抓取過,則將這個URL放入到待

抓取URL隊列中。

(8)下載待抓取URL隊列中的URL對應(yīng)的網(wǎng)頁,如此重復(fù)(3)~(7),

直到待抓取URL隊列為空。

知識點(diǎn)3.網(wǎng)絡(luò)爬蟲的實現(xiàn)技術(shù)

教師通過PPT的方式講解網(wǎng)絡(luò)爬蟲的實現(xiàn)技術(shù)。

?PHP

?Go

?C++

?Java

?Python

知識點(diǎn)4-Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流程

教師通過PPT的方式講解Python實現(xiàn)網(wǎng)絡(luò)爬蟲的流程。

(1)抓取網(wǎng)頁數(shù)據(jù)

抓取網(wǎng)頁數(shù)據(jù)是按照設(shè)定的目標(biāo),根據(jù)所有目標(biāo)網(wǎng)頁的URL向目標(biāo)網(wǎng)站發(fā)

送請求,并獲得整個網(wǎng)頁的數(shù)據(jù)。抓取網(wǎng)頁數(shù)據(jù)的過程類似于用戶在瀏覽器中

鍵入網(wǎng)址,按回車后看到由瀏覽器渲染后的網(wǎng)頁的過程。

(2)解析網(wǎng)頁數(shù)據(jù)

黑馬程序員

?I高端IT救背茄牌一樣的教育,不一樣的品質(zhì)

解析網(wǎng)頁數(shù)據(jù)是采用不同的解析網(wǎng)頁的方式從整個網(wǎng)頁的數(shù)據(jù)中提取出目

標(biāo)數(shù)據(jù)。例如,我們想要采集所有蘋果手機(jī)的價格信息,價格便是提取的目標(biāo)

數(shù)據(jù)。解析網(wǎng)頁數(shù)據(jù)的過程類似于從瀏覽器顯示頁面中找到目標(biāo)標(biāo)簽的文本,

然后將文本復(fù)制下來的過程。

(3)存儲網(wǎng)頁數(shù)據(jù)

儲網(wǎng)頁數(shù)據(jù)的過程也是比較簡單,就是將上一步驟中提取的目標(biāo)數(shù)據(jù)以文

件的形式存放到本地,也可以存儲到數(shù)據(jù)庫,方便后期對數(shù)據(jù)進(jìn)行深入地研究。

四、歸納總結(jié)

教師回顧本節(jié)課所講的內(nèi)容,并通過測試題的方式引導(dǎo)學(xué)生解答問題并給

予指導(dǎo)。

五、布置作業(yè)

教師通過高校教輔平臺(http://tch.ityxb.com)布置本節(jié)課作業(yè)以及下節(jié)課

的預(yù)習(xí)作業(yè)。

教學(xué)后記

黑馬程序員傳智教育旗下

?高端IT教育品牌一樣的教育,不一樣的品質(zhì)

黑馬程序員

《Python網(wǎng)絡(luò)爬蟲基礎(chǔ)教程》

教學(xué)設(shè)計

課程名稱:_____________________

授課年級:_____________________

授課學(xué)期:_____________________

教曲姓名:_____________________

年月

。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)

計劃

課題名稱第2章網(wǎng)頁請求原理4課時

課時

網(wǎng)絡(luò)爬蟲請求網(wǎng)頁的過程可以理解為用戶使用瀏覽器加載網(wǎng)頁的過程,在這一

過程中瀏覽器向網(wǎng)站服務(wù)器發(fā)送請求,網(wǎng)站服務(wù)器響應(yīng)請求后將網(wǎng)頁源代碼傳送回

教學(xué)引入來。因此,了解瀏覽器與服務(wù)器之間的通信方式和交互過程,理解網(wǎng)頁開發(fā)技術(shù)、

結(jié)構(gòu)、分類、數(shù)據(jù)格式,能進(jìn)一步加深對網(wǎng)絡(luò)爬蟲的理解。本章將針對網(wǎng)頁請求原

理的相關(guān)知識進(jìn)行講解。

?使學(xué)生了解瀏覽器加載網(wǎng)頁的過程,能夠復(fù)述出瀏覽器加載網(wǎng)頁的過程

?使學(xué)生熟悉HTTP的基本原理,能夠歸納URL格式、HTTP請求格式和HTTP響

教學(xué)目標(biāo)應(yīng)格式

?使學(xué)生熟悉網(wǎng)頁基礎(chǔ),能夠區(qū)分HTML、JavaScript和CSS三者的區(qū)別

?使學(xué)生掌握HTTP抓包工具Fiddler的使用,能夠獨(dú)立安裝并使用Fddler工具

?Fiddler的下載與安裝

?Fiddler界面詳解

教學(xué)重點(diǎn)

?Fiddler捕獲HTTPS頁面的設(shè)置

?Fiddler的基本使用

教學(xué)難點(diǎn)?Fiddler的基本使用

教學(xué)方式課堂教學(xué)以PPT講授為主,并結(jié)合多媒體進(jìn)行教學(xué)

第一課時(瀏覽器加載網(wǎng)頁的過程、URL簡介、HTTP和HTTPS、HTTP請求格

式、HTTP響應(yīng)格式)

二、復(fù)習(xí)鞏固

教師通過上節(jié)課作業(yè)的完成情況,對學(xué)生吸收不好的知識點(diǎn)進(jìn)行再次鞏固講

解。

三、通過直接導(dǎo)入的方式導(dǎo)入新課

在第1章,我們學(xué)習(xí)了什么是網(wǎng)絡(luò)爬蟲以及網(wǎng)絡(luò)爬蟲的基本實現(xiàn)流程,對于網(wǎng)

絡(luò)爬蟲而言抓取的數(shù)據(jù)都在網(wǎng)頁中,因此理解網(wǎng)頁的相關(guān)內(nèi)容是非常有必要的。接

教下來,本節(jié)將對瀏覽器加載網(wǎng)頁的完成過程、URL簡介、HTPP和HTTPS、HTTP請

學(xué)求格式、HTTP響應(yīng)格式進(jìn)行講解。

過二、新課講解

程知識點(diǎn)1-瀏覽器加載網(wǎng)頁的過程

教師通過PPT的方式講解瀏覽器加教網(wǎng)頁的過程。

(1)瀏覽器通過DNS(DomainNameSystem,域名系統(tǒng))服務(wù)器查找百度服

務(wù)器對應(yīng)的IP地址。

(2)瀏覽器向IP地址對應(yīng)的Web服務(wù)器發(fā)送HTTP請求。

(3)Web服務(wù)器接收HTTP請求后進(jìn)行處理,向瀏覽器返回HTML頁面。

(4)瀏覽器對HTML頁面進(jìn)行渲染呈現(xiàn)給用戶。

知識點(diǎn)2-URL簡介

教師通過PPT的方式講解URL簡介。

(1)熟悉URL的概念。

。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)

(2)熟悉URL的語法格式。

教師通過PPT的方式講解URL的概念。

URL(全稱UniformResourceLocator)又稱URL地址,表示統(tǒng)一資源定位符,

它用于指定因特網(wǎng)上某個資源的位置。

教師通過PPT的方式講解URL的語法格式。

URL的語法格式如下。

scheme://[user]:[password]?host:[port]/path;[params]?[query]#[frag]

?scheme:表示方案,用于標(biāo)識采用哪種傳輸協(xié)議訪問服務(wù)器資源

?user;表示用戶,用于標(biāo)識采用某些方案訪問資源時需要使用的用戶名

?password:表示密碼,用戶名后面可能要包含的密碼,中間以冒號分隔

?host:表示主機(jī)地址,也就是存放資源的服務(wù)器主機(jī)名或IP地址

?port:表示端口,也就是存放資源的服務(wù)器監(jiān)聽的端口號

?path:用于指定本次請求資源在服務(wù)器中的位置

?params:表示訪問資源時使用的協(xié)議參數(shù),參數(shù)之間以;分隔

?query:表示查詢字符串,用于指定查詢的資源,一般使用?與URL的其余

部分進(jìn)行分隔。查詢字符串沒有通用格式,它通常會以&多個參數(shù),每個

參數(shù)的名稱與值使用=進(jìn)行連接。

?frag:表示片段,用于指定訪問資源時某一部分資源的名稱。

知識點(diǎn)3-HTTP和HTTPS

教師通過PPT的方式講解HTTP和HTTPS.

(1)熟悉HTTP的概念。

(2)熟悉HTTPS的概念。

教師通過PPT的方式講解HTTP的概念。

HTTP辦議全稱為超文本傳輸協(xié)議(HypertextTransferProtocol),它用于將Web

服務(wù)滯的超文本資源傳送到瀏覽器中。HTP協(xié)議能夠高效準(zhǔn)確的傳送超文本資源,

但瀏覽器與Web服務(wù)器的連接是?種?次性連接,它限制每次連接只處理?個請

求,這意味著每個請求都是獨(dú)立的,當(dāng)服務(wù)器返回本次請求的應(yīng)答后便立即關(guān)閉連

接,下次請求再重新建立連接。

教師通過PPT的方式講解HTTPS的概念。

HTTPS協(xié)議全稱為超文本傳輸安全協(xié)議(HypertextTransferProtocoSecure),

該協(xié)議是基于HTTP協(xié)議基礎(chǔ)上添加了SSL(SecureSocketsLayer安全套接字協(xié)議),

數(shù)據(jù)在傳輸過程中主要通過數(shù)字證書、加密算法、非對稱密鑰等技術(shù)完成互聯(lián)網(wǎng)數(shù)

據(jù)傳輸加密,實現(xiàn)互聯(lián)網(wǎng)傳輸安全保護(hù)。

知識點(diǎn)4-HTTP請求格式

教師通過PPT的方式講解HTTP請求格式。

(1)熟悉HTTP請求的概念。

(2)熟悉HTTP請求的格式。

(3)熟悉請求行。

(4)熟悉請求頭。

教師通過PPT的方式講解HTTP請求的概念。

一次HTTP通信的過程包括HTTP請求和HTTP響應(yīng),其中HTTP請求是指從瀏

覽器到服務(wù)器端的請求信息。

教師通過PPT的方式講解HTTP請求的格式。

HTTP清求由請求行、請求頭部、空行、以及請求數(shù)據(jù)(有的也稱為請求體)

。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)

這四個部分組成,如下圖所示。

|空格

請求方法1空格IRL協(xié)議版本回車符換行符詰求行

?

頭部字段名,值|:"Ht?.!換行符

…>請求頭部

頭部字段名■值|Pirn換行符

回車符1換行符

請求數(shù)據(jù)

教師通過PPT的方式講解請求行。

請求行的格式如下所示。

GET/item/Python/407313HTTP/1.1

在請求行中,GET表示向服務(wù)器請求網(wǎng)絡(luò)資源時所使用的請求方法,

/item/Python/407313表示請求的URL地址,HTTP/1.1表示使用的HTTP協(xié)議版本。

教師通過PPT的方式講解請求頭。

(1)Host

Host用于指定被請求資源的服務(wù)器主機(jī)名和端II號。

(2)User-Agent

User-Agent用于標(biāo)識客戶端身份,通常頁面會根據(jù)不同的User-Agent信息自動

做出適配,甚至返回不同的響應(yīng)內(nèi)容。

(3)Accept

Accep:用「指定瀏覽器或其他客戶端可以接受的MIME(MultipurposeInternet

MailExtensions,多用途互聯(lián)網(wǎng)郵件擴(kuò)展)文件類型,服務(wù)器可以根據(jù)該字段判斷

并返回適當(dāng)?shù)奈募袷健?/p>

(4)Referer

Referer用于標(biāo)識當(dāng)前請求頁面的來源頁面地址,即表示當(dāng)前頁面是通過此來

源由血里的鏈接進(jìn)入的。

(5)^ccept-Charset

AccepWharset用于指定瀏覽器可以接受的字符集類型,在早期版本的HTTP/1.1

協(xié)議中,規(guī)定了一個默認(rèn)的字符集(ISO-8259-1),但目前每一種內(nèi)容類型都有自己的

默認(rèn)字符集。

(6)Cookie

Cookie是在瀏覽器中寄存的小型數(shù)據(jù)體,它可以記載和服務(wù)器相關(guān)的用戶信

息,也可以用來實現(xiàn)模擬登錄。

(7)Content-Type

Content-Type也叫互聯(lián)網(wǎng)媒體類型(InternetMediaType)或者M(jìn)IME類型,用

于告知服務(wù)器POST請求或PUT請求中的數(shù)據(jù)類型信息。

知識點(diǎn)5-HTTP響應(yīng)格式

教師通過PPT的方式講解HTTP響應(yīng)格式。

(1)熱悉HTTP響應(yīng)的格式。

(2)熟悉狀態(tài)行的組成。

(3)熟悉響應(yīng)頭信息。

(4)熟悉響應(yīng)正文。

教師通過PPT的方式講解HTTP響應(yīng)的格式。

。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)

服務(wù)器端發(fā)送給客戶端的響應(yīng)信息由4個部分組成,分別是狀態(tài)行、響應(yīng)頭、

空行、以及響應(yīng)正文,具體如下圖所示。

版本空格狀杰碼空格原因短語回車將換行符狀態(tài)行

頭部字段名1:值1回車符換行符

…■響應(yīng)頭

頭部字段名II:值1回車符換行符

回車符換行符

響應(yīng)正文|響應(yīng)正文

教師通過PPT的方式講解狀態(tài)行的組成。

狀態(tài)行的格式如下所示。

HTTP/1.1200OK

在狀態(tài)行中,HTTP/1.1表示HTTP協(xié)議的版本號,200表示響應(yīng)狀態(tài)碼,OK表

示響應(yīng)狀態(tài)碼的簡短描述。

教師通過PPT的方式講解響應(yīng)頭信息。

(1)Cache-Control:must-revalidate,no-cache,private

Cache-Control表示服務(wù)端告知客戶端(瀏覽器)當(dāng)前的HTTP響應(yīng)是否可以緩

存,當(dāng)取值為must-revalidate表不在一個緩存過期之后,不能直接使用這個過期的

緩存,必須檢驗之后才能使用;當(dāng)取值為no-cache表示客戶端可以緩存資源,每次

使用緩存資源前都必須重新驗證其有效性;當(dāng)取值為private表示響應(yīng)只能被單個

用戶緩存,不能作為共享緩存。

(2)Connection:keep-alive,closed

Connection表示客戶端是否使用持久HTTP連接,當(dāng)取值為keep-alive表示使用

持久連接;當(dāng)取值為closed表示不使用持久連接。

(3)Content-Encoding:gzip,compress,identity

Content-Encoding表示服務(wù)端對特定媒體類型的數(shù)據(jù)進(jìn)行壓縮,當(dāng)取值為gzip

表示采用Lempel-Ziv壓縮算法;當(dāng)取值為compress表示采用Lempel-Ziv-Welch算法;

當(dāng)取值為identity表示數(shù)據(jù)未經(jīng)壓縮或修改。

(4)Content-Type:text/html;charset=UTF-8

Content-Type表示服務(wù)端告知客戶端實際返回的內(nèi)容的內(nèi)容類型,當(dāng)取值為

text/html;charset=UTF-8表示服務(wù)端返回資源文件的類型為text/html,字符編碼格

式為UTF-8o

教師通過PPT的方式講解響應(yīng)正文。

響應(yīng)正文是服務(wù)器返回的具體數(shù)據(jù),常見的數(shù)據(jù)是HTML文檔。瀏覽器在接收

到HTTP響應(yīng)后,會根據(jù)響應(yīng)正文的不同類型進(jìn)行不同的處理。對于IE瀏覽器來說,

如果響應(yīng)正文是DOC文檔,這時瀏覽器會借助安裝在本機(jī)的Word程序打開這份文

檔;如果響應(yīng)正文是RAR壓縮文檔,這時瀏覽器會彈出一個下載窗口讓用戶下載;

如果響應(yīng)正文是HTML文檔,這時瀏覽器會在自身的窗口中展示該文檔。

三、歸納總結(jié)

教師回顧本節(jié)課所講的內(nèi)容,并通過測試題的方式引導(dǎo)學(xué)生解答問題并給予指

導(dǎo)。

四、布置作業(yè)

教師通過高校教輔平臺(http:〃)布置本節(jié)課作業(yè)以及下節(jié)課的預(yù)

習(xí)作業(yè)。

。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)

第二課時(網(wǎng)頁開發(fā)技術(shù)、網(wǎng)頁的結(jié)構(gòu)、網(wǎng)頁的分類、網(wǎng)頁數(shù)據(jù)的格式)

一、復(fù)習(xí)鞏固

教師通過上節(jié)課作業(yè)的完成情況,對學(xué)生吸收不好的知識點(diǎn)進(jìn)行再次鞏固講

解。

二、教師通過直接導(dǎo)入的方式導(dǎo)入新課

網(wǎng)頁可以看作承載各種網(wǎng)站應(yīng)用和信息的容器,它包含文字、圖像、超鏈接、

音頻、視頻以及動畫等內(nèi)容。網(wǎng)絡(luò)爬蟲抓取的數(shù)據(jù)主要存在網(wǎng)頁中,接下來,本節(jié)

課將講解網(wǎng)頁開發(fā)技術(shù)、網(wǎng)頁的結(jié)構(gòu)、網(wǎng)頁的分類和網(wǎng)頁數(shù)據(jù)的格式。

四、新課講解

知識點(diǎn)1-網(wǎng)頁開發(fā)技術(shù)

教師通過PPT的方式講解網(wǎng)頁開發(fā)技術(shù)。

(1)熟悉什么是HTML。

(2)熟悉什么是CSS。

(3)熟悉什么是JavaScript。

教師通過PPT的方式講解什么是HTMLo

HTML的英文全稱HyperTextMarkupLanguage,即超文本標(biāo)記語言,是一種用

于創(chuàng)建網(wǎng)頁的標(biāo)準(zhǔn)標(biāo)記語言。一個HTML文檔由一系列的HTML元素組成,HTML

元素的組成如下圖所示。

而V今天天氣屈丁笳耳

教師通過PPT的方式講解什么是CSSo

CSS(CascadingStyleSheets)全稱為層疊樣式表,它用于更改HTML頁面中內(nèi)

容的字體、顏色、大小、間距或者添加動回及其他的效果。

教師通過PPT的方式講解什么是JavaScripto

JavaScript是一門獨(dú)立的網(wǎng)頁腳本編程語言,它主要用于向HTML網(wǎng)頁中添加交

互行為。

知識點(diǎn)2.網(wǎng)頁的結(jié)構(gòu)

教師通過PPT的方式講解網(wǎng)頁結(jié)構(gòu)。

(1)熟悉如何查看網(wǎng)頁源代碼。

(2)熟悉HTMLDOM標(biāo)準(zhǔn)。

教師通過PPT的方式講解如何查看網(wǎng)頁源代碼。

如果想要了解一個網(wǎng)頁的結(jié)構(gòu),我們可以直接在瀏覽器打開的右鍵菜單中選擇

“檢查”選項。

教師通過PPT的方式講解HTMLDOM標(biāo)準(zhǔn)。

根據(jù)萬維網(wǎng)聯(lián)盟(WorldWideWebConsortium,簡稱W3C)的HTMLDOM標(biāo)

準(zhǔn),HTMLDOM由節(jié)點(diǎn)組成,HTML文檔的所有內(nèi)容都是節(jié)點(diǎn),整個HTML文檔是

一個文檔節(jié)點(diǎn),每個HTML元素是元素節(jié)點(diǎn),每個HTML屬性是屬性節(jié)點(diǎn),每個注

釋是注釋節(jié)點(diǎn)。把?個HTML文檔中的所有節(jié)點(diǎn)組織在?起,就構(gòu)成了?棵HTML

DOM樹,這些節(jié)點(diǎn)之間存在層級關(guān)系,HTMLDOM節(jié)點(diǎn)樹如下圖。

。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)

知識點(diǎn)3-網(wǎng)頁的分類

教師通過PPT的方式講解網(wǎng)頁分類

(1)熟悉什么是靜態(tài)網(wǎng)頁。

(2)熟悉什么是動態(tài)網(wǎng)頁。

教師通過PPT的方式講解靜態(tài)網(wǎng)頁。

靜態(tài)網(wǎng)頁是純粹HTML格式的網(wǎng)頁,它是?個標(biāo)準(zhǔn)的HTML文件,文件的擴(kuò)展

名為.htm、.html。靜態(tài)網(wǎng)頁可以包含文本、圖像、聲音、FLASH動畫、超鏈接等內(nèi)

容,這些內(nèi)容在編寫網(wǎng)頁源代碼時已經(jīng)確定,基本上不會發(fā)生變化,除非網(wǎng)頁源代

碼被重新修改。

教師通過PPT的方式講解動態(tài)網(wǎng)頁。

動態(tài)網(wǎng)頁相比靜態(tài)網(wǎng)頁,動態(tài)網(wǎng)頁有數(shù)據(jù)庫支撐、包含程序以及提供與用戶交

互功能,比如用戶登錄、用戶注冊、信息查詢等功能,這些功能根據(jù)用戶傳入不同

參數(shù)網(wǎng)頁會顯示不同數(shù)據(jù)。

知識點(diǎn)4-網(wǎng)頁數(shù)據(jù)的格式

教師通過PPT的方式講解網(wǎng)頁數(shù)據(jù)格式。

(1)熟悉網(wǎng)頁數(shù)據(jù)格式的分類。

(2)熟悉XML的概念及特點(diǎn)。

(3)熟悉JSON的概念及特點(diǎn)。

教師通過PPT的方式講解網(wǎng)頁數(shù)據(jù)格式的分類。

(1)非結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,

不方便使用數(shù)據(jù)庫二維表結(jié)構(gòu)表現(xiàn)的數(shù)據(jù),包括文本、圖片、HTML等。

(2)結(jié)構(gòu)化數(shù)據(jù)就是能夠用二維表結(jié)構(gòu)表現(xiàn)的數(shù)據(jù),這種數(shù)據(jù)嚴(yán)格遵循數(shù)據(jù)

格式與長度規(guī)范,包括JSON和XML等。

教師通過PPT的方式講解XML的概念及特點(diǎn)。

(1)XML的概念

XML是ExtensibleMarkupLanguage的縮寫,它是一種類似于HTML的標(biāo)記語言,

稱為可擴(kuò)展標(biāo)記語言??蓴U(kuò)展指的是用戶可以按照XML規(guī)則自定義標(biāo)記。

(2)XML的特點(diǎn)

XML片段如下圖所示。

。需篇1箴髓黠牌一樣的教育,不一樣的品質(zhì)

〈employees〉

<employee>

<firstName>Bill</firstName>

<lastName>Gates</lastName>

</employee>

<employee>

<firstName>Steve</firstName>

<lastName>Jobs</lastName>

</employee>

〈employee〉

<firstName>Elon</firstName>

<lastName>Musk</lastName>

</employee>

</employees>

?XML元素由開始標(biāo)記和結(jié)束標(biāo)記組成,必須是成對出現(xiàn)的。

?〈employees〉元素是整個XML片段的根元素,它包含了3個(employee〉子

元素。

?每個(employee〉元素又包含了<firstName>、<lastName>Jt2個子元素。

教師通過PPT的方式講解JSON的概念及特點(diǎn)。

(1)JSON的概念

JSON(JavaScriptObjectNotation)是一種輕量級的數(shù)據(jù)交換格式,它采用完全獨(dú)

立于編程語言的文本格式存儲和表示數(shù)據(jù)。

(2)JSON的特點(diǎn)

JSON片段如孑圖所示。

(

"employees":[

(

HfirstNamen:“Bill”,

HlastNamen:"Gates”

},

(

"firstName":"Steve",

HlastNamen:nJobs',

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論