gogo专业大尺度亚洲高清人体,美女张开双腿让男生桶,亚洲av无码一区二区三区鸳鸯影院,久久久久国产精品人妻

^{<blockquote id="7xb4q"></blockquote>}

歡迎來到嵌入式培訓(xùn)專家——華清遠(yuǎn)見嵌入式學(xué)院

當(dāng)前位置：首頁 > 嵌入式培訓(xùn) > 嵌入式學(xué)習(xí) > 講師博文 > Python 網(wǎng)絡(luò)爬蟲

Python 網(wǎng)絡(luò)爬蟲時間：2017-11-03 來源：未知

當(dāng)我們想買一款手機(jī)，當(dāng)我們想知道其他人對一款產(chǎn)品的評價，當(dāng)我們有各種各樣疑問的時候，我們總是要打開百度，Google等搜索引擎，搜索相關(guān)問題。而不是在自己電腦里，或者到書架上翻書查找。這是因為大量的數(shù)據(jù)來源于互聯(lián)網(wǎng)，而百度和Google就是一個從互聯(lián)網(wǎng)上抓取數(shù)據(jù)的大爬蟲。

當(dāng)我們在瀏覽器里輸入網(wǎng)址發(fā)出請求后，瀏覽器會向web服務(wù)器發(fā)出http請求，而web服務(wù)器回應(yīng)的就是我們請求的html網(wǎng)頁，瀏覽器再解析html網(wǎng)頁，顯示其中的文本和圖片等信息。

所謂的網(wǎng)絡(luò)爬蟲就類似于這個過程，它模擬的就是瀏覽器請求網(wǎng)頁的過程。這里我們使用urllib可以實(shí)現(xiàn)該功能。要注意urllib在python2中有兩個版本，urllib和urllib2，在python3中它們已經(jīng)被整合到一起，叫urllib。

以下代碼獲取糗事百科的網(wǎng)頁：

此代碼獲取的是全部html網(wǎng)頁，瀏覽器可以解析顯示有意義的信息。我們就需要進(jìn)步處理，提取信息。

我們發(fā)現(xiàn)html網(wǎng)頁中的段子總是包含在這樣的html代碼中：

我們可以使用正則表達(dá)式獲取其中的數(shù)據(jù)，添加代碼如下：

再一次輸出已經(jīng)是我們想要獲取的部分：

上一篇：Qt打包文檔（window平臺）

下一篇：Linux字符設(shè)備驅(qū)動模型之Linux內(nèi)核模塊參數(shù)

熱點(diǎn)文章推薦

華清學(xué)員就業(yè)榜單

高薪學(xué)員經(jīng)驗分享

熱點(diǎn)新聞推薦

前臺專線：010-82525158 企業(yè)培訓(xùn)洽談專線：010-82525379 院校合作洽談專線：010-82525379 Copyright © 2004-2022 北京華清遠(yuǎn)見科技集團(tuán)有限公司版權(quán)所有，京ICP備16055225號-5，京公海網(wǎng)安備11010802025203號

網(wǎng)站導(dǎo)航

硬件商城

回到頂部

<center id="jkul6"></center>