1、Python快速上手爬蟲的7大技巧 1基本抓取網(wǎng)頁 get方法 post方法 2使用代理IP 在開發(fā)爬蟲過程中經(jīng)常會(huì)遇到IP被封掉的情況,這時(shí)就需要用到 代理IP 在urllib 2包中有Proxy Handler類, 通過此類可以設(shè)置代理 訪問網(wǎng)頁,如下代碼片段 3Cookies處理 cookies是某些網(wǎng)站為了辨別用戶身份進(jìn)行session跟蹤而 儲(chǔ)存在用戶;繼上次爬取完廣西科技大學(xué)的各個(gè)班級(jí)課表 接著來試著用Python爬蟲登錄查詢并抓取學(xué)生的成績(jī)當(dāng)然爬取信息,需要學(xué)號(hào)和密碼,這里只能用的自己的向大家說明上次,抓取學(xué)校班級(jí)的課表是一種簡(jiǎn)單的爬取,因?yàn)橹苯臃治鼍W(wǎng)頁,獲得自己所需要的數(shù)據(jù)即可這次是;可以發(fā)現(xiàn),信息里不僅有帳號(hào)email和密碼password,其實(shí)還有_xsrf具體作用往后看和remember_me登錄界面的“記住我”兩個(gè)值那么,在python爬蟲中將這些信息同樣發(fā)送,就可以模擬登錄在發(fā)送的信息里出現(xiàn)了一個(gè)項(xiàng)_xsrf,值為2fc4ab0f0f144c2e478c436fe3 這個(gè)項(xiàng)其實(shí)是在訪問知乎;步驟一研究該網(wǎng)站 打開登錄頁面 進(jìn)入以下頁面 “bitbucketorgaccountsignin”你會(huì)看到如下圖所示的頁面執(zhí)行注銷,以防你已經(jīng)登錄仔細(xì)研究那些我們需要提取的詳細(xì)信息,以供登錄之用 在這一部分,我們會(huì)創(chuàng)建一個(gè)字典來保存執(zhí)行登錄的詳細(xì)信息1 右擊 “Username or email” 字段,選擇“查。
2、Python版本Python3x IDESublime text3 一為什么要使用Cookie Cookie,指某些網(wǎng)站為了辨別用戶身份進(jìn)行session跟蹤而儲(chǔ)存在用戶本地終端上的數(shù)據(jù)通常經(jīng)過加密比如說有些網(wǎng)站需要登錄后才能訪問某個(gè)頁面,在登錄之前,你想抓取某個(gè)頁面內(nèi)容,登陸前與登陸后是不同的,或者不允許的使用Cookie和使用代理IP一樣。
3、首先要AES解密,可以Pythonimport 包,解密mode是CFB,seed是quotuserIdquot+uid+quotseedquot的SHA256值,解密的key是seed024,iv是seedlenseedAF471BA37EFE6DD40FE4700EE337FEEEF65E2C8F203FCA;接下來,不妨嘗試一下bilibili,這個(gè)平臺(tái)雖然競(jìng)爭(zhēng)激烈,但對(duì)于新手來說,它提供了足夠的練習(xí)空間由于有強(qiáng)大的金主支持,bilibili對(duì)爬蟲的容忍度相對(duì)較高,而且爬取過程中,你將接觸到WebSocket視頻流處理模擬登錄等技術(shù)對(duì)視頻數(shù)據(jù)的分析,如播放量和彈幕密度,又是一次裝逼的絕佳機(jī)會(huì)總的來說,選擇。
4、比較簡(jiǎn)單的方式是利用這個(gè)網(wǎng)站的 cookiecookie 相當(dāng)于是一個(gè)密碼箱,里面儲(chǔ)存了用戶在該網(wǎng)站的基本信息在一次登錄之后,網(wǎng)站會(huì)記住你的信息,把它放到cookie里,方便下次自動(dòng)登錄所以,要爬取這類網(wǎng)站的策略是先進(jìn)行一次手動(dòng)登錄,獲取cookie,然后再次登錄時(shí),調(diào)用上一次登錄得到的cookie,實(shí)現(xiàn)自動(dòng)。
評(píng)論列表