開始使用_BeautifulSoup

Python模組的第二利器: 來分析HTML吧!

既然是要分析取得資訊,最直接的方法就是先由人判斷!

分析器雖然能了解整體的html標籤樹狀架構,但是對他來說更細節的資料是沒有意義的,除非多了一個語意分析,那樣就要從訓練模型開始了(又生旁枝了?),所以當然是由人先來擔任這個角色,在讀了html文檔之後,找出想要資料的標籤規則,然後再告訴分析器,
ex. 我要找"xxx"tag! 請幫我找"ooo"tag
這樣分析器找到資料後,就會把資料吐處來,也就能取得資料了。(這邊連續說了三個資料!)



  • BeautifulSoup
一樣使用最基本的檢查,找到想要的物件在哪個標籤裡。
像這樣:


私心選了自己喜歡的樂團官網
目標很明顯要拿src的內容,也就是圖片url~


接下就來看看要怎麼告訴分析器 我要img tag!

首先需要將取得的html文檔轉成BeautifulSoup物件。
(這邊要特別注意編碼問題)

因為對方完全沒檔,所以直接下規則就拿到URL了!
(一般要加標頭檔的)

在BeautifulSoup的物件名稱
最主要的就是 Tag (也就是標籤,soup就是一顆標籤樹!)
標籤內的屬性就是 Attributes (提供用全拿.attrs,與特定['NAME'])
更多語法: http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id13

回到原本的漫畫網站。
現在,已經能用BeautifulSoup&Requests來做基本的parser

但是,怎麼可能讓你輕鬆就偷盜圖呢!
(我這好像是在做壞事...ˊ~ˋ)
所以接下來要面對動態產生內容的問題。


後記: 這次好像寫得很瑣碎~分分鐘的事也能寫這麼多內容XD
上一篇從requests開始    下一篇開始動態內容

留言

熱門文章