開始使用_BeautifulSoup
Python模組的第二利器: 來分析HTML吧!
既然是要分析取得資訊,最直接的方法就是先由人判斷!
分析器雖然能了解整體的html標籤樹狀架構,但是對他來說更細節的資料是沒有意義的,除非多了一個語意分析,那樣就要從訓練模型開始了(又生旁枝了?),所以當然是由人先來擔任這個角色,在讀了html文檔之後,找出想要資料的標籤規則,然後再告訴分析器,
ex. 我要找"xxx"tag! 請幫我找"ooo"tag
這樣分析器找到資料後,就會把資料吐處來,也就能取得資料了。(這邊連續說了三個資料!)
一樣使用最基本的檢查,找到想要的物件在哪個標籤裡。
像這樣:
私心選了自己喜歡的樂團官網
目標很明顯要拿src的內容,也就是圖片url~
接下就來看看要怎麼告訴分析器 我要img tag!
首先需要將取得的html文檔轉成BeautifulSoup物件。
(這邊要特別注意編碼問題)
因為對方完全沒檔,所以直接下規則就拿到URL了!
(一般要加標頭檔的)
在BeautifulSoup的物件名稱
最主要的就是 Tag (也就是標籤,soup就是一顆標籤樹!)
標籤內的屬性就是 Attributes (提供用全拿.attrs,與特定['NAME'])
更多語法: http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id13
最主要的就是 Tag (也就是標籤,soup就是一顆標籤樹!)
標籤內的屬性就是 Attributes (提供用全拿.attrs,與特定['NAME'])
更多語法: http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id13
回到原本的漫畫網站。
現在,已經能用BeautifulSoup&Requests來做基本的parser了
但是,怎麼可能讓你輕鬆就偷盜圖呢!
(我這好像是在做壞事...ˊ~ˋ)
所以接下來要面對動態產生內容的問題。
後記: 這次好像寫得很瑣碎~分分鐘的事也能寫這麼多內容XD
留言
張貼留言