Bautiful Soup 是用Python寫的一個(gè)HTML/XML的解析器,如果你需要在一些網(wǎng)站抓取數(shù)據(jù),Beautiful Soup可以很好的處理不規(guī)范標(biāo)記并生成剖析樹,大大節(jié)省工程時(shí)間
軟件特色:
1.Beautiful Soup提供了一些簡單的方法和Python術(shù)語,用于檢索和修改語法樹:一個(gè)用于解析文檔并提取相關(guān)信息的工具包。這樣你寫一個(gè)應(yīng)用不需要寫很多代碼。
2.Beautiful Soup自動(dòng)將輸入文檔轉(zhuǎn)換為Unicode編碼,并將輸出文檔轉(zhuǎn)化為UTF-8編碼。你不需要考慮編碼,除非輸入文檔沒有指出其編碼并且Beautiful Soup無法自動(dòng)檢測到,這時(shí)你需要指出原來的編碼方式。
3.Beautiful Soup位于一些流行的Python解析器比如lxml和HTML5lib的上層,這允許你使用不同的解析策略或者犧牲速度來換取靈活性。
軟件使用:
1.下載完成之后需要解壓縮,假設(shè)放到D:/python下。
2.運(yùn)行cmd,切換到D:/python/beautifulsoup4-4.3.2/目錄下(根據(jù)自己解壓縮后的目錄和下載的版本號修改),cd /d D:/python//beautifulsoup4-4.3.2
3.運(yùn)行命令:
setup.py build
setup.py install
4.在IDE下from bs4 import BeautifulSoup,沒有報(bào)錯(cuò)說明安裝成功。