|
公司基本資料信息
|
完整解析信息的標(biāo)記形式,,再提取關(guān)鍵信息
XML JSON YAML
需要標(biāo)記解析器 如bs庫的標(biāo)簽樹遍歷
優(yōu)點(diǎn):信息解析準(zhǔn)確
缺點(diǎn):提取過程繁瑣
方法二:無標(biāo)記形式,直接搜索關(guān)鍵信息
搜索
對(duì)信息的文本查找函數(shù)即可
優(yōu)點(diǎn),過程簡潔,速度較快
缺點(diǎn),提取結(jié)果準(zhǔn)確性與內(nèi)容相關(guān)
淘寶新開店采集軟件,實(shí)時(shí)更新,一鍵提取
其中的方法
<>.find_all(name,attrs,recursive,string,**kwargs)
返回一個(gè)列表類型,儲(chǔ)存查找的結(jié)果。
name:對(duì)標(biāo)簽名稱的檢索字符串。
attrs:對(duì)標(biāo)簽屬性值的檢索字符串,可標(biāo)注屬性檢索。
recursive:是否對(duì)子孫全部檢索,默認(rèn)True。布爾型。
string:<>…</>中字符串區(qū)域的檢索字符串
**kawargs:
(…) 等價(jià)于 .find_all(…)
soup(…) 等價(jià)于soup.find_all(…)
<>.find 拓展方法
淘寶新開店采集軟件,實(shí)時(shí)更新,一鍵提取