美團商家數(shù)據(jù)采集爬蟲代碼

  

  

下面一米軟件來給大家分享一下美團商家數(shù)據(jù)采集爬蟲代碼和具體采集步驟。


美團商家數(shù)據(jù)采集爬蟲代碼


我們要抓取的第一部分數(shù)據(jù)是商家的基本信息,包括商家名稱、地址、電話、營業(yè)時間,分析多個美食類商家我們可知,這些商家的web界面在布局上基本是一致的,所以我們的爬蟲可以寫的比較通用。為了防止對商家數(shù)據(jù)的重復抓取,我們將商家的網(wǎng)址信息也存儲到數(shù)據(jù)表中。


第二部分要抓取的數(shù)據(jù)是美食店的招牌菜,每個店鋪基本都有自己的特色菜,我們將這些數(shù)據(jù)也保存下來,用另外的一張數(shù)據(jù)表存儲。


最后一部分我們要抓取的數(shù)據(jù)是用戶的評論,這部分數(shù)據(jù)對我們來說是很有價值的,將來我們可以通過對這部分數(shù)據(jù)的分析,提取更多關(guān)于商家的信息。我們要抓取的這部分信息有:評論者昵稱、星級、評論內(nèi)容、評論時間,如果有圖片,我們也要將圖片的地址以列表的形式存下來。

  
相關(guān)資訊

推薦軟件