爬取時間:2020/11/25
系統環境:Windows 10
所用工具:Jupyter Notebook\Python 3.0
涉及的庫:requests\lxml\pandas\matplotlib\numpy
蛋肥想法: 先將電影名稱、原名、評分、評價人數、分類信息從網站上爬取下來。
蛋肥想法: print數據列表後發現電影原名、分類信息等存在不需要的字符,需預先處理;同時因為後續想做壹個豆瓣電影TOP250的維度分布圖,而同壹電影存在多個發行國家、類型(如“法國 美國 / 劇情 動作 犯罪”),為了簡(偷)便(懶),這裏均取第壹個作為記入的數據;最後將數據保存為xlsx。
蛋肥想法: 蛋肥想知道在豆瓣電影TOP250中年份、國家、類型的維度數據,為了練手,使用剛才保存成xlsx的數據,並分別畫成雷達圖、柱形圖、扇形圖。