用Mathematica抓取《美国队长3》的剧照
今下午实在不想改论文,学着做了一个Mathematica爬虫,用来爬取即将上映(后天5月6号)的<美国队长3>的剧照。
参考文献:
看这里
第一步:导入网页源文件
首先得找到<美队3>的照片网站吧,这里用的是经典大牌电影网站——时光网,链接是here,然后将网页的源文件导入Mathmatica中:
1
input = Import["http://movie.mtime.com/209122/posters_and_images/posters/hot.html", "Source"];
注意这里导入的元素是Source,即原始的源文件,没有经过任何转化。还可以用XMLObject