网络爬虫,也叫网络蜘蛛或网络机器人。
关于网络爬虫的书很多,你想从哪种语言入手?
例如,如果你熟悉java编程,你可以阅读《自己动手写网络爬虫》的这本书。这本书可以在网上下载。
无论你使用什么语言,你通常都必须理解这些事情:
第一,爬行目标的描述或定义;
第二,分析或过滤网页的数据;
第三,url的搜索策略,
最后,你必须了解爬行动物是如何工作的。只有这样,我们才能采用合适的实现方法。
当然,现在互联网更多是用python实现的,书也多了...比如《python爬虫开发与项目实战》。
记住,因为这是一个应用,所以书籍一定要有项目案例。
随着大数据的兴起和ai的应用,数据抓取也会遇到很多机遇和挑战。这是一件有趣的事情。
数据的价值被应用,这才是核心!……
嗯,那这就是全部。
在使用seleniumrc之前,启动ie会报告类似的错误,但是后来使用seleniumwebdriver就不会了!建议用seleniumwebdriver写测试脚本!