呵呵呵,你说呢?你是小白在问这个问题吗?
爬虫可以抓取互联网上的数据。爬虫可以用很多编程语言实现,python只是其中一种。所以你想知道的是网络爬虫能做什么。
他就像证券交易数据,天气数据,网站用户数据,图片。
你拿到这些数据后,就可以做下一步的工作了。
网络爬虫,即网络蜘蛛,是一个很形象的名字。
把互联网比作蜘蛛网,那么spid://主机名[:port]/path/[参数][?查询]#片段
url的格式由三部分组成:
第一部分是协议(或服务模式)。
②第二部分是存储资源的主机ip地址(有时包括端口号)。
第三部分是主机资源的具体地址,比如目录和文件名。
第一部分和第二部分由符号"://",
第二部分和第三部分由一个"/"符号。
第一、二部分缺一不可,第三部分有时可以省略。
动词(v)。
让让我们来看两个url的小例子。协议的url示例:
使用超文本传输协议http为超文本信息服务提供资源。
示例:
它的计算机域名是。
超文本文件(文件类型:。html)在目录/频道下。
这是的电脑。;每日一次。
示例:
它的计算机域名是。
超文本文件(文件类型:。html)在目录/talk下。
这是莱德聊天室的地址,从这里可以进入莱德聊天室的1号房间。
2.文件的url
用url表示文件时,服务器模式用fil
站。;刚开始不需要登录,比较简单,掌握好http。如何模拟getpost和urllib?只要掌握lxml、beautifulsoup等解析器库,使用firefoxsfirebug或chrome的调试工具来查看浏览器如何收缩。以上都可以不用登录,不用下载文件。