博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫——爬虫简介
阅读量:6971 次
发布时间:2019-06-27

本文共 594 字,大约阅读时间需要 1 分钟。

hot3.png

1.什么是爬虫?

网络爬虫(又被称为网页,网络机器人,在社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取信息的程序或者脚本。另外一些不常使用的名字还有、自动索引、模拟程序或者。通俗的理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。

比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

2.爬虫操作过程

用户输入网址——DNS服务器——服务器主机——向服务器发出请求——服务器解析请求——服务器发送给浏览器html、jss、js文件——浏览器解析

3.url

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

在爬取数据时必须要获取到url

三部分组成:

第一个时协议

第二个是存有该资源的主机的IP地址

第三个是主机资源的具体文件名

 

 

 

转载于:https://my.oschina.net/u/3754854/blog/1595843

你可能感兴趣的文章
介绍:成为一名 Jenkins 贡献者的旅程
查看>>
怎么一边敲代码还能一边赚点钱,一字一字敲的,不喜勿喷哈,IOS手机看进来...
查看>>
linux centos yum安装LAMP环境
查看>>
解决 Cydia 源显示空白的问题
查看>>
[翻译]HTTP: Let’s GET It On!
查看>>
LintCode 字符串比较
查看>>
视频监控基本知识
查看>>
IOS项目目录结构和开发流程
查看>>
调查问卷
查看>>
Add&Delete WindowService
查看>>
前端:文件下载功能
查看>>
Visual studio 添加引用时报错未能正确加载ReferenceManagerPackage包的解决方法
查看>>
Winform 连接Web Service 记录
查看>>
Lua编辑调试器汇总
查看>>
windows 下安装 RabbitMQ
查看>>
html5 data属性的使用
查看>>
php编程技巧-转
查看>>
WaitForInputIdle 的注意细节
查看>>
bzoj 1565 最大权闭合子图
查看>>
x86_64汇编调试程序初步
查看>>