Tag 网络爬虫 | 内存笔记

[Python期末拯救者]关于期末作业中网络爬虫技术的应用

Date: 2024/12/27Category: pythonTag: python, python期末拯救者, 期末作业, 网络爬虫, 计算机

网络爬虫的核心就是模拟浏览器，从服务器上请求数据，因此在进行网络爬虫的设计之前，我们需要搞清楚你所需要的数据从何而来，搞清楚数据是通过何种方式传输到浏览器上的。

目前来看，一个网站应用的架构分为3个部分:前端、后端、数据库。前端就是运行在我们浏览器上的html，css，js等前端程序，而网络爬虫就是通过模拟前端程序的运行逻辑来实现数据的获取。而我们这个获取数据的方式取决于后端程序通过什么方式发送数据，目前来看，大致存在两种方式进行数据的传输:一种是同步传输(直接把数据写在网页的html文件上发到浏览器上)，另一种是异步传输(通过xhr等方式将某些数据交换格式(一般为json)发送到浏览器，并在js程序的处理后渲染到网页上)。网络爬虫的核心就在此。