内存笔记
/
文章
分类
标签
时间线
Github
/
文章
分类
标签
时间线
Github
web 1wordpress 1网站建设 1计算机 5python 6python期末拯救者 5数据库 1期末作业 2网络爬虫 1pytorch 17c语言 1数据结构 1线性表 1线性代数 16c 1esp32 1
[Python期末拯救者]关于期末作业中网络爬虫技术的应用

Date: 2024/12/27Category: pythonTag: python, python期末拯救者, 期末作业, 网络爬虫, 计算机

网络爬虫的核心就是模拟浏览器,从服务器上请求数据,因此在进行网络爬虫的设计之前,我们需要搞清楚你所需要的数据从何而来,搞清楚数据是通过何种方式传输到浏览器上的。

目前来看,一个网站应用的架构分为3个部分:前端、后端、数据库。前端就是运行在我们浏览器上的html,css,js等前端程序,而网络爬虫就是通过模拟前端程序的运行逻辑来实现数据的获取。而我们这个获取数据的方式取决于后端程序通过什么方式发送数据,目前来看,大致存在两种方式进行数据的传输:一种是同步传输(直接把数据写在网页的html文件上发到浏览器上),另一种是异步传输(通过xhr等方式将某些数据交换格式(一般为json)发送到浏览器,并在js程序的处理后渲染到网页上)。网络爬虫的核心就在此。

蜀ICP备2024116061号-1 川公网安备51140202000488号