当前位置:首页 > 技术分享

python3 selenium webdriver.Chrome php 爬取汽车之家所有车型详情数据[开源版]

admin5年前 (2021-05-28)技术分享3595

介绍

本接口是车型库api的补充,用于爬取汽车之家所有车型详情数据

开源地址:https://gitee.com/web/CarApi/tree/master/python

软件架构

python3 selenium webdriver.Chrome php

使用python3 的webdriver.Chrome 获取渲染后的css样式信息,再用php替换后保存入数据库

使用说明

  1. 1.确保安装了python3 selenium 没有就安装一下

  2. 2.安装 Chrome 目录中有 一般由于chromedriver.exe版本兼容问题如果出现了直接用我共享的版本即可 其它版本:https://blog.bitefu.net/post/167.html

  3. 3.配置config.php数据库信息

  4. 4.在浏览器执行

http://你自己的网址/python/autohomeinfo.php

这个采集汽车之家所有车型详情原版数据存到json和newhtml目录 其中json为带混淆的数据 newhtml中为混淆的js 样式类

  1. 5.等第4步执行完成之后 到python/ 目录运行

python queryhtml.py
  1. 6.在浏览器执行

http://你自己的网址/python/replaceclass.php

这一步是将json 用混淆的样式类文件替换掉并保存到数据库,数据库结构如下

CREATE TABLE `car_info_detail` (  `id` int(11) NOT NULL AUTO_INCREMENT,  `content` text NOT NULL,  PRIMARY KEY (`id`)) ENGINE=MyISAM DEFAULT CHARSET=utf8 COMMENT='车详情';

参考

https://www.cnblogs.com/kangz/p/10011348.html


扫描二维码推送至手机访问。

版权声明:本文由小刚刚技术博客发布,如需转载请注明出处。

本文链接:https://blog.bitefu.net/post/173.html

分享给朋友:

“python3 selenium webdriver.Chrome php 爬取汽车之家所有车型详情数据[开源版]” 的相关文章

微软Windows 10升级密钥(例如家庭版升级为企业版) 不能用于激活系统

微软Windows 10升级密钥(例如家庭版升级为企业版) 不能用于激活系统

下面的密钥,是微软官方提供的,仅能用于Windows10系统版本的升级,比如从家庭版升级为专业版、专业版升级为企业版等。升级密钥不能用于激活系统,激活需要KMS或者数字权利,由于涉及到版权问题,在此不宜分享,请大家自行查找激活相关的内容。准…

遭遇国外ip抓取或攻击怎么办一招解决禁止海外IP访问

遭遇国外ip抓取或攻击怎么办一招解决禁止海外IP访问

究发现很多网站被攻击都是来自海外的肉鸡,所以禁掉海外IP访问网站也是不错的防护手段,而且国内网站几乎很少有国外用户访问,称之为大局域网也不为过。今天主机吧来教大家如何利用域名解析禁止掉海外IP访问网站。绝大多数域名解析服务商都是提供电信联通…

redis 设置过期Key 的 maxmemory-policy 六种方式

平时会用到redis 当缓存过多时会遇到下面的报错OOM command not allowed when used memory > 'maxmemory'这说明redis的缓存满了我们可以通过修改过期策略来修改cd…

​CentOS 安装libsodium 支持 crypto_aead_aes256gcm_decrypt 兼容php5.6,php7.2

微信小微商户下载证书返回的密文用 AEAD_AES_256_GCM 算法 解密的方法。其中用到了 string sodium_crypto_aead_aes256gcm_decrypt ( string $ci…

Windows下SVN自动更新

Windows下SVN自动更新

1、创建post-commit.bat文件,放到C:\Repositories\pms\hooks文件夹下(注意不要先创建txt文件然后改后缀,pms为代码目录名),内容如下:@echo off "C:\Tortois…

android studio 配置HTTP proxy 在线更新镜像服务器 可用阿里云镜像

android studio 配置HTTP proxy 在线更新镜像服务器 可用阿里云镜像

Android SDK在线更新镜像服务器南阳理工学院镜像服务器地址:mirror.nyist.edu.cn 端口:80中国科学院开源协会镜像站地址:IPV4/IPV6: mirrors.opencas.cn 端口:80IPV4/IPV6:…

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。