python3 selenium webdriver.Chrome php 爬取汽车之家所有车型详情数据[开源版]
介绍
本接口是车型库api的补充,用于爬取汽车之家所有车型详情数据
开源地址:https://gitee.com/web/CarApi/tree/master/python
软件架构
python3 selenium webdriver.Chrome php
使用python3 的webdriver.Chrome 获取渲染后的css样式信息,再用php替换后保存入数据库
使用说明
1.确保安装了python3 selenium 没有就安装一下
2.安装 Chrome 目录中有 一般由于chromedriver.exe版本兼容问题如果出现了直接用我共享的版本即可 其它版本:http://blog.bitefu.net/post/167.html
3.配置config.php数据库信息
4.在浏览器执行
http://你自己的网址/python/autohomeinfo.php
这个采集汽车之家所有车型详情原版数据存到json和newhtml目录 其中json为带混淆的数据 newhtml中为混淆的js 样式类
5.等第4步执行完成之后 到python/ 目录运行
python queryhtml.py
6.在浏览器执行
http://你自己的网址/python/replaceclass.php
这一步是将json 用混淆的样式类文件替换掉并保存到数据库,数据库结构如下
CREATE TABLE `car_info_detail` ( `id` int(11) NOT NULL AUTO_INCREMENT, `content` text NOT NULL, PRIMARY KEY (`id`)) ENGINE=MyISAM DEFAULT CHARSET=utf8 COMMENT='车详情';
参考
https://www.cnblogs.com/kangz/p/10011348.html