前言

嗨喽,大家好呀~这里是爱看美女的茜茜呐

又到了学Python时刻~

用Python把附近的足浴店都给采集了一遍,好兄弟:针不戳~

我又来了!今天整个好玩的,你们肯定喜欢~

咱们上班累了,不得好好犒劳一下自己,是吧 !

于是我整了一手采集附近洗jio的店子,浴皇大帝们,冲鸭~

话不多说,冲!兄弟们,都是正规的 正规的!

使用环境

用的大多数的知识点 都是属于基础的知识点内容,以及pa chong基础入门一些知识点。

要用的模块

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

基本思路。

数据来源分析

我们不管是采集什么,都要先找到数据来源。有来源才有下一步的行动。

  1. 确定我们要采集得数据内容是什么?

    店铺基本数据信息

  2. 通过开发者工具进行抓包分析 分析数据从哪里可以获取

    从第一页数据进行分析的

代码流程步骤

有了来源目标之后,再请求获取数据,解析数据,最后创建文件夹保存到Excel表格。

当然,如果想采集更多的,肯定就得实现自动翻页

代码展示

不限正规足浴,其实想采集啥都行。

import requests
import pprint
import re
import csv
import time
f = open('按摩data.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '店铺名称',
    '人均消费',
    '店铺评分',
    '评论人数',
    '所在商圈',
    '店铺类型',
    '店铺地址',
    '联系方式',
    '营业时间',
    '详情页',
])
csv_writer.writeheader()
def get_shop_info(html_url):
    headers = {
        'Cookie': '',
        'Host': '',
        'Referer': '',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36',
    }
    response = requests.get(url=html_url, headers=headers)
    # print(response.text)
    phone = re.findall('"phone":"(.*?)"', response.text)[0]
    openTime = re.findall('"openTime":"(.*?)"', response.text)[0].replace('\\n', '')
    address = re.findall('"address":"(.*?)"', response.text)[0]
    shop_info = [address, phone, openTime]
    # print(shop_info)
    return shop_info
for page in range(0, 1537, 32):
    time.sleep(2)
    url = ''
    data = {
        'uuid': '05f4abe326934bf19027.1634911815.1.0.0',
        'userid': '266252179',
        'limit': '32',
        'offset': page,
        'cateId': '-1',
        'q': '按摩',
        'token': 'knaBbvVTfN50cupoV5b87GJMXzkAAAAAAw8AAELrweWvhGhrM0fw6oTkLe5c6DGXJ6PCtxfyHgUPl3k-SVVR-Vs0LjzrGfewJhX8-g'
    }
    headers = {
        'Referer': '',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url=url, params=data, headers=headers)
    result = response.json()['data']['searchResult']
    for index in result:
        shop_id = index['id']
        index_url = f'https://www..com/meishi/{shop_id}/'
        shop_info = get_shop_info(index_url)
        dit = {
            '店铺名称': index['title'],
            '人均消费': index['avgprice'],
            '店铺评分': index['avgscore'],
            '评论人数': index['comments'],
            '所在商圈': index['areaname'],
            '店铺类型': index['backCateName'],
            '店铺地址': shop_info[0],
            '联系方式': shop_info[1],
            '营业时间': shop_info[2],
            '详情页': index_url,
        }
        csv_writer.writerow(dit)
        print(dit)

因为代码里有链接,不给过的,所以我把代表性的网址那里删掉了一部分,你们可以自行添加

? ? ? 更多精彩机密、教程,尽在下方,赶紧点击了解吧~

小伙伴们在学习Python的过程中,有时候不知道怎么学,从哪里开始学。

那么对于这些大兄弟们,我准备了大量的免费视频教程,数百本PDF电子书籍,以及各种案例源代码!

==源码、资料点击蓝色字体自取== ,我都放在这里了。

宁外给大家推荐一个好的教程:

【48小时搞定全套教程!你和大佬只有一步之遥【python教程】

尾语 ?

今天的分享,差不多就结束了

可以先收藏 ⭐,再学习,毕竟一一下子学会,确实有点难为人~

躲起来的星星?也在努力发光,你也要努力加油(让我们一起努力叭)。

发表回复