分享好友 最新动态首页 最新动态分类 切换频道
AI网络爬虫:批量爬取AI导航网站Futurepedia数据
2024-12-26 12:41

Futurepedia致力于使AI技术对各行各业的专业人士更加可理解和实用,提供全面的AI网站和工具目录、易于遵循的指南、每周新闻通讯和信息丰富的YouTube频道,简化AI在专业实践中的整合。如何把Futurepedia上的全部AI网站数据爬取下来呢

AI网络爬虫:批量爬取AI导航网站Futurepedia数据

网站一页有12个AI工具介绍,根据网站说明:We've categorized 5571 AI tools into 10 categories.,估计一共有465页。

每页的请求网址是:https://www.futurepedia.io/api/search

参数是

{"verified":false,"sort":"popular","feature":[],"pricing":[],"q":"","page":3}

{"verified":false,"sort":"popular","feature":[],"pricing":[],"q":"","page":4}

在ChatGPT中输入提示词

你是一个Python编程专家,完成一个Python脚本编写的任务,具体步骤如下

在F盘新建一个Excel文件:futurepediaio20240609.xlsx

爬取网页

请求网址:

https://www.futurepedia.io/api/search

请求方法:

POST

状态代码:

200 OK

远程地址:

127.0.0.1:10809

引荐来源网址政策:

strict-origin-when-cross-origin

请求载荷:{"verified":false,"sort":"popular","feature":[],"pricing":[],"q":"","page":{pagenumber}}

{pagenumber}从1开始,以1递增,以465结束

获取网页的响应,这是一个嵌套的json数据

获取json数据中“data”键的值,这也是一个json数据

提取每个json数据中所有键的名称,写入Excel文件的表头,所有键对应的值,写入Excel文件的数据列

保存Excel文件

注意:每一步都输出信息到屏幕

每爬取1页数据后暂停5-9秒

需要对 JSON 数据进行预处理,将嵌套的字典和列表转换成适合写入 Excel 的格式,比如将嵌套的字典转换为字符串。

要设置请求标头

Accept:

application/json, text/plain, **',

'Accept-Encoding': 'gzip, deflate, br, zstd',

'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',

'Content-Length': '77',

'Content-Type': 'application/json',

'Origin': 'https://www.futurepedia.io',

'Priority': 'u=1, i',

'Referer': 'https://www.futurepedia.io/?sort=popular',

'Sec-Ch-Ua': '"Google Chrome";v="125", "Chromium";v="125", "Not.A/Brand";v="24"',

'Sec-Ch-Ua-Mobile': '?0',

'Sec-Ch-Ua-Platform': '"Windows"',

'Sec-Fetch-Dest': 'empty',

'Sec-Fetch-Mode': 'cors',

'Sec-Fetch-Site': 'same-origin',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'

}

# 初始页码

page_number = 1

headers_written = False

# 数据处理函数:将嵌套的字典或列表转换为字符串

def clean_data(value):

if isinstance(value, (dict, list)):

return json.dumps(value, ensure_ascii=False) # 确保非 ASCII 字符被正确编码

return value

# 爬取数据

while page_number <= 465:

print(f"正在爬取第 {page_number} 页的数据...")

# 请求载荷

payload = {

"verified": False,

"sort": "popular",

"feature": [],

"pricing": [],

"q": "",

"page": page_number

}

# 发送 POST 请求

try:

response = requests.post(url, headers=request_headers, json=payload)

except Exception as e:

print(f"请求失败,错误信息:{e}")

break

# 检查请求是否成功

if response.status_code != 200:

print(f"请求失败,状态码:{response.status_code}")

break

# 获取 JSON 数据

data = response.json()

products = data.get("data", [])

if products:

if not headers_written:

# 获取 JSON 数据中的键作为表头

headers = set()

for product in products:

headers.update(product.keys())

headers = list(headers)

ws.append(headers)

headers_written = True

# 将数据写入 Excel

for product in products:

cleaned_product = [clean_data(product.get(header, "")) for header in headers]

ws.append(cleaned_product)

# 保存 Excel 文件

wb.save(file_path)

print(f"第 {page_number} 页的数据已写入 Excel 文件。")

# 随机暂停 5-9 秒

sleep_time = random.randint(5, 9)

print(f"暂停 {sleep_time} 秒...")

time.sleep(sleep_time)

else:

print(f"第 {page_number} 页没有数据。")

break

# 更新页码

page_number += 1

print(f"数据爬取完成,文件已保存至:{file_path}")

最新文章
10年+,阿里沉淀出怎样的搜索引擎?(v2019-09-24)
搜索引擎分为数据源聚合(俗称dump)、全量/增量/实时索引构建及在线服务等部分,以Tisplus为入口经由Bahamut(Maat进行工作流调度)-Blink-Hdfs/Swift-BuildService-Ha3-SP-SW等阶段对客户提供高可用/高性能的搜索服务。
Android深入浅出系列之Android开发环境搭建—SDK(三)
  安装SDK  1:下载SDK  只有下载了Android的,SDK(Software Development Kit)软件开发工具包,我们才能从事安卓的开发,SDK可以从Android的官方网站上下载,下载地址:http://developer.android.com/sdk/index.html,从图中可以看
AI时代云手机应用场景创新:百度智能云磐玉蜂巢服务器引领未来
新用户专享:「香港/美国云服务器」新购6折 低至9元/月!点击查看活动介绍>>>近期,百度智能云推出了新一代的磐玉蜂巢服务器,这款服务器采用最新芯片打造而成,是一款SoC阵列服务器。它不仅拥有高性能等众多优点,还将被广泛应用于各种场
flask框架滨大附院医药管理系统毕设源码+论文
本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。 在医疗行业不断发展的当下,医药管理系统的优化至关重要。关于医药管理系统的研究
2023年WordPress必备插件推荐,加速插件、SEO插件、安全插件等等[含下载地址]
WordPress 相当于一个还没有装修的房子,而插件就像是装修队伍,可以帮助房子增加各种功能,非常重要。搭建 WordPress 网站其实就是各种插件协同工作的过程,插件的质量直接影响网站的质量,今天一点Tips给大家推荐一些2023年WordPress必备
8点1氪|张庭恢复直播带货;12306要求第三方平台中止春运营销炒作;​王化辟谣小米在港拒招35岁以上员工
小菜园36氪获悉,小菜园公告,公司拟通过香港IPO全球发售1.01亿股股份,每股发售股份的发售价将为8.50港元,12月12日至17日招股,预期股份将于香港时间12月20日(星期五)上午九时正在联交所开始买卖。 张庭恢复直播带货,带货7小时销售额
500元组装最强主机(要装电脑主机5500元左右不算显示器键盘鼠标,主要玩cf暴雪游戏DNF什么配置好)
处理器:Intel-X5670 12线程*2个=24线程 散热器:超频三黄海豪华超级静音 主板 :泰安S7200 服务器主板 内存 :三星DDR44GB*4条=16GB 硬盘 :东芝120G固态+1TB机械硬盘 显卡 :昂达GTX750Ti显卡 机箱 :先马塞恩 电源 :金牌电源500W 合计
2024新奥门资料最精准免费大全|精选解释解析落实
2024新奥门资料最精准免费大全:精选解释与解析落实在2024年,新奥门(澳门)的免费资料大全成为了信息获取的重要渠道,这些资料涵盖了从历史文化到现代科技的广泛领域,为研究者和普通用户提供了丰富的资源,通过这些资料,用户可以深入了
360搜狗爆发“口水仗”搜索市场进入白刃战
9月23日~24日,全国全民阅读媒体联盟组织《人民日报》、新华社、中央电视台、《光明日报》、《中国新闻出版报》、《新京报》、《新民晚报》、《今晚报》等20家媒体共聚杭州,走进西湖读书节,感受阅读带给杭州的魅力。 在9月24日举行的第
0元gm权限手游哪个平台比较好 公认好用的gm权限手游平台排名
公认好用的GM权限手游平台因其提供的丰富游戏资源、丰厚福利和优质服务而受到玩家的喜爱。这些平台不仅让玩家能够体验到各种类型的变态版(BT版)、公益服以及拥有GM权限的手游,还通过多种方式提升玩家的游戏体验。以下是2024年公认的十大
相关文章
推荐文章
发表评论
0评