分享好友 最新动态首页 最新动态分类 切换频道
手把手学爬虫第五弹——数据清洗与数据分析
2024-12-27 13:03

手把手学爬虫第五弹——数据清洗与数据分析

    数据清洗是指当我们通过爬虫获取数据以后对数据进行清洗,通过python对于数据中的空值、异常值、无效值进行修改删除。进而对清洗后的数据进行分析处理。

使用Numpy处理数据

初识Numpy数组

    NumPy是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库.

创建Numpy数组

    创建一个Numpy的方式有很种,下面我们逐一进行了解测试.

  • 使用array()函数
    array()函既可以创建一维数组也可以创建二维数组。
 
  • 使用zeros()函数
    zerios()函数创建元素值都是0的数组
 
  • 使用ones()函数
    ones()函数创建元素值都为1的数组
 
  • 使用empty()函数
 
  • 使用arange()函数
 
利用NumPy数组进行数据处理
  • 将条件逻辑转为数组运算
        NumPy的where()函数是三元表达式x if condition else y的矢量版本。
 
  • 数组统计运算
 

数据分析工具Pandas

初识Pandas

    Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。

Pandas数据结构
Series

Series 类似表格中的一个列(column,类似于一维数组,可以保存任何数据类型。

 

参数说明
data:一组数据(ndarray 类型)。
index:数据索引标签,如果不指定,默认从 0 开始。
dtype:数据类型,默认会自己判断。
name:设置名称。
copy:拷贝数据,默认为 False。

  • 创建方式1
 
  • 创建方式2
 
  • 创建方式3
 
DataFrame

    DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

 

参数说明
data:一组数据(ndarray、series, map, lists, dict 等类型)。
index:索引值,或者可以称为行标签。
columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
dtype:数据类型。
copy:拷贝数据,默认为 False。

  • 创建方式1
 
  • 创建方式2
 
  • 根据索引获取值
 
  • 通过属性访问
 
  • 添加数据
 
  • 删除数据
 
Pandas索引操作以及高级索引
索引对象

    Pandas中的索引都是index对象,又称为索引对象,该对象不可修改。
    索引对象不可修改的特性非常重要,这样使得多个数据结构之间能够很安全的共享index对象。

 
重置索引

    reindex()方法作用是对原索引和新索引进行匹配,即,新索引有缘索引的数据,而原索引数据按照新索引排序。

index, columns:要符合的新标签/索引
method:None 、 backfill 、 bfill、pad、ffill、nearest可选
fill_value:可指定填充缺失值
limit:向前或向后填充的最大连续元素数

 
 
索引操作
  • Series索引操作
    Series的索引用法类似于Numpy数组的索引,但是Series的索引既可以通过索引的位置获取、也可以通过索引的名称获取。
 
  • 获取不连续的数据
 
  • DataFrame的索引操作
    DataFrame结构既可以包含行索引、也可以包含列索引。其中,行索引是通过index属性进行获取,列索引是通过columns属性进行获取。
 
  • DataFrame获取不连续的Series对象
 
  • 索引高级操作
    loc:基于标签索引(索引名称,用于按标签选取数据。执行切片操作时,既包含起始索引又包含结束索引。
    iloc:基于位置索引(整数索引,用于按位置选取数据。执行切片操作时,只包含起始索引,不包含结束索引。
 
数据排序
按索引排序
 

axis:0按照行名排序;1按照列名排序
level:默认None,否则按照给定的level顺序排列
ascending:默认True升序排列;False降序排列
inplace:默认False,否则排序之后的数据直接替换原来的数据
kind:排序方法

 
 
 
按值排序

参数即用法同按索引排序。

 
 
 
读写数据操作
读写CSV文件

Pandas为我们提供了read_csv读取CSV文件,该函数涉及参数较多,但是只有几个常用,具体的在这里我就不一一列举,感兴趣的可以看看这个博客read_csv)。下面写个实例看看怎么使用。

 
 
读取txt文件
 
 
读取Excel文件
 
 
读取MySQL数据库
 

sql:SQL命令字符串
con:连接sql数据库的engine,一般可以用SQLalchemy或者pymysql之类的包建立
index_col: 选择某一列作为index
coerce_float:非常有用,将数字形式的字符串直接以float型读入
columns:要选取的列。一般没啥用,因为在sql命令里面一般就指定要选择的列了

 
 
读取mongodb数据库
 
 
数据预处理
空值和缺失值处理

在python里面一般空值使用None表示,缺失值使用NaN表示。Pandas中提供了一些用于检查或处理空值和缺失值的函数。

  • isnull()函数
        该函数的参数只有一个,表示检查空值的对象。
 
  • notnull()函数
 
groupby()数据分组
  • 通过列名分组
 
  • 通过Series对象分组
 
通过字典分组
 
 

    今天的博客就到这了,本期我们一起学习了数据清洗与数据分析,因为这是一个很庞大的体系,所以我这里只列举了常用的一些,当然,也可能有遗漏的地方,后续我会继续添加补充。
    下一期我将带领大家学习爬虫的最后一弹,利用我们清洗完成的数据实现数据可视化。一起期待吧。
    如果你发现有问题或者有遗漏,欢迎指正~~

最新文章
【整站源码+每天自动采集】羊毛部落赚客资讯类网站源码/无人值守采集/养站站群专用
【整站源码+每天自动采集】羊毛部落赚客资讯类网站源码/无人值守采集/养站站群专用源码介绍薅羊毛资讯博客自动采集站源码,wordpress后台前后端均为响应式布局方便管理,支持用户注册科投稿。1、内置大量文章,安装后即可运营省时省力;2、
网络推广工具种类有哪些
网络推广工具种类繁多,可以根据推广目标和策略选择适合的工具。以下是一些常见的网络推广工具类别:1. 社交媒体管理工具: - 用于管理和优化社交媒体平台上的内容和广告。例如,Buffer、Hootsuite、Sprout Social。2. 搜索引擎优化工具(S
排列五开奖结果第2021327期 一等奖中出189注
  每天晚上20点30分,一起来和我关注体彩排列五开奖结果。今天是2021年12月07日,中国体育彩票排列三第2021327期开奖号码如下。排列五作为排列三的延伸,堪称排列三的老大哥,只有一个奖级设置,奖金高达10万元,故而深得彩民朋友的热爱
福建网站排名优化费用是如何计算的?
福建网站seo优化百度搜索引擎关键词快速排名推广提升自然流量点击SEO优化师、网站设计师、梦想者您的流量获取专家“创新互联”成立于2013年,是一家注重效果与用户体验的运营公司,创立至今为500多家企业提供了针对于网站的搜索引擎优化方
短网址生成器:提升链接分享与搜索引擎索引效率的利器
在日常生活和工作中,我们经常需要分享和传递链接,无论是在社交媒体上发布内容、发送电子邮件还是在广告宣传中,链接的长度往往是一个挑战,特别是对于一些复杂的、包含多个参数的链接来说。长长的链接不仅不美观,还可能被截断或错误地复
用AI绘画技术生成高清美女写真,轻松成为数字艺术大师!
在数字时代,生成艺术品的方式正在悄然改变。你是否曾梦想拥有自己理想的美女写真?而如今,借助人工智能技术,我们不仅可以实现这样的愿望,还能让生成过程变得轻松而有趣。那么,如何通过AI生成超逼真的美女写真呢?本文将带你探索这场科
震惊科技圈!他被发现死在家中,年仅26岁
点击上方蓝字,再点服务,点击听广播!今天(12月14日)北京时间12月14日旧金山首席法医办公室称曾在OpenAI工作近四年的前员工Suchir Balaji最近被发现死在他位于旧金山的公寓中旧金山首席法医办公室执行主任David Serrano Sewell周五已在
龙鞭保健酒加盟
           龙鞭保健酒智慧之选优势:(一)、多方面的综合市场调查:公司定期进行各种专业市场调研并把各种数据进行科学分析、汇总为您下一步运作市场提供更充分的参考依据。(二)、全程的市场策划:1、公司聘请着名营销策划为目标市
梦幻西游总共有多少种兽决
梦幻西游总共有多少种兽决?梦幻西游中获得兽决需要人物总经验达到一定的数量,目前游戏中共有多少种类呢,好像还有很多小伙伴还不清楚,接下来,小编就带大家来观看下吧。答:12种。须弥真言:主要是增加魔力*40%的法术伤害力,瞬法必备技
闲聊热播剧《叛逆者》中出现的时代元素:康可尔咖啡馆、罗便臣邮政局与德律风
热播剧《叛逆者》展示的故事背景是本世纪三四十年代的上海、香港与陪都重庆的风貌。在电视剧一开始,国民党特务林楠笙伪装成进步青年,想接近年轻的地下党朱怡祯,由于不知道对方的真实身份与真实目的,由童瑶扮演的朱怡祯和半真半假地喜欢
相关文章
推荐文章
发表评论
0评