当前位置: 首页 > 图灵资讯 > 行业资讯> 八个数据清洗的Python代码(复制即可使用)

八个数据清洗的Python代码(复制即可使用)

发布时间:2025-04-06 15:42:34

数据清洗是数据分析和使用数据培训模型的唯一途径,也是数据科学家/程序员精力消耗最多的地方。

这些用于数据清洗的代码有两个优点:一是由函数编写,可以直接使用,无需更改参数。第二,它非常简单,最长的注释只有11行。

在介绍每一段代码时,都给出了用途,并在代码中注释。

你可以收集这篇文章作为工具箱使用。

数据清洗代码涵盖8个场景

这些数据清洗代码共有8个场景,分别是:

删除多列,更改数据类型,将分类变量转换为数字变量,检查缺失的数据,删除列中的字符串,删除列中的空间,用字符串连接两列(条件)、转换时间戳(从字符串到日期时间格式)

删除多列

在数据分析中,并非所有列都有用,使用df.drop可以很容易地删除您指定的列。776fa070fdf5b4ef0616a2b487214cc.png

转换数据类型

当数据集变大时,需要转换数据类型来节省内存。

0a9e9242c59e5cd619a6f0b5ccf6893.png

将分类变量转换为数值变量

一些机器学习模型要求变量采用数值格式。这需要将分类变量转换为数值变量。同时,您还可以保留分类变量进行数据可视化。

ee3946a74530dc8ac61b71d003c8dd9.png

检查缺失的数据

如果要检查每列数据丢失的数量,使用以下代码是最快的方法。它可以让你更好地了解哪些列丢失了更多的数据,从而确定如何清理和分析下一步的数据。

097481b5250cc58a887e01a8648b80f.png

删除列中的字符串

有时,字符串列中会出现新的字符或其他奇怪的符号,可以使用df[col_1’].replace很容易处理掉它们。

a2958e38fb1e74eb91b62db82e64b6b.png

删除列中的空间

当数据混乱时,任何情况都可能发生。字符串开头经常有一些空间。删除列中字符串开头的空间时,以下代码非常有用。

329a79a4d0428bb29139676bdd69ef3.png

用字符串连接两列(带条件)

当你想有条件地用字符串连接这两列时,这个代码很有帮助。例如,您可以在第一列的结尾设置一些字母,然后使用它们与第二列连接。

在连接完成后,还可以删除结尾的字母。

c903fad9ccd7e51bfd79765537e0714.png

转换时间戳(从字符串到日期时间格式)

在处理时间序列数据时,我们很可能会遇到字符串格式的时间戳列。

这意味着将字符串格式转换为日期时间格式(或根据我们的需要指定的其他格式) ,以便对数据进行有意义的分析。

1326d423f3e77a04daa3f54d87a2d8b.png

python学习网,大量免费python视频教程,欢迎在线学习!

本文转自:https://www.jianshu.com/p/b78affa196a

相关文章

如何让vim支持python3

如何让vim支持python3

2025-09-12
python2.7和3.6区别有哪些

python2.7和3.6区别有哪些

2025-09-12
python3有serial库吗

python3有serial库吗

2025-09-12
python中w、r表示什么意思

python中w、r表示什么意思

2025-09-12
python中如何把list变成字符串

python中如何把list变成字符串

2025-09-12
python命名空间是什么

python命名空间是什么

2025-09-12