目录

  • 1 认识数据与大数据
    • 1.1 1课 感知数据
    • 1.2 2课 认识信息
    • 1.3 3课 数字化与数制转换
    • 1.4 4课 数据编码与压缩
    • 1.5 5课 数据科学与大数据
  • 2 算法与程序实现
    • 2.1 6课 解决问题的一般过程和用计算机解决问题
    • 2.2 7课 算法的概念及描述
    • 2.3 8课 Python语言基础
    • 2.4 9课 顺序结构的程序实现
    • 2.5 10课 语句与程序结构——单、双分支结构
    • 2.6 11课 语句与程序结构——多分支选择结构
    • 2.7 12课 语句与程序结构——循环结构(while语句)
    • 2.8 13课 语句与程序结构——循环结构(for语句)
    • 2.9 14课 语句与程序结构——循环嵌套及其程序实现
    • 2.10 15课 语句与程序结构——break和continue语句
    • 2.11 16课 基于解析算法的问题解决
    • 2.12 17课 基于枚举算法的问题解决
    • 2.13 18课 算法与程序实现的综合应用1
    • 2.14 19课 算法与程序实现的综合应用2
  • 3 数据处理与应用
    • 3.1 20课 数据处理的一般过程
    • 3.2 21课 数据采集
    • 3.3 22课 数据整理
    • 3.4 23课 数据分析
    • 3.5 24课 数据可视化之图表
    • 3.6 25课 数据可视化之词云
    • 3.7 26课 数据分析报告与应用
  • 4 走进智能时代
    • 4.1 27课 认识人工智能
    • 4.2 28课 人工智能平台中的智能工具
    • 4.3 29课 编程调用平台中的智能工具
    • 4.4 30课 人工智能的应用与影响
22课 数据整理

(1)理解数据整理的目的,掌握数据整理的基本方法。

(2)能根据需求选择适当的工具整理数据。

(3)应用恰当的方法保护数据,理解对数据进行保护的重要意义,增强数据安全意识。

通过“关于种植大棚蔬菜的天气情况数据的整理”的项目体验与探究,了解数据整理的目的,能通过分析数据,找出数据中的存在的问题然后整理数据。

安装有python编辑器的可上网的电脑。

思考并回答以下问题:


我们已经知道天气情况是影响蔬菜生长的重要因素之一,了解天气情况对大棚蔬菜的种植和生长有着至关重要的作用,对提高蔬菜种植的控制能力具有十分重要的意义。针对“关于大棚蔬菜种植条件的研究”这个大项目,上节课我们一起已经为此采集了某地2018年全年的天气情况,准备通过分析这些数据,指导以后大棚蔬菜的种植工作。经过讨论观察,我们发现数据有以下问题:

(1)数据重复

(2)数据为空

(3)数据异常

(4)数据缺少

所以对采集的数据进行标准化整理是我们这节课需要解决的问题。我们可以使用Excel等软件或平台,但是使用Excel等软件会对源数据进行破坏,而且Excel对大数据处理效率也较低,为了克服这些困难,可以使用python语言中的pandas标准库对数据进行整理。

任务:使用python语言导入“天气情况_未整理.csv”文件,简单了解数据的情况。

微课1:安装库


操作建议:

df=pd.read_csv('天气情况_未整理.csv')   #导入“天气情况_未整理.csv”文件

(1)了解DataFrame的二维表格的数据结构。

说明:Pandas中有两个重要的数据结构:Series和DataFrame 。

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同数据类型的数据。DataFrame既有行标签也有列标签。

如下图所示:

 

(2)理解DataFrame标签的意义和作用。

微课2:通过标签获取信息


使用行和列标签获取 DataFrame 的行、列或单个元素的信息

例如:获取“星期”列信息:df[[‘星期’]]

          获取第2行信息:df.loc[[1]]

          获取单个元素信息:df[‘星期’][1]

学生

实践活动(A、B、C)

注:A=非常符合,B=符合,C=不符合

自评

教师评

理解DataFrame



理解DataFrame标签



使用标签获取数据信息



什么是“脏数据”。


答案:“脏数据”是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。包括数据重复、数据为空、数据异常和数据缺少等情况。


任务:整理“脏数据”

(1)我们怎样查看数据是否重复,怎样去除重复数据。

微课3:整理重复数据



(2)查看是否有空值,对空值有哪些处理方式,怎样对空值内容重新录入。

微课4:整理空值数据


 

 

 

(3)怎样判断哪些是异常的数据,对异常的数据的处理方式有哪些,怎样选择合适的方式处理异常数据。

微课5:整理异常数据


 

(4)怎样增加正确的数据。

微课6:整理缺失数据


 

学生

实践活动(A、B、C)

注:A=非常符合,B=符合,C=不符合

自评

教师评

理解“脏数据”



查看“脏数据”



整理“脏数据”



任务:根据提供“weatherprocessing.py”程序对数据进行分析和整理。数据整理完成后,简单查看各种统计数据,确保数据经过整理,已经标准化并且导出整理好的数据进行保存。并思考以下问题:

(1)怎样才算是标准化的数据

(2)怎样导出数据

操作建议:

(1)查看数据简单统计信息:df.describe()

(2)对整理好的数据进行导出保存: df.to_csv('天气情况_已整理.csv',encoding='utf_8_sig')

任务:安全的保存数据。并思考以下问题:

(1)数据安全的威胁主要有哪些?

   答:计算机病毒,黑客攻击,数据存储介质损坏和个人失误等。

(2)我们怎样安全的保护数据?

   答:移动存储设备备份,云存储备份和数据加密等。

(3)云存储备份操作

答:使用百度网盘上传备份整理好的数据。

参考“百度网盘使用图解教程.doc”

每个小组根据南水北调工程项目制定的项目规划,整理相关数据。

1.各组根据采集的相关水资源数据,进行异常数据处理,删除重复数据,增加缺少的数据,填写数据中的空值。

2.将数据保存为CSV格式文件。