博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习探索性数据分析的数据类型(补充)
阅读量:4067 次
发布时间:2019-05-25

本文共 574 字,大约阅读时间需要 1 分钟。

探索性数据分析(Exploratory Data Analysis, EDA )

EDA是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。

离散属性:

若属性值间存在“序”(order)关系,可通过连续化将其转化为连续值。例如:

- 二值属性“身高”的取值“高”、“矮”可转化为{1.0, 0.0}
- 三值属性“高度”的取值“高”、“中”、“低”可转化为{1.0, 0.5, 0.0};

若属性间不存在序关系,假定有K个属性值,通常转化为k维向量,例如:

- 属性“瓜类”的取值“西瓜”、“南瓜”、“冬瓜”可转化为(0,0,1), (0,1,0), (1,0,0)

注意: 将无序属性连续化则会不恰当地引入序关系,对后续处理如距离计算等造成误导。

在讨论距离计算时,属性上是否定义了序关系很重要,有序的离散属性跟连续属性性质更接近一些,能够直接在属性值上计算距离:如{1,2,3},“1”与“2”比较接近,与“3”比较远。定义域为{飞机,火车,轮船}这样的无序离散属性则不能直接在属性值上计算距离。

周志华 《机器学习》

转载地址:http://snoji.baihongyu.com/

你可能感兴趣的文章
linux内核内存管理(zone_dma zone_normal zone_highmem)
查看>>
将file文件内容转成字符串
查看>>
循环队列---数据结构和算法
查看>>
优先级队列-数据结构和算法
查看>>
链接点--数据结构和算法
查看>>
servlet中请求转发(forword)与重定向(sendredirect)的区别
查看>>
Spring4的IoC和DI的区别
查看>>
springcloud 的eureka服务注册demo
查看>>
eureka-client.properties文件配置
查看>>
MODULE_DEVICE_TABLE的理解
查看>>
platform_device与platform_driver
查看>>
platform_driver平台驱动注册和注销过程(下)
查看>>
.net强制退出主窗口的方法——Application.Exit()方法和Environment.Exit(0)方法
查看>>
c# 如何调用win8自带的屏幕键盘(非osk.exe)
查看>>
build/envsetup.sh 简介
查看>>
C++后继有人——D语言
查看>>
Android framework中修改或者添加资源无变化或编译不通过问题详解
查看>>
linux怎么切换到root里面?
查看>>
linux串口操作及设置详解
查看>>
安装alien,DEB与RPM互换
查看>>