序言

R绘图神器-ggplot

1 ggplot2学习笔记1

R 可视化学习笔记

记参数挺费劲的,还是用的时候查官方文档吧,现在记个大概就行吧~

1.1 ggplot2分层次绘图

  • 把绘图与数据分离,把数据相关的绘图与数据无关的绘图分离,按图层作图。ggplot2可以把绘图拆分成多个图层,且能够按照顺序创建多重图形
  • 使用ggplot2包创建图形时,每个图形都是由函数ggplot()创建的,提供绘图的数据和映射
    • 数据(data):数据框对象
    • 映射(mapping):由aes()函数来设置映射

1.2 ggplot2绘图组件

列几种常见的部件其余可以参考官方文档

  • 几何对象(geom)
  • 统计变换(stats)
  • 标度(scale)
  • 坐标系(coord)
  • 分面(facet)
  • 主题(theme)

这些组件之间是通过“+”, 以图层(layer)的方式来粘合构图的,可以这样理解ggplot2中的图层:每个图层可以代表一个图形组件, 这些图形组件以图层的方式叠加在一起构成一个绘图的整体,在每个图层中的图形组件又可以分别设定数据、映射或其他相关参数,因此组件之间又是具有相对独立性的。越后面的图层越高。 例如

1.3 data

数据和映射

  • data: 用于指定要用到的数据源,必须使数据框类型

1.4 aes()

用来设定图形属性的

  • mapping:使用aes()函数指定每个变量的角色,除x和y之外的其他参数,例如,size、color、shape等,必须采用name=value的形式。

  • 在ggplot中设置的映射是默认映射关系,其他图层中可以继承该映射关系,或修改映射关系。也就是说,ggplot设置是全局的,其他图层可以继承或者进行修改参考案例

  • aes()中常见属性包括

    • x和y:用于指定x轴和y轴的变量
    • color:映射点或线的颜色
    • fill:映射填充区域的颜色
    • linetype:映射图形的线形(1=实线、2=虚线、3=点、4=点破折号、5=长破折号、6=双破折号)
    • size:点的尺寸和线的宽度
    • shape:映射点的形状

  • group:默认情况下ggplot2把所有观测点分为了一组

    • 如果需要把观测点按指定的因子进行分组处理,必须修改默认的分组设置

    • 分组也可以通过映射把视觉特征(shape、color、fill、size和linetype等)设置为变量来实现分组,分组通常使用因子来实现,这就要求在数据集中存在因子变量,用于对数据分类,实现图形的分组

    • group设置col区分不同属性

区分一下col和fill,一个是空心的,一个是实心的,fill是填充嘛 举个栗子 ## 设置fill区分不同的属性

1.5 factor

若变量是连续型的,则需要将变量离散化,因此factor出现了,否则报错Error: A continuous variable can not be mapped to shape

放一组对比代码查看各个参数的作用

1.6 fill属性

直接使用fill属性设置填充,是无效的,若不在aes里面设置color,需要结合fill和子图层的color,直接在子图层设置color属性值,也是无效的,因此需要分组 这里需要复习一下数据处理的的gather函数,由宽面板变为长面板

1.7 geom_xxx

  • 几何对象控制图层的渲染和生成的图像类型,例如,geom_point()会生成散点图,而geom_line会生成折线图。

    • 函数ggplot()可以设置图形,但是没有视觉输出,需要使用一个或多个几何函数向图形中添加几何对象(geometric,简写为geom),包括点(point)、线(line)、条(bar)等,而添加几何图形的格式十分简单,通过符号“+”把几何图形添加到plot中

    ggplot2官方文档geom_xxx

  • geom_text()添加文本

  • geom_bar()条形图

    • position geom_bar()里面的位置调整参数 -identity(默认)
    • jitter
    • stack 堆叠
    • fill 堆叠显示百分比
    • dodge 并列
    • posn_d overlab 叠加
  • geom_points() 散点图==scatter

举个栗子

  • geom_histgram 柱状图

- geom_freqpoly 柱状图的曲线图

- lines 时间序列图 - geom_rect()

geom_xxx常见参数

  • color:对点、线和填充区域的边界进行着色
  • fill:对填充区域着色
  • alpha:演示的透明度,从透明(0)到不透明(1)
  • linetype:图案的线条(1=实线、2=虚线、3=点、4=点破折号、5=长破折号、6=双破折号)
  • size:点的尺寸和线的宽度
  • shape:点的形状(和par()函数的pch参数相同)
  • position:绘制条形图和点等对象的位置

举个栗子

设置position之后,明显看清了,因该是调整了刻度

  • binwidth:分箱的宽度
  • notch:表示方块图是否应该有缺口
  • sides:地毯图的位置(“b”=底部、“l”=左部、“r”=右部、“bl”=左下部,等)
  • width:箱线图的宽度 label and shape are only applicable to categorical data.

1.8 geom_jitter()

在R中散点图的时候会经常出现,点重合比较严重的现象,这对我们寻找数据规律或者观察数据有很大的干扰。因此R中,可以用geom_jitter()函数来调整,消除点的重合。

就参数而言,geom_jitter()和其他函数差别不大,特别的两个参数是width,height

  • width 用于调节点波动的宽度

  • height 用于调节点波动的高度

例如有一个散点图

经过处理之后,明显不重合了

1.9 scale

  • 标度:标度控制着数据到图形属性的映射,更重要的一点是标度将我们的数据转化为视觉上可以感知的东西, 如大小、颜色、位置和形状。所以通过标度可以修改坐标轴和图例的参数 scale

1.10 常见scale

  • labs()标签 xlab() ylab() ggtitle()
  • 图形选项(颜色、size、形状、线形等)

自定义图形选项

scale_colour_manual() scale_fill_manual() scale_size_manual() scale_shape_manual() scale_linetype_manual() scale_alpha_manual() scale_discrete_manual() - 坐标轴 标度是区分离散和连续变量的,标度用于将连续型、离散型和日期-时间型变量映射到绘图区域,以及构造对应的坐标轴

1.11 坐标轴

坐标系统确定x和y美学如何组合以在图中定位元素。默认的坐标系是笛卡尔坐标系,coord_cartesian(),笛卡尔坐标系是最常用的坐标系,函数coord_flip() 用于反转笛卡尔坐标系,把x轴和y轴对调,一般采用默认的额

1.12 facet

这个参数一开始我不太懂是用来做什么的

  • rows, cols
    A set of variables or expressions quoted by vars() and defining faceting groups on the rows or columns dimension. The variables can be named (the names are passed to labeller). For compatibility with the classic interface, rows can also be a formula with the rows (of the tabular display) on the LHS and the columns (of the tabular display) on the RHS; the dot in the formula is used to indicate there should be no faceting on this dimension (either row or column). 数据框的行列,变量

  • scales

    • “fixed” x和y的标度在所用平面中都相同,在不同分面中进行固定
    • “free_x” 固定x轴,y轴自由变化
    • “free_y” 固定y轴,x轴自由变化
    • “free” x和y的标度在每个版面都可以变化
  • space If “fixed”, the default, all panels have the same size. If “free_y” their height will be proportional to the length of the y scale; if “free_x” their width will be proportional to the length of the x scale; or if “free” both height and width will vary. This setting has no effect unless the appropriate scales also vary.

  • 可以根据数据的不同分组, 将图形按照水平或者垂直方向进行分割,同时可以共享x轴或者y轴

  • 分组和刻面都用于对数据分组,便于观察各自的规律、趋势和模式,不同的是,分组是把图形绘制到一个大的图形中,通过美学特征来区分,而刻面是把图形绘制到不同的网格中。

  • 刻面是在一个画布上分布多幅图形,这一过程需要先把数据划分为多个子集, 然后把每个子集依次绘制到画布的不同面板中

    • facet_grid()在网格分面
      • 根据数据不同可以绘制共用x轴或者y轴的子图,python中的subplots,
  • facet_wrap()将一维面板的丝带缠绕成二维,封装分面,自动分成2x4, 3x2等版块
  • vars()引用分面变量 具体可以参考 ## theme

主题

1.13 为何使用ggplot

因为省代码:smile:hahah~ 来一个栗子对比一下 - 基础包里面的plot绘图

## [[1]]
## NULL
## 
## [[2]]
## NULL
## 
## [[3]]
## NULL
## 
## [[4]]
## NULL
## 
## [[5]]
## NULL
## 
## [[6]]
## NULL
## 
## [[7]]
## NULL
## 
## [[8]]
## NULL
## 
## [[9]]
## NULL
## 
## [[10]]
## NULL
## 
## [[11]]
## NULL
## 
## [[12]]
## NULL
## 
## [[13]]
## NULL
## 
## [[14]]
## NULL
## 
## [[15]]
## NULL
## 
## [[16]]
## NULL
## 
## [[17]]
## NULL
## 
## [[18]]
## NULL
## 
## [[19]]
## NULL
## 
## [[20]]
## NULL
## 
## [[21]]
## NULL
## 
## [[22]]
## NULL
## 
## [[23]]
## NULL
## 
## [[24]]
## NULL
## 
## [[25]]
## NULL
## 
## [[26]]
## NULL
## 
## [[27]]
## NULL
## 
## [[28]]
## NULL
## 
## [[29]]
## NULL
## 
## [[30]]
## NULL
## 
## [[31]]
## NULL
## 
## [[32]]
## NULL

ggplot绘图

1.15 qplot

快速作图,类似与plot

2 ggplot学习笔记2

2.1 stats

增加 统计变换

stat_xxx

这个我还是不知道有啥区别

  • 统计变换是对数据进行统计,通常以某种方式对数据信息进行汇总,例如通过stat_smooth()添加光滑曲线。

  • 每一个几何对象都有一个默认的统计变换,并且每一个统计变换都有一个默认的几何对象

2.2 stat_smooth

  • 对原始数据进行某种统计变换计算,然后在图上表示出来,例如对散点图上加一条回归线

  • 添加默认曲线

  • method 表示指定平滑曲线的统计函数,如lm线性回归, glm广义线性回归, loess多项式回归, gam广义相加模型(mgcv包), rlm稳健回归(MASS包)

    • formula 表示指定平滑曲线的方程,如 y~x, y~poly(x, 2), y~log(2) ,需要与method参数搭配使用
    • se 表示是否显示平滑曲线的置信区间,默认TRUE显示;level = 0.95
## 'data.frame':    32 obs. of  11 variables:
##  $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
##  $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
##  $ disp: num  160 160 108 258 360 ...
##  $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
##  $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
##  $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
##  $ qsec: num  16.5 17 18.6 19.4 17 ...
##  $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
##  $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
##  $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
##  $ carb: num  4 4 1 1 2 1 4 2 2 4 ...

以下为ggplot2提供的其他统计变换方式,也可以自己写函数基于原始数据进行计算。CNBLOG