Solidity数据存储位置及成本详解【storage/memory/calldata】

如果你要优化Solidity合约的gas成本,变量的数据存储位置是第一个 要考虑的因素。在这个教程中,我们将深入学习Solidity中的数据存储机制, 包含以太坊虚拟机EVM的介绍、Solidity的三种数据存储位置的 区别以及不同情况下跨区域数据赋值的gas成本分析与利用等内容。

用自己熟悉的语言学习 以太坊DApp开发Java | Php | Python | .Net / C# | Golang | Node.JS | Flutter / Dart

1、以太坊虚拟机

在开始探讨Solidity的数据存储之前,我想先介绍下以太坊虚拟机 的一些相关内容,以便更容易理解后续的部分。

EVM的内部结构大致如下图所示:

当我们安装以太坊客户端时,它其中就包含了EVM这个专门用于运行 智能合约的轻量级操作系统。EVM的架构基于栈机器模型,这意味着 其指令集是基于栈而非寄存器来运作的。EVM操作码清单在黄皮书中 有描述,具体可查阅以太坊虚拟机操作码和指令参考手册

在EVM中指令的执行流程如下:当一个交易触发智能合约代码的执行时, 就会实例化一个EVM,EVM的ROM载入了要调用的合约代码。程序计数器 被清零,存储从合约账号对应的部分载入,内存清零,设置区块和环境 变量,然后代码开始执行。

2、Solidity变量的数据存储位置

现在让我们回到memory关键字。从0.5.0版本开始,所有的复杂类型必须 显式指定其存储的数据位置,有三种可选的数据位置:memory、storage 和calldata。

注意:唯一可以省略数据位置声明的是状态变量,因为状态变量始终保存 在账号的存储中。

storage/存储

  • 存储中的数据是永久存在的。存储是一个key/value库
  • 存储中的数据写入区块链,因此会修改状态,这也是存储使用成本高的原因。
  • 占用一个256位的槽需要消耗20000 gas
  • 修改一个已经使用的存储槽的值,需要消耗5000 gas
  • 当清零一个存储槽时,会返还一定数量的gas
  • 存储按256位的槽位分配,即使没有完全使用一个槽位,也需要支付其开销

memory/内存

  • 内存是一个字节数组,槽大小位256位(32字节)
  • 数据仅在函数执行期间存在,执行完毕后就被销毁
  • 读或写一个内存槽都会消耗3gas
  • 为了避免矿工的工作量过大,22个操作之后的单操作成本会上涨

calldata/调用数据

  • 调用数据是不可修改、非持久化的区域,用来保存函数参数,其行为类似于内存
  • 外部函数的参数必须使用calldata,但是也可用于其他变量
  • 调用数据避免了数据拷贝,并确保数据不被修改
  • 函数也可以返回使用calldata声明的数组和结果,但是不可能分配这些类型

3、Solidity数据位置与赋值成本的研究

如果你不期望合约代码出现不可预计的行为,重要的一点是理解数据位置的 赋值是如何运作的。

下面列出了不同位置的变量间赋值的一些规则:

  • 在存储和内存(或调用数据)间的赋值将创建一个新的独立拷贝
  • 内存之间的赋值仅创建引用,这意味着对一个内存变量的修改会 同时反应在其他引用相同数据的内存变量上
  • 从存储到局部存储变量的赋值,实际上只会给一个引用
  • 所有其他赋值通常导致产生新的数据拷贝。例如赋值给状态变量 或位于存储的结构类型的局部变量成员时,即使局部变量只是一个 引用,也会产生新的数据拷贝

下面让我们用remix debugger 深入研究一下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
// SPDX-License-Identifier: GPL-3.0

pragma solidity ^0.7.0;

contract DataLocationTest {

uint[] stateVar = [1,4,5];

function foo() public{
// case 1 : from storage to memory
uint[] memory y = stateVar; // copy the content of stateVar to y

// case 2 : from memory to storage
y[0] = 12;
y[1] = 20;
y[2] = 24;

stateVar = y; // copy the content of y to stateVar

// case 3 : from storage to storage
uint[] storage z = stateVar; // z is a pointer to stateVar

z[0] = 38;
z[1] = 89;
z[2] = 72;
}

}

用上面的代码创建一个新文件,然后部署合约。现在试着调用函数, 你将会在控制台看到交易的详细信息以及旁边的debug按钮。点击这个 按钮:

这时应当可以看到调试器区域大致如下:

点击上图中红色标识的箭头,单步执行代码。

你应当注意到的第一件事,是存储载入了stateVar的内容,这正如我们 之前在EVM部分提到的,当然,这里没有局部变量。

当你继续单步执行时,你应当会看到变量y出现在局部变量区域(Solidity Locals)。 继续单步执行,你还会看到需要执行很多字节码来创建必要的内存空间、 从存储中载入所有数据并将其拷贝到内存。这意味着需要支付更多的gas, 因此从存储区域到内存区域的赋值非常昂贵。

现在让我们研究下第二种情况:从内存区域赋值给存储区域。 例如当你修改完内存变量后,可能需要将修改存回存储区域。 这时也会消耗许多gas。如果我们计算debugger中单步执行前后的 剩余gas差,可以看到消耗了17083 gas。该操作用了4个SSTORE 指令:第一个用于保存数组大小,消耗800gas,其他三个用于 更新数组的值,每个消耗5000gas。

接下来让我们看看第三种情况:从存储区域赋值给存储区域。 这一次会创建一个新的局部变量来保存stateVar的值。如果我们 查看代码的执行过程,就会注意到Solidity做的就是将第一个存储 槽位的地址推入栈,该槽位保存有数组长度。根据文档说明,对 动态数组而言,槽的位置包含了数组的长度。

如果我们比较不同情况下将数据拷贝进内存的成本,那么 根据上述情况(更新并拷贝回存储:21629 gas,创建引用并 直接更新状态:5085gas),非常清楚的是第二种方案的成本 要低得多。

但是如果我们要直接更新状态变量,例如:

1
stateVar[0] = 12;

这也是可行的,不过如果你要处理映射和嵌套的数据类型,使用 存储指针会让代码可读性更强。


原文链接:Learn Solidity: Variables (Part 2)

汇智网翻译整理,转载请标明出处