创建数字钱包（三）助记词

发表于 2019-01-24 更新于 2019-05-07 分类于 Blockchain

BIP39解释

定义

BIP39^1定义了一种将计算机产生的随机数翻译成人类可读的方式，初衷很简单：结合BIP32^2，辅助人类记忆产生主密钥的种子。

主要概念

initial entropy (ENT)
check sum (CS)
mnemonic sentence (MS)
wordlists

这三者的长度关系如下：

1 2	CS = ENT/32 MS = (ENT + CS)/11 化简成 MS = 3 * CS

举个例子，如果初始熵长度为 128，ENT/CS/MS组成的关系表格填充如下：

ENT	CS	MS
128	4	12

初始熵 initial entropy

初始熵可以通过随机数生成器生成，允许的大小在 128-256 bits 范围之内。

校验码 check sum

校验码利用初始熵经过哈希得出，而且长度必须是$ENT/32$。

助记词 mnemonic sentence

助记词需要将初始熵和校验码拼接，然后切分成每11位为一组，每一组二进制数转换成十进制数作为索引wordlists的下标，以便提取对应的词汇。以128位的ENT为例，它最终会产生12个词汇。

词汇表 wordlists

词汇表的构成是有原则可遵守的，其一，词汇之间可辨识性强，英文的词汇在前4个词汇就能有很快速的区分；其二，避免相似的词语，人毕竟是健忘的；其三，词汇应该排过序，便于二分查找。

代码解释

下面利用Nodejs版本的BIP39^3解释

function generateMnemonic (strength, rng, wordlist) {
  strength = strength || 128
  if (strength % 32 !== 0) throw new TypeError(INVALID_ENTROPY)
  rng = rng || randomBytes

  return entropyToMnemonic(rng(strength / 8), wordlist)
}

generateMnemonic(...)函数的参数rng全称是random number generator，即随机数发生器，默认是randomBytes。此处，ENT的默认长度是128位，运行randomBytes(128/8)将产生了16字节的随机数。然后调用entropyToMnemonic(...)函数生成助记词。

function entropyToMnemonic (entropy, wordlist) {
  if (!Buffer.isBuffer(entropy)) entropy = Buffer.from(entropy, 'hex')
  wordlist = wordlist || DEFAULT_WORDLIST

  // 128 <= ENT <= 256
  if (entropy.length < 16) throw new TypeError(INVALID_ENTROPY)
  if (entropy.length > 32) throw new TypeError(INVALID_ENTROPY)
  if (entropy.length % 4 !== 0) throw new TypeError(INVALID_ENTROPY)

  var entropyBits = bytesToBinary([].slice.call(entropy))
  var checksumBits = deriveChecksumBits(entropy)

  var bits = entropyBits + checksumBits
  var chunks = bits.match(/(.{1,11})/g)
  var words = chunks.map(function (binary) {
    var index = binaryToByte(binary)
    return wordlist[index]
  })

  return wordlist === JAPANESE_WORDLIST ? words.join('\u3000') : words.join(' ')
}

entropyBits是entropy的二进制表示；checksumBits是entropy经由SHA256计算得到的哈希值再截断到CS的长度得来的，调用deriveChecksumBits(...)函数产生checksumBits的逻辑如下：

function deriveChecksumBits (entropyBuffer) {
  var ENT = entropyBuffer.length * 8
  var CS = ENT / 32
  var hash = createHash('sha256').update(entropyBuffer).digest()

  return bytesToBinary([].slice.call(hash)).slice(0, CS)
}

这里的计算和前面长度关系规则完全吻合，checksumBits通过slice(0, CS)截断得到4位的二进制数。

计算得到entropyBits和checksumBits之后，把它们拼接到一起，得到一组bits，然后按每组11bits分隔，这里使用了正则表达式 bits.match(/(.{1,11})/g)，正则表达式(.{1,11})表示对任意1-11个bit进行分组，由于正则默认是最长匹配，所以每11位就被分成了一组。最终，每组二进制数都会被转成十进制数，进而作为词汇表的下标索引对应的词汇，详细见上文的chunks.map(function (binary) ... 过程。

中文词汇表

BIP39其实并没有定义词汇表，所以不同的自然语言都可以自行实现自己的词汇表。NodeJS版本的BIP39^3就支持中文的词汇表。

1
2
3

var mnemonic = bip39.generateMnemonic(160, null, bip39.wordlists.chinese_simplified)
->
'定 过 丘 搭 斥 紫 遍 官 寿 穿 贯 别 讯 卵 符'

除了中文的词汇表，它还支持下列词汇，如：繁体中文等。

export const wordlists: {
    EN: string[];
    JA: string[];
    chinese_simplified: string[];
    chinese_traditional: string[];
    english: string[];
    french: string[];
    italian: string[];
    japanese: string[];
    spanish: string[];
};

生成BIP32种子

拿到助记词之后，就可以从助记词生成种子。这里其实使用了pbkdf2算法，不过有趣的是，参数mnemonic反而是pdkdf2算法中的password参数：

function mnemonicToSeed (mnemonic, password) {
  var mnemonicBuffer = Buffer.from(unorm.nfkd(mnemonic), 'utf8')
  var saltBuffer = Buffer.from(salt(unorm.nfkd(password)), 'utf8')

  return pbkdf2(mnemonicBuffer, saltBuffer, 2048, 64, 'sha512')
}