创建数字钱包(三)助记词

BIP39解释

定义

BIP39^1定义了一种将计算机产生的随机数翻译成人类可读的方式,初衷很简单:结合BIP32^2,辅助人类记忆产生主密钥的种子。

主要概念

  1. initial entropy (ENT)
  2. check sum (CS)
  3. mnemonic sentence (MS)
  4. wordlists

这三者的长度关系如下:

1
2
CS = ENT/32
MS = (ENT + CS)/11 化简成 MS = 3 * CS

举个例子,如果初始熵长度为 128,ENT/CS/MS组成的关系表格填充如下:

ENT CS MS
128 4 12

初始熵 initial entropy

初始熵可以通过随机数生成器生成,允许的大小在 128-256 bits 范围之内。

校验码 check sum

校验码利用初始熵经过哈希得出,而且长度必须是$ENT/32$。

助记词 mnemonic sentence

助记词需要将初始熵和校验码拼接,然后切分成每11位为一组,每一组二进制数转换成十进制数作为索引wordlists的下标,以便提取对应的词汇。以128位的ENT为例,它最终会产生12个词汇。

词汇表 wordlists

词汇表的构成是有原则可遵守的,其一,词汇之间可辨识性强,英文的词汇在前4个词汇就能有很快速的区分;其二,避免相似的词语,人毕竟是健忘的;其三,词汇应该排过序,便于二分查找。

代码解释

下面利用Nodejs版本的BIP39^3解释

1
2
3
4
5
6
7
function generateMnemonic (strength, rng, wordlist) {
strength = strength || 128
if (strength % 32 !== 0) throw new TypeError(INVALID_ENTROPY)
rng = rng || randomBytes

return entropyToMnemonic(rng(strength / 8), wordlist)
}

generateMnemonic(...)函数的参数rng全称是random number generator,即随机数发生器,默认是randomBytes。此处,ENT的默认长度是128位,运行randomBytes(128/8)将产生了16字节的随机数。然后调用entropyToMnemonic(...)函数生成助记词。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
function entropyToMnemonic (entropy, wordlist) {
if (!Buffer.isBuffer(entropy)) entropy = Buffer.from(entropy, 'hex')
wordlist = wordlist || DEFAULT_WORDLIST

// 128 <= ENT <= 256
if (entropy.length < 16) throw new TypeError(INVALID_ENTROPY)
if (entropy.length > 32) throw new TypeError(INVALID_ENTROPY)
if (entropy.length % 4 !== 0) throw new TypeError(INVALID_ENTROPY)

var entropyBits = bytesToBinary([].slice.call(entropy))
var checksumBits = deriveChecksumBits(entropy)

var bits = entropyBits + checksumBits
var chunks = bits.match(/(.{1,11})/g)
var words = chunks.map(function (binary) {
var index = binaryToByte(binary)
return wordlist[index]
})

return wordlist === JAPANESE_WORDLIST ? words.join('\u3000') : words.join(' ')
}

entropyBits是entropy的二进制表示;checksumBits是entropy经由SHA256计算得到的哈希值再截断到CS的长度得来的,调用deriveChecksumBits(...)函数产生checksumBits的逻辑如下:

1
2
3
4
5
6
7
function deriveChecksumBits (entropyBuffer) {
var ENT = entropyBuffer.length * 8
var CS = ENT / 32
var hash = createHash('sha256').update(entropyBuffer).digest()

return bytesToBinary([].slice.call(hash)).slice(0, CS)
}

这里的计算和前面长度关系规则完全吻合,checksumBits通过slice(0, CS)截断得到4位的二进制数。

计算得到entropyBits和checksumBits之后,把它们拼接到一起,得到一组bits,然后按每组11bits分隔,这里使用了正则表达式 bits.match(/(.{1,11})/g),正则表达式(.{1,11})表示对任意1-11个bit进行分组,由于正则默认是最长匹配,所以每11位就被分成了一组。最终,每组二进制数都会被转成十进制数,进而作为词汇表的下标索引对应的词汇,详细见上文的chunks.map(function (binary) ... 过程。

中文词汇表

BIP39其实并没有定义词汇表,所以不同的自然语言都可以自行实现自己的词汇表。NodeJS版本的BIP39^3就支持中文的词汇表。

1
2
3
var mnemonic = bip39.generateMnemonic(160, null, bip39.wordlists.chinese_simplified)
->
'定 过 丘 搭 斥 紫 遍 官 寿 穿 贯 别 讯 卵 符'

除了中文的词汇表,它还支持下列词汇,如:繁体中文等。

1
2
3
4
5
6
7
8
9
10
11
export const wordlists: {
EN: string[];
JA: string[];
chinese_simplified: string[];
chinese_traditional: string[];
english: string[];
french: string[];
italian: string[];
japanese: string[];
spanish: string[];
};

生成BIP32种子

拿到助记词之后,就可以从助记词生成种子。这里其实使用了pbkdf2算法,不过有趣的是,参数mnemonic反而是pdkdf2算法中的password参数:

1
2
3
4
5
6
function mnemonicToSeed (mnemonic, password) {
var mnemonicBuffer = Buffer.from(unorm.nfkd(mnemonic), 'utf8')
var saltBuffer = Buffer.from(salt(unorm.nfkd(password)), 'utf8')

return pbkdf2(mnemonicBuffer, saltBuffer, 2048, 64, 'sha512')
}