[搬运]DeepZip，用 RNN 来无损压缩内容，效果惊人

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2298 天前的主题，其中的信息可能已经有所发展或是发生改变。

论文地址： https://web.stanford.edu/class/cs224n/reports/2761006.pdf

结果如下： https://i.v2ex.co/j2TaTIE3l.png

在有限数据集下很厉害。。。

rnn

deepzip

搬运

无损

9 条回复 • 2020-06-30 12:20:03 +08:00

nazor

2018-01-03 00:00:43 +08:00 via iPhone

piped piper

showgood163

2018-01-03 00:14:41 +08:00 via Android

前段时间看见了用深度学习做索引的工作。，

takato

2018-01-03 00:46:17 +08:00

说不定我们的神经元信息也能压缩得如此简洁。你们说有可能吗？
@nazor
@showgood163

Xs0ul

2018-01-03 02:17:19 +08:00 via Android

看起来，loss 并没有跑到 0 ？所以解压的结果还没对

disposablexyz

2018-01-03 08:37:08 +08:00 via iPad

看了一下论文，可以说是非常厉害了，你的图片结果中的前四项是随机生成的 Pseudo-random-number-generated sequences (PRNG)，论文作者说它之所以可以压缩到这么小是因为 DeepZip 实际上发现了这并不是“真”随机序列，非常有意思。
作者还说 DeepZip 对于纯文本的压缩表现不是很好，大概是因为文字没有太多 dependency ？
对于染色体这样 dependency 很多的？目前 DeepZip 已经比市面上的表现出色很多了，虽然慢很多多。

showgood163

2018-01-03 10:47:23 +08:00 via Android

@takato 神经元的物理信息需要量化才之后才可以被压缩，量化层级比较少的时候信息量也较少，压缩相对容易些。

showgood163

2018-01-03 10:48:17 +08:00 via Android

@Xs0ul 哈，想到一起了。不知道这里无损的标准是什么

takato

2018-01-03 12:25:48 +08:00 via iPhone

@disposablexyz 对，其实神经网络发现了那个是一个有限信息空间，信息频谱存在可以“折叠”的部分，不知道这个比喻是否恰当。

sonack

2020-06-30 12:20:03 +08:00

没有啥卵用相当于每次编解码都要重新训练模型，速度太慢了