return to bookshelf_in_storageroom
维兰的存储间

看完了,好像没啥收获,后面的第三节就看不下去了(
评论区的讨论感觉也很强,然后又看到了VAE这个没见过的东西
最好压缩器是 8.7 倍压缩率,LLM 能达到至少 14 倍,这还是比较一般的 LLM 模型
或许以后会出一个以LLM模型为基础的压缩格式?
在无损压缩的视角里,无论是压缩还是解压,我们只需要训练一个 epoch,也就是遍历数据一遍。在这个视角下,模型每一次的 next token prediction 都是对未曾见过的数据进行预测(前提是数据质量比较高,没有明显的重复数据)。目前大部分的大型语言模型的确只训练 1 个左右的 epoch 。
无损压缩的数据 D 非常重要,我们需要数据量 足够大 的且 有效 的数据。这里的有效可能是指包含有足够的「人类知识」的数据。OpenAI 在 D 上一定是花了不少功夫的。前段时间的一篇论文《Textbooks Are All You Need》说明,即使是包含有足够知识的小数量,也能达到不错的效果。这变相说明了数据质量的重要性。
以前似乎读过现在所有的数据集都无法完全训练一个大模型的观点。
压缩这个视角,只能训练一个 epoch,很难只靠死记硬背记下来,在只训一个 epoch 的情况下,每一个 next token prediction 其实就是对未知数据的预测,完全没过拟合的问题。
wow,原来是这样