一次不成功的 pull request

昨天,我向 pgvector 提交的一个降维算法被拒绝了 Submit a simple vector dimensionality reduction function 。 这个结果对我来说,并不意外。顶多算是略有遗憾。我习惯使用ollama ,而ollama的embedding接口返回的是4096维度,远大于PGVector索引支持的最大维度2000。关于这个问题,我第一个想法是修改PGVector的维度限制,不过这个issue很快被拒绝了 Increased max dimensions for index from 2000 to 4096 。原因也很简单,PGVector这个限制其实来自PostgreSQL,PG的索引页最大为8K,所以PGVector的索引维度最大不能超过2000。 在此之后,我就开始尝试实现一个实用的降维算法。 一般来说,PCA(主成分分析)总是被首先推荐的,这玩意儿甚至是花书的一个重要示例。但是我并没有将 PCA 作为首选。这是因为:

  • PCA 基于样本空间进行降维,但是我希望首先有一个不依赖预备知识,可以直接对任意向量进行降维操作的算法。
  • 当然,完全零知识的前提下是无法有效降维的,我希望的是首先找到一个足够简单,但是对 ollama 的嵌入向量有效的压缩算法,可以将这些 4096 维的向量压缩到 256甚至更低的维度,但是仍然可以足够有效的用于 RAG 应用。如果能做到第一步,再继续尝试对其它类似的embedding向量构造算法。这样我就可以无状态的使用它。
  • PGVector并不是一个很大的项目,我希望我的降维算法也足够简单,可以不依赖很重的外部资源,使用朴素的c语言实现。而PCA需要计算协方差和特征值或奇异值矩阵,这需要引入LAPACK和BLAS库,或者自己写出相关的算法。 因此,我尝试了一些朴素的,甚至可以说是非常朴素的算法。例如对m维降到n维的,直接用 n/m 划分原向量,再对每一组取平均值(我称之为norm 或 integral reduce)。再比如先算出相邻维度的差分,然后找到前n-1个最大的差分,以此为边界将原向量分割为n份,再求平均值——我称之为diff reduce——这多少有点儿像PCA,没办法,对一个向量(1xN矩阵),实在没办法求特征值,我看到的同行的实现,都是加入了一些白噪声维度再计算PCA,而这比我期待的还是重了一些。 我的意思是,关于PG的浮点数计算,我有很多有野心的想法,但是目前我希望写出一个足够小的函数,可以让PGVector社区毫无压力的接受它。所以我重点实验了一下几种不需要样本数据集,不需要引入额外维度,不需要ggml,也不需要lapack之类的算法库支持的微型算法。 很意外,效果最好的,居然是最简单的按固定区间分组求平均值的算法——我称之为 norm reduce。 不太意外的是,即使是这个表现最好的算法,也仍然不能说是一个非常好的降维算法。我找了一些数据样本,先在ollama环境用 llama3-8b 生成嵌入向量,然后用不用的算法将其降维到 256、512和1024维度,从结果来看,大部分近似匹配结果不能跟原始维度保持一致,而norm算法至少在大多数情况下,保持原向量匹配的最佳样本出现在前五,甚至原始向量的前三个匹配结果都可以在norm 512匹配中找到——对,512维度的匹配结果甚至好于1024维度。 实际上,如果把ollama的embedding过程看作一个黑盒的话,向量的维度之间即使存在隐含的相关性,也无法想象它正好机械的按索引位置分组。因此相邻维度分组求平均值,本来是我随手写出来,作为对照组的。虽然 diff reduce 看起来也有点莫名其妙,但是它至少从几何意义上,保留了相邻维度间差分最大的特征,也就是说尽可能保留了几何形状中变化最剧烈的那些特征。 出了平均值,我还考虑了类似中位数这样的聚合方法,但如何分组比如何聚合, 对降维更重要才对,这也就是我们为何要在PCA算法中去费力计算协方差和SDV的原因。 然而实际上是,norm确实不太有效,而其它简单算法更加混乱。 对于我来说,norm只能算是一个有实验意义的算法,它唯一的优点就是足够的简单,因此我还是尝试提交了这个 pull request,虽然被拒掉,也不算有什么挫败感。 接下来我准备做这样几步工作:
  • 构造一个基于样本集的降维算法实现,允许对指定表(甚至是查询集)的特定字段进行整体降维,这样就可以实现正规的PCA降维处理
  • 可以尝试对ollama+特定模型的embedding训练一个对应的神经网络模型,用于降维操作。ggml 本身是一个c库,利用这个既有资源,可以让这个降维算法充分利用硬件资源。
  • 或许可以梳理出一个足够通用的PCA实现,对于ollama+特定模型的这个特定的样本空间,即使处理从未出现过的样本,也可以有效降维,那么同样可以把它定义为一个 ggml 可以加载的算法。
  • 如果可以做到前两步,那么对于新出现的嵌入模型,我们也仅需要训练或求解出对应的降维模型 这样的架构已经庞大,不再适合直接在 PGVector 中实现,因此我正在编写一个独立的矩阵计算库,尝试将 PG 插件和 PGVector支持作为可选的编译选项集成进去。 虽然不知道下一份工作会是什么方向,但是我相信,如果某一天我在工作中遇到要在数据库层面做矩阵或神经网络计算,再临时去折腾,肯定是来不及的,希望那一天到来的时候,我可以从容的把我自己的算法实现装上去。