记忆方法学
- 要求
- 需要设计一个健壮的系统,流程化,体系化,理论支撑
- 多层级的架构,层级解耦,独立迭代,不断增强
- 尽量端到端
- 本质上需要的能力和处理流程
- 语义解析,对“输入”的自然语言的表达的含义 -> LLM
- 计算语义的相似度
- 查找已有的通用知识和专有知识
- 计算语义逻辑,理解问题
- 判断表示同一个语义的不同表达
- 逻辑推理、选择
- 汇总结果进行输出 -> LLM
- 语义解析,对“输入”的自然语言的表达的含义 -> LLM
- 需要存储和计算那个层级的信息?
- RAG只是向量化存储原文,无计算能力
- LLM权重存储和计算自然语言的高层级抽象
- 明确的语法+逻辑推理
- 需要人工算法处理类似自然语言,非常复杂
- LLM映射高层级的语义到向量,只要匹配向量就可以(类似于打标签)
- 不可靠,向量只是梯度下降后的最优的结果
- 黑盒,没有标准的映射关系,LLM变更需要重新生成所有的向量
- 分几个模块,分别负责什么功能?
- 语言能力:自然语言的理解和组织能力:LLM
- 信息、知识的格式化,检索:
- 信息、知识的合理性检查、扩展、举一反三:
- 存储的信息的数据结构,存储效率,检索效率
- LLM权重通过向量空间的转换(类似于查找表)来记录所有的信息,相同的语义会高度复用同一个向量空间
- 不可控,不透明,不可靠
- 存储容量有限
- RAG只是记录每个token的向量空间,只有相同的token才能被索引
- 不能支持高级语义的检索,“不聪明”
- LLM权重通过向量空间的转换(类似于查找表)来记录所有的信息,相同的语义会高度复用同一个向量空间
- 怎么记忆/学习新的知识
- 通过回归/拟合/训练 -- LLM 的中间的 Latent Space
- LLM不能在推理过程中不断的改变权重,并且保证收敛
- 需要用到所有的历史知识
- 存储的知识量越大,学习越困难
- 通过“绝对”信息直接分类和记录
- 需要复杂的人工算法
- 需要计算和存储语义的绝对信息
- 需要复杂的人工算法
- 通过回归/拟合/训练 -- LLM 的中间的 Latent Space
- 分割,建树,识别匹配, 心智 系统2 意识自洽, 语义计算
- 存储的知识可以被提前按照信息块通过模型的推理进行向量化,生成kv cache
- 向量化的信息快,可以直接拼接到上下文的KV cache里面,而不用重新计数
- 插入的信息块和前面的文本没有关系
- 插入的信息快只和自己内部有关系
需求示例
- 假设:M( A K B) N( B K A)
- 计算 A B K 的 Vector
- 所有的语义向量都是可以被逻辑计算的?与 或 非 是 不是 都可以转换为距离的计算
- 已知 K 不分左右,与 和的语义
- 通过LLM的不断推理关系树,得到这个含义,并记录到明文数据库
- M N 都是由 x1 K x2 组成
- x1 K x2 就是计算 ,x1和x2的中点距离
- 向量数据库可以方便的计算出中点的位置和各种距离
- 怎么快速计算出 M和N的距离很近
- M==N?? Vector of M and N ??
- LLM -> AST语法树 -> 高级语义编码(序列编码,不定长的语义编码)-> 距离计算
- 编码信息:语义之间的 “与或非” 操作
- 语法树每个节点表示一种操作
- LLM有很大的编码空间,多层、不定长、位置编码,各种语义交叉压缩表示
- 递归式的编码高级语义
- 递归,节省编码量
- 编码,为了表示和检索
- 链式的不定长的编码
- 距离计算,类似图形匹配
示例1原文:NAND Flash 的读写和擦除操作是基于串进行的。
示例1输出:[[NAND Flash] 的[[读写]和[擦除]][操作]]是[[基于][串][进行]的]。]
示例2原文:在读取操作时,通过在位线上施加电压,检测各晶体管的导通情况来确定存储的数据。
示例2输出:[[[在[读取][操作]]时],[通过][[在[位线][上]][[施加][电压]]],[[[检测][[[各][晶体管]][的][[导通][情况]]]][来][[确定][[存储]的[数据]]]]。]
示例3原文:在写入操作时,利用量子隧穿效应等将电子注入浮栅。
示例3输出:[[在[[写入][操作]]时],[[[[利用][[[量子][[隧穿][效应]]]等]][[将][电子][[注入][浮栅]]]]。]
示例4原文:在擦除操作时,通常是对整个块进行擦除,块是由多个串联的晶体管串组成的。
示例4输出:[[在[擦除][操作]时],[[通常][是][[对][[整个]块][进行][擦除]]],[块][是][[由][[[多个][[串联][的][晶体管]]][[串]组成的]]]]。
请按照上面的格式进行格式化
“希望这些步骤能帮助您顺利解决 python3-dev的安装问题!如果尝试后仍有疑问,欢迎随时提出。”
[[希望][[这些][步骤]][能][[帮助][您][[[顺利][解决]][[[python3-dev] 的][[安装][问题]]]]!][[如果][[[尝试][后]][仍有][疑问]]],[[欢迎][[随时][提出]]]。]
- token之间的关系树 + token的编码 LLM
- 计算特征值?? 句子 段落 文章
- 是不是不用计算句子的所有细节,而只是计算大的语义和总结
- 检索的“线索”不可能包含跨越多层的语义,也有信息量限制
- 组织,排序,绘制地图,用于检索
- 地图定义
- 检索
- 根据一步一步的提示,类似导航的方式找到/生成/编码最终的语义
AI使用记忆的方式
- 记忆,为LLM语言计算器提供海量的数据
- 离线思考,不断得自由思考,编辑记忆,实现可迭代的,可不断进步的AI
- 临时记忆,提供无限的上下文,用于解决复杂问题
A -> A
B -> B
A|B -> #
#&C -> #
绝对编码
同义词
No comments to display
No comments to display