Recently Updated Pages
附带meaning tree信息的数据集
115200 / | \ 10240 ...
meaning dataset
meaning数据集是一个模仿自然语言,以及抽象表达的数据集。 115200 / | ...
人工智能的产业
模型算法 科研 企业商用 数据收集、标注 软件框架 科研 商业部署 加速芯片 云训练芯片 云推理 边沿推理 云服务 基础软件框...
梯度下降
梯度下降的每个step,都需要把所有的loss“汇总” 包含所有batch,所有的loss function,以及在多个step之间,多个epoch之间 等价于对数据集的统计、回归、...
人脑的工作原理
特点 人脑具有反馈回路,反馈回路形成正反馈,不断训练神经元,加强神经元 视觉神经能识别图像,也能通过提示想象出图像 语言作为抽象能力很强的表示工具,被充分用于协助思考,但不是智力...
GraphRAG
开源项目 微软的Graph RAG 蚂蚁开发了首个对外开源的Graph RAG框架,蚂蚁全自主的开源产品:DB-GPT[50] + OpenSPG[42] + TuGraph[46] ...
RWKV
RWKV-V7 采用了动态状态演化(Dynamic State Evolution),超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV...
第一性原理及公理化思维
公理化思维,以第一性原理为根基,运用逻辑去找到超出我们认知极限问题的答案,进而建立起他理性思维体系。 古希腊哲学中的“原型”以中间的推理逻辑为实体,东方文明中的“原型”以结论为实体,这种微...
形象思维
形象思维并不仅仅属于艺术家,它也是科学家进行科学发现和创造的一种重要的思维形式。例如,物理学中所有的形象模型,像电力线、磁力线、原子结构的汤姆生模型或卢瑟福小太阳系模型,都是物理学家抽象思维和形...
RAG
RAG的过程 拆分文本成文本块 拆分算法: 使用嵌入模型进行向量化 对一段文本使用一堆维度很多的向量进行表示 存入向量数据库 对输入进行向量化 使用传统...
Dynamic Graph Multi Processor 架构
背景 Etched提出,GPU在过去四年间效率并没有变得更好,只是变得更大了:芯片每平方毫米的的TFLOPS几乎持平。 「干净数据+大模型」和「脏数据+大模型」的效果,不会有太大差异。 ...
KICKPI K2B 配置无线网络
sudo,创建文件 /etc/wpa_supplicant.conf,填入,不能乱改“空格” ctrl_interface=/var/run/wpa_supplicant ap_sc...
CoT & 强化学习
--用推理的“临时态”实现短暂的意识 背景和方法 众所周知,o1在推理阶段采用了一种思维链(Chain of Thought)的方法,将推理过程分解为多个离散的步骤。o1能够规划其推理步骤,...
LLM大语言模型的训练
预训练 1. 继续预训练 微调 全面微调更容易出现两个问题:模型崩溃和灾难性遗忘 PEFT技术本质上,是作为微调的自然正则化器 数据集的质量和筛选,对微调的成功起着重要作用:一...
数学理解
数学总是在发明各种定义,并且在定义的基础上寻找特定的规律 如果生活的一种现象符合某种数学的定义,那么就可以用已经证明的规律进行计算/推到 从而对抽象的事物用数学工具进行计算 比如说...
Transformer黑盒
问题 Transformer是怎么组织和表达自然语言的? 可能的方向 通过不断的训练、运行来对模型的权重进行解析--逆训练 生成出一系列的最核心的,最有效的样本的数据集,用于蒸馏其他的模...
意识
表现为能一直统一个完整的,自洽的行为表现 保持行为、价值观的一贯性 能体现出个人的风格特色 有一些内在的价值观设定比较难以受外界的输入而改变 具有不完全受现有观念影响...
通用的抽象
背景、需求自动根据输入信息进行结构化建模让AI进行一种更通用,哲学上完备的方法,类似于,面向对象对编程技术的抽象自然语言等抽象概念的结构化通用抽象引擎, 通用NP问题解决通用基础计算单元,算法基...
幻觉
模型生成不真实或非事实陈述的现象 即模型中的主导知识可以在文本生成过程中,掩盖那些不太突出的知识,从而导致模型编造不准确的细节 由于权重表达的信息有限,只能对大量的知识进行归类抽象表达,...
LLM时代AI加速芯片面临的挑战
算法需求 普遍使用MOE架构降低算力需求 高度定制化的集成度高的大算子 定制化的核心Attention加速算子:FlashAttention KVcache的压缩、加速等...