Advanced Search
Search Results
74 total results found
AI加速芯片上的2D单元
卷积天然的数据复用度是Dot的9倍,对于芯片的压力更小 算力缩放是一个非常重要的问题,涉及架构各代之间的稳定性,保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel 不同的layout (NHWC等) 以及BPI BPK FF 不同数据精度的支持和混合计算 L0 L1 Fusion的支持 存储的mapping 利于运算和fusion feature*weight vs weightT*featueT 大2D Dot计算的表达 指令表达为小尺寸,对不同的计算需求(...
switch教程
【大气层双系统制作教程】 https://www.bilibili.com/video/BV16M411X79n/?share_source=copy_web 【腾讯文档】switch问题自查 https://docs.qq.com/doc/DVVFMWXRLQ096RXVG 【超级会员V7】通过百度网盘分享的文件:大气层18系统.rar链接:https://pan.baidu.com/s/1RcmlxJ9z-9HnMFqvR2rmww?pwd=77h2 提取码:77h2 复制这段内容打开「百度网盘APP...
婴幼儿中的喘鸣
https://www.msdmanuals.cn/home/children-s-health-issues/respiratory-disorders-in-infants-and-children/wheezing-in-infants-and-young-children 在儿童呼气时,听到一种高音调喘鸣声(哨笛声)。如果气道严重变窄,那么在儿童吸气时也会听到喘鸣声。极度病重儿童也可能会呼吸急促,用力使用胸部肌肉进行呼吸,出现鼻孔扩张及皮肤发青(紫绀)。存在肺部感染的儿童可能会出现发热。 根据哮喘急性发...
测量线性稳压器的 2nV/√ Hz噪声和 120dB 电源抑制
https://www.analog.com/en/resources/app-notes/an-159.html an-159.pdf AN159_Layout_Files.zip https://www.analog.com/cn/resources/app-notes/an-940.html 精密电路硬件设计指南 https://www.emoe.xyz/precision-circuits-hardware-design-guide/ EmoeNAP 用户手册 https:...
示波器SDS800XHD破解
参考链接 https://www.eet-china.com/mp/a307681.html https://blog.csdn.net/GLSWN8829/article/details/135455736 示波器操作 设置示波器IP 用网页登录IP SCPI输入命令 “PRBD?” => 返回现在的带宽 “MD5_SRLN?” => 命令获得SCOPEID “MD5_PR?” => 命令获得本机型号 填写SN 运行python脚本获取生成的ID “MCBD?”...
锂电池/电动车使用规则
磷酸铁锂,因为不能从电压判断电量,经常充满一次,为了更好得平衡电池,电池间的平衡比满电的损害更小 由于磷酸铁锂的每个电池的自放电、能量回收充电的速度不一样,所以时间一长需要平衡校准 model3三元的官方建议尽量只冲到90%,除非充满了马上用 次次充满的磷酸铁锂的寿命通常比设置充电百分比限制的三元锂寿命更长 相对于满电,空电对电池的损害更大 磷酸铁锂建议使用范围100-30 三元建议80-30 磷酸铁锂正常日常使用 保持电池有一定的电量 >20%,低于40%就可以充电 用电多,一周>...
Reduce的并行加速
CUDA 1. 采用Divergence的支持和Block同步来支持 2. 其他的深度优化:https://developer.download.nvidia.com/assets/cuda/files/reduction.pdf DSA/ASIC
为什么Pytorch开始制约AI了
这个想法比较超前了,但是已经有苗头了 pytorch已经显得臃肿,不适合大模型的特定需求 需求变化了,已经不是CNN的时代了,虽然在拼命搞静态图和并行库 一个开源框架统一市场后一段时间,就会开始因为臃肿而不适合新的需求,所以就需要大胆重构 和numpy等通用接口差异越来越大,学习成本增加 为啥JAX在大模型巨头玩家中的份额这么高呢? 大模型框架对原来的那种生态,可能要求没那么高,反倒对性能调试调优的效率要求高 JAX的简单,合理的功能抽象(更加符合第一性原理)才是用户的青睐点,py...
LLM大语言模型的训练
预训练 继续预训练 微调 全面微调更容易出现两个问题:模型崩溃和灾难性遗忘 PEFT技术本质上,是作为微调的自然正则化器 数据集的质量和筛选,对微调的成功起着重要作用:一个大趋势是质量比数量更重要,拥有一小部分高质量的数据,比拥有一大批低质量的数据更好。 一致的注释,没有错误、没有错误标签的数据、有噪音的输入/输出 与总体相比具有代表性的分布 微调是大模型开发中的一个关键方面,需要在艺术和科学之间取得微妙的平衡。 强化学习-DeepSeek-R1 通过约束生成的内容和...
理解《思考,快与慢》
卡尼曼如此形容两大思考模式 系统一:自动化的运作,非常快、不费力气,即使要费力,也很少,它不受自主控制。以下为系统一的工作内容,大致依复杂度排序如下: 判断一个物体较另一个物体距离自己更远。 判断一个声音来源的位置。 接续完成“战争与……”("War and......")这个词组。(战争与和平,英语:War and peace) 当看到一张可怕的图片时,做出厌恶的表情。 回答 2 + 2 = ? 阅读大型广告看板上的文字。 在没有车辆的道路上开车。 在棋局中发现一条好路(如果你是国际...
哲学观点
哲学的本质本身就是一个哲学问题 胡适的描述是:凡研究人生切要的问题,从根本上着想,要寻一个根本的解决:这种学问叫做哲学 对哲学的主题亦存在许多看法。一些人认为哲学是对问题本身过程的观察。[15] 后现代主义把哲学定义为创造概念的学术。 哲学所涉及的研究范畴是其它学科的总和,它给出对世界本质的解释,在很大程度上影响着接受者的世界观。 哲学是研究范畴及其相互关系的一门学问。范畴涉及到一门学科的最基本的定义、概念和内容,哲学具有一般方法论的功能。 哲学和其他陈述问题方法的差异是有批判性的、有代入问题的方法...
生物脑(人脑)的优势
抽象出高效,合理的,可复用的底层抽象 抽象出高效的、抽象的高层概念,并应用于看起来毫不相关领域 记忆及索引 强大的类比功能,比如:神经训练的收敛过程可以类比晶体管放大,训练要达到放大区,而不是在截止区和饱和区,不然会过拟合,或者欠拟合 饱和 类比 边际效应 放大区 类比 线性关系 高效的联想思维能力 抽象概念的联想 自动构建一个逻辑树,逻辑组成的树,作为匹配的特征 每个节点表示逻辑关系,逻辑运算 具象概念的联想 猫和猫科动物的类似 高效获取...
意识
意识表现为能一直统一个完整的,自洽的行为表现。能体现出个人的风格特色,具有不完全受现有观念影响的判断逻辑。
Memory Consistency and Cache Coherence 定义
1. Memory Consistency(内存一致性) 定义:内存一致性是指多核或多处理器系统中,多个处理器对共享内存的访问顺序是否一致,以及这些访问操作是否满足特定的规则或模型。 关注点:内存操作的全局可见顺序,确保所有处理器对内存的读写操作按照一致的顺序进行。 问题背景:在多核系统中,不同处理器可能同时访问共享内存,如果没有明确的内存一致性模型,可能会导致程序行为不可预测。 内存一致性模型: 顺序一致性(Sequential Consistency):所有处理...
TSO(Total Store Ordering)内存模型
TSO(Total Store Ordering)是一个被广泛使用的内存模型 并在x86架构中使用,RISC-V也提供了TSO扩展,即RVTSO,人们普遍认为x86内存模型等同于TSO,然而Intel和AMD从来没有保证这一点 x86选择放弃SC(顺序一致性sequential consistency),以更好地支持基于FIFO的write buffer,用于加速性能 TSO和SC最关键的区别就是store可能被放入write buffer中且允许load的bypass 对于单核视角来说,和SC没有...
x86的多核宽松内存一致性模型
被修饰的汇编指令成为“原子的” 本身是原子指令,比如“XCHG”和“XADD”汇编指令 本身不是原子指令,但是被LOCK指令前缀修饰后成为原子指令,比如LOCK CMPXCHG 被修饰的汇编指令A在执行期间,会在内存总线上声言一个#LOCK信号,该信号导致内存被锁住,此时内存不能再被其他汇编指令存取,直到A执行完成。经过分析可知,A的执行效果与“暂停执行其他所有汇编指令直到A执行完成等价,因此此时A是原子的 fence sfence: 在sfence指令前的写操作当必须在sfence指...
Transformer黑盒
问题 Transformer是怎么组织和表达自然语言的? 可能的方向 通过不断的训练、运行来对模型的权重进行解析--逆训练 生成出一系列的最核心的,最有效的样本的数据集,用于蒸馏其他的模型 从单点,添加探针的方式来推断输出的逻辑 特定样本下各个权重的梯度(对结果的影响力)组成一张针对一个样本的逻辑地图 通过统计大量样本在单点的情况分析出模型的抽象图 从最后的输出逻辑往前面推理的方式来推断模型的输出逻辑 找到整个模型的最边缘的知识点,最终的知识点,不会被其他知识...
分层LLM推理与Scaling思维模板
通过复杂的人工设计的算法影响模型的功能和性能 人类总是能在更高的维度来指导模型 模型的自我学习能力还是不理想 最后的瓶颈会是人类设计算法的复杂性,需要另外一种更通用、简单的方法来替代Transformer ReasonFlux框架 结构化通用思维模板库:包含约500个高层次思维模板,可泛化到类似或相关的推理问题。 分层强化学习:在思维模板序列上执行强化学习,不再在长思维链(CoT)数据上进行优化,使基础LLM能够规划最优模板轨迹,逐步解决复杂问题。 全新的推理Scaling系统:在...
世上没有永远持续的增长,只有S型曲线式增长
世界上不存在无限增长的事情(说你呢,Scaling Law),这基本是个定则,即使把目光拉长放到宇宙级视野里,宇宙中最大速度也不可能超过光速,宇宙它再大也总有个边界,是吧?所以,我觉得很可能各种看着貌似可以无限增长,但那是因为我们看它的时间窗口还是太短,S型增长曲线(Sigmoid函数刻画的非线性曲线)可能才是更准确对增长准确描述的曲线,要我猜AI智能增长趋势大概也是如此。
梯度下降
梯度下降的每个step,都需要把所有的loss“汇总” 包含所有batch,所有的loss function,以及在多个step之间,多个epoch之间 等价于对数据集的统计、回归、拟合,最终效果只能达到统计上的意义 训练效率低,有用信息密度低、容易被坏数据平均 相对于人脑 缺乏思维的贪心原则 缺少“自恰”的自主意识的判断