Search for {created_by:colin} {type:page}

AI加速芯片架构的动态性支持讨论

AI加速芯片

动态性的级别划分数据内容不同动态算子数据的尺寸动态大部分非GPGPU的DSA架构都支持得不好，有各种问题同步开销大，同步资源管理难，存储资源浪费，程序代码大等问题不同的数据地址的程序代码动态通过条件执行、跳转执行支持的程序动态 GPGPU类支持自动生成、调用不用的单元的代码动态很少在加速卡上实现，大部分是CPU可以实现不同架构对动态性支持的区别 SIMT类型的GPGPU 华为和寒武纪类的DSA NPU推理DSA 类似燧原的SPMT

主流推理小芯片

AI加速芯片

NVIDIA Jetson Orin HAILO Hailo-8 15 等等 domain-specific-dataflow-processing 据悉，它能够在功耗低于5W的情况下，以每秒生成10 个token（TPS）的速度流畅运行Llama2-7B模型。同时，在处理Stable Diffusion 2.1模型（该模型可根据文本提示生成图像）时，Hailo-10同样在超低功耗范围内实现了每张图像评级低于5秒的优秀表现。 Hailo-10的性能高达每秒40万亿次（TOPS）。根据最新公布的基准测试数据...

AI加速芯片上的2D单元

AI加速芯片 GMP

卷积天然的数据复用度是Dot的9倍，对于芯片的压力更小算力缩放是一个非常重要的问题，涉及架构各代之间的稳定性，保护客户的价值 L1/L2/L0 怎么支持reshape或者swizzel 不同的layout （NHWC等）以及BPI BPK FF 不同数据精度的支持和混合计算 L0 L1 Fusion的支持存储的mapping 利于运算和fusion feature*weight vs weightT*featueT 大2D Dot计算的表达指令表达为小尺寸，对不同的计算需求（1D、2D）的fusion...

switch教程

玩

【大气层双系统制作教程】 https://www.bilibili.com/video/BV16M411X79n/?share_source=copy_web 【腾讯文档】switch问题自查 https://docs.qq.com/doc/DVVFMWXRLQ096RXVG 【超级会员V7】通过百度网盘分享的文件：大气层18系统.rar 链接：https://pan.baidu.com/s/1RcmlxJ9z-9HnMFqvR2rmww?pwd=77h2 提取码：77h2 复制这段内容打开「百度网盘APP 即可获...

婴幼儿中的喘鸣

玩

https://www.msdmanuals.cn/home/children-s-health-issues/respiratory-disorders-in-infants-and-children/wheezing-in-infants-and-young-children **在儿童呼气时，听到一种高音调喘鸣声(哨笛声)。如果气道严重变窄，那么在儿童吸气时也会听到喘鸣声。**极度病重儿童也可能会呼吸急促，用力使用胸部肌肉进行呼吸，出现鼻孔扩张及皮肤发青（紫绀）。存在肺部感染的儿童可能会出现发热。根据哮喘急...

测量线性稳压器的 2nV/√ Hz噪声和 120dB 电源抑制

玩

https://www.analog.com/en/resources/app-notes/an-159.html an-159.pdf AN159_Layout_Files.zip https://www.analog.com/cn/resources/app-notes/an-940.html 精密电路硬件设计指南 https://www.emoe.xyz/precision-circuits-hardware-design-guide/ EmoeNAP 用户手册 https:...

示波器SDS800XHD

玩

参考链接 https://www.eet-china.com/mp/a307681.html https://blog.csdn.net/GLSWN8829/article/details/135455736 示波器操作设置示波器IP 用网页登录IP SCPI输入命令 “PRBD?” => 返回现在的带宽 “MD5_SRLN?” => 命令获得SCOPEID “MD5_PR?” => 命令获得本机型号填写SN 运行python脚本获取生成的ID “MCBD?” => 返回当前的带宽配置ID，应该和pytho...

锂电池/电动车使用规则

玩

磷酸铁锂，因为不能从电压判断电量，经常充满一次，为了更好得平衡电池，电池间的平衡比满电的损害更小由于磷酸铁锂的每个电池的自放电、能量回收充电的速度不一样，所以时间一长需要平衡校准 model3三元的官方建议尽量只冲到90%，除非充满了马上用次次充满的磷酸铁锂的寿命通常比设置充电百分比限制的三元锂寿命更长相对于满电，空电对电池的损害更大磷酸铁锂建议使用范围100-30 三元建议80-30 磷酸铁锂正常日常使用保持电池有一定的电量 >20%，低于40%就可以充电用电多，一周>...

Reduce的并行加速

AI加速芯片

CUDA 1. 采用Divergence的支持和Block同步来支持 2. 其他的深度优化：https://developer.download.nvidia.com/assets/cuda/files/reduction.pdf DSA/ASIC

为什么Pytorch开始制约AI了

AI加速芯片软件框架

这个想法比较超前了，但是已经有苗头了 pytorch已经显得臃肿，不适合大模型的特定需求需求变化了，已经不是CNN的时代了，虽然在拼命搞静态图和并行库一个开源框架统一市场后一段时间，就会开始因为臃肿而不适合新的需求，所以就需要大胆重构和numpy等通用接口差异越来越大，学习成本增加为啥JAX在大模型巨头玩家中的份额这么高呢？大模型框架对原来的那种生态，可能要求没那么高，反倒对性能调试调优的效率要求高 JAX的简单，合理的功能抽象（更加符合第一性原理）才是用户的青睐点，pytorch也是靠这个取胜...

LLM大语言模型的训练

算法&模型 Transformer

预训练 1. 继续预训练微调全面微调更容易出现两个问题：模型崩溃和灾难性遗忘 PEFT技术本质上，是作为微调的自然正则化器数据集的质量和筛选，对微调的成功起着重要作用：一个大趋势是质量比数量更重要，拥有一小部分高质量的数据，比拥有一大批低质量的数据更好。一致的注释，没有错误、没有错误标签的数据、有噪音的输入/输出与总体相比具有代表性的分布微调是大模型开发中的一个关键方面，需要在艺术和科学之间取得微妙的平衡。强化学习-DeepSeek-R1 通过约束生成的内容和方式通过问答的和逻辑分析...

理解《思考，快与慢》

基本问题

卡尼曼如此形容两大思考模式 **系统一：**自动化的运作，非常快、不费力气，即使要费力，也很少，它不受自主控制。以下为系统一的工作内容，大致依复杂度排序如下：判断一个物体较另一个物体距离自己更远。判断一个声音来源的位置。接续完成“战争与……”（"War and......"）这个词组。（战争与和平，英语：War and peace）当看到一张可怕的图片时，做出厌恶的表情。回答 2 + 2 = ? 阅读大型广告看板上的文字。在没有车辆的道路上开车。在棋局中发现一条好路（如果你是国际象棋大师的话）...

哲学观点

基本问题

哲学的本质本身就是一个哲学问题胡适的描述是：凡研究人生切要的问题，从根本上着想，要寻一个根本的解决：这种学问叫做哲学对哲学的主题亦存在许多看法。一些人认为哲学是对问题本身过程的观察。^{[15]} 后现代主义把哲学定义为创造概念的学术。哲学所涉及的研究范畴是其它学科的总和，它给出对世界本质的解释，在很大程度上影响着接受者的世界观。哲学是研究范畴及其相互关系的一门学问。范畴涉及到一门学科的最基本的定义、概念和内容，哲学具有一般方法论的功能。哲学和其他陈述问题方法的差异是有批判性的、有代入问题的方法以及以理...

生物脑（人脑）的优势

算法&模型人脑的仿真

抽象抽象出高效的，合理的，可复用的底层抽象抽象出高效的、非常抽象的高层级概念，并应用于看起来毫不相关领域记忆**：**记忆及快速的索引类比：强大的类比功能神经训练的收敛过程可以类比晶体管放大，训练要达到放大区，而不是在截止区和饱和区，不然会过拟合，或者欠拟合饱和类比边际效应放大区类比线性关系国足出国踢球，输了球但是个人行李很多：差生文具多联想：高效的联想思维能力抽象概念的联想自动构建一个逻辑树，逻辑组成的树，作为匹配的特征每个节点表示逻辑关系，逻辑运算具...

意识（自我）

算法&模型人脑的仿真

意识的解释意识，可以解释成对自我的一种认可，我是我，一般说一个智能具有意识，表示能表现出“自我”的行为。自我是一套复杂价值观、行为规则，是一种关于人文、社会、基本生存等的复杂算法的高层级抽象、表示。由于包含很多非理性的、直觉式的规则和规律，所以难以量化和计算。但是自我/意识就很好的表达了这一类的规则/规律具体来说就是，首先假设一个主体，基本需求是自尊、自信、自强、生存等一系列的目标/需求，这些抽象的目标（价值观）才是人类进行活动的价值函数。特别的用于处理社交，人性规则，等比较人文的需求。工具类的...

Memory Consistency and Cache Coherence 定义

计算机体系结构 Memory Consistency and Cache Coherence

1. Memory Consistency（内存一致性）定义：内存一致性是指多核或多处理器系统中，多个处理器对共享内存的访问顺序是否一致，以及这些访问操作是否满足特定的规则或模型。关注点：内存操作的全局可见顺序，确保所有处理器对内存的读写操作按照一致的顺序进行。问题背景：在多核系统中，不同处理器可能同时访问共享内存，如果没有明确的内存一致性模型，可能会导致程序行为不可预测。内存一致性模型：顺序一致性（Sequential Consistency）：所有处理器的内存操作按照一个全局顺序执行...

TSO（Total Store Ordering）内存模型

计算机体系结构 Memory Consistency and Cache Coherence

TSO（Total Store Ordering）是一个被广泛使用的内存模型并在x86架构中使用，RISC-V也提供了TSO扩展，即RVTSO，人们普遍认为x86内存模型等同于TSO，然而Intel和AMD从来没有保证这一点 x86选择放弃SC（顺序一致性sequential consistency），以更好地支持基于FIFO的write buffer，用于加速性能 TSO和SC最关键的区别就是store可能被放入write buffer中且允许load的bypass 对于单核视角来说，和SC没有区别，执行顺...

x86的多核宽松内存一致性模型

计算机体系结构 Memory Consistency and Cache Coherence

被修饰的汇编指令成为“原子的” 本身是原子指令，比如“XCHG”和“XADD”汇编指令本身不是原子指令，但是被LOCK指令前缀修饰后成为原子指令，比如LOCK CMPXCHG 被修饰的汇编指令A在执行期间，会在内存总线上声言一个#LOCK信号，该信号导致内存被锁住，此时内存不能再被其他汇编指令存取，直到A执行完成。经过分析可知，A的执行效果与“暂停执行其他所有汇编指令直到A执行完成等价，因此此时A是原子的 fence sfence: 在sfence指令前的写操作当必须在sfence指令后的写操作前完...

Advanced Search

Search Terms

Content Type

Exact Matches

Tag Searches

Date Options

Search Results

165 total results found

AI加速芯片架构的动态性支持讨论

主流推理小芯片

AI加速芯片上的2D单元

switch教程

婴幼儿中的喘鸣

测量线性稳压器的 2nV/√ Hz噪声和 120dB 电源抑制

示波器SDS800XHD

锂电池/电动车使用规则

Reduce的并行加速

为什么Pytorch开始制约AI了

LLM大语言模型的训练

理解《思考，快与慢》

哲学观点

生物脑（人脑）的优势

意识（自我）

Memory Consistency and Cache Coherence 定义

TSO（Total Store Ordering）内存模型

x86的多核宽松内存一致性模型

Updated after

Updated before

Created after

Created before