Skip to main content

主流推理小芯片


  1. NVIDIA Jetson Orin

  2. HAILO Hailo-8 15 等等  domain-specific-dataflow-processing
    • 据悉,它能够在功耗低于5W的情况下,以每秒生成10 个token(TPS)的速度流畅运行Llama2-7B模型。同时,在处理Stable Diffusion 2.1模型(该模型可根据文本提示生成图像)时,Hailo-10同样在超低功耗范围内实现了每张图像评级低于5秒的优秀表现。  Hailo-10的性能高达每秒40万亿次(TOPS)。根据最新公布的基准测试数据,Hailo-10在性能上超越了集成神经处理单元(NPU)解决方案,同时在功耗方面表现更为出色。与Intel的Core Ultra NPU相比,Hailo-10在保持功耗减半的同时,实现了至少2倍的性能提升。
  3. 算能 1684X  支持高达 17.6T 的INT8峰值算力 LPDDR4x 68.3GB/s,最大支持16GB  17W
  4. 爱芯元智
  5. 地瓜机器人  https://d-robotics.cc
  6. 聆思科技  https://www.listenai.com/products/chips/csk6
  7. AMD旗下的Versal自适应片上系统(SoC)产品升级全新第二代,包括面向AI驱动型嵌入式系统第二代的Versal AI Edge系列、面向经典嵌入式系统的第二代Versal Prime系列。
  8. Sophgo SG2380
  9. 超星未来 https://www.novauto.com.cn/
    • image.png

  10. sifive-intelligence-x280   
    • the Vector Coprocessor Interface Extension (VCIX) 

      现代工作负载和应用程序通常需要最高的性能,但需要在有限的功率环境中实现。由于标准 RISC-V Vector ISA 和 SiFive Intelligence Extensions 提供的出色矢量计算能力,设计人员能够将各种专用 DSP 加速器功能整合到单个 X280 处理器设计中,从而保持更简单的系统设计和易编程性,同时仍能实现所需的性能和效率目标。

      在某些情况下,例如需要对矢量数据进行高度密集计算的工作负载,设计人员仍然需要使用经过高度优化的定制加速器来从主处理器卸载这些任务。这种方法的挑战在于,定制加速器需要设计为与主处理器共存,这会带来一些微妙的设计后果,即加速器:

    • RVV The X280 processor implements a 512-bit vector length architecture (VLEN), fully supporting the vector extension standard, with dynamic variable vector length operations. The vector ALU and load/store architecture data width (DLEN) is 256-bits.
    • image.png

  11. 云天励飞的新一代AI芯片DeepEdge10搭载公司自研的神经网络处理器NNP400T
    • image.png


  12. Meta的MTIA,该芯片将拥有 256MB 片上内存,频率为 1.3GHz,而 v1 的片上内存为 128MB 和 800GHz。新一代芯片的最新加速器由 8x8 个处理元件 (PE) 组成。这些 PE 显着提高了密集计算性能(比 MTIA v1 提高了 3.5 倍)和稀疏计算性能(提高了 7 倍)。这些提高一部分归功于架构的改进,另一部分归功于 PE 网格供电方式:Meta 将本地 PE 存储的大小增加了两倍,将片上 SRAM 增加了一倍,将其带宽增加了 3.5 倍,并将 LPDDR5 的容量增加了一倍。
    • image.pngimage.png