架构/微架构

标量寄存器和向量寄存器统一，支持自动进行转换
异步单元（SP-PU-L1-DMA）之间都采用异步机制，依赖转移到异步目标
1. 统一的同步机制
2. 静态分配同步资源
3. 原生软硬件支持动态图的执行
4. LD/ST 避免使用fence功能
Launch：fork
1. 资源初始化（同步资源，各种存储器，状态）
launch/signal/wait:join
1. launch pu instrution: write_back_id local_id
  1. write_back atomic add/sub
2. wait instruction: local_id
  1. local_id GE LE counter
3. wait remote instruction: remote_id
  1. local_id GE LE counter
灵活性&性能
1. 支持灵活的数据尺寸
2. 支持灵活的本地数据复用，尽量减少数据搬运数据
3. 尽量避免算力浪费
  1. leading tailing 时间时间：LD/ST inflight delay，DMA Delay
  2. ping-pong
  3. ~~数据没有ready需要的fence引起的气泡~~pipeline

数据没有ready、需要fence引起的气泡

无缝的同步机制不对齐、尾数

标量
1. RV64i
向量
1. VLD VST VMUL VADD REDUCE_ADD REDUCE_MAX REDUCE_MIN VMUL_REDUCE_ADD
2. MLD MST
张量
1. GEMM
  1. 左/右数：128个=7位 + 3位扩展矩阵 = 10位
  2. 输出：7位
  3. Opcode
fence
1. L1 cache line 计数
VR
1. 软件管理VR data hazard？ VR之间的依赖？
  1. 增加指令的表达信息
2. 软件分配VR 还是硬件rename ing ，解决bank冲突？
3. 利用 VR count？软件进行管理依赖关系？
  1. LD ST 计算的三类指令之间可以并行，通道内部没有必要并行
    1. 因为硬件资源没有特殊性，不会因为并行而减少气泡
  2. 默认，GEMM指令一定要在前面LD指令之后执行
  3. 默认，ST指令一定要在前面计算指令之后执行
L1
1. 软件管理 cache line
2. cache line硬件计数，自动异步等待
3. 针对L1 CacheLine的编程？
  1. 软件指定Load到L1 cache line的位置和有效长度
  2. 向量指令按照cache line的粒度和mask来执行指定的计算
  3. 这整个流程都是提前编译好，从L1-L1都是提前确定的
  4. 针对不同MNK大小需求，可以通过标量指令来快速配置，支持动态性
增加到128个标量寄存器支持RV64扩展？
增加指令流控制
增加配合/加速向量单元的定制指令？通过兼容RiscV-V的指令来实现？？