跳转至

MICRO 2025

MICRO 2025 论文

本页面共收录了 6 篇论文笔记。

RICH Prefetcher: Storing Rich Information in Memory to Trade Capacity and Bandwidth for Latency Hiding

Authors: Ningzhi Ai, Wenjian He, Hu He, et al.
Affiliations: Huawei Technologies Co., Ltd, Tsinghua University
Venue: MICRO 2025

针对高带宽高容量但高延迟的未来内存系统,提出RICH预取器。其核心创新是利用多尺度空间局部性(2KB/4KB/16KB区域)和多偏移触发机制,在提升覆盖率和及时性的同时保持高准确率。通过片上/片下分层存储元数据以控制开销。实验表明,在常规系统中性能优于Bingo 3.4%;当内存延迟增加120ns时,优势扩大至8.3%。

📄 论文笔记 | 📊 图表解析 | 👶 通俗解释 | 🔗 直达原文


Titan-I: An Open-Source, High Performance RISC-V Vector Core

Authors: Jiuyang Liu, Qinjun Li, Yunqian Luo, et al.
Affiliations: Huazhong University of Science and Technology, Institute of Software, Chinese Academy of Sciences, Tsinghua University, Xinpian Technology Co., Ltd.
Venue: MICRO 2025

提出Titan-I (T1),一个开源、高性能的乱序RISC-V向量核,通过粗粒度布局求解器、全数据通路置换单元和掩码寄存器缓存解决扩展VLEN/DLEN时的布线瓶颈。结合细粒度链接、提交即发射等技术优化ILP。在密码学 workload 上比Nvidia 3090/5090快2.41x/1.85x,在HPC上比HiSilicon KP920快4.59x(4倍数据通路),面积仅为其19%。

📄 论文笔记 | 📊 图表解析 | 👶 通俗解释 | 🔗 直达原文


Drishti: Do Not Forget Slicing While Designing Last-Level Cache Replacement Policies for Many-Core Systems

Authors: Sweta, Prerna Priyadarshini, Biswabandan Panda
Affiliations: Indian Institute of Technology Bombay
Venue: MICRO 2025

论文指出在多核系统的切片LLC中,现有先进替换策略(如Hawkeye、Mockingjay)因局部预测器导致短视决策且采样缓存利用率低。为此提出Drishti,包含两项增强:(1) 每核全局重用预测器与每片局部采样缓存结合;(2) 动态选择高缺失率的LLC集合作为采样缓存。在32核系统上,Drishti使Hawkeye和Mockingjay相比LRU的性能提升从3.3%/6.7%提高到5.6%/13.2%,同时减少存储开销。

📄 论文笔记 | 📊 图表解析 | 👶 通俗解释 | 🔗 直达原文


Learning to Walk: Architecting Learned Virtual Memory Translation

Authors: Kaiyang Zhao, Yuang Chen, Xenia Xu, et al.
Affiliations: Carnegie Mellon University, Meta, Intel
Venue: MICRO 2025

论文提出Learned Virtual Memory (LVM),一种基于学习型索引的页表结构,旨在实现高效的单次访问地址翻译。LVM通过动态适应应用虚拟地址空间的规律性,使用轻量级线性模型构建索引,解决了传统页表多级遍历和哈希页表高冲突率的问题。实验表明,LVM相比基数页表平均减少44%的地址翻译开销,提升应用执行速度2-27%,性能接近理想页表(差距<1%)。

📄 论文笔记 | 📊 图表解析 | 👶 通俗解释 | 🔗 直达原文


SHADOW: Simultaneous Multi-Threading Architecture with Asymmetric Threads

Authors: Ishita Chaturvedi, Bhargav Reddy Godala, Abiram Gangavaram, et al.
Affiliations: Princeton University, University of British Columbia, Microsoft, University of California Santa Cruz, AheadComputing
Venue: MICRO 2025

论文提出SHADOW,首个支持乱序(OoO)与顺序(InO)线程并发执行的非对称SMT架构,动态平衡指令级并行(ILP)与线程级并行(TLP)。通过软件工作窃取机制自适应分配负载,在9个基准测试中相比传统OoO CPU最高提速3.16倍,平均提升1.33倍,仅增加1%面积与功耗开销。

📄 论文笔记 | 📊 图表解析 | 👶 通俗解释 | 🔗 直达原文


ATR: Out-of-Order Register Release Exploiting Atomic Regions

Authors: Yinyuan Zhao, Surim Oh, Mingsheng Xu, et al.
Affiliations: University of California, Santa Cruz
Venue: MICRO 2025

论文提出ATR技术,通过识别不含分支和异常指令的原子提交区域,实现寄存器的安全乱序释放。该方法无需影子寄存器或复杂恢复机制,在SPEC2017int上平均提升5.13%(64项寄存器文件)性能,或在保持性能损失<3%时减少27.1%寄存器文件大小。

📄 论文笔记 | 📊 图表解析 | 👶 通俗解释 | 🔗 直达原文