V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Avafly  ›  全部回复第 1 页 / 共 5 页
回复总数  86
1  2  3  4  5  
试了下 demo, 用户名随便就写了个 114514, 结果进去发现里面的人全是野兽先辈数字笑死 https://i.imgur.com/GBsc04u.png
7 天前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
@dingyaguang117
你是说它们不是传统的 C=AB, 而是用了 Strassen/Winograd 之类的方法减少了复杂度吗?
7 天前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
@foool #19
非常感谢你的回复.
1. 最大 GFLOPS 这个我没算, 是以 openblas 的为目标优化的 (试过别的库, 有比 openblas 更快的).
2. 3. 很好的建议, 我回头再优化测试看看.
4. 我是脚本跑 100 次取最优值的.
5. 使用 schedule(static)是因为 for 循环中每次计算量近似才用的, 不过我试过去掉这个, 其实性能基本没区别.
7 天前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
@tankeco
是的, 这点我也觉得要花时间想下怎么减少 index.
其实已经优化过一次 index 了, 现在保留的都是为了分块和区分多线程访问空间的, 后面个人感觉这不是影响速度的最大的因素就没继续花心思了.
7 天前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
@toma62299781
感谢分享
7 天前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
@WonderfulRush
刚看完这篇文章然后看到你的评论...
那个文章挺好的, 但是技术部分讲得有点简略, 而且其实很多提到的技术我已经用了, 比如 blocking, simd 等等.
7 天前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
@Donaldo ppt😂
7 天前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
@AirCrusher 谢谢分享, 这个有点猛汇编都用上了, 我回头看下. 其实后面我看过类似的就是 flame 的教程, 基本上里面的技术都应用到了已经.
7 天前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
@nagisaushio 这个确实有一些帮助, 不过只能提升一点点大概 0.1GFLOPS 吧, 还是和 openblas, blis 这些有断档的差距. 感觉更多还是算法设计方面的问题, 这部分不知道该怎么做了.
8 天前
回复了 Avafly 创建的主题 算法 C++如何优化矩阵乘法 gemm
@elfive #2 什么库不重要, 主要是想自己优化 gemm 来学习一下. 实际项目中会都测试一边选性能最好的用的.
30 天前
回复了 wkj89 创建的主题 Apple 3580 拿下 Mac Mini M4
好帅的结账单啊
@clockOS #62 韩语也是个问题
优化 GEMM.
后来直接上 openblas 了...
@zxbiao 好, 非常感谢!
46 天前
回复了 jjrhlb 创建的主题 信息安全 自用电脑中了勒索病毒!
我用 fps 做的内网穿透, 高端口号, uuid 密码, 用 tls 加密流量. 用了两年了都挺好的.
55 天前
回复了 justincnn 创建的主题 VPS oracle 现在大家还开得出免费的实例么?
@cnyang 我感觉挺好用的. 我仅剩的那台全都好, 网速也好性能也好, 我经常在上面跑 arm 测试程序. 可惜磁盘被 docker 垃圾吃透了, 想开台新的也开不出来.
56 天前
回复了 justincnn 创建的主题 VPS oracle 现在大家还开得出免费的实例么?
我以为只有热门地区这样,春川地区的现在完全没办法开新鸡了。以前还开了台 oraclelinux ,结果实在用不惯就删了,现在想真是后悔。
65 天前
回复了 hangzhou 创建的主题 随想 非洲大草原上的动物活着的意义
看到这个标题就笑了, 不知为何有一种阳痿的感觉
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2650 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 26ms · UTC 04:01 · PVG 12:01 · LAX 20:01 · JFK 23:01
Developed with CodeLauncher
♥ Do have faith in what you're doing.