NVIDIA 的 cuEmbed 提升 GPU 嵌入查找性能
By: blockchain news|2025/05/16 13:15:04
0
分享
NVIDIA 推出了 cuEmbed,这是一个最先进的、仅头文件的 CUDA 库,旨在提升 NVIDIA GPU 上嵌入查找的效率。正如 NVIDIA 报道的那样,这一发展对那些使用推荐系统的人特别有利,因为嵌入操作可能消耗大量的计算资源。 理解嵌入查找 嵌入查找对于处理机器学习模型中的非数值数据至关重要。它们将分类数据转换为浮点数向量,从而能够将其整合到神经网络中。cuEmbed 优化的核心操作涉及根据输入索引检索并可能组合嵌入表中的向量,由于其不规则的内存访问模式,这个过程可能非常耗费资源。 用 cuEmbed 优化 GPU 性能 cuEmbed 通过实现超过峰值 HBM 内存带宽的吞吐率来应对内存密集型操作的挑战。这是通过各种优化技术实现的,如增加内存加载的数量和跨 GPU 线程合并内存访问。该库还利用缓存内存来容纳经常访问的行,从而减少内存系统压力。 实际的集成和使用 该库是开源的,允许开发人员自定义和扩展其功能。它可以无缝集成到使用 C++ 和 PyTorch 的项目中,为各种嵌入用例提供了一个多功能的解决方案。开发人员可以通过将 cuEmbed 作为子模块添加或通过 CMake 包管理器来将其包含在他们的项目中。 实际影响 cuEmbed 已在实际应用中展示了其有效性。例如,Pinterest 将 cuEmbed 集成到其基于 GPU 的推荐模型中,并报告训练吞吐量提高了 15-30%。这种性能提升强调了该库在显著增强机器学习工作负载方面的潜力。 结论 通过 cuEmbed,NVIDIA 提供了一个强大的工具来加速嵌入查找,这对于从推荐系统到图神经网络的多种应用至关重要。其开源性质邀请开发人员进一步创新,扩展其能力以满足机器学习领域的多样化需求。 nvidia cuembed gpu cuda
猜你喜欢

比特币带头大哥的镰刀,一场纳斯达克抢劫实录
从23倍溢价到归零,散户是如何被合法吃干抹净的?

ARK Invest:稳定币正在构建下一代货币体系
如今稳定币的局面与 1913 年之前的私人发行货币极其相似。

美国就业报告:一月非农就业人数上升至13万,比特币下跌
要点 美国一月新增就业人数13万,超过预期,表明劳动力市场正在复苏。比特币...

从房地产到互联网,下一个十年的财富密码藏在哪里?
每一代人的财富密码,都写在这一代人集体达成的每一个新共识里。

Fintech vs. DeFi:哪一种金融体系更具竞争力?
DeFi已规模与效率上追平Fintech,但在抽成率与变现能力上仍然落后,金融的未来将取决于两者如何走向融合

以太坊再定价:从Rollup-Centric到「安全性结算层」
以太坊战略重心正回归主网,通过确立「结算主权」与强化安全性构建其核心价值,估值逻辑从依赖手续费收入转向基于安全性与货币属性的制度溢价。

别再拿黄金说事了,比特币不是避险资产
不能用“黄金轮动”等宏观叙事来判断比特币是否见底,真正接近底部的信号只会出现在仓位出清和情绪极度悲观之中

Aave创始人:DeFi借贷市场的秘密是什么?
当链上借贷在端到端运营上变得比传统借贷明显更便宜时,普及不是问题,而是势在必行。
交易员策略手册:从西甲90分钟节目中汲取的7个市场周期教训
西甲联赛能告诉我们关于加密货币市场什么信息?了解盘整、突破和周期末期的波动率如何影响严谨的交易决策。
Smart Money Tracker 如何在 WEEX AI 黑客马拉松的实时 AI 交易中幸存下来
了解 WEEX AI 交易黑客马拉松如何使用真实资金测试策略——而不是模拟。看看 Smart Money Tracker 是如何在闪崩中幸存下来,并在实盘市场中实现 18 倍杠杆的。
胜率从80%下降到40%:WEEX AI Wars上人工智能交易员的残酷重新校准
深入了解基于LLaMA推理和多智能体执行的人工智能交易系统的技术蓝图。了解Quantum Quaser在WEEX AI Wars中如何使用置信阈值和波动率过滤器,并学习解锁95%胜率交易的关键。
人工智能交易策略详解:新手蒂安娜如何一路杀进WEEX人工智能交易黑客马拉松决赛
人工智能交易真的能超越人类的情感吗?在这篇独家 WEEX 黑客马拉松决赛选手采访中,您将了解到行为信号策略、SOL 趋势设置和严谨的 AI 执行是如何确保现货决赛的。

当AI 接管“购物路径”,PayPal 还剩多少时间?
Stripe与PayPal正从支付工具转向AI 商业基础设施,竞逐谁能成为AI交易的默认引擎

彭博社:协助土耳其冻结10亿美元资产,Tether正重塑合规边界
截至 2025 年底,Tether 及其竞争对手 Circle 已将约 5700 个钱包列入黑名单,涉及资产约 25 亿美元。

Polymarket vs. Kalshi:预测市场「梗图大战」完整时间线
话题本身成为增长引擎,这场“骂战”或许正是它们最有效的商业策略

Consensus HK观察:2026年的第一场大会,诞生了哪些共识?
刚刚在香港落幕的 Consensus HK 2026,为今年写下了全新的剧本。

上任不足一年又离职,以太坊基金会核心人物为何又出走??
以太坊基金会又一次站在了人事动荡的十字路口。

俄乌战争预测市场分析报告
通过分析交易画像,验证预测市场作为预判事实的媒体新秩序
比特币带头大哥的镰刀,一场纳斯达克抢劫实录
从23倍溢价到归零,散户是如何被合法吃干抹净的?
ARK Invest:稳定币正在构建下一代货币体系
如今稳定币的局面与 1913 年之前的私人发行货币极其相似。
美国就业报告:一月非农就业人数上升至13万,比特币下跌
要点 美国一月新增就业人数13万,超过预期,表明劳动力市场正在复苏。比特币...
从房地产到互联网,下一个十年的财富密码藏在哪里?
每一代人的财富密码,都写在这一代人集体达成的每一个新共识里。
Fintech vs. DeFi:哪一种金融体系更具竞争力?
DeFi已规模与效率上追平Fintech,但在抽成率与变现能力上仍然落后,金融的未来将取决于两者如何走向融合
以太坊再定价:从Rollup-Centric到「安全性结算层」
以太坊战略重心正回归主网,通过确立「结算主权」与强化安全性构建其核心价值,估值逻辑从依赖手续费收入转向基于安全性与货币属性的制度溢价。