News
Llama3.1-8B-Instruct在错误奖励在提升仅1.3%,而随机奖励性能暴减4.9%。 然而,这种频繁且高质量的代码推理能力在其他模型中并不存在。在应用RLVR后,无论奖励质量如何,Qwen-Math 的代码推理频率平均增加到超过90%。
结果显示,经过LASER训练后,模型生成中冗余的Backtracking(反复自我否定)显著减少,而Verification(验证)、Subgoal Setting(子目标拆解)等关键推理行为得以保留甚至增强。
小网格(4x4)表现稍好(40%-73% 正确率),但9x9网格几乎全败,正确率接近0%,即使是高性能模型“o3 Mini High”的正确率也只有2.9%。 Sakana AI由前谷歌研究人员Llion ...
来自南开大学和伊利诺伊大学厄巴纳-香槟分校的研究人员深入剖析了这些效率瓶颈,并提出了一套名为SearchAgent-X的高效推理框架。 AI越来越聪明,但如果它们反应慢,效率低,也难以满足我们的需求。
Regeneron国际科学与工程大奖赛 (Regeneron ISEF)是由美国Society for ...
该僵尸网络采用Go语言编写,专门针对SSH服务实施暴力破解攻击以扩大规模,并向受感染主机投递其他恶意软件。网络安全公司Darktrace向The Hacker ...
GitHub广泛使用的模型上下文协议(Model Context Protocol,MCP)服务器被发现存在严重安全漏洞,攻击者可通过恶意提示注入(prompt injection)手段获取私有代码库数据。该漏洞影响所有使用GitHub ...
又是一个让程序员狂欢的研究!来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。
曾创立并领导DefenseCode的应用安全专家Juranić与NASA早有渊源——2009年他就发现并报告了NASA通用数据格式(CDF)软件库中的多个严重漏洞,最终促使开发团队修复问题。此次他对NASA开源软件的审计仅耗时4小时,却发现了大量安全隐患。
Some results have been hidden because they may be inaccessible to you
Show inaccessible results