[Python知识库] 【论文分享】Reinforcement Learning Guided Symbolic Execution

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> 【论文分享】Reinforcement Learning Guided Symbolic Execution -> 正文阅读

[Python知识库]【论文分享】Reinforcement Learning Guided Symbolic Execution

SANER 2020上的一篇Poster

简介

符号执行是软件测试和程序分析里一个很重要的技术。路径爆炸是符号执行里一个很严重的问题。为了缓解这个问题，文章提出了一种基于Q-learning的算法来指导符号执行。

方法

Q-learning算法是一种model-free off-policy的算法。给定一个状态，算法能够估计一个动作的长期expected return。这个expected return 也叫做Q-value。Q-value越高，意味着动作 $A_{t}$ 在状态 $S_{t}$ 上产生更好的长期结果。

在符号执行例子里，Q-learning里的状态表示程序执行到的语句。动作表示符号执行在遇到分支语句时，选择true分支还是false分支。当语句运行到关键点时，奖励值为正的。

具体实现上，首先在源码中设定目标语句，并且用静态分析获取路径上的关键点。然后，当符号执行遇到分支语句时，会将当前状态的信息发送给Q-learning，并且获取到action的建议（true or false）。基于 $\varepsilon-greedy$ 规则，klee有 $\varepsilon$ 的概率选择Q表的值，也有 $1-\varepsilon$ 的概率随机选择一个action。然后在每个分支结束后，再返回给Q-learning reward，来更新Q表。只有程序运行到关键点的时候，reward才为正的，其余情况都为负的。