在刚刚结束的“第三届中国人工智能大赛”上,冲出了一支“黑马”冠军战队——来自瑞数信息的AI团队,从支参赛战队中突出重围,勇夺网络安全方向A级冠军。
作为一场含金量非常高的公开技术赛事,“中国人工智能大赛”由国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局、厦门市人民政府联合主办,至今已成功举办两届,累计一千余支团队参赛报名,囊括了海内外顶尖的技术企业、高校科研院所同台竞技。
本届大赛亦是高手如云,竞争异常激烈。“网络安全”作为三大赛题方向之一,吸引了国内大部分的头部安全公司和安全创新企业参赛,代表了业内的领先水平。
令人意外的是,作为冠军战队,瑞数信息AI团队竟然是第一次参与公开赛事。这支神秘的冠军战队是如何诞生的?他们采用了哪些技术和策略成功破题?又是如何看待AI技术在网络安全领域的应用?接下来就让我们为大家揭秘大赛背后的故事。
赛事回顾:以AI技术检测识别Webshell攻击
本届大赛网络安全方向的比赛任务是“检测文件数据是否为可用于网络攻击的Webshell文件”。主办方会提供不少于10万条的文件样本数据集,以供参赛战队比拼对样本数据集中Webshell文件的检测能力,通过检出评价+误报评价两大评判标准数值相加,按总分高低排序决定最终名次。
熟悉网络安全领域的人都知道,Webshell是威胁Web应用安全的一大顽疾。基于隐秘性、基于脚本、灵活便捷、功能强大等特点,Webshell被网络攻击者当作网站后门工具使用,以实现维持对攻陷服务器的长期远程接入能力。因此,及时检测和发现Webshell能有效阻断很多潜在攻击,大大提升网络安全,Webshell检测识别能力也由此成为企业安全防御的重点。
正因如此,本届大赛将“Webshell的检测能力”作为赛题,具有非常强的现实意义。而这样的赛题,对于活跃在网络安全领域的各大厂商而言,也是一个常规题。目前几乎所有的安全厂商都已跟进了以AI检测Webshell的技术,但如何答好这道题,则显示了厂商背后的AI实力。
据瑞数信息AI团队介绍,AI检测技术主要涉及到三个方面:特征提取、模型构建和训练调参。
特征提取:
包括数据清洗和特征工程,主要难点在于从已知样本数据中提取合适的数据特征作为模型输入,特征工程是影响模型效果最关键的因素。
模型构建:
需要根据实践经历了解不同模型的使用场景和优劣特征,难点在于针对不同特点的数据构建合适的模型,更有效地学习数据内在特征,发挥模型优势。
训练调参:
针对模型构建结束后,训练过程中设定合适的模型超参数,难点在于需要通过不断的经验积累,设定的超参数使模型在特定数据集下达到最优效果。
游刃有余:瑞数AI融合深度学习模型
在本次比赛中,由于主办方提供的检测目标为PHP和JSP脚本混合数据,不同语言脚本特征不一样,需要设计不同算法进行检测,因此,瑞数信息AI团队在构建Webshell检测模型时,结合不同的数据类型,采用了将不同模型相结合的融合深度学习模型。在检测前会对脚本进行区分,再通过合适的模型进行检测。
事实上,瑞数信息AI团队日常研究的Webshell脚本远不止PHP和JSP两种,这也成为AI团队在比赛中游刃有余的底气。
此外,主办方提供的测试集数据量远大于本地训练集,容易出现过拟合情况,导致检测效果较差。同时,在实际比赛中,主办方只提供了少量黑白样本,这使得各大战队构建的模型几乎没有调优空间,只能根据主办方黑白样本的大致比例做相应的判断调整。因此在模型调优上也需要足够的实战经验。
对此,瑞数信息AI团队的方案是在训练数据集上通过增加模拟数据集,对数据集进行增强处理;在模型上,尽量简化模型结构,在网络结构中不设计过深的层级,加入dropout层并调整合适比例,加入正则化等提升模型泛化效果。
在瑞数信息AI团队看来,这次大赛比拼的是综合能力,模型效果的呈现是多方面结合的成果:
首先,在数据量上,通过在实践中不断积累,收集更多更完备的训练数据集,使模型学习的数据更具代表性,具备更强的泛化效果;其次,在经验上,通过对Webshell脚本更深入的理解和实践,对样本数据进行更有效的特征工程,强化模型效果;最后,在算法模型上,构建合适的模型结构,调整合适的模型超参数,使模型在训练集上有最优的效果。
实战价值:进阶的瑞数AI检测技术
考虑到赛事提供的样本可能有一定局限性,那么瑞数信息在本次比赛中展现的AI检测能力,是否具备实战价值,能否在实际攻防中得以应用?
据瑞数信息AI团队介绍,本次赛事主办方提供的PHP和JSP两种类型的Webshell脚本,在实际攻击中都是常见且具有代表性的脚本。因此,本次大赛各大战队展现的AI检测能力,完全能够应用到网络攻防实战中。
事实上,通过AI算法对Webshell进行检测,是近年来网络安全领域一种领先的技术应用,通过大量的训练样本,针对提取的特征自动发现其内在联系,自动学习Webshell和正常样本的分布差异。
AI检测方法的诞生,很大程度源于网络威胁不断升级,传统Webshell检测方法已捉襟见肘。常见的Webshell检测方法有两种:静态检测和动态检测。其中,静态检测是先建立一个恶意字符串特征库,通过与特征库的比对检索出高危脚本文件。但这种方法容易误报,无法对加密或者经过特殊处理的Webshell文件进行检测。动态检测则是通过行为模式深度检测脚本文件的安全性,对于新型变种脚本有一定的检测能力,但针对特定用途的后门较难检测。
瑞数信息AI团队表示,静态检测和动态检测大部分是建立在安全专家对Webshell脚本深入理解的情况下提炼的关键特征,这项工作非常耗时,同时维护起来也是一项极其繁琐的工作。即便如此,依然有检测不到的时候。
但是基于AI检测Webshell能克服传统Webshell检测方式的单一性和滞后性,对未知数据具备一定的识别效果,同时能很好处理通过加密编码等绕过静态检测的Webshell,因此作为现有检测方式的有力补充,可以有效提升实际检测效果。
实至名归的AI冠军团队
瑞数信息在AI技术上已有近六年的积累,团队成员来自北京大学、中国科学技术大学、武汉大学、西南大学等国内一流名校的本科和硕士研究生,在安全领域有着丰富的经验积累和实践经历。此外,瑞数信息还积极与国内顶级高校北京理工大学在网络安全领域展开深度研究和合作,推动网络安全“产、学、研、用”的一体化发展,不断提升网络空间安全水平。
除了“AI+安全”的高端人才配置,瑞数信息AI团队也非常重视技术研究和实战演练的相互印证。在为大型企业客户提供安全防护中已经很好地验证其模型效果,并不断优化提升实战效果。
这也就不难理解,为什么瑞数信息AI团队初次参赛就斩获冠军,既能“抬头看天”,紧跟学术前沿不断创新,又能“低头走路”,以实战为基准做好当下每一件事,瑞数信息冠军战队可谓实至名归。
对于AI检测技术的未来,瑞数信息AI团队认为,现阶段AI检测应用还不够广泛,一方面受限于大规模算力的支持,另一方面也需要降低人为提取模型数据特征的比例。在数据方面,高质量的Webshell数据量较为稀缺,一定程度上也影响了AI检测效果的提升。
但是,AI检测作为一种处在早期发展阶段的技术,相信其未来一定能够得到更加广泛的应用,用于发现更为隐蔽的攻击手段;同时,随着AI算法从传统算法—深度学习—强化学习的不断进化,也将对安全产生更大的助力。
AI检测是一个进化发展的过程,瑞数信息将通过不断推动人工智能与行业深度融合及跨界应用,加速人工智能在网络安全技术的发展和应用创新!