信也科技联合浙江大学发布大规模动态图数据集DGraph共建开放数字生态
近日,信也科技联合浙江大学正式公开发布大规模动态图数据集DGraph,旨在服务图神经网络、图挖掘、社交网络、异常检测等方向的研究人员,为之提供真实场景的大规模应用数据,帮助推动整个图领域的发展。
值得注意的是,DGraph 的源数据来源于信也科技的真实金融业务场景,并由信也科技对外开放共享给对图领域感兴趣的研究者。其构建逻辑贴近工业落地,为数据集的使用者提供了探索如何将图模型扩展到金融领域落地应用的机会。DGraph一方面可以作为验证相关图模型性能的标准数据,用于解决不平衡节点分类、链接预测、图分类等各种典型任务,另一方面可用于开展用户画像、网络分析等研究工作。
信也科技相关负责人透露:“像此次DGraph公开的如此大规模、真实的动态图数据,据我们所知,在金融领域还是第一次。”DGraph作为一个有向无权的动态图,包含超过370万个节点和430万条动态边,支持大规模图模型的研究与评估。其用户关系采样自横跨27个月的业务场景,且网络结构会随着时间发生演化,为当前的动态图模型与挖掘研究提供了结构动态的数据支持。
此外,DGraph 中包含超过200万个“背景节点”,即并非分类或分析对象但实际存在、对业务逻辑有间接影响的节点。这些节点对于维持网络的连通性有着重要作用,在工业界广泛存在,可支持研究者深入探索背景节点的性质。合理处理背景节点可以在大规模数据场景下有效提升数据的存储空间和模型的运行效率。
如下图所示,DGraph中的节点表示信也科技服务的用户,有向边表示用户关系,每个节点包含脱敏后的属性特征,以及表示是否为金融用户的标签。
信也科技相关负责人表示:“目前DGraph网站已吸引了一批来自清华大学、中科大、、同济大学等国内外知名高校的研究者。”其中,清华大学计算机系知识工程研究室基于他们最新的图学习框架CogDL,为DGraph数据集提供了多种图算法的Baseline。
当前,信也科技围绕着DGraph举办的第七届信也科技杯图算法大赛正面向全社会开放报名,国内外高等院校、科研院所、互联网企业等均可报名参赛,角逐共计31万人民币奖金。期待结合赛事契机,DGraph公开数据网站的发布能够帮助激发更多相关领域研究,并融入拓展更多其他领域的数据和实际应用,从而支持对于图领域特性和跨领域算法的研究,携手共建开放的数字生态。
- 标签:科技的图片
- 编辑:刘卓
- 相关文章
-
【科技日报】从“理工男”到创新社区创始人
非凡十年,辽宁开拓进取,勇攀高峰,把准装备制造业的支柱地位,推动产业迈向高端化、智能化,让科技创新成为推动高质量发展的强劲引擎…
-
科技日报:出新招 引人才 江苏宜兴打造创新之城
近日,2022宜兴国际科创英才节启动,该市发布了“‘科创宜兴’建设‘331’行动计划”“‘宜荟才·兴未来’幸福车行动计划”“宜…
- 跨年晚会背景素材被指侵权
- 动态背景:青海省玉树藏族自治州
- 双12易拉宝红色背景素材
- 科技日报:“精明”的美芯片法案打错了算盘
- GIF简史:观察互联网的一个切面