应永利皇宫463cc的邀请,Megagon Labs研究员王津博士于10月16日在永利皇宫463cc做题为" Contrastive Learning for Data Integration Applications”的报告。此次报告由永利皇宫463cc副教授柴成亮主持,学院二十余名对数据集成和数据管理感兴趣的教师和研究生参加了报告。
对比学习(Contrastive Learning)是一种无监督学习方法,将相似的数据样本进行对比,使得它们在表示空间中更加接近,同时使不相似的样本距离较远。报告中,王津博士介绍了团队的研究成果,Sudowoodo,一个用于数据集成的对比学习框架。对比学习使得Sudowoodo能够从大规模的数据语料库中学习具有相似性的数据表示,而无需任何标签。这些学习到的表示可以直接使用,也可以在仅有少量标签的情况下进行微调,以解决实体匹配问题。此外,它还可以支持数据清洗和语义类型检测等其他应用。实验结果表明,Sudowoodo优于以往针对实体匹配的最佳解决方案,在不同监督级别上取得了多个最优结果。同时,Sudowoodo也在数据清洗和语义类型检测任务中也取得了很好的效果。
通过本次学术报告,参会师生对基于对比学习的数据集成框架Sudowoodo有了更深入的了解。报告内容还进一步拓宽了学院研究生的视野,为未来数据集成和数据管理的学术研究和交流合作奠定了基础。
王津博士简介:
王津博士,Megagon Labs的研究员;担任SIGMOD、VLDB、KDD、ICDM、AAAI和IJCAL等顶级会议的程序委员会委员,ACM和IEEE会员。于加利福尼亚大学洛杉矶分校和清华大学分别获得博士学位和硕士学位。已在CCF-A会议和期刊上发表30余篇论文。研究方向包括数据集成、数据库查询语言。