针对Twitter、微博等公开社交媒体中的用户发文数据,创新性地提出了主题序列模式的概念,通过建立同一用户发文内容之间的关联关系,准确刻画了互联网用户完整而重复的发文行为,体现了发文背后的真实意图和潜在意图。在此基础上,提出了用户感知的稀有主题序列模式的挖掘问题,并设计了高效的挖掘方法,利用“整体稀有,局部频繁”的特征,在海量的数据中挖掘出这些个性化和异常的行为模式,并找出对应的异常用户。实验结果表明,我们的方法能有效地发现互联网中具有特殊行为的用户,而且对应的主题序列模式可以很好地解释他们的个性化特征、特定任务和发文意图。比如,具有模式<健康,产品,购买> 的用户可推断为化妆品推销员。另外,在对特定领域(比如体育领域)的帖子进行分析时,我们的方法可以区分处于不同角色的用户,并找出每种角色中的典型用户。此工作发表在TKDE期刊中,得到了国际同行的高度评价:“此工作具有很强的理论和应用价值,开创了互联网挖掘领域一个新的研究方向”。目前,我们已经公开了数据集,已有多家研究机构的研究人员与我们进行交流,正在此工作基础上开展进一步的研究。同时,我们将此方法应用于经济案件的侦破中,发现了更多的嫌疑人和嫌疑团伙。