/2

基于文本内容的垃圾短信识别模型模型体验

模型简介 技术文档 购买咨询
互联网 0 809 0 ¥399

基于文本内容的垃圾短信识别模型

一、模型应用

随着通讯时代的到来,手机成为人们日常通讯必不可少的工具之一。手机短信也以其操作简单、方便快捷等诸多优点,逐渐成为用户间沟通的重要桥梁,但在为人们带来极大便利的同时,随之而来的诸多垃圾短信问题日益严峻,广告信息、欺诈短信、谣言散布等短信内容,严重危害了社会公共安全。据360手机卫士安全中心发布的数据,2015年全国垃圾短信拦截总量约为318.3亿条,平均每天收到垃圾短信超过5000万条。据统计,各类垃圾内容中,冒充类短信占所有垃圾短信的92.9%,多以银行诈骗、互联网虚假网购、电信诈骗等内容为主。垃圾短信泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定。

1.png

面对激烈的市场竞争,各大运营商及相关部门都在寻求一种快速、有效的垃圾短信识别方法。通过垃圾短信的精准识别,以完善用户的通讯环境,为有关部门提供有效依据,维护运营商利益。试通过建立合理的短信识别模型,对垃圾短信进行识别,解决运营商和手机用户等困扰。

二、实现流程

本例建模针对某通讯运营商提供的短信文本数据,首先从原始数据集中抽取所需数据,再对其进行预处理,其中包括去除重复值、中文分词和停用词过滤,并通过绘制词云图检查数据分词效果,最后建立支持向量机(SVM)分类模型,实现对垃圾短信的精确识别。

本例总体流程如下图所示。

2.png


垃圾短信识别的主要步骤如下所示:

  1. 数据抽取,抽取所需数据集;

  2. 数据预处理,对数据进行文本去重、中文分词、停用词过滤处理;

  3. 建模准备,将分词结果分别转换成文档-词条矩阵,并划分测试集与训练集;

  4. 模型构建与评价,构建支持向量机模型,并建立评价指标精确率、召回率、F1值对模型分类效果进行评价。

三、核心技术

  • 文本挖掘

  • SVM

  • 中文分词

四、运行环境

windows/linux/mac OS,64位或32位操作系统,CPU:4GB(GPU更好),R3.1.1及以上。

五、资源展示


3.png

您尚未登录,请登录后购买! 【马上登录

评论已有 0

模型资源列表

基于文本内容的垃圾短信识别模型

相关模型推荐

联系我们

电话:(020)22205718

热线:40068-40020

地址:广州黄埔区开泰大道36号

邮编:510000

电邮:services@tipdm.com