分析社交媒体信息的商业智能模型
摘要
社交媒体是一个分享信息的平台,如今深受每个人的喜爱,因为一些设施使我们更方便地相互沟通、共享文档、聊天甚至创建社区。此外,我们还可以通过数据挖掘中的多种方法来分析社交媒体内容,从而获取新的信息,以支持对个人和企业有益的决策。本研究的目的在于创建一个商业智能仪表板,用于观察发布到Facebook和Twitter等社交媒体账号的每个主题或频道新闻的表现。社交媒体中的主题表现是指发布到社交媒体的文章中各主题获得的点赞、分享、评论等数量。为了能够识别社交媒体中新闻帖子的主题,采用了朴素贝叶斯、支持向量机和决策树等文本分类技术。通过比较这些算法的结果,选择准确率最高的支持向量机算法用于后续在数据仓库中的实施。而商业智能仪表板的数据源将来自此前已建立的数据仓库。
关键词 :社交媒体, 朴素贝叶斯, 支持向量机, 决策树, 商业智能
1. 引言
如今,社交媒体已成为儿童、青少年到成年各个群体所拥有的自然事物。不仅 Facebook 和 Twitter,社交媒体如今也因领英、Instagram、Path 的出现而更加活跃 Pinterest。其作用是让用户能够轻松参与、分享和创建内容,包括博客、社交网络、维基、论坛和虚拟世界,使社交媒体对所有用户而言越来越具有吸引力。这一点得到了smartinsights.com所获取的统计数据的支持,其中活跃Facebook用户数量达到1.59万亿,Twitter达到3.2亿,Instagram达到4亿,等等 1。这些统计结果显示,Facebook作为拥有最多活跃用户的社交媒体位居第一2。
鉴于上述足够多的活跃用户对社交媒体本身的实用性产生了重大影响。这种影响体现在社交媒体过去仅作为参与、分享和创建内容的场所,如今还可被用作轻松推广、开展活动以及与消费者沟通的媒介。我们也意识到,社交媒体营销需要进行监控,以防止误导性策略(如促销、活动及与消费者的沟通),因此必须明确在社交媒体上进行营销时应重点监控哪些领域,无论是提升品牌认知还是为网站引流 3。在社交媒体上需要监控的战略领域包括品牌术语、品牌关联术语、客户需求、客户情绪以及竞争对手 4。此类监控可直接在社交媒体平台上进行,例如 Facebook,作为最受欢迎的营销活动社交媒体平台,其次是领英、Twitter、 YouTube 和 Instagram5。
本研究将设计并实施用于商业智能系统的数据仓库模型和软件。数据源将从Facebook和Twitter上的账户数据中提取。这些数据将被分类为娱乐、经济、健康、烹饪、生活方式、汽车、政治、足球、技术以及旅游等多个主题。社交媒体的文本分类方法将在三种算法上进行测试,即朴素贝叶斯、决策树和支持向量机6。三种算法比较后得出的最佳结果将被选中用于文本分类,这将为数据仓库的实施提供非常有用的信息 7。同时,所采用的数据仓库设计方法是金博尔8的方法。该方法在数据仓库设计过程中必须经过四个阶段,即选择业务流程、声明粒度、识别维度和识别事实。ETL过程(抽取、转换、加载)是构建数据仓库时必须经过的一个过程 9。最后,在商业智能设计方面采用卡洛·韦尔切利的方法,该方法包含四个主要阶段,即分析、设计、规划以及实施与控制10。
2. 相关工作
Smita和Seema对数据挖掘在社交网络商业智能中的应用进行了调查。他们的研究背景是,数据挖掘使得对社交网络的数据分析更加便捷,甚至能够提取出数据中隐藏的知识。如果将数据挖掘过程融入商业智能,这种情况就可能发生。通过使用数据挖掘处理大量数据,可以从数据中挖掘出新的信息,例如类别、模式,并基于现有数据进行预测11。在数据挖掘中,有多种技术被分为两类:预测任务和描述任务。预测任务包括分类、回归和偏差检测技术;而描述任务则细分为聚类、关联、序列模式和摘要技术。目前,一些数据挖掘技术已被应用于传统的客户数据中,例如:回归分析、朴素贝叶斯(NB)、支持向量机(SVM)以及神经网络(NN) 12。其中,回归分析是最受欢迎的预测客户满意度的技术 13。这种数据挖掘技术可用于解决一些问题,例如识别社交媒体用户评论中的情感、检测用户习惯以及对社交媒体用户进行人口统计特征分析。在社交媒体上进行数据挖掘非常具有潜力且十分有用,可以提取更多信息,深入了解客户情况,从而有助于支持客户互动与分析、信息系统开发、市场营销以及商业智能分析等活动14,同时也可促进社区中个体和群体问题解决策略的开发与分析。为了有效应对上述问题,数据挖掘包含若干组成部分,用于处理电子商业数据。
这些部分从数据收集开始,随后进行数据分析过程,包括预处理,然后利用数据挖掘算法对数据进行建模,从而从数据提取结果中获取有用的信息,用于决策、预测用户行为以及确定业务战略15。
桑加梅什瓦里和乌玛对数据挖掘在商业智能系统中的重要作用进行了研究。数据挖掘是从大型数据库中提取隐藏的预测性数据的过程;它是一种强大的创新技术,具有巨大潜力,可帮助组织集中关注其数据仓库中最关键的信息。数据挖掘工具能够预测未来的趋势和行为,帮助组织做出主动的、基于数据的决策。数据挖掘所提供的自动化、前瞻性分析超越了传统决策支持系统中用于分析过去事件的回顾性工具。数据挖掘工具可以回答那些以往因耗时过长而难以提出的问题。它们为发现隐藏模式做好数据库准备,找出专家可能忽略的预测性信息,因为这些信息超出了他们的预期。随着数据挖掘在商业智能中的应用,有可能被用于创建诸如欺诈检测、财务分析、客户行为分析、产品分析和销售分析等应用 16。
维特里·敦琼萨里构建了商业智能系统以支持电信行业的客户满意度。为了进行客户满意度分析,有必要了解用户特征,这些数据可从社交媒体中获取。挖掘社交媒体在提取更多信息以及深入了解客户 17方面具有巨大潜力和实用价值。例如,可用于识别社交网络站点中的有影响力客户,检测社交网络站点中的隐性或隐藏群体,感知客户对其产品或服务满意度的意见以支持主动规划,开发推荐系统以维护现有客户并吸引新客户,或在客户之间以及客户与其他利益相关者之间建立和加强信任。简而言之,社交媒体挖掘是一个前景广阔的多学科领域,因此不同背景的研究人员均可为社交媒体的研究与发展做出重要贡献18。为了帮助商业智能系统更好地了解客户满意度,她采用了数据挖掘技术,该技术能够对大规模数据执行发现有用或可操作知识的多个过程 19。构建商业智能系统所使用的具体方法包括文本挖掘、将数据划分为有意义或有用组别的聚类19 ,以及作为向最终用户展示数据界面的可视化。可视化中使用的一些表示类型在计算上生成成本较高,因此可视化社区面临的一个挑战是如何应对许多应用领域中迅速增长的数据量。另一个明显阻碍可视化工具在科学中便捷使用的问题是不同科学学科所使用的数据格式种类繁多,通常需要在可视化之前对数据进行转换20。
3. 方法论
总体而言,本研究涉及的步骤包括数据收集、数据分析、数据仓库设计、商业智能设计、文本分类和评估方法。数据收集通过访谈和文献研究进行。访谈用于确定在利用社交媒体数据进行商业智能设计以提升公司绩效方面所面临的问题。文献研究则从书籍、当前期刊和互联网信息中提取可用于社交媒体商业智能设计的方法。数据分析采用商业智能分析方法21 ,以识别能够为公司带来最大利润的商业信息需求。商业智能分析包括:业务驱动因素分析、业务战略分析、目标与目的分析、价值学科分析、业务核心流程分析以及公司价值观分析。数据仓库设计采用金博尔8方法,该方法包含四个阶段:选择业务流程、确定粒度、识别维度和识别事实。商业智能设计采用卡洛·韦尔切利斯10方法,该方法包含四个主要阶段:分析、规划、实施与控制。为了获得最佳的文本分类方法,对不同文本分类方法的性能进行了比较,包括朴素贝叶斯、支持向量机和决策树22。
每种文本分类方法的训练过程使用从多个公司内部数据表的连接结果中获得的数据,例如故事表、主题表和 stories_Topics 表。这三个表的连接结果生成了 lead_text 和 Topic_name 数据。在训练过程中选择 lead_text 作为建模组件的原因是,在 Facebook 和 Twitter 等社交媒体账号的每篇帖子中,始终使用 lead_text 作为公司网站内部平台上所用的描述。分类测试采用 k‐交叉验证方法,其中 k 的值为 = 10,该测试旨在了解朴素贝叶斯、支持向量机的准确率以及使用不同数据进行训练和测试的决策树方法对文本进行分类。通过用户验收测试(UAT)方法评估商业智能系统的开发,直至系统完全符合用户的期望。
4. 提出的模型
在本研究中,已构建了如图1所示架构的商业智能系统。
从图1可以看出,该系统需要几个重要组件,如数据收集、内容分析、数据仓库处理和商业智能系统,这些组件将在下文详细说明。
4.1. 数据收集
在数据收集阶段,首先通过各社交媒体平台(如Facebook和Twitter)上提供的社交媒体API从社交媒体平台进行数据检索。其次,将使用已创建的爬虫定期进行数据检索,这些爬虫利用社交媒体令牌API实现数据检索过程中的身份验证和授权。最后,结果将作为原始数据存储在数据库中。
4.2. 内容分析
在此阶段,社交媒体内容分析采用文本分类。文本的分类或文本分类是指根据文档的特征将其归入某一类别或类别的过程。在文本挖掘中,分类指的是分析或研究预先分类的文本文档集合,以推导出一个模型或函数,该模型或函数可用于将其他未知类别的文档分组到一个或多个预定义的类别中23。
在分析的这一阶段,首先包含多个步骤,即从各个社交媒体平台的每条数据中检索数据。接下来,对先前加载的数据进行文本分类处理。本研究中使用的文本分类算法包括朴素贝叶斯、决策树和支持向量机。但在进入分类算法处理之前,数据将经过预处理阶段,如大小写转换、分词、过滤和词干提取,以消除数据噪声。
此处对每种文本分类算法进行评估以确定其性能。用于文本分类算法的评估方法是通过应用测试方案,采用5种不同的数据组成,并且对于每种测试组成,都将应用10折交叉验证方法。此外,在分类中,有多种衡量分类性能的方法,如计算准确率、精确率、召回率和F值 24。混淆矩阵也用于基于模型预测准确性的分类模型性能评估。然后,文本处理的结果将存储在数据库中作为数据分析。
4.3. 数据仓库处理
所采用的数据仓库设计方法为金博尔方法,该方法在数据仓库设计过程中必须经过四个阶段:选择业务流程、声明粒度、识别维度和识别事实 8。此外,在构建数据仓库时还必须经过ETL(抽取、转换、加载)过程 9。
在实施过程中,在数据仓库处理的这一阶段包含多个流程:首先,获取来自内容分析(数据库分析)和爬虫结果(社交媒体数据库)的数据。随后,已加载的数据进入ETL过程,例如统计评论、帖子、情感等。经过ETL过程处理的数据将存储在数据仓库中。
4.4. 商业智能系统
在客户端是一个可供用户访问的商业智能系统。根据韦尔切利斯10, ,企业在开发商业智能的过程中包含四个阶段,即分析、设计、规划、实施与控制 10。在其实施过程中,商业智能系统包含若干重要组件,例如用作应用程序与数据(无论是原始数据还是数据仓库)之间桥梁的API接口。此外,应用程序将通过输入 API令牌作为授权和身份验证来向API请求数据,因此该API的存在能够提升数据访问安全。
5. 结果与讨论
在本研究中,将通过应用5种不同的数据组成来评估分类算法。每种测试组成均采用10折交叉验证方法对朴素贝叶斯、决策树和SVM算法进行测试。以下测试结果如表1所示。
表1. 使用10折交叉验证的朴素贝叶斯算法测试结果
| 迭代 | 测试用例 |
|---|---|
| 1st | |
| K-1 | 73.076% |
| K-2 | 60.000% |
| K-3 | 71.428% |
| K-4 | 64.583% |
| K-5 | 65.217% |
| K-6 | 60.869% |
| K-7 | 59.090% |
| K-8 | 66.667% |
| K-9 | 61.904% |
| K-10 | 42.857% |
| 平均值 | 62.569% |
表1描述了朴素贝叶斯算法在第3次迭代中使用第3组测试数据进行交叉验证的测试具有最高的准确率,准确率达到80.141%。然而,如果从每组测试数据的所有交叉验证测试的平均值来看,第4组测试数据获得了最佳的准确率结果,准确率为74.787%。
表2. 使用10折交叉验证的决策树算法测试结果
| 迭代 | 测试用例 |
|---|---|
| 1st | |
| K-1 | 52.941% |
| K-2 | 46.938% |
| K-3 | 51.020% |
| K-4 | 46.808% |
| K-5 | 51.111% |
| K-6 | 55.556% |
| K-7 | 45.454% |
| K-8 | 56.818% |
| K-9 | 36.363% |
| K-10 | 46.511% |
| 平均值 | 48.952% |
表2显示,决策树算法在第9次迭代中使用第3组测试数据进行交叉验证测试时,准确率达到66.911%,为最高准确率结果。然而,从每组测试数据的所有交叉验证测试的平均值来看,第4组测试数据的准确率为57.664%,表现最佳。
表3. 使用10折交叉验证的SVM算法测试结果
| 迭代 | 测试用例 |
|---|---|
| 1st | |
| K-1 | 76.470% |
| K-2 | 78.431% |
| K-3 | 81.250% |
| K-4 | 76.595% |
| K-5 | 71.739% |
| K-6 | 84.782% |
| K-7 | 84.090% |
| K-8 | 76.744% |
| K-9 | 86.046% |
| K-10 | 73.809% |
| 平均值 | 78.996% |
表3描述了在第3次迭代中使用第3组测试数据进行交叉验证的SVM算法测试具有最高的准确率,达到87.234%。然而,若从每组测试数据的所有交叉验证测试的平均值来看,第1组测试数据获得了最佳准确率结果,准确率为78.996%。
将之前测试的分类算法与最高准确率结果再次进行比较,以确定哪种算法具有最高的准确率。下图2是之前分析中每种算法所获得的最佳测试结果的汇总。
图2表明,SVM算法的准确率优于朴素贝叶斯和决策树算法。因此,按准确率排序,SVM算法位居第一,准确率为78.99%;第二名为朴素贝叶斯算法,准确率为74.78%;最后是决策树算法,准确率为57.66%。通过该比较可得出结论:在商业智能系统中将采用SVM算法进行文本分类过程。
5.1. 数据仓库
数据仓库采用由维度表和事实表组成的星型模式模型构建。维度表和事实表将根据存储在Facebook和Twitter数据库中的数据源进行创建。
Facebook数据的星型模式由事实表
_page_topic
和维度表
dim_page
、
dim_topics
、
dim_time
组成。该模式可以展示按文章相关主题分组的帖子、评论、分享和点赞数量。此外,该模式还显示文章帖子类型的数量,例如视频、链接、状态、优惠和照片。该模式的每条记录按日保存在
dim_time
表中。图3展示了Facebook数据仓库的星型模式。
Twitter数据的星型模式包含作为事实表的
fact_account_topic
,以及作为维度表的
dim_account
、
dim_topics
和
dim_time
。该模式可显示按文章相关主题分组的推文、转推和点赞数量。此外,该模式还显示来自推文、转推或提及Twitter账户的转推和点赞详细数据。该模式的每条记录每日保存在
dim_time
表中。图4展示了Twitter数据的星型模式。
5.2. 商业智能
商业智能仪表板是使用包含PHP编程语言的CodeIgniter框架创建的。仪表板界面采用了AdminLTE v2的模板,以加快开发阶段,因此无需从头开始创建界面。以下是显示在网络门户上的商业智能系统仪表板的部分界面。
在已创建的商业智能系统中,可以看到多个可提供数据洞察的页面,例如热门话题页面,用于了解社交媒体上的热门主题;最活跃用户页面,用于显示在社交媒体上评论最频繁的账号,我们可以将其作为广告投放对象;帖子构成页面,用于展示某个账号在社交媒体上发布的各类帖子数量。社交媒体上的帖子类型包括在Facebook上的状态、照片、链接、视频和优惠;而在Twitter上,帖子类型则为推文、转发和提及;热门标签页面,用于展示Twitter上的热门标签;热门帖子页面,用于展示社交媒体上哪些类型的帖子受欢迎。
6. 结论和未来工作
在对分类算法的性能进行评估后,表现最佳的算法是支持向量机(SVM),其准确率达到78.99%;其次是朴素贝叶斯,准确率为74.67%;最后是决策树,准确率为57.66%。所构建的数据仓库系统作为商业智能系统的数据源,能够自动执行数据计算和摘要,不再需要手动计算。此外,所创建的商业智能系统可随时随地被用户访问。
数据仓库系统被创建为商业智能的数据源应用,能够自动执行计算和数据汇总,因此不再需要手动计算每篇文章的评论数量、点赞数量和分享数量,并将其与文章主题进行匹配。该商业智能应用对于实时监控公司在内部账号以及竞争对手在社交媒体上发布的新闻表现非常有用,因此无需再逐一访问社交媒体上的账号。
本研究将继续推进,开发可应用于其他社交媒体平台(如Instagram、领英、Path等)的商业智能应用。此外,使用大数据技术实现数据仓库和联机事务处理,能够更快地处理分布式数据,从而使数据能够在仪表板上实时查看。
1万+

被折叠的 条评论
为什么被折叠?



