基于内容的图像检索与PLS - SEM在信息系统研究中的应用
1. 基于内容的图像检索(CBIR)
在基于内容的图像检索(CBIR)系统中,低层次图像特征提取是核心。图像特征主要分为两类:
-
全局特征
:如颜色、纹理、形状和空间位置,是CBIR中常用的提取特征。
-
局部特征
:用于描述图像中有趣的部分,如区域、对象或边缘,例如SIFT和SURF。
由于图像特征向量存在维度灾难问题,降维和索引成为挑战性任务。常用的降维技术有主成分分析(PCA)和独立成分分析(ICA),但它们对原始数据的缩放敏感。常用的索引方法有:
-
基于树的方法
:对数据空间进行分区后可处理不同形状的数据。
-
基于哈希的技术
:对数据独立和数据相关的哈希都具有灵活性。
相似性测量用于确定查询图像与数据库中每个图像的接近程度,常用的测量方法有曼哈顿距离(对高维数据中的噪声不变)和欧几里得距离(允许归一化和加权向量)。
2. Lucene图像检索系统(LIRe)
LIRe是用于CBIR的开源Java库,其主要组件包括:
-
爬虫
:从Flickr数据集抓取随机n张图像并保存到本地目录。
-
分析器
:一次仅提取一个图像特征,如局部边缘直方图。
-
索引器
:根据提取的图像特征构建基于Lucene的索引。
-
搜索器
:获取查询图像,计算其与索引中图像的相似度,并显示最相关的k张图像(k < n)。
对LIRe系统进行了两项修改:
-
爬虫修改
:从ImageNet的同义词集抓取n张随机图像,给定同义词集ID和n。
-
索引器扩展
:增加了三种图像特征,分别是所有边缘直方图、所有边缘直方图 + CLD、所有边缘直方图 + FCTH。
3. 图像描述符
视觉图像描述符或图像低层次特征描述图像的基本特征,如形状、颜色、纹理、边缘或空间位置。常用直方图来表示图像的全局特征,因为它对图像的平移和旋转不变。
3.1 边缘直方图描述符(EHD)
图像边缘是重要的低层次特征,用于描述形状和纹理。EHD描述图像中的5种边缘类型:水平、垂直、45°和135°对角线以及无方向边缘。将图像空间划分为16个(4 × 4)不重叠的子图像,每个子图像生成一个5个边缘箱的直方图,整个图像共80个箱。为了更好地描述图像和提高检索准确性,还使用了全局和半全局边缘分布,组合后得到150个箱的边缘直方图。两个组合边缘直方图之间的距离计算公式为:
[
D_{Edge}(A, B) = \sum_{i = 0}^{79} |L_A[i] - L_B[i]| + 5\sum_{i = 0}^{4} |G_A[i] - G_B[i]| + \sum_{i = 0}^{64} |S_A[i] - S_B[i]|
]
3.2 颜色布局描述符(CLD)
颜色是图像中最重要的特征之一,CLD是一种紧凑的描述符,由代表性颜色组成。通过以下3个步骤生成:
1. 提取3个84箱的颜色向量。
2. 对这些向量进行离散余弦变换(DCT)。
3. 应用之字形扫描。
两个图像使用CLD的距离计算公式为:
[
D_{CLD}(A, B) = \sqrt{\sum_{i = 0}^{63} (Y_A[i] - Y_B[i])^2} + \sqrt{\sum_{i = 0}^{63} (Cb_A[i] - Cb_B[i])^2} + \sqrt{\sum_{i = 0}^{63} (Cr_A[i] - Cr_B[i])^2}
]
CLD可与其他特征结合以提高检索准确性,如与组合边缘直方图结合时,相似度计算公式为:
[
D(A, B) = D_{Edge}(A, B) + D_{CLD}(A, B)
]
3.3 模糊颜色纹理直方图(FCTH)
FCTH本质上是颜色和纹理的组合,用192箱直方图表示图像。两个图像之间的距离由Tanimoto系数计算:
[
D_{FCTH}(A, B) = \frac{A^T B}{A^T A + B^T B + A^T B}
]
FCTH可与颜色和边缘方向性描述符(CEDD)结合以提高检索准确性。在本文中,FCTH与组合边缘直方图结合,距离计算公式为:
[
D(A, B) = D_{Edge}(A, B) + D_{FCTH}(A, B)
]
4. 实验评估
实验使用的数据集来自ImageNet的四个不同同义词集,具体信息如下表所示:
| Synset Id | #Images | Sample |
| ---- | ---- | ---- |
| n00015388 | 400 | 动物、植物群、行星生命 |
| n00017222 | 400 | 行星植物群、行星生命 |
| n01621127 | 100 | 猫头鹰 |
| n02503517 | 100 | 大象 |
实验包括13个不同的查询,每个查询针对6种算法进行测试,分别是单特征算法(CLD、EHD、FCTH)和组合特征算法(所有边缘直方图、所有边缘直方图 + CLD、所有边缘直方图 + FCTH)。由10名用户评估结果,结果以精度(Pr)、召回率(R)、F - 测量和平均平均精度(mAP)表示。
实验结果表明,组合特征在图像检索中优于单特征。但单特征算法存在固定直方图箱可能不适合所有图像类型,且单一低层次特征不足以满足人类检索需求的问题;组合特征算法采用等权重实现,未考虑每个描述符的不同权重。
5. PLS - SEM在信息系统研究中的应用
结构方程建模(SEM)有基于协方差的SEM(CB - SEM)和偏最小二乘结构方程建模(PLS - SEM)两种类型。PLS - SEM已成为验证各学科概念模型的关键方法,特别是在信息系统(IS)领域。
PLS - SEM有两个主要组件:
-
测量模型
:测量潜在结构(变量或因素)与其相关指标(项目或测量)之间的关系。
-
结构模型
:测量结构本身之间的关系。
以往的研究主要集中在提供如何使用PLS - SEM的指南,包括反射性和形成性测量、测量和结构模型以及分析特定概念模型的步骤。但在评估测量和结构模型之前,还有几个步骤和程序需要考虑。
下面是研究方法的流程图:
graph LR
A[研究设计] --> B[数据收集]
B --> C[测量模型评估]
C --> D[结构模型评估]
D --> E[结果解释]
综上所述,在图像检索中,组合特征的使用可能会带来更好的结果,但仍存在语义差距问题;在信息系统研究中,PLS - SEM是重要的方法,但需要综合考虑评估前的步骤和程序。未来在图像检索中可考虑引入人工智能技术,如在检索前对图像数据集进行聚类,以缩小语义差距;在信息系统研究中,进一步完善PLS - SEM的应用流程,提高研究的准确性和可靠性。
基于内容的图像检索与PLS - SEM在信息系统研究中的应用
6. 图像检索实验结果分析
实验结果通过精度(Pr)、召回率(R)、F - 测量和平均平均精度(mAP)来衡量,以下是对这些结果的详细分析。
6.1 精度(Pr)分析
不同查询和算法的精度结果如下表所示:
| 查询编号 | CLD | EHD | FCTH | 所有边缘直方图 | 所有边缘直方图 + CLD | 所有边缘直方图 + FCTH |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 1 | | | | | | |
| 2 | | | | | | |
| … | … | … | … | … | … | … |
| 13 | | | | | | |
从精度结果来看,部分查询中颜色特征(如CLD或所有边缘直方图 + CLD)表现出色,例如查询1、4和7,因为存在许多颜色匹配且有重复的图像。FCTH排名第二,因为它同时考虑了纹理。而在某些查询(如查询2和8)中,由于下载的同义词集中相关图像数量不足,所有算法的精度都达到最小值。
6.2 召回率(R)分析
召回率结果同样反映了各算法的性能,不同查询和算法的召回率情况如下表:
| 查询编号 | CLD | EHD | FCTH | 所有边缘直方图 | 所有边缘直方图 + CLD | 所有边缘直方图 + FCTH |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 1 | | | | | | |
| 2 | | | | | | |
| … | … | … | … | … | … | … |
| 13 | | | | | | |
召回率的变化趋势与精度有一定关联,但也存在差异。组合特征算法在整体上表现出更好的召回能力,说明它们能够更全面地检索到相关图像。
6.3 F - 测量和平均平均精度(mAP)分析
F - 测量综合考虑了精度和召回率,平均平均精度(mAP)则是对所有查询的平均精度的衡量。从结果来看,使用多个特征(如组合边缘)的算法在mAP上超过了局部边缘直方图。边缘 + 颜色布局组合超过了单独的颜色布局和局部边缘特征。然而,边缘和FCTH的组合虽然超过了局部边缘直方图,但在某些方面不如FCTH单独使用。
7. PLS - SEM在信息系统研究中的具体步骤
在信息系统研究中应用PLS - SEM,需要遵循以下具体步骤:
7.1 研究设计
- 确定研究问题 :明确研究想要解决的问题,例如探究信息系统使用的影响因素。
- 构建概念模型 :根据研究问题,确定潜在结构(变量)及其关系,构建概念模型。
7.2 数据收集
- 设计问卷 :根据概念模型中的潜在结构和指标,设计问卷以收集数据。
- 选择样本 :确定合适的样本群体,并进行数据收集。
7.3 测量模型评估
- 信度分析 :检查指标的可靠性,常用的方法有Cronbach’s alpha系数等。
- 效度分析 :包括收敛效度和区分效度,确保指标能够准确测量潜在结构。
7.4 结构模型评估
- 路径系数分析 :分析潜在结构之间的关系强度和显著性。
- 模型拟合度评估 :评估模型与数据的拟合程度。
7.5 结果解释
- 解释路径系数 :根据路径系数的正负和大小,解释潜在结构之间的关系。
- 得出研究结论 :根据分析结果,得出关于研究问题的结论。
下面是PLS - SEM应用步骤的详细流程图:
graph LR
A[确定研究问题] --> B[构建概念模型]
B --> C[设计问卷]
C --> D[选择样本]
D --> E[数据收集]
E --> F[信度分析]
F --> G[效度分析]
G --> H[路径系数分析]
H --> I[模型拟合度评估]
I --> J[解释路径系数]
J --> K[得出研究结论]
8. 总结与展望
在图像检索领域,通过对单特征和组合特征的实验比较,发现组合特征在精度、召回率等指标上表现更优,但仍存在语义差距问题。单特征算法的固定直方图箱和单一低层次特征的局限性,以及组合特征算法的等权重实现方式,都需要进一步改进。未来可以引入人工智能技术,如在检索前对图像数据集进行聚类,将搜索范围缩小到特定聚类,有望提高检索的准确性和效率。
在信息系统研究中,PLS - SEM是一种重要的方法,但在应用过程中需要全面考虑评估前的步骤和程序。通过遵循详细的应用步骤,能够更准确地验证概念模型,提高研究的可靠性。未来可以进一步完善PLS - SEM的应用流程,结合更多的统计方法和技术,以适应不断变化的研究需求。
总之,图像检索和信息系统研究都在不断发展,通过不断探索和改进方法,有望取得更好的研究成果,为相关领域的发展提供有力支持。
超级会员免费看

被折叠的 条评论
为什么被折叠?



