读者登录:

 

图书馆首页

学校首页

  首 页 课程介绍 教学大纲 课程学习 电子课件 教学录像 实践训练 素材案例 问题例题 推广应用 申报网站  

课程学习

  [ 课程导学 ]
  [ 基础模块 ]
  [ 专业模块 ]
  [ 专题模块 ]
专业模块(7-13章)  

第9章 基于内容的多媒体检索技术

 

[学习目标] 

了解多媒体检索技术发展的历史,系统掌握基于内容的音频、图像等多媒体检索技术的概念、原理、类型、格式与流程。学会音频、图像等多媒体检索技术提取的基本要素特征与数字化描述方法。

[导学建议]

在理解基于内容的检索优势的基础上,结合课程网站素材资料和网络丰富的多媒体资源素材直观学习。并结合基础模块和专业模块、专题模块相关检索工具的应用实践进一步学习。

[重难点指导]

重点:基于内容的音频、图像等多媒体检索技术的概念、原理、类型、格式与流程。音频、图像等多媒体检索技术提取的基本要素特征与数字化描述方法。

难点:音频、图像等多媒体检索技术提取的基本要素特征与数字化描述方法

重难点指导:首先要清楚音频、图像等多媒体检索技术提取的基本要素,数据类型和文件格式,多角度地观察从而理解特征的抓取;提升信息处理技术的知识、掌握多种算法的原理与应用有助于对数字化描述方法的掌握。

[学习内容]

    1.基于内容的检索

     所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索。原理是提取特征并进行量化,表示成向量空间,建立索引库,将用户提问转化成向量,并与已有信息的向量空间进行相似度匹配计算。基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。

    2.数字音频的数据类型

     波形数据:声波通过声/电和A/D而得到的量化后的采样数据。数字化的波形数据有两类存储方式:文件存储:有多种文件格式,比较流行的有以wav、au、aiff和snd为扩展名的文件格式(wav格式主要用在PC上,au主要用在Unix工作站上,aiff和snd主要用在苹果机和SGI工作站上);还有较新的高压缩比的以mp3、ra或rm、wma等为扩展名的文件格式;非文件存储:激光唱盘(CD-DA)、微型光盘(MD)、数字录音带(DAT)、DVD-Audio等;MIDI数据:MIDI是乐器和计算机之间交换音乐信息所使用的一种标准语言,MIDI数据只是一些指令。所以,与波形文件相比,MIDI文件非常小。常见的MIDI文件格式为PC机上扩展名为mid的文件。

    3.音频检索中的关键技术有音频特征提取、音频分类、语音识别技术等。

     语音处理可分为三种类型:语音通信(voice communication)(人→人)、语音合成(speech synthesis)  (机→人)、语音识别(speech recognition)  (人→机)。

语音识别分语音内容识别、讲话人识别。语音内容识别如语音输入/声控、单词识别(IBM Via Voice)、句子识别、内容理解;讲话人识别包括与内容有关的如进入系统的安全口令(声纹+内容);与内容无关的:如公安局从录音中确认罪犯(声纹)。

    4.基于内容的图像检索

     基于内容的图像检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动。直接对图像内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。

    5.图形(Graphics) 与图像  

     图形一般指使用绘画软件绘制出的由直线、曲线等组成的画面,图形文件中存放的是描述图形的指令,以矢量图形文件存储。图像 (Images) 是由扫描仪、数码相机等输入的画面,数字化后以点阵(位图)形式存储。

     图像数字化是将每个像素用若干个二进制位进行编码,表示图像颜色的过程叫做图像数字化。描述图像的重要属性是图像分辨率和颜色深度。图像数字化编码可以分为:黑白色、256灰色。

     常用图像文件格式有BMP格式文件、GIF格式文件、JPEG格式文件、WMF格式文件。   

    6.图像特征及提取技术

     图像的三大底层特征即:颜色、纹理和形状特征。颜色特征提取技术有颜色直方图、颜色矩、颜色聚合向量、颜色相关图和颜色集等方法进行提取。纹理特征提取技术有统计方法、几何法、模型法、信号处理法 。形状特征提取技术有边界特征法、傅里叶形状描述符法、几何参数法、形状不变矩法;内容特征提取技术有颜色、纹理和形状特征的逻辑描述。

(三)重点和难点

1.重点:基于内容的多媒体检索技术的概念,类型、原理、格式与流程。音频、图像等多媒体检索技术的提取要素特征与描述方法。

2.难点:音频、图像等多媒体检索技术提取的基本要素特征与数字化描述方法。

[作业]

1、基于内容的检索的优势在哪里?

2、数字音频的数据类型有哪些?音频检索中的关键技术有哪些?

3、图像特征及提取技术有哪些?

   
 
 

关于我们   联系我们   服务申明


版权所有 (C)西南科技大学图书馆 总访问量: 技术支持:易宝系统成都分公司


地址:四川省绵阳市涪城区青龙大道中段59号 邮编:621010