### 数据分类 * 结构化数据 * 行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据 * 能够用数据或统一的结构加以表示的数据 * 数字,符号 * 非结构化数据 * 无法用数字或统一的结构表示 * 文本,图像,声音,网页 * 结构化数据属于非结构化数据 * 非结构化数据即为全文数据 ### 全文检索 * 概念 * 一种将文件中,或数据库中,所有文本 与检索项匹配的文字资料检索方法 * 对全文数据的检索,就是全文检索 * 两种方法 * 顺序扫描法(将数据表所有的记录,挨个进行扫描,对每一条记录逐字扫描)-效率非常慢 * 索引扫描法 * >基本思路: 将【非结构化数据】中的一【部分信息提取出来】,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索较快的目的 ### 创建索引过程 * 提取一些要索引的原文档 * 将原文档传给分词组件 * 将文档分成一个一个单独的单词 * 去除表单符号 * 去除停词(stop word) * 将得到的词源传给语言处理组件(变成小写,单词缩减根形式) * 变成小写 * 将单词缩减为词根形式 如“cars” 到 "car"等 * 将单词转变为词根形式 如 "drive" 到 “drive”等 * 将得到的词源传给索引组件 * 利用得到的词创建一个字典 * 对字典按字母顺序进行排序 * 合并相同的词成为文档倒排链表 ### 搜索索引过程 * 第一步:用户输入查询语句 * 第二步:对查询语句进行词法分析,语法分析,及语言处理 * 第三步:搜索索引,得到符合文档 ### 全文检索引擎 #### 概念 工作原理,计算机索引程序通过扫描文章中的每一个词,对每一个词简历一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就 根据事先简历的索引进行查找,并讲查找的结果反馈给用户的检索方式 使用这种检索方式的软件或者引擎,叫全文检索引擎