上海论文网是一家老字号代写网站,专业提供代写硕士毕业论文服务。

医疗器械垂直搜索引擎的医学设计与实现

发布时间:2018-08-15 18:46 论文编辑:lgg 所属栏目:医学论文 关键词: 医学论文中文分词全文检索

本文是一篇医学论文,医学论文的逻辑性是指论题、论点、论据、论证之间的联系一环扣一环,循序撰写,首尾呼应,顺理成章,并做到资料完整,设计合理,避免牵强附会,虎头蛇尾。

本文是一篇医学论文,医学论文的逻辑性是指论题、论点、论据、论证之间的联系一环扣一环,循序撰写,首尾呼应,顺理成章,并做到资料完整,设计合理,避免牵强附会,虎头蛇尾,空洞无物。(以上内容来自百度百科)今天为大家推荐一篇医学论文,供大家参考。
 
1 绪 论
 
1.1 课题研究背景
随着互联网技术的快速发展,各领域产生了海量的数据信息,资料显示,目前每天全球互联网流量累计达 1EB(即 10 亿 GB 或 1000PB),这意味着每天产生的信息量可刻满 1.88 亿张 DVD 光盘。互联网技术与传统的医疗、健康、商业、科技、娱乐等领域结合衍生出了众多互联网+的信息、服务、产品,人们不知不觉中留下的“数据碎片”已经渗透到社会经济、大众日常生活的各个角落。数据信息爆炸性的涌入,让互联网成为了一个巨大且增速惊人的数据库。基于这个现状,催生了互联网与信息检索技术的结合,它成功的替代了原始的人工目录查找,成为互联网信息检索的有效工具,这就是搜索引擎技术[1]。搜索引擎通过一定的策略从海量的互联网中抓取信息,然后经过复杂的后台处理为用户提供信息检索服务,以帮助用户快速精准的获取想要的信息[2]。自“互联网+医疗”概念被提出以来,互联网已经逐步渗透到医疗行业的方方面面[3-4]。医疗器械作为医疗产业中重要一环,在互联网技术的普及和发展下,其相关信息呈指数级增长。随着我国经济的飞速发展,加上人口的老龄化,医疗器械在现代社会中不可或缺,市场对医疗器械的需求不断增加,我国医疗器械行业发展潜力巨大[5]。医疗器械和设备的相关产品信息成为各医疗机构设备科、医疗器械专业从业人员及医疗器械消费群体所关心的问题[6]。当前用户从互联网获取医疗器械产品信息的渠道主要为医疗器械电商网站、医疗器械信息门户网站、各厂商代理商官方网站、医疗器械数据库等等。尽管信息来源渠道众多,却仍然存在诸多问题:相关医疗器械产品网站信息皆为本地数据库信息,收录的信息局限于本地数据库的完善程度和更新换代速度;很多医疗器械信息门户网站内容繁杂冗余,充斥着大量广告、新闻、非客观性推荐排名等干扰信息[7];部分医疗器械数据库检索形式复杂,其中有不少数据库的信息甚至需要收取费用,这在很大程度上提高了用户获取医疗器械产品信息的难度和成本。海量的医疗器械产品信息分散于众多的获取渠道,不利于用户快速精准的定位信息,更不利于用户在同类医疗器械产品中进行比较和选择。根据百度指数统计的5个医疗器械关键词指数概况和2011-2017年5个医疗器械关键词百度指数整体趋势(图 1.1)的数据显示:用户将搜索引擎作为获取医疗器械产品信息的重要渠道[8]。
.......
 
1.2 国内外发展现状
 
1.2.1 搜索引擎的发展现状
1990 年,加拿大麦吉尔大学研发了匿名 FTP 网站文件程序 Archie,帮助用户在遍及全世界的千余个 FTP 服务器中寻找文件[12]。1991 年,美国 Minnesota 大学的 Mark McCahill 在 Archie 的基础上发明了 Gopher 搜索协议,Gopher 不仅能够搜索网络上的文件,还实现了对网页的索引[13]。1994 年,搜索引擎快速发展,Galaxy成为第一个既可以搜索又可以浏览的分类目录,同年 7 月,美国卡耐基梅隆大学的 Michael Mauldin 将 John Leavitt 开发的网络机器人程序与其创建的索引程序组合在一起创建了 Lycos[14]。Lycos 是第一个使用了网页自动摘要的搜索引擎,不仅引入了相关度排序,还提供了前缀匹配和字符相似度限制[15]。此后,互联网搜索引擎进入繁荣时期。1995 年 12 月,推出的 Alta Vista 成为第一个功能较为全面搜索精度较高的全文搜索引擎[16],Alta Vista 支持自然语言搜索,是第一个实现高级搜索语法的搜索引擎。1998 年 10 月,Google 正式推出,其在网页排序、动态摘要、网页快照、每日更新、多文档格式支持等方面的创举再一次改变了搜索引擎的定义,迅速成为业界领头羊。2005 年,百度在纳斯达克上市,中国的搜索引擎市场由此进入一个崭新的阶段。
......
 
2 全文检索框架 Lucene 的相关技术研究
 
2.1 Lucene 的分词原理
Lucene 是一个开源的全文检索工具包,可以为搜索引擎应用提供索引和搜索功能。本文的医疗器械垂直搜索引擎基于 Lucene 实现分词索引和检索,因此对医疗器械产品信息的分词算法也要封装成 Lucene 接口,便于进行分词调用。Lucene 对文本的分析过程实际上是把域(Field)文本转换成索引词条项(Term)的过程。Field 类是 Lucene 中很重要的类,用来描述索引文档的某个属性,控制着被倒排索引的域值,Term 是搜索的基本单位。Lucene 中负责语言处理的部分在org.apache.lucene.analysis 包中。其中 TokenStream 类用来进行基本的分词工作,Analyzer 类是 TokenStream 的外围包装,负责整个解析工作。解析时先将文本转换成语汇单元( Token),再将语汇单元和它的域名相结合,从而形成了索引词条项[50]。语汇单元是分析过程所产生的基本单元,当文本在索引过程中经过分析后,每个语汇单元都作为一个词条项被传递给索引[23]。Lucene 的分词器由一个分词器 Tokenizer 和多个过滤器 TokenFilter 组成。对索引文本的处理流程如图 2.1 所示。Tokenizer 直接从外部设备取得 Reader 类型的数据源,经分析处理后输出语汇单元流 TokenStream,然后再链接任意数量的TokenFilter 对象,通过新增、删除或修改属性的方式对分词后的文本进行多重过滤,将过滤后分词结果保存到语汇单元流 TokenStream 中进行输出,然后将语汇单元流转化成项 Term 编入索引中[24]。
.........
 
2.2 Lucene 的全文检索技术
全文检索框架 Lucene 具有非常高效的索引结构,这个索引结构涉及到 5 个层次:索引(Index);段(Segment);文档(Document);域(Field);项(Term)[25],他们的索引逻辑结构如图 2.2 所示。由图 2.2 可知,Lucene 索引结构[26]中的 5 个层次形成一对多的关系网,索引index 有若干个片段 Segment 组成,每个 Segment 都能独立成为一个完整的索引段供 Lucene 查询;一个片段 Segment 对应多个目标文档记录 Document,每个文档Document 由若干个域 Field 组成,每一个域 Field 又有多个项 Term 组成,项在索引中作为一个最小单元存在,就是域中的文本经过语法分析和语言处理后的分词结果,包含了一个短语的在文档中的位置频率等信息。在建索过程中,Document 和 Field 是 Lucene 中最重要的两个概念[27]。Document 作为数据源集合,为 Lucene 提供原始要检索的文本内容,Document 与物理文件不形成一一对应关系,其数据来源可以来自于一个或多个物理文件,也可以来自非物理文件如一段文本、几个数字甚至是一些链接等。Field 就是用来表示这些数据源的类,通常用于标识当前数据源的各种属性,存储来自数据源的数据内容。在对原始数据进行索引操作时,首先将数据转换成 Lucene 能识别的Document-Field 形式。Lucene 建立索引的过程如图 2.3 所示。
........
 
3 医疗器械垂直搜索引擎的研究与设计 ..........17
3.1 医疗器械信息的研究 .......... 17
3.2 医疗器械垂直搜索引擎的需求与目标 .... 20
3.3 垂直搜索引擎的工作原理 ............. 20
3.4 医疗器械垂直搜索引擎的总体设计 ........ 21
3.4.1 系统的总体结构 ........... 21
3.4.2 系统的总体工作流程 .............. 23
3.5 本章小结 ........ 24
4 医疗器械主题爬虫与信息抽取技术的研究...........25
4.1 基于 Heritrix 的医疗器械主题爬虫的研究 ....... 25
4.2 基于 DOM 树的医疗器械信息抽取技术的研究 .......... 32
4.3 本章小结........ 35
5 医疗器械分词算法的研究与专业词库的构建 ..... 37
5.1 医疗器械分词算法的研究............. 37
5.2 基于医疗器械本体的专业词库的研究与构建.............. 43
5.3 本章小结 ........ 50
 
6 医疗器械垂直搜索引擎的实现与测试
 
本章是对医疗器械垂直搜索引擎各模块设计的具体实现,包括医疗器械主题爬虫模块的实现、医疗器械信息抽取模块的实现、医疗器械中文分词模块的实现及医疗器械全文检索模块的实现。
 
6.1 系统的开发测试环境
为了给用户提供便捷的医疗器械产品信息的搜索服务,本文对医疗器械链接来源的选取遵循以下几点:①网站必须注明已获取“互联网药品信息服务资格证”、“互联网药品交易服务资格证书”、“医疗器械经营许可证”等资格证书;②医疗器械产品比较全面,并且其属性、关键参数、介绍等关键信息比较详实;③能够被网络爬虫抓取;④网站结构有规律可循,最好是按照模板生成的,动态变化较小;⑤URL 链接命名有规律可循,便于扩展爬虫的链接过滤模块、缩小抓取范围,提高抓取精度。