全唐诗全文检索系统
1.全文检索的原理是什么
全文检索与之相关的议题语根处理(stemming)符素解析器(tokenparser)1gram,2gram,ngram断词/分词wordsegmentation倒排索引invertedindex算法、搜寻策略之模型布尔式boolean统计模型Probabilisticmodel向量空间模型vectorbasemodel隐性语义模型Latentsemanticmodel全文检索系统检索编辑全文检索评量之准则判断检索效果的两个指标:查全率被检出相关信息量/相关信息总量(%)查准率被检出相关信息量/被检出信息总量(%)全文检索开放源代码之全文检索系统ApacheSolrbaseXClusterpointServer(freewarelicenceforasingleserver)DataparkSearchFerretHt//DigHyperEstraierKinoSearchLemur/IndriLucenemnoGoSearchSphinxSwisheXapianElasticSearch全文检索议题优化编辑全文检索和中文有关的议题断词(分词)语法解析古籍议题多语言混合全文检索优化剔除字(Stopwords)词性标注权威档(authorityfile)知识体系,本体论(ontology)超链接分析(pagerank)技术全文检索历史及未来之趋势自由语句搜寻基于自然语言的分词。
2.全宋诗的分析系统
该系统由北京大学中文系李铎教授(研究员)主持研发。
2005年1月16日,由中华人民共和国教育部组织召开了北京大学《〈全宋诗〉分析系统》的专家鉴定会,傅璇琮任主任委员。中国古代文学、文献学、语言学、计算机科学界的专家所组成的鉴定委员会认真听取了该项目组的系统研制报告、查新报告、专家测试组的测试报告,并现场观看了系统演示。鉴定委员会经过认真评审、质询答疑,一致认定:
一、由北京大学中文系研制的《〈全宋诗〉分析系统》实现了系统技术方案,达到了该项目预定的各项指标要求。
二、《〈全宋诗〉分析系统》底层主要有以下数据库:1、依据北京大学古文献研究所编纂的《全宋诗》完整数据库;2、北京大学中文系依据《佩文韵府》、《广韵》等韵书建设并扩展的音韵库;3、北京大学中文系李铎完成的教育部科研项目“诗歌模型库”;4、北京大学中文系研制的古代诗人复合称名数据库;5、繁简字一对多关系库。
三、《〈全宋诗〉分析系统》建立在自行研制的数据管理系统基础之上,系统运行效率高、性能稳定、界面友好、加密性能高。
四、《〈全宋诗〉分析系统》突破了以往的全文检索的信息提供模式,在数据深层挖掘和知识发现方面具有开创性意义。其重出诗提取、格律诗标注、字及字组的频率分布统计、用户自作诗的格律分析等带有智能化特点,该系统提供多维的检索分析方式,为中国古代文学、古代汉语、文献学等研究领域提供了可靠的分析数据。它标志着,计算机科学在中文信息处理应用方面由全文检索的信息提供模式开始转向智能分析模式。
鉴定委员会一致认为:《〈全宋诗〉分析系统》是信息处理技术与中国古代文学研究的有效结合,展示出信息技术在中国古代文学研究领域应用的方向和广阔前景,该系统达到了国际领先水平。在信息处理技术与中国古代文学研究结合方面居国际领先地位。
鉴定会员会一致同意通过鉴定。
建议研制单位进一步加强该系统的通用性,形成更强大的中国古代诗歌研究平台,并将其应用于已整理的中国古代诗歌文献数据,如《诗经》、《先秦汉魏六朝诗》、《全唐诗》、《全宋词》等。建议上级单位加强支持力度。
3.如何使用OracleText进行全文检索
由于系统中数据不断增多,使得原用的like语法来进行查询法律全文变得十分缓慢,因此在原有系统中增加了全文检索的功能。
全文检索功能依赖于Oracle Text。首先保证Oracle Text组件在数据库中已安装。
然后建立索引 Sql代码 --法律全文内容字段增加索引 create index idx_flqw_nr on flqw(nr) indextype is ctxsys。 context; --法律条款字段增加索引 create index idx_fltk_nr on fltk(nr) indextype is ctxsys。
context; 由于Oracle Text使用的ctxsys。context类型索引不会自动维护,因些需要定时进行更新索引并进行索引优化,索引优化的次数要稍微少些。
Sql代码 --更新索引 exec ctx_ddl。sync_index('idx_flqw_nr'); exec ctx_ddl。
sync_index('idx_fltk_nr'); --优化索引 exec ctx_ddl。optimize_index('idx_flqw_nr','full'); exec ctx_ddl。
optimize_index('idx_fltk_nr','full'); 也可以将更新索引及优化写成job,这样可以定时运行,该job要与用户建立在同一个目录下。 先创建相对应的存储过程。
Sql代码 --给flyy用户赋予在存储过程中执行全文索引的权限 GRANT EXECUTE ANY PROCEDURE TO flyy;。
4.中国古典诗词全集 谢谢
大哥,你这个梦想在现阶段乃至未来数年都属于天方夜谭,不会实现的。词先不说,就诗而言,全唐诗加补遗超过5万首,目前为止网上免费的只有一些号称是全唐诗其实大多不全的检索系统而已,做的不错的也有两个,但真正好的是北大的全唐诗检索系统,很精,可是几年前就因为版权等问题不能再用了。至于其他所谓免费的全唐诗在线欣赏或下载,错漏百出。仅唐诗的情况就是如此,而你知道全宋诗有多少吗?纸质的是72册!超过25万首!还有明诗清诗呢?还有词呢?还有曲呢?更遑论要带赏析了。一些朝代的诗词连个象样的、好的全本都还没编撰出来,还提什么赏析?
不过,还是给你一个连接,聊胜于无~~
5.有哪些检索系统是免费
下面是一些常用的搜索引擎
一. 网络搜索引擎的检索利用
(一)中文搜索引擎
“百度”
“谷鸽”
“北大天网”
“雅虎”
“Google”
(三)学术搜索引擎
“谷鸽学术搜索”
“百度教育搜索” /
“北大天网”
“雅虎”
“Google”
二. 印刷本图书和电子图书的检索
(一)印刷本图书的检索
“中国国家图书馆”
“书生之家中华图书网”
“CNKI中国图书全文数据库” /index.asp
万方数据资源系统.cn
国家科技图书文献中心.cn