Java知识分享网 - 轻松学习今后开端!    

龙都国际官方网站

Java1234官方群21:java1234官方群21
Java1234官方群21:218720436

10TBJava大数据成套视频教程下载

Java学习道路图

EasyUI中文示例文档

领取宝在线领取视频教程获取

SpringBoot打造企业级进销存

Java1234 VIP资源!

《解密搜刮引擎技能实战:Lucene&Java精髓版》PD


分享到:
工夫:2014-01-29 10:45泉源:http://www.jb51.net/(剧本之家 作者:转载
《解密搜刮引擎技能实战:Lucene&Java精髓版》PDF 下载
提示:假设百度云分享链接生效,请联络站长,我会补上的。
《解密搜刮引擎技能实战:Lucene&Java精髓版》PDF 下载

下载地点:
链接:https://pan.baidu.com/s/1vbUqmBC4q1Pm0iXq0421bw 暗码:hoqe
 
电子版仅供预览,支持正版,喜好的请购置正版册本:《解密搜刮引擎技能实战:Lucene&Java精髓版》
 
图书函介:
本书是猎兔搜刮龙都国际官网开辟团队的软件研发和讲授理论的经历汇总。
  本书总结搜刮引擎相干实际与实践处理方案,并给出了Java完成,此中应用了盛行的开源项目Lucene和Solr,并且还包罗原创的完成。
  本书次要包罗总体引见局部、爬虫局部、天然言语处置局部、全文检索局部以及相干案例剖析。爬虫局部引见了网页遍历办法和怎样完成增量抓取,并引见了从网页等种种款式的文档中提取次要内容的办法。天然言语处置局部从统计呆板学习的原理动身,包罗了中文分词与词性标注的实际与完成以及在搜刮引擎中的适用等细节,同时对文档排重、文天职类、主动聚类、句法剖析树、拼写反省等天然言语处置范畴的经典题目停止了深化浅出的引见并总结了完成办法。在全文检索局部,联合Lucene3.0引见了搜刮引擎的原理与停顿。用复杂的例子引见了Lucene的最新使用办法。包罗完好的搜刮完成进程:从完成索引到搜刮用户界面的完成。本书还进一步引见了完成准及时搜刮的办法,展现了Solr1.4版本的用法以及完成散布式搜刮效劳集群的办法。最初引见了在天文信息零碎范畴和户外运动搜刮范畴的使用。
 
相干截图:

 
图书目次:

第1章  搜刮引擎总体构造
1.1  搜刮引擎根本模块
1.2  龙都国际官网开辟情况
1.3  搜刮引擎任务原理
1.3.1  网络爬虫
1.3.2  全文索引构造与Lucene完成
1.3.3  搜刮用户界面
1.3.4  盘算框架
1.3.5  文本发掘
1.4  本章小结

第2章  网络爬虫的原理与使用
2.1  爬虫的根本原理
2.2  爬虫架构
2.2.1  根本架构
2.2.2  散布式爬虫架构
2.2.3  垂直爬虫架构
2.3  抓取网页
2.3.1  下载网页的根本办法
2.3.2  网页更新
2.3.3  抓取限定应对办法
2.3.4  URL地点提取
2.3.5  抓取JavaScript静态页面
2.3.6  抓取即时信息
2.3.7  抓取暗网
2.3.8  信息过滤
2.3.9  最好优先遍历
2.4  存储URL地点
2.4.1  BerkeleyDB
2.4.2  布隆过滤器
2.5  并行抓取
2.5.1  多线程爬虫
2.5.2  垂直搜刮的多线程爬虫
2.5.3  异步I/O
2.6  RSS抓取
2.7  抓取FTP
2.8  下载图片
2.9  图像的OCR辨认
2.9.1  图像二值化
2.9.2  切分图像
2.9.3  SVM分类
2.10  Web构造发掘
2.10.1  存储Web图
2.10.2  PageRank算法
2.10.3  HITs算法
2.10.4  主题相干的PageRank
2.11  摆设爬虫
2.12  本章小结

第3章  索引内容提取
3.1  从HTML文件中提取文本
3.1.1  字符集编码
3.1.2  辨认网页的编码
3.1.3  网页编码转换为字符串编码
3.1.4  运用HTMLParser完成定向抓取
3.1.5  运用正则表达式提取数据
3.1.6  构造化信息提取
3.1.7  网页的DOM构造
3.1.8  运用NekoHTML提取信息
3.1.9  网页去噪
3.1.10  网页构造类似度盘算
3.1.11  提取标题
3.1.12  提取日期
3.2  从非HTML文件中提取文本
3.2.1  提取标题的普通办法
3.2.2  PDF文件
3.2.3  Word文件
3.2.4  Rtf文件
3.2.5  Excel文件
3.2.6  PowerPoint文件
3.3  提取垂直行业信息
3.3.1  医疗行业
3.3.2  旅游行业
3.4  流媒体内容提取
3.4.1  音频流内容提取
3.4.2  视频流内容提取
3.5  存储提取内容
3.6  本章小结

第4章  中文分词原理与完成
4.1  Lucene中的中文分词
4.1.1  Lucene切分原理
4.1.2  Lucene中的Analyzer
4.1.3  本人写Analyzer
4.1.4  Lietu中文分词
4.2  查找辞书算法
4.2.1  规范Trie树
4.2.2  三叉Trie树
4.3  中文分词的原理
4.4  中文分词流程与构造
4.5  构成切分词图
4.6  概率言语模子的分词办法
4.7  N元分词办法
4.8  新词发明
4.9  未登录词辨认
4.10  词性标注
4.10.1  隐马尔可夫模子
4.10.2  基于转换的错误学习办法
4.11  腻滑算法
4.12  呆板学习的办法
4.12.1  最大熵
4.12.2  条件随机场
4.13  无限形态机
4.14  本章小结

第5章  让搜刮引擎了解天然言语
5.1  停用词表
5.2  句法剖析树
5.3  类似度盘算
5.4  文档排重
5.4.1  语义指纹
5.4.2  SimHash
5.4.3  散布式文档排重
5.5  中文要害词提取
5.5.1  要害词提取的根本办法
5.5.2  HITS算法使用于要害词提取
5.5.3  从网页中提取要害词
5.6  相干搜刮词
5.6.1  发掘相干搜刮词
5.6.2  运用多线程盘算相干搜刮词
5.7  信息提取
5.8  拼写反省与发起
5.8.1  含糊婚配题目
5.8.2  英文拼写反省
5.8.3  中文拼写反省
5.9  主动择要
5.9.1  主动择要技能
5.9.2  主动择要的设计
5.9.3  基于篇章构造的主动择要
5.9.4  Lucene中的静态择要
5.10  文天职类
5.10.1  特性提取
5.10.2  中央向量法
5.10.3  质朴贝叶斯
5.10.4  支持向量机
5.10.5  多级分类
5.10.6  规矩办法
5.10.7  网页分类
5.11  主动聚类
5.11.1  聚类的界说
5.11.2  K均值聚类办法
5.11.3  K均值完成
5.11.4  深化了解DBScan算法
5.11.5  运用DBScan算法聚类实例
5.12  拼音转换
5.13  观点搜刮
5.14  多言语搜刮
5.15  跨言语搜刮
5.16  情绪辨认
5.16.1  确定词语的批驳偏向
5.16.2  完成情绪辨认
5.16.3  用户协同过滤
5.17  本章小结

第6章  Lucene原理与使用
6.1  Lucene深化引见
6.1.1  常用盘问
6.1.2  盘问语法与剖析
6.1.3  盘问原理
6.1.4  运用Filter挑选搜刮后果
6.1.5  遍历索引库
6.1.6  索引数值列
6.2  Lucene中的紧缩算法
6.2.1  变长紧缩
6.2.2  PForDelta
6.2.3  前缀紧缩
6.2.4  差分编码
6.2.5  设计索引库构造
6.3  创立和维护索引库
6.3.1  创立索引库
6.3.2  向索引库中添加索引文档
6.3.3  删除索引库中的索引文档
6.3.4  更新索引库中的索引文档
6.3.5  索引的兼并
6.3.6  索引文件款式
6.3.7  分发索引
6.3.8  修复索引
6.4  查找索引库
6.5  读写并发控制
6.6  优化运用Lucene
6.6.1  索引优化
6.6.2  盘问优化
6.6.3  完成工夫加权排序
6.6.4  完成字词混淆索引
6.6.5  重用Tokenizer
6.6.6  定制Tokenizer
6.7  检索模子
6.7.1  向量空间模子
6.7.2  BM25概率模子
6.7.3  统计言语模子
6.8  盘问大容量索引
6.9  及时搜刮
6.10  本章小结

第7章  搜刮引擎用户界面
7.1  完成Lucene搜刮
7.2  搜刮页面设计
7.2.1  Struts2完成的搜刮界面
7.2.2  翻页组件
7.3  完成搜刮接口
7.3.1  编码辨认
7.3.2  布尔搜刮
7.3.3  指定范畴搜刮
7.3.4  搜刮后果排序
7.3.5  搜刮页面的索引缓存与更新
7.4  汗青搜刮词记载
7.5  完成要害词高亮表现
7.6  完成分类统计视图
7.7  完成类似文档搜刮
7.8  完成AJAX搜刮遐想词
7.8.1  估量盘问词的文档频率
7.8.2  搜刮遐想词总体构造
7.8.3  效劳器端处置
7.8.4  阅读器端处置
7.8.5  效劳器端改良
7.8.6  拼音提示
7.8.7  摆设总结
7.9  集成其他功用
7.9.1  拼写反省
7.9.2  分类统计
7.9.3  相干搜刮
7.9.4  再次查找
7.9.5  搜刮日记
7.10  搜刮日记剖析
7.10.1  日记信息过滤
7.10.2  信息统计
7.10.3  发掘日记信息
7.11  本章小结

第8章  运用Solr完成企业搜刮
8.1  Solr简介
8.2  Solr根本用法
8.2.1  Solr效劳器真个设置装备摆设与中文支持


 

(责任编辑:小锋)
------分开线----------------------------