图书目次:
第1章 搜刮引擎总体构造
1.1 搜刮引擎根本模块
1.2 龙都国际官网开辟情况
1.3 搜刮引擎任务原理
1.3.1 网络爬虫
1.3.2 全文索引构造与Lucene完成
1.3.3 搜刮用户界面
1.3.4 盘算框架
1.3.5 文本发掘
1.4 本章小结
第2章 网络爬虫的原理与使用
2.1 爬虫的根本原理
2.2 爬虫架构
2.2.1 根本架构
2.2.2 散布式爬虫架构
2.2.3 垂直爬虫架构
2.3 抓取网页
2.3.1 下载网页的根本办法
2.3.2 网页更新
2.3.3 抓取限定应对办法
2.3.4 URL地点提取
2.3.5 抓取JavaScript静态页面
2.3.6 抓取即时信息
2.3.7 抓取暗网
2.3.8 信息过滤
2.3.9 最好优先遍历
2.4 存储URL地点
2.4.1 BerkeleyDB
2.4.2 布隆过滤器
2.5 并行抓取
2.5.1 多线程爬虫
2.5.2 垂直搜刮的多线程爬虫
2.5.3 异步I/O
2.6 RSS抓取
2.7 抓取FTP
2.8 下载图片
2.9 图像的OCR辨认
2.9.1 图像二值化
2.9.2 切分图像
2.9.3 SVM分类
2.10 Web构造发掘
2.10.1 存储Web图
2.10.2 PageRank算法
2.10.3 HITs算法
2.10.4 主题相干的PageRank
2.11 摆设爬虫
2.12 本章小结
第3章 索引内容提取
3.1 从HTML文件中提取文本
3.1.1 字符集编码
3.1.2 辨认网页的编码
3.1.3 网页编码转换为字符串编码
3.1.4 运用HTMLParser完成定向抓取
3.1.5 运用正则表达式提取数据
3.1.6 构造化信息提取
3.1.7 网页的DOM构造
3.1.8 运用NekoHTML提取信息
3.1.9 网页去噪
3.1.10 网页构造类似度盘算
3.1.11 提取标题
3.1.12 提取日期
3.2 从非HTML文件中提取文本
3.2.1 提取标题的普通办法
3.2.2 PDF文件
3.2.3 Word文件
3.2.4 Rtf文件
3.2.5 Excel文件
3.2.6 PowerPoint文件
3.3 提取垂直行业信息
3.3.1 医疗行业
3.3.2 旅游行业
3.4 流媒体内容提取
3.4.1 音频流内容提取
3.4.2 视频流内容提取
3.5 存储提取内容
3.6 本章小结
第4章 中文分词原理与完成
4.1 Lucene中的中文分词
4.1.1 Lucene切分原理
4.1.2 Lucene中的Analyzer
4.1.3 本人写Analyzer
4.1.4 Lietu中文分词
4.2 查找辞书算法
4.2.1 规范Trie树
4.2.2 三叉Trie树
4.3 中文分词的原理
4.4 中文分词流程与构造
4.5 构成切分词图
4.6 概率言语模子的分词办法
4.7 N元分词办法
4.8 新词发明
4.9 未登录词辨认
4.10 词性标注
4.10.1 隐马尔可夫模子
4.10.2 基于转换的错误学习办法
4.11 腻滑算法
4.12 呆板学习的办法
4.12.1 最大熵
4.12.2 条件随机场
4.13 无限形态机
4.14 本章小结
第5章 让搜刮引擎了解天然言语
5.1 停用词表
5.2 句法剖析树
5.3 类似度盘算
5.4 文档排重
5.4.1 语义指纹
5.4.2 SimHash
5.4.3 散布式文档排重
5.5 中文要害词提取
5.5.1 要害词提取的根本办法
5.5.2 HITS算法使用于要害词提取
5.5.3 从网页中提取要害词
5.6 相干搜刮词
5.6.1 发掘相干搜刮词
5.6.2 运用多线程盘算相干搜刮词
5.7 信息提取
5.8 拼写反省与发起
5.8.1 含糊婚配题目
5.8.2 英文拼写反省
5.8.3 中文拼写反省
5.9 主动择要
5.9.1 主动择要技能
5.9.2 主动择要的设计
5.9.3 基于篇章构造的主动择要
5.9.4 Lucene中的静态择要
5.10 文天职类
5.10.1 特性提取
5.10.2 中央向量法
5.10.3 质朴贝叶斯
5.10.4 支持向量机
5.10.5 多级分类
5.10.6 规矩办法
5.10.7 网页分类
5.11 主动聚类
5.11.1 聚类的界说
5.11.2 K均值聚类办法
5.11.3 K均值完成
5.11.4 深化了解DBScan算法
5.11.5 运用DBScan算法聚类实例
5.12 拼音转换
5.13 观点搜刮
5.14 多言语搜刮
5.15 跨言语搜刮
5.16 情绪辨认
5.16.1 确定词语的批驳偏向
5.16.2 完成情绪辨认
5.16.3 用户协同过滤
5.17 本章小结
第6章 Lucene原理与使用
6.1 Lucene深化引见
6.1.1 常用盘问
6.1.2 盘问语法与剖析
6.1.3 盘问原理
6.1.4 运用Filter挑选搜刮后果
6.1.5 遍历索引库
6.1.6 索引数值列
6.2 Lucene中的紧缩算法
6.2.1 变长紧缩
6.2.2 PForDelta
6.2.3 前缀紧缩
6.2.4 差分编码
6.2.5 设计索引库构造
6.3 创立和维护索引库
6.3.1 创立索引库
6.3.2 向索引库中添加索引文档
6.3.3 删除索引库中的索引文档
6.3.4 更新索引库中的索引文档
6.3.5 索引的兼并
6.3.6 索引文件款式
6.3.7 分发索引
6.3.8 修复索引
6.4 查找索引库
6.5 读写并发控制
6.6 优化运用Lucene
6.6.1 索引优化
6.6.2 盘问优化
6.6.3 完成工夫加权排序
6.6.4 完成字词混淆索引
6.6.5 重用Tokenizer
6.6.6 定制Tokenizer
6.7 检索模子
6.7.1 向量空间模子
6.7.2 BM25概率模子
6.7.3 统计言语模子
6.8 盘问大容量索引
6.9 及时搜刮
6.10 本章小结
第7章 搜刮引擎用户界面
7.1 完成Lucene搜刮
7.2 搜刮页面设计
7.2.1 Struts2完成的搜刮界面
7.2.2 翻页组件
7.3 完成搜刮接口
7.3.1 编码辨认
7.3.2 布尔搜刮
7.3.3 指定范畴搜刮
7.3.4 搜刮后果排序
7.3.5 搜刮页面的索引缓存与更新
7.4 汗青搜刮词记载
7.5 完成要害词高亮表现
7.6 完成分类统计视图
7.7 完成类似文档搜刮
7.8 完成AJAX搜刮遐想词
7.8.1 估量盘问词的文档频率
7.8.2 搜刮遐想词总体构造
7.8.3 效劳器端处置
7.8.4 阅读器端处置
7.8.5 效劳器端改良
7.8.6 拼音提示
7.8.7 摆设总结
7.9 集成其他功用
7.9.1 拼写反省
7.9.2 分类统计
7.9.3 相干搜刮
7.9.4 再次查找
7.9.5 搜刮日记
7.10 搜刮日记剖析
7.10.1 日记信息过滤
7.10.2 信息统计
7.10.3 发掘日记信息
7.11 本章小结
第8章 运用Solr完成企业搜刮
8.1 Solr简介
8.2 Solr根本用法
8.2.1 Solr效劳器真个设置装备摆设与中文支持