电子书:《解密搜索引起技术实战lucenejava精华版(第三版)》《解密搜索引起技术实战lucene&java精华版(第三版)》

电子书:《解密搜索引起技术实战lucenejava精华版(第三版)》《解密搜索引起技术实战lucene&java精华版(第三版)》

资源下载
仅限VIP下载,请先
犹豫不决让我们错失一次又一次机会!!!

电子书:《解密搜索引起技术实战lucenejava精华版(第三版)》《解密搜索引起技术实战lucene&java精华版(第三版)》

111

内容简介:

内容简介本书是猎兔搜索开发团队的软件研发和教学实践的经验汇总。本书总结搜索引相关理论与实际解决方案.井给出了java实现.其中利用了流行的开源项目 lucene和solr.而且还包括原创的实现本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。爬虫部分介绍了网 页历方法和如何实現增量抓取.并介绍了从网 页等各种格式的文档中提取主要内容的方法。自然语言处理部分从统计机器学习的原理出发.包括了中文分词与词性标注的理论与实现及在搜索引中的应用等细节.同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域经典问題进行了深入浅出的介绍.并总结了实现方法。在全文检素部分.结合 lucene介绍了搜索引摹原理与进展。用简单的例子介绍了 lucene的最新应用方法.包括完整的搜索实现过程:从完成索引到搜索用户界面的实现。此外还进一步介绍了实现准实时搜索的方法.展示了solr的用法以及实现分布式搜索服务集群的方法.最后介绍了在地理信息系统领域和户外活动搜索领域的应用有.侵权必究图书在版编目(cip)数据解密搜索引擎技术实战: lucenejava精华版/罗刚编著.一3版.一北京:电子工业出版社.20164isbn978-7-121-281111.①解…i1.①罗…i.①互联网络一情报检索iv.①g354.4guo版本图书馆cip数据核字(2016)第022316号责任编辑:董英印刷:北京京科印刷有限公司装订:三河市早庄路通装订厂出版发行:电子工业出版社北京市海淀区万寿路173信箱郎编:1000开本:787×10921/16印张:32字数:678千字版次:2011年5月第2014年1月第2版2016年4月第3版印次:2016年4月第1次印刷印数:3000册定价:79.00元(含dvd光盘1张)凡所购买电子工业出版社图书有缺损问题.请向胸买书店调换。若书店售缺.请与本社发行部联系联系及邮购电话010)8825488质量投诉请发邮件至zlts(@phei.com.cn.盗版侵权举报请发郇件至dbq(@phei.com.cn服务热线010)88258888前言多搜索相关的技术已经得到了初步的解决。在guo内产业界也已经有很多公司掌握了基本的搜索开发技术并拥有专业的搜索技术开发人员。但是越来越多有价值的资讯对现有技术的处理能力仍然是一个挑战为了方便实践.需要有良好实现的代码作为参考.为了节约篇幅.书中的代码只是核心片段。本书相关代码的完整版本在附带光盘中可以找到作者罗刚在参加编写本书之前.运独立写过(自己动手写搜索引学)一书.与王振东共同编写过《自己动手写网络爬虫》一书。经过10多年的技术积累以及猎免搜案技术团队每年若干的研发投入.相信猎兔已经能够比以前做得更好。但越是深入接触客户的需求.越感觉到技术本身仍需要更多进步.才能满足实用的需要。写这本书也是考虑到.也许还需要更多的前进.才能使技术产生质的飞跃本书分为相关技术总体介绍部分、爬虫部分、全文检索部分、自然语言处理部分以及相关案例分析部分爬虫部分从基本的爬虫原理开始讲解.通过介绍优先级队列、宽度优先搜素等内容引领读者入门:然后根据当前风起云涌的云计算热潮.重点讲述了云计算的基本原理及其在搜索中的应用.以及wweb图分析、信息抽取等内容;为了能够让读者更深入地了解爬虫.本书还介绍了有关爬虫的数据挖掘的内容检索部分重点介绍了搜索的基本原理与使用。主要介绍了开源软件实现 lucene以及solr。不仅介绍了如何使用这些开源软件.而且还介绍了其中的一些实现原理lucene更高版本的改进指出了当前需要解决的问题.欢迎读者在了解基本原理后进行更深入的研究自然语言处理部分向来是笔者关注的重点.因为系统的智能化依于此.开发中文搜索离不开中文分词。开发任何自然语言的搜索也离不开对相应语言的处理。对自然语言的处理其实也可以用到对java或c语言这样的机器语言的处理方法.只不过处理自然语言更难一点虽然本书的每个章节都已经用代码强化了实现细节.但是对于初学者来说.也许需要更多的案例来理解相关技术在真实场景中的用法。案例分析部分介绍了在地理信息系统领域和户外活动搜索领域的应用。股票应用案例待整理完整后再加入本书适合需要具体实现搜素引学的程序员使用.对于信息检索等相关研究人员也有定的参考价值.同时猎兔搜索技术团队也已经开发出以本书为基础的专门培训课程和商业软件高级开发人员也可以参加猎兔的培训或者创业团队。职场人员经常面临各种压力。选择猎兔培训.不是几个月学完以后就不再见面.而是给大家提供持久的支持。当以后需要再次找工作的时候.或者需要创业时.依然可以在这里找到支持。很多商业运营的大项目失败的代价太高.所以他们往往只招有多年开发经验的工程师。但是为了成长就不要怕犯错误.在培训时可以等学员犯了错误之后再告知正确答案。有经验的工程师也可以在这里学习到完整的技术体系。感谢开源软件开发人员和家人、关心负的老师和朋友、创业快年以及信负软作的客户多年来的支持。读者可以通过qq(270954928)联系作者.或者加.q.q.群.(166015123)讨论相关技术问题。参与本书编写的有罗刚、张子宪、张继红、罗庭亮高丹丹、任通通、孙宽、何淑琴、徐友峰、张进威、刘宇、石田盈.在此一并表示感谢。让我们通过合作共赢为技术发展创造更好的生态环境编著者目录第1章搜索引擎总体结构4.2布降过滤器1.1搜索引擎基本模块2.5并行抓取……1.2开发环境2.5.1多线程爬虫1.3搜索引工作原理2.5.2垂直搜索的多线程爬虫……483.1网络爬2.5.3异步1o01.3.2全文索引结构与 lucene实现…41.3.3搜索用户界面2.7抓取ftp1.3.4计算框架1.3.5文本挖据2.9图像的ocr识别1.4本章小结2.9.1图像二值化2.9.2切分图像第2章网络爬虫的原理与应用9.3svm分类2.1爬虫的基本原理2.10wcb结构挖掘2.2爬虫架构2.2.1基本架构0.2 pagerank算法2.2.2分布式爬虫架构2.10.3his算法垂直爬虫架构2.10.4主題相关的 pagerank2.3抓取网 页2.11部署爬虫3.1下载网 页的基本方法2.12本章小结2.3.2网 页更新2.3.3抓取限制应对方法、第3重素引内盐3.4url地址提取3.1从html文件中提取文本……863.1.1识别网 页的编码2.3.5抓取 javascript i动态页面“……“282.3.6抓取即时信息3.1.2网 页编码转换为字符串编码…-893.1.3使用正则表达式提取数据“-892.3.7抓取暗网2.3.8信息过滤3.1.4结构化信息提取……913.9最好优先遍历3.1.5网 页的dom结构2.4存储url地址1.6使用 nekohtml提取信息…-952.4.1 berkeleydb9043.1.7使用 soup提取信息3.1.8网 页去噪4.11平滑算法3.1.9网 页结构相似度计算4.12本章小结3.1.10提取标题第5章让搜索引擎理解自然语言3.1.11提取ri期3.2从非html文件中提取文本…13停用词表3.2.1提取标题的一般方法5.2句法分析树3.2.2pdf文件5.3相似度计算2.3word文件5.4文档排重3.2.4rtf文件…5.4.1语义指纹3.2.5excl文件5.4.2 simhash3.26 powerpoint文件5.4.3分布式文档排3.3流媒体内容提取…5.5中文关键词提取3.3.1音流内容提取5.5.1关键词提取的基本方法……233.3.2视流内容提取5.5.2hts算法应用于3.4存储提取内容…关键词提取3.5本章小结…5.53从网 页中提取关键词5.6相关搜索词第4章中文分词的原理与实现…1442285.6.1挖据相关搜索词4.1 lucene中的中文分词1455.62使用多线程计算4.1.1 lucene切分原理……相关搜索词4.1.2 lucene中的 analyzer5.7信息提取4.1.3自己写 analyzer书65.8拼写检查与建议amm4.1.4 lietu中文分词5.8.1模糊匹配问题4.2查找词典算法0115.8.2英文拼写检查4.2.1标准trie树8.3中文拼写检查.22三叉trie树5.9自动摘要4.3中文分词的原5.9.1自动摘要技术4.4中文分词流程与结构9.2自动摘要的设计444形成切分词图5.9.34.6概率语言模型的分词方法…1695.10文本分类4.7n元分词方法4.8新词发现…sgy中心向量法4.9未登.录词识别5.10.3朴素贝叶斯4.10词性标注5.10.4支持向量机4.10.1隐马尔可夫模型5.10.5规则方法4.10.2基于转换的错误5.10.6网 页分类m学习方法5.11拼音转换

#############################################

资源下载
下载价格VIP专享
仅限VIP下载升级VIP
犹豫不决让我们错失一次又一次机会!!!
原文链接:https://1111down.com/224392.html,转载请注明出处

本站开启缓存功能

登入后回任何页面即可登入成功,当前页不显示

没有账号?注册  忘记密码?

社交账号快速登录