电子书:《虫术python绝技》《虫术python绝技》梁睿坤

电子书:《虫术python绝技》《虫术python绝技》梁睿坤

资源下载
仅限VIP下载,请先
犹豫不决让我们错失一次又一次机会!!!

电子书:《虫术python绝技》《虫术python绝技》梁睿坤

111

内容简介:

梁客坤p近二十年软件开发、项目管理、团队建设和管理经验。致力于互联网技术应用与大数据应用方面的研究与开发工作。曾任多家软件司的高级软件工程师、项目经理现任广州市增增智能科技有限公司ceo从事视觉智能、语音智能及|ot等技术的产品研发与企业经营方面的工作

python绝技梁睿坤◎著電子工業出版补publishing house of electronics industry北京· beljin

内容简介本书以大数据应用方面常用的语言 python为基础.从网络爬虫的实现原理入手.逐步引领读者进入网络爬虫的世界。在各类爬虫框架中.将 scraps作为轴心.从多个维度揭开爬虫技术的面纱例如.爬取规则的制定技巧.设计高速爬虫.如何让爬虫更“聪明”地获取数据.将海量数据进行分布式存储的技术.设计具有高隐匿性的爬虫.大规模、高并发的分布式爬虫技术本书基于 python这门灵活且简洁的语言.结合作者在网络数据爬取和大数据方面的实际工程经验.使得本书更具实用性。本书旨在让更多数据工作者或编程爱好者在大数据时代从海量的信息中通过掌握“虫术”来获取对自己或企业有价值的信息未经许可.不得以任何方式复制或抄袭本书之部分或全部内容版权所有.侵权必究图书在版编目(c|p)数据技/梁睿坤著.一北京:电子工业出社.isbn978-7-121-34456-5①梁…ⅲ①软件工具一程序设计ⅳ.①tp311.561中guo版本图书馆cip数据核字(2018)第125215号责仼编辑:陈晓猛装订:三河市双峰印刷装订有限公司出版发行:电子工业出版社北京市海淀区万寿路173信箱邮编:100036开本:787×980116印张:26.75字数:513.6千字版次:2018年7月第1版印次:2018年7月第1次印刷凡所购买电子工业出版社图书问题.请向购买书店调换。若书店售缺.请与本社发行部联系.联系及邮购电话010)88254888.8825888版侵权举报请发邮件至[email protected]本书咨询联系方式:010

前言很久以前我就接触了网络爬虫这门技术.从当时接触的范畴来说.称之为“小玩意”或者小助手”可能更为贴切。我使用爬虫只是为了收集一些样本数据做测试.或者对上线的项进行高强度的并发性压力测试.又或者获取感兴趣的图片、新闻爬虫涉及的技术比较多.用各种语言都可以快速地写出一个爬虫.所以一直以来并没有被看作一门综合性的技术.直到2015年我负责的开发部门接到公司安排的三项重点开发任务(1)从微 信和微博上搜集哪些言论正变得热门.哪些公众号或者微博账号的关注度正在持续地上升(2)要与一家技术很落后的电商公司的业务系统在没有提供数据接口的情况下进行大规模的数据同步3)开发一个数据可视化平台.并导入公司内部多年来的销售数据(都是一些 excel和csv文件).然后将当前每月在京东、淘宝等电商平台上的统计数据合并起来进行统一的查询与统计在接到这三个任务时.可以说是没有任何头绪的.这些任务简单看都是一些数据整合的工作。在深入分析与研究之后发现.要完成这三大任务都必须依赖爬虫技术这是一个坑坑洼洼.而且充满挑战的过程。例如.如何能从号称封闭独立的微 信中挖出数据.又不被屏蔽;如何能将每天过亿条的数据存储下来而不会“塞爆”服.务.器:如何能将每天大堆的csⅴ或者 excel文件下载到服.务.器.然后自动整理入库而不会出现数据错误.等等在完成这三个项目之后.我和我的团队都对爬虫有了非常深刻的理解与认识.很多方面的知识与经验都得到了极大的提高。在综合过往的开发经验和这几年的实际入坑经验之后.我决定将其编撰成书.将这些看似零散的技术融合起来

iv|虫术hon绝技内容介绍虫术”是一门综合性的技术.涉及的知识面很广.为了不让你在一大堆的技术面前感到茫然.我将这门“术”分成了三个运用阶段.一步步由浅入深地进行叙述本书共5章.前3章为初阶部分.第4章为中阶部分.第5章为高阶部分本章首先介绍爬虫在目前大数据生态下的地位.还提供了一份关于学习虫术的详尽的技术图.最后讲述爬虫基本的实现方法与实际运用示例.目的在于让读者对虫术建立一个基本能从示例中引起对这门技术的兴趣第2章 scrap基础虫术以 scrap架构为核心基础.本章对 scrap的架构和各个模块的作用进行了详细的介绍第3章 scrap工程管理与部署本章介绍如何在 scrap工程中运用 scraped将本地工程部署到实际运行环境中.详细地讲述 scraped安装配置及其附带的 scrapy-client和 scrap- deploy工具的使用方法。第4章中阶虫术本章包含的内容非常丰富.是针对将虫术运用于实际项目展开的。从 scrap的蜘蛛内部实入http底层.实现对scrap中间件的支持.运用seleniun或splash处理棘手的javascript网 页.最后详细讲述如何处理采集到的数据第5章高阶虫术本章是对中阶虫术的深化.聚焦于爬虫系统的性能.讲解如何让爬虫变得更加隐蔽.如何爬虫看懂图片.如何训练它们使之变得更加聪明.最后讲解如何掌握虫术的大招“分布式爬虫”来应对大规模的数据集采工作与数据存储任务勘误本书如有勘误.会在hps/ github. com/ dotnetage/上发布。由于笔者能力有限.时间仓促书中难免有错漏.欢迎读者批评指正

#############################################

资源下载
下载价格VIP专享
仅限VIP下载升级VIP
犹豫不决让我们错失一次又一次机会!!!
原文链接:https://1111down.com/223047.html,转载请注明出处

本站开启缓存功能

登入后回任何页面即可登入成功,当前页不显示

没有账号?注册  忘记密码?

社交账号快速登录