大数据开发过程中的5个学习通用步骤

  • 时间:
  • 浏览:1
  • 来源:大发5分6合_大发5分6合官网

4008年Google数据表明,它们每天总要访问最少400亿个网页,而在总量上,它们追踪着400亿个左右的独立URL链接。

下面以Google搜索引擎为例,来说明以上步骤。

Google Spider是1个守护进程,运行在全球各地的Google服务器之中,Spider们非常勤奋,日夜不停地工作。点击领取免费资料及课

图 1-1大数据开发通用步骤图

上图可是我1个繁杂后的步骤和流程,实际开发中,有的步骤过后不需用,有的还需用增加步骤,有的流程过后更繁杂,因具体情況而定。

Google的数据来源于互联网上的网页,它们由Google Spider(蜘蛛、爬虫、机器人)来抓取,抓取的原理也很简单,可是我模拟亲戚亲戚大伙儿儿人的行为,来访问各个网页,有过后保存网页内容。

都并能 说,只可是我互联网上的网站,有过后我越来越 在robots.txt

大数据的开发过程,如图1-1所示。