“大数据时代”已经来临,并对各个领域都产生了深远的影响。在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉;而在公共卫生、经济发展和经济预测等领域中,“大数据”的预见能力也已经崭露头角。

数据聚类找出霍乱病因

一种重要的数据汇总形式是聚类,在聚类中,数据被看成是多维空间下的点,空间中相互邻近的点将被赋予相同的类别。这些类别本身也会被概括表示,比如通过类别质心及类别中的点到质心的平均距离来描述。这些类别的概括信息综合在一起形成了全体数据集合的数据汇总结果。

一个利用聚类来解决问题的著名实例发生在很久以前的伦敦,在整个问题的解决中并没有使用计算机 。内科医生John Snow在处理霍乱爆发时在城市地图上标出了病例的发生地点。图1-1给出了该图的一个小片段,展示了病例的传播情况。

enter p_w_picpath description here

图1-1 在伦敦市地图上标出的霍乱病例的传播情况示意图

图中显示,病例聚集在某些交叉路口。这些路口的水井已经被污染,离这些水井最近的居民染上了疾病,而清洁的水井附近的居民则没有染病。如果没对这些数据进行聚类,霍乱的病因就难以揭开。

——摘自《大数据:互联网大规模数据挖掘与分布式处理》

enter p_w_picpath description here

书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:

  • 分布式文件系统以及Map-Reduce工具;
  • 相似性搜索;
  • 数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
  • 搜索引擎技术,如谷歌的PageRank;
  • 频繁项集挖掘;
  • 大规模高维数据集的聚类算法;
  • Web应用中的关键问题:广告管理和推荐系统。

作者简介

Anand Rajaraman 数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,两年后该公司被亚马逊以2.5亿美元收购,Rajaraman被聘为亚马逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http://anand.typepad.com/datawocky/。

Jeffrey David Ullman 美国国家工程院院士,计算机科学家,斯坦福大学教授。Ullman早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是ACM会员,曾获SIGMOD贡献奖、Knuth奖等多项科研大奖;他是“龙书”《编译原理》、数据库领域权威指南《数据库系统实现》的合著者;麾下多名学生成为了数据库领域的专家,其中最有名的当属谷歌创始人Sergey Brin;本书第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。