统计学电子书下载-相识电子书

标签：统计学

Common Errors in Statistics

作者：Good, Phillip I.; Ha

The Fourth Edition of this tried-and-true book elaborates on many key topics such as epidemiological studies, distribution of data; baseline data incorporation; case control studies; simulations; statistical theory publication; biplots; instrumental variables; ecological regression; result reporting, survival analysis; etc. Including new modifications and figures, the book also covers such topics as research plan creation; data collection; hypothesis formulation and testing; coefficient estimates; sample size specifications; assumption checking; p-values interpretations and confidence intervals; counts and correlated data; model building and testing; Bayes' Theorem; bootstrap and permutation tests; and more.
统计学

作者：贾俊平

统计学（第5版），ISBN：9787300153841，作者：贾俊平等著
倾向值分析

作者：郭申阳,马克·W.弗雷泽

本书阐述了重要的统计学原理和定理，省略了论证，通俗易懂, 侧重应用,是社会行为科学研究者了解当代前沿因果分析方法的重要工具书。本书系统介绍了四种用于因果分析的前沿统计方法：（1）由2000年诺贝尔经济学得主美国芝加哥大学教授杰姆斯• 海科曼（James Heckman）创立的 “样本选择模型”；（2）由美国宾夕法尼亚大学沃顿商学院著名统计学教授保罗• 罗森堡(Paul Rosenbaum)及哈佛大学著名统计学教授唐纳德•鲁宾(Donald Rubin )创立的“倾向值匹配方法”；（3）由美国哈佛大学肯尼迪政府学院教授埃尔波特• 阿贝蒂(Alberto Abadie )及哈佛大学经济学教授圭多•因本斯(Guido Imbens )创立的 “匹配估算法”；（4）由美国芝加哥大学教授杰姆斯•海科曼（James Heckman），日本东京大学经济学教授市村英彦（Hidehiko Ichimura），及美国宾夕法尼亚大学经济学教授派彻•托德(Petra Todd ) 创立的 “核心值匹配法”。该书将所有例证的Stata 操作程序和资料公布于互联网, 以方便读者练习和运用。示例数据下载请登录：http://ssw.unc.edu/psa/
多元统计分析

作者：何晓群

多元统计分析（第三版），ISBN：9787300147888，作者：何晓群编著
Survival Analysis

作者：David G. Kleinbaum,M

An excellent introduction for all those coming to the subject for the first time. New material has been added to the second edition and the original six chapters have been modified. The previous edition sold 9500 copies world wide since its release in 1996. Based on numerous courses given by the author to students and researchers in the health sciences and is written with such readers in mind. Provides a "user-friendly" layout and includes numerous illustrations and exercises. Written in such a way so as to enable readers learn directly without the assistance of a classroom instructor. Throughout, there is an emphasis on presenting each new topic backed by real examples of a survival analysis investigation, followed up with thorough analyses of real data sets.
Introduction to the Practice of Statistics

作者：David S. Moore,Bruce

The new Seventh Edition brings the acclaimed IPS approach to a new generation, with a number of enhancements in the text and with breakthrough media tools for instructors and students. It demonstrates how statistical techniques are used to solve real-world problems, combining real data and applications with innovative pedagogy, both in the text and via electronic media. New Format Options Introduction to the Practice of Statistics, Seventh Edition is available as: • A core book containing the first 13 chapters in hardcover (1-4292-4032-6) or paperback (1-4292-7433-6). Companion chapters 14-17 are available on the book’s CD and web site. • Extended Version (hardcover; includes chapters 1-15): 1-4292-7434-4; Companion chapters 16-17 are available on the book’s CD and web site. http://www.whfreeman.com/Catalog/product/introductiontothepracticeofstatistics-seventhedition-moore
统计学

作者：贾俊平

《统计学(第4版)》内容简介：统计作为数据分析的一种通用语言，为使用者提供了一套获取数据、分析数据并从数据中得出结论的原则和方法。《统计学(第4版)》包括描述统计、推断统计、多元统计和非参数统计等主要方法。写法上完全立足于统计应用，每种方法都从实际问题入手进行讨论，尽可能避免过多统计公式的推导。书中例题的解答结合使用了SPSS和Excel两个软件，并给出每种方法的详细操作步骤，使读者能轻松完成统计计算。《统计学(第4版)》可作为高等院校经济管理类专业本科生统计学课程的教材，也可作为研究生和MBA的教材或参考书，对广大实际工作者也具有参考价值。
SPSS统计分析

作者：卢纹岱

《SPSS 统计分析(第4版)》是在前三版的基础上，根据读者的反馈意见重新编写的。软件版本基于16.0。全书内容以统计分析应用为主，简要介绍各种统计分析方法的基本思想和基本概念；详细叙述操作方法，每种分析方法均给出对应的例题，涉及各个领域。每个例题均从方法选择、数据文件结构、操作步骤和结果分析方面给予说明。《SPSS 统计分析(第4版)》保留前三版的统计分析方法，压缩了基本操作，增加了两步聚类、对应分析和表格制作的内容。为方便读者和减少篇幅，书中所有例题数据均按章节编号，并保存在所附的光盘中。为便于教学，《SPSS 统计分析(第4版)》另配有电子教案，向采纳《SPSS 统计分析(第4版)》作为教材的教师免费提供。《SPSS 统计分析(第4版)》可作为高等院校统计计算课程的本科生和研究生教材，也适合于从事分析和决策的社会各领域各相关专业读者学习参考。
Introduction to the Theory of Statistics

作者：Alexander M. Mood,Fr

The purpose of the third edition of this book is to give a sound and self-contained (in the sense that the necessary probability theory is included) introduction to classical or mainstream statistical theory. The book is intended to be a textbook, aimed for use in the traditional full year upper-division undergraduate course in probability and statistics or for use as a text in a course designed for first year graduate students. No previous course in probability or statistics is needed in order to study the book. The book is designed to be used in either the quarter system or the semester system.
Statistics

作者：David S. Moore,Willi
Statistical Methods for the Social Sciences

作者：Alan Agresti,Barbara

Agresti and Finleypresent statistical methods in a style that emphasizes their concepts and their application to the social sciences rather than the mathematics and computational details behind them. Statistical Methods for the Social Sciences, 4e presents an introduction to statistical methods for students majoring in social science disciplines. No previous knowledge of statistics is assumed, and mathematical background is assumed to be minimal (lowest-level high-school algebra). This text may be used in a one or two course sequence. Such sequences are commonly required of social science graduate students in sociology, political science, and psychology. Students in geography, anthropology, journalism, and speech also are sometimes required to take at least one statistics course.
Head First Data Analysis

作者：Michael Milton

Today, interpreting data is a critical decision-making factor for businesses and organizations. If your job requires you to manage and analyze all kinds of data, turn to "Head First Data Analysis", where you'll quickly learn how to collect and organize data, sort the distractions from the truth, find meaningful patterns, draw conclusions, predict the future, and present your findings to others. Whether you're a product developer researching the market viability of a new product or service, a marketing manager gauging or predicting the effectiveness of a campaign, a salesperson who needs data to support product presentations, or a lone entrepreneur responsible for all of these data-intensive functions and more, the unique approach in "Head First Data Analysis" is by far the most efficient way to learn what you need to know to convert raw data into a vital business tool. You'll learn how to: determine which data sources to use for collecting information; assess data quality and distinguish signal from noise; build basic data models to illuminate patterns, and assimilate new information into the models; cope with ambiguous information; design experiments to test hypotheses and draw conclusions; use segmentation to organize your data within discrete market groups; visualize data distributions to reveal new relationships and persuade others; predict the future with sampling and probability models; clean your data to make it useful; and, communicate the results of your analysis to your audience. Using the latest research in cognitive science and learning theory to craft a multi-sensory learning experience, "Head First Data Analysis" uses a visually rich format designed for the way your brain works, not a text-heavy approach that puts you to sleep.
属性数据分析引论

作者：阿格雷斯特

《属性数据分析引论(第2版)》的起点较低，仅仅要求读者具有基础统计课程的知识，包括参数估计、假设检验、回归分析模型及方差分析模型。全书分为十一章，分别介绍了与属性数据有关的统计学基础知识，列联表的相关知识，广义线性模型理论，logistic回归模型的理论、应用及其推广，对数线性模型，配对数据模型，聚簇关联响应的建模，广义线性混合模型以及属性数据分析方法的发展史。《属性数据分析引论(第2版)》内容详尽而不失精炼，整个体系力求完整而不失紧凑，语言深入浅出，通俗易懂。配备了大量经典案例，每章附有适量习题。这些习题编排精心，由浅人深，能够引导读者进一步凝练正文内容，锻炼解决实际问题的能力。《属性数据分析引论(第2版)》约有100个实际案例，同时附有每种统计方法的SAS及SPSS的实现过程。
多元统计分析

作者：何晓群

《多元统计分析》(第2版)写作的指导思想是:在不失严谨的前提下,明显不同于纯数理类教材,努力突出实际案例的应用和统计思想的渗透,结合统计软件较全面地系统介绍多元分析的实用方法。为了贯彻这一思想,《多元统计分析》参考了国内外大量书籍及文献，在系统介绍多元分析基本理论和方法的同时,尽力结合社会、经济、自然科学等领域的研究实例,把多元分析的方法与实际应用结合起来,注意定性分析与定量分析的紧密结合,努力把同行们以及我们在实践中应用多元分析的经验和体会融入其中。几乎每种方法都强调它们各自的优缺点和实际运用中应注意的问题。为使读者掌握《多元统计分析》(第2版)内容,又考虑到这门课程的应用性和实践性,每章后面给出一些简单的思考与练习题。我们鼓励读者自己利用一些实际数据去实现这些方法。多元分析的应用离不开计算机,《多元统计分析》的案例主要运用在我国广泛流行的SPSS软件实现，部分方法用SAS软件完成。《多元统计分析》(第2版)一个显著的特点是在每种方法后结合实例概要介绍了SPSS或SAS软件的实际操作实现过程。在每章后面都注明了参考文献,有兴趣的读者可进一步阅读。
律师统计学

作者：迈克尔·O·芬克尔斯坦

袁卫，我国首批经济统计学博士，中国人民大学常务副校长，统计学教授，博士生导师，国家有突出贡献的中青年专家，入选教育部首批跨世纪优秀人才培养计划。曾任第四届国务院学位委员会委员。国务院学位委员会应用经济学学科评议组成员，现任第五届国务院学位委员会应用经济学学科评议组成员。召集人，兼任教育部经济学教学指导委员会成员。国家社科基金评审委员。中国统计学会副会长。中国统计教育学会副会长兼高校分会会长。北京市政府顾问团成员，全国会计专业硕士(MPcc )教学指导委员会副主任。钟卫，中国人民大学公共管理学院定量分析研究所讲师，经济学博士。博士后。主要研究方向：应用统计学。科技统计。曾在《统计研究》。《中国软科学》。《数理统计与管理》等期刊发表论文近十篇。主持国家科技基础性工作专项课题《政府研发 (R&D)资金调查方案研究》，作为主要成员参与多项国家级重点课题的研究。博士论文荣获“第八届全国统计科研优秀成果二等级奖”(部级)和中国人民大学年优秀博士学位论文奖。
女士品茶

作者：[美]戴维·萨尔斯伯格

大数据时代最该懂的学科就是统计学科学松鼠会推荐统计学领域入门必读书 ................... ※编辑推荐※ ★统计学入门首选读本，科学松鼠会强力推荐！这是一本经典的入门级读物，每介绍一个新的概念，都会进行大量的背景介绍，再辅以相关奇闻异事。就算是对于一个门外汉来说，也能读懂一个特定概念是做什么用的。 ★像小说一样的科普书，堪称统计学领域的《苏菲的世界》在作者笔下，固执的皮尔逊、低调的戈塞特、天才的费舍尔，一如武林高手一样，在统计学的思想领域激烈交锋。他们和后续各个时代代表性的天才，共同演绎了二十世纪这场绚丽多彩又跌宕起伏的统计学革命。有读者评论，本书之于统计学，一如《苏菲的世界》之于哲学。 ★了解统计学的人，运气都不会太差。大数据时代，你需要懂点统计学思想。统计学从不猜想，而是测量未来！从买乐透到大数据，全都需要统计学，不懂统计学，你就等着被骗吧！ ................... ※内容简介※ 统计学之所以被滥用、误用，其实是因为它太有用，在某种程度上,可以说改变了世界上处理问题的方式。这是一部统计学的史诗。一百多年来，统计学从无到有，以至于蔚为壮观。一部统计学的发展史，就是一部不断革新现有科学体系的历史。本书深入浅出地描绘了这一历程，为读者奉献了一场思想的饕餮盛宴。这是一部关于叱咤风云的统计学学霸的传奇故事书。回望那段波澜壮阔的时代,一张张脸孔水一样掠过。在英国剑桥的某个午后，有位女士声称，把茶加到牛奶里，和把牛奶加到茶里，两种方法调出来的下午茶喝起来味道不同。在座的科学家都对她的说法嗤之以鼻，但有位来访的瘦小绅士，R. A. 费希尔，提议要用科学的方法，来检验这位女士的假设……本书以这位喝下午茶的英国女士为起点，带领读者一一回顾“统计”这门应用范围最广的科学，了解若干重要理论的发展过程与应用，亲近那些隐身幕后的统计学家，看看统计究竟为今天这个世界，带来了什么样的改变。这是一部大数据时代不容错过的实用之书。大数据时代，一切以数据说话，如何解读数据便与每个人的日常生活息息相关。统计学的本质就在于解读数据，读懂了本书，你就是大数据时代的明白人。
精準預測

作者：奈特．席佛

數據不會說話，是你在為它說話。 ˙美國政府長期蒐集許多情報，但為何還是無法預見911恐怖攻擊？ ˙2007年房市泡沫爆發前，華爾街的金融專家們為何看不見崩盤的警訊？身處「巨量資料」 (big data)時代，照理說我們擁有空前充足的資料，去做各項預測。但各行各業掌握最多資料的專家與決策者，卻都還是不斷做出失敗的判斷，這是怎麼回事?作者奈特˙席佛指出，預測最難的部分在於：分辨出哪些是無意義的雜訊，哪些才是關鍵的訊號。誤把雜訊當訊號，做出來的預測，自然不會準確，甚至會造成嚴重的謬誤與損失! 最常出錯的就是過度自信、被稱為「刺蝟」型的預測者，他們很會歸納、喜歡大原則、很有膽識，雖不斷收到新訊息卻很少修改預測，他們做預測常成為一種「表演」，模糊了追求精準預測的動機。(代表人物:成為名嘴的專家、認定自己能翻盤的賭徒。) 另外一個大家常犯的錯，是忽略「樣本外」的重大新資訊。假設你這輩子從未酒後駕車，肇事紀錄也很低。今晚你喝了酒，請預測今天駕車肇事的機率？如果你拿過去的記錄作分析預測，那麼你出事的機率相當低;但是喝酒開車並不在你過去記錄的樣本內。預測的模型錯了、忽略樣本外的重大訊息，這就是席佛認為，大家對房市泡沫以及雷曼兄弟垮台，無法精準預測的主因。在本書中，席佛針對政治選情、球賽結果與球員價值的評估、金融風暴、氣象、地震、撲克賭局、西洋棋賽、股市投資等跨領域的預測難題，做了精闢的個案分析。雖然領域迥異，但預測要精準，背後的原則與邏輯卻都是一樣的。在一個個精彩的故事中，即使沒有統計背景的讀者，也能一點一滴拼湊、建立預測的基本功，並且可以練習把這些原則與技巧，運用在自己的專業領域上。(甚至可以用來預測伴侶外遇的機率: 詳見第8章) 席佛在書中不斷提醒預測者: ˙預設立場或過度自信，對預測來說，是非常可怕的事。 ˙預測不是在追求是與非，而是估算事情發展的「機率」。有精準的機率，才能做出有利的決策。 ˙預測時不能忽略「誤差」，並要勇於承認有「不確定性」。不然你會過度解釋，變成不精準的預測。 ˙根據預測出來的機率，做了最有利的選擇，即使最後結果不好，仍然是好預測。 ˙在很多情境中，不是一定要追求終極完美的預測，只要預測比競爭對手好，你就贏了。 ˙當大家不免被雜訊迷惑時，問問自己，你有什麼法寶，能讓自己更接近真相?跟著法寶走，不要跟著群眾走。 ˙有新的重大資訊進來時，能保持客觀，隨時更新的預測，才有可能是精準的預測。
数据统治世界

作者：[美]冯启思（Kaiser Fung）

 《大数据时代》之后的必读之作。《大数据时代》改变了我们的思维，《数据统治世界》将改变我们利用数据的方式。揭示5大统计式思维，让你可以解决在商业、金融、科学、公共卫生以及犯罪调查中遇到的难题！  他用难以胜数的来自真实世界的例子，为我们展现了统计学在日常生活中的实际应用，以一种简单、务实、无限娱乐性的方式为您解释了数据所具有的神秘力量。  游人如织的迪士尼是如何管理排队等候时间的？高速公路为什么要修建缓行匝道？服用兴奋剂的运动员在被揭穿之前是如何制造出几十次干净的药检结果的？即使拥有海量的股票数据和公司财报信息，为什么大部分人还是不能在投资中所向披靡？为何不同的人有不同的保险费率，信用评分又是如何运作的？当传染病暴发的时候，科学家是如何帮我们找到感染源头，保证我们的安全的？统计学家为何不怕飞机失事，但也不相信能够中奖的彩票？十个精彩纷呈的故事，带你领略数据的别样魅力。 [编辑推荐]  《大数据时代》之后的必读之作，看数据如何影响你的工作与生活，教你如何从数据统计中挖掘商机与做出决策。  全书用10个精彩故事，通过精心的叙述，翔实的资料，别样的角度，为我们开启一趟惊心动魄之旅，展现统计学家是如何利用统计式思维解决我们身边的问题，数据又是如何影响我们的生活。  本书作者系纽约大学统计学教授，视频分享网站Vimeo商业智能分析副总裁，并且著有超高人气的博客“垃圾图表”，内容及可读性极佳。  湛庐文化出品。 [推荐语] 约翰•萨尔美国赛仕软件研究所执行副总裁、著名统计学家书中所描述的事件都是新闻记者关注的热点问题，事件内幕经由数据阐释出来令人醍醐灌顶，同时数据也揭示了世界的动态性，这正是本书的魅力所在。伊恩•艾尔斯耶鲁大学教授自组织数据挖掘技术正在冲击着我们的世界，有些人对此感到惴惴不安。冯启思的这本书开启了一扇窗，让我们看到预测分析的利与弊。
ggplot2：数据分析与图形艺术

作者：哈德利·威克姆 (Hadley Wick

中译本序每当我们看到一个新的软件，第一反应会是：为什么又要发明一个新软件？ggplot2是R世界里相对还比较年轻的一个包，在它之前，官方R已经有自己的基础图形系统（graphics包）和网格图形系统（grid包），并且Deepayan Sarkar也开发了lattice包，看起来R的世界对图形的支持已经足够强大了。那么我们不禁要问，为什么还要发明一套新的系统？设计理念打个比方，想想我们小时候怎样学中文的。最开始的时候我们要识字，不认识字就没法阅读和写作，但我们并不是一直按照一个个汉字学习的，而是通过句子和具体的场景故事学习的。为什么不在小学时背六年字典呢？那样可能认识所有的汉字。原因很简单，光有单字，我们不会说话，也无法阅读和写作。缺的是什么？答案是对文字的组织能力，或者说语法。 R的基础图形系统基本上是一个“纸笔模型”，即：一块画布摆在面前，你可以在这里画几个点，在那里画几条线，指哪儿画哪儿。后来lattice包的出现稍微改善了这种情况，你可以说，我要画散点图或直方图，并且按照某个分类变量给图中的元素上色，此时数据才在画图中扮演了一定的中心角色，我们不用去想具体这个点要用什么颜色（颜色会根据变量自动生成）。然而，lattice继承了R语言的一个糟糕特征，就是参数设置铺天盖地，足以让人窒息，光是一份xyplot()函数的帮助文档，恐怕就够我们消磨一天时间了，更重要的是，lattice仍然面向特定的统计图形，像基础图形系统一样，有直方图、箱线图、条形图等等，它没有一套可以让数据分析者说话的语法。那么数据分析者是怎样说话的呢？他们从来不会说这条线用#FE09BE颜色，那个点用三角形状，他们只会说，把图中的线用数据中的职业类型变量上色，或图中点的形状对应性别变量。有时候他们画了一幅散点图，但马上他们发现这幅图太拥挤，最好是能具体看一下里面不同收入阶层的特征，所以他们会说，把这幅图拆成七幅小图，每幅图对应一个收入阶层。然后发现散点图的趋势不明显，最好加上回归直线，看看回归模型反映的趋势是什么，或者发现图中离群点太多，最好做一下对数变换，减少大数值对图形的主导性。从始至终，数据分析者都在数据层面上思考问题，而不是拿着水彩笔和调色板在那里一笔一划作图，而计算机程序员则倾向于画点画线。Leland Wilkinson的著作在理论上改善了这种状况，他提出了一套图形语法，让我们在考虑如何构建一幅图形的时候不再陷在具体的图形元素里面，而是把图形拆分为一些互相独立并且可以自由组合的成分。这套语法提出来之后他自己也做了一套软件，但显然这套软件没有被广泛采用；幸运的是，Hadley Wickham在R语言中把这套想法巧妙地实现了。为了说明这种语法的想法，我们考虑图形中的一个成分：坐标系。常见的坐标系有两种：笛卡尔坐标系和极坐标系。在语法中，它们属于一个成分，可自由拆卸替换。笛卡尔坐标系下的条形图实际上可以对应极坐标系下的饼图，因为条形图的高可以对应饼图的角度，本质上没什么区别。因此在ggplot2中，从一幅条形图过渡到饼图，只需要加极少量的代码，把坐标系换一下就可以了。如果我们用纸笔模型，则可以想象，这完全是不同的两幅图，一幅图里面要画的是矩形，另一幅图要画扇形。更多的细节在本书中会介绍，这里我们只是简略说明用语法画图对用纸笔画图来说在思维上的优越性；前者是说话，后者是说字。发展历程 ggplot2是Hadley在爱荷华州立大学博士期间的作品，也是他博士论文的主题之一，实际上ggplot2还有个前身ggplot，但后来废弃了，某种程度上这也是Hadley写软件的特征，熟悉他的人就知道这不是他第一个“2”版本的包了（还有reshape2）。带2的包和原来的包在语法上会有很大的改动，基本上不兼容。尽管如此，他的R代码风格在R社区可谓独树一帜，尤其是他的代码结构很好，可读性很高，ggplot2是R代码抽象的一个杰作。读者若感兴趣，可以在GitHub网站上浏览他的包：https://github.com/hadley。在用法方面，ggplot2也开创了一种奇特而绝妙的语法，那就是加号：一幅图形从背后的设计来说，是若干图形语法的叠加，从外在的代码来看，也是若干R对象的相加。这一点精妙尽管只是ggplot2系统的很小一部分，但我个人认为没有任何程序语言可比拟，它对作为泛型函数的加号的扩展只能用两个字形容：绝了。至2013年2月26日，ggplot2的邮件列表（http://groups.google.com/group/ggplot2 ）订阅成员已达3394人，邮件总数为15185封，已经成为一个丰富、活跃的用户社区。未来ggplot2的发展也将越来越依赖于用户的贡献，这也是很多开源软件最终的走向。关于版本更新原书面世之时，ggplot2的版本号是0.8.3，译者开始翻译此书时是0.9.0版本；该版本较之0.8.3，内部做了一些大改动。此后，ggplot2频繁升级，目前版本号是0.9.3，当然这也给本书的翻译过程带来了相当大的麻烦。因为译者不但要修正原书中大量过时的代码、重新画图，还要修正过时的理念，以及处理数次版本更新的影响。所幸，在翻译过程中，译者得到了本书审校殷腾飞博士、ggplot2开发者Hadley Wickham和Wistong Chang的大力帮助。如果你是老用户，那么可能需要阅读下面的小节。之后ggplot2有过多次更新，尤其是0.9.0之后，ggplot2的绘图速度和帮助文档有了质的飞跃。关于0.9的更新，读者可以从https://github.com/downloads/hadley/ggplot2/guide-col.pdf下载一份细致的说明文档，但原文档比较长，而且有些内部更新问题我们也不一定需要了解，因此这里给一段概述。 ggplot2的帮助文档大大扩充了，过去头疼的问题之一就是一个函数里面不知道有哪些可能的参数，例如theme()函数，现在已经有了详细说明。新增图例向导函数guide_legend()和guide_colorbar()，前者可以用来指导图例的排版，例如可以安排图例中元素排为n行m列；后者增强了连续变量图例的展示，例如当我们把颜色映射到一个连续变量上时，过去生成的图例是离散的，现在可以用这个函数生成连续颜色的图例（渐变色）。新增几何对象函数geom_map()（让地图语法变得更简单），geom_raster()（更高效的geom_tile()），geom_dotplot()（一维点图，展示变量密度分布）和geom_violin()（小提琴，实为密度曲线）。新增统计变换函数stat_summary2d()（在二维网格上计算数据密度），stat_summary_hex()（在六边形“蜂巢”上计算数据密度），stat_bindot()（一维点图密度），stat_ydensity()（密度曲线，用于小提琴图）。 facet_grid()支持X轴和Y轴其中一者可以有自由的刻度（根据数据范围而定），以往要么所有切片使用同样的坐标轴刻度，要么所有都自由。 geom_boxplot()开始支持画箱线图的凹槽（notch），就像R基础图形系统中的boxplot()函数。新增函数ggmissing()用来展示缺失值的分布，ggorder()按照数据观察顺序先后画折线图，ggstructure()展示数据热图。另外这次更新涉及到一些函数参数名称的变化，如果旧代码在这个版本中报错说有未使用的参数，那么用户需要再次查看帮助文档，确保输入的参数在函数中存在。在所有这些表面的更新背后，实际上ggplot2很大程度上被重写了，例如开始使用R自带的S3泛型函数设计，以及将过去ggplot2的功能继续模块化为一些独立的包，一个典型的例子就是标度部分的功能被抽象到scales包中，从数据映射到颜色、大小等外观属性可以由这个包直接完成。这种分拆也使得其他开发者可使用过去ggplot2内部的一些功能函数。 0.9.1版本主要解决了0.9.0版本中的一些漏洞。ggplot2在2012年9月4日发布了新的版本0.9.2，其中一些特性和更新有必要提及：采用了全新的主题（theme）系统，opts()函数已被标记为“不推荐使用”（deprecated），将在未来版本中被取消，取而代之的是theme()函数，主题元素（theme element）由属性列表构成，支持继承，主题之间可以直接进行合并等操作。详情参见wiki页面：https://github.com/wch/ggplot2/wiki/New-theme-system 。依赖于新的gtable包。用来更方便地调整修改ggplot2图形中的图元，ggplotGrob()会返回一个gtable类，这个对象可以利用gtable包中提供的函数和接口进行操作。所有“模板”类型的图形函数，比如plotmatrix()，ggorder()等等，已被标记为“不推荐使用”（deprecated），将在未来版本中取消。在本书出版之际，ggplot2更新到了版本0.9.3，修复了0.9.2的一些漏洞，其主要更新包括不再支持plotmatrix()函数。 geom_polygon()提速，比如世界地图的绘制快了12倍左右。新增部分主题，比如theme_minimal()，theme_classic()。本书的所有代码和图片都是针对新版本0.9.3的，在内容方面也根据版本更新对原文做了适当的增删填补，以满足读者的需求。本书把影响正文阅读的彩图集中放在附录后面，读者可以随时翻阅。致谢在听说我们翻译完这本书之后，本书原著Hadley很高兴，给我们发邮件说： I am excited and honoured to have my book translated to Chinese. ggplot2 has become far more popular than I ever imagined, and I'm excited that this translation will allow many more people to learn ggplot2. I'm very grateful that Yihui and his team of translators (Nan Xiao, Tao Gao, Yixuan Qiu, Weicheng Zhu, Taiyun Wei and Lanfeng Pan) made this possible. One of the biggest improvements to ggplot2 since the book was first written is the ggplot2 mailing list. This is a very friendly environment where you can get help with your visualisations, and improve your own knowledge of ggplot2 by helping others solve their problems. I'd strongly encourage you to join the mailing list, even if you think your English is not very good -- we are very friendly people. 我们感谢这本书的译者，包括邱怡轩（第1~2章）、主伟呈（第3~4章）、肖楠（第5~6章）、高涛（第7~8章）、潘岚锋（第9章）、魏太云（第10章、附录以及翻译过程的协调安排和全书的LaTeX排版工作）。所有译者均来自于统计之都（http://cos.name ）。爱荷华州立大学的殷腾飞博士、中国人民大学统计学院的孟生旺教授、浙江大学的张政同学通读了译稿，提出了很多有用的建议，殷腾飞博士还提供了大多数新版本中的解决方案，并担任本书的审校。肖凯老师和余光创博士分别对第1~4章、第8~10章以及附录提出了很多修改意见，此外，中国人民大学的陈妍、李晓矛、谢漫锜三位同学、中国再保险公司的李皞先生、百度公司的韩帅先生、eBay公司的陈丽云女士、Mango Solutions公司的李舰先生、京东商城的刘思喆先生、首钢总公司的邓一硕先生、新华社的陈堰平先生在此书的翻译过程中也曾提过不少宝贵的建议，在此一并表示感谢。为了更好地服务社区，我们还建立了翻译主页：https://github.com/cosname/ggplot2-translation ，读者可以在这里得到最新的勘误和书中的代码，也可以随时提出任何问题。谢益辉 2013年2月26日
大数据时代下的统计学

作者：杨轶莘

不知不觉中，人们进入了一个数据为王的时代。大数据的字眼以一种迅雷不及掩耳之势进入人们的视野，更加强调了数据在这个时代的重要性。不管人们愿意或者不愿意，都在诚惶诚恐地拥抱着这个所谓的大数据时代。大数据的火热也带火了另外一个看上去有点神秘、有点距离感的学科：统计学。为什么编写本书笔者作为一个在校园里学了11年统计学的资深学院派，深深地被这门学科打动：它有着数学的美感，充满了哲学的智慧，并且透露出思辨的洞察力。你可以把它看作一种工具，或者一种武器。有了它，你可以事半功倍地直击事物本质的规律。笔者很想把这门学科分享给有兴趣的人。这就是编写这本书的初衷。统计学本身就是大数据时代的一门重要学科。随着大数据逐渐走进公众的视野，统计学也必然会迎来更多的关注。这就意味着，越来越多的非统计学专业人士会了解统计学、应用统计学。人们也必然需要更多的统计学读物。据笔者观察，市场统计学的教材大多像教科书，充斥着枯燥的公式和深奥的理论。当然，也有一些幽默风趣、深入浅出的入门书籍，如查尔斯•韦兰的《赤裸裸的统计学》（Naked Statistics），但也因为是外国作品编译的问题，在语言和写作方式上很难符合东方人的阅读习惯。这本书讨论大数据，讨论统计学，更讨论二者之间千丝万缕的联系。大数据时代将迎来技术的变革，以及工作方式和思维模式的变革。大数据时代也挑战着传统统计学的思维和研究模式。统计学这门学科是将要面临江河日下的被取代的危机，还是迎来一个破茧而出的春天？本书试着抛砖引玉地给出一部分答案。大数据时代，对于统计学来说，是最好的时代，也是最坏的时代。统计学，必须与时俱进，勇敢地接受大数据时代的挑战和变革，才会走得更长远。而大数据，没有了统计学思维的辅助、修正和补充，当热潮退去，也只能在这个浮躁的时代中渐渐被人们遗忘。本书特点本书从当下热门话题大数据切入，引入与之息息相关的统计学。深入浅出地讲述了在“数据为王”的时代下，统计学作为分析、解读数据的学科，如何为商业、社会、生活等领域提供决策支持。热门性——业界和学术界热议的词“大数据”对大多数人来说仍是“犹抱琵琶半遮面”。经典性——久经时间考验的统计学理论仍是实践中数据处理的重要依据。洞察性——站在统计学哲学的思想高度对时下热门话题进行分析思考。前瞻性——下一个时代是数据的时代。无论什么行业，未来都是数据生意。本书和市面上很多书籍相比，有两点最具特色：本书将统计学和大数据结合在一起，探讨两者的差异和相关性。本书行文按照【案例】+【知识点】+【分析】的结构，清晰明了。应用的案例也都和人们的生活息息相关，更符合国人阅读习惯，更具代入感和认同感。本书内容本书共分为8章，各章内容如下。第1章大数据时代下的统计学，讲解了统计学的基本原理、应用领域及数据的获取方法。第2章样本魅影，重点介绍了统计学最核心的思想，即用样本信息推论总体，并和大数据的推论思想进行比较，强调二者在实践中结合使用的重要性。第3章描述数据，告诉读者面临大量数据的时候，如何迅速提炼出有用信息，以一种直接、感性的方式勾勒出隐藏在冷冰冰的数据背后的内涵。第4章正态女神，隆重推出了统计学最经典、最重要、最具代表性的一个分布——正态分布，详细介绍了关于正态分布的理论、应用和相关的知识点。第5章统计推断，讲述了统计推断是用样本来估计总体的，是一种具有科学依据的合理猜测，尽管它不可能百分百准确，却对人们认知事物有着不可估量的作用。第6章变量间的关系，从大数据思维的其中一个角度切入，即强调事物的相关关系而非因果关系，重点讲述了究竟什么是相关关系，它的统计学内涵、方法及应用。第7章统计杂谈，以一种漫谈的方式，深入浅出地讲解了统计学一些热门应用的理论。特别强调了这些理论在实践中的误用，并告诉读者正确的使用方法和解读方法。第8章大数据，在水一方，探讨了大数据巨大的商业价值，除此之外还强调如何从大数据中获取洞察力和决策力。关于作者本书由杨轶莘主笔编写，其中第6章由王辉撰写。杨轶莘：瑞典厄勒布鲁大学商学院统计学博士毕业，北京诺贝伦思教育咨询有限公司高级咨询师，旗下商学院CN网站联合创始人和网站知识分享类微信节目《杨博夜话》制作人和主持人。王辉：北京大学汇丰商学院金融学（数量金融方向）研究生。善于统计综合评价方法的应用、金融计量学、经济计量分析领域的研究。2013—2014年，主持项目《社区养老现状和需求研究》，获第四届全国大学生市场调查分析大赛一等奖和第三届海峡两岸市场调查分析大赛二等奖。2014—2015年，参与朱喜安教授的国家社科基金课题《综合评价方法的优良标准研究》。