Piegorsch W.W. Statistical Data Analytics: Foundations for Data Mining, Informatics, and Knowledge Discovery

djvu file
size 3,49 MB

added by Masherov 10/24/2017 18:04
info modified 11/19/2017 00:22

Piegorsch W.W. Statistical Data Analytics: Foundations for Data Mining, Informatics, and Knowledge Discovery

John Wiley & Sons Lid., 2015. — 487 p. — ISBN 978-1-118-61965-0.

A comprehensive introduction to statistical methods for data mining and knowledge discovery.
Applications of data mining and ‘big data’ increasingly take center stage in our modern, knowledge-driven society, supported by advances in computing power, automated data acquisition, social media development and interactive, linkable internet software. This book presents a coherent, technical introduction to modern statistical learning and analytics, starting from the core foundations of statistics and probability. It includes an overview of probability and statistical distributions, basics of data manipulation and visualization, and the central components of standard statistical inferences. The majority of the text extends beyond these introductory topics, however, to supervised learning in linear regression, generalized linear models, and classification analytics. Finally, unsupervised learning via dimension reduction, cluster analysis, and market basket analysis are introduced.
Extensive examples using actual data (with sample R programming code) are provided, illustrating diverse informatic sources in genomics, biomedicine, ecological remote sensing, astronomy, socioeconomics, marketing, advertising and finance, among many others.
Statistical Data Analytics:
Focuses on methods critically used in data mining and statistical informatics. Coherently describes the methods at an introductory level, with extensions to selected intermediate and advanced techniques. Provides informative, technical details for the highlighted methods. Employs the open-source R language as the computational vehicle – along with its burgeoning collection of online packages – to illustrate many of the analyses contained in the book. Concludes each chapter with a range of interesting and challenging homework exercises using actual data from a variety of informatic application areas.
This book will appeal as a classroom or training text to intermediate and advanced undergraduates, and to beginning graduate students, with sufficient background in calculus and matrix algebra. It will also serve as a source-book on the foundations of statistical informatics and data analytics to practitioners who regularly apply statistical learning to their modern data.

Background: Introductory Statistical Analytics
Data analytics and data mining
Knowledge discovery: finding structure in data
Data quality versus data quantity
Statistical modeling versus statistical description
Basic probability and statistical distributions
Concepts in probability
Multiple random variables
Univariate families of distributions
Data manipulation
Random sampling
Data types
Data summarization
Data diagnostics and data transformation
Simple smoothing techniques
Data visualization and statistical graphics
Univariate visualization
Bivariate and multivariate visualization
Statistical inference
Parameters and likelihood
Point estimation
Interval estimation
Testing hypotheses
Multiple inferences
Statistical Learning and Data Analytics
Techniques for supervised learning: simple linear regression
What is «supervised learning?»
Simple linear regression
Regression diagnostics
Weighted least squares (WLS) regression
Correlation analysis
Techniques for supervised learning: multiple linear regression
Multiple linear regression
Polynomial regression
Feature selection
Alternative regression methods
Qualitative predictors: ANOVA models
Supervised learning: generalized linear models
Extending the linear regression model
Technical details for GLiMs
Selected forms of GLiMs
Supervised learning: classification
Binary classification via logistic regression
Linear discriminant analysis (LDA)
k-Nearest neighbor classifiers
Tree-based methods
Support vector machines
Techniques for unsupervised learning: dimension reduction
Unsupervised versus supervised learning
Principal component analysis
Exploratory factor analysis
Canonical correlation analysis
Techniques for unsupervised learning: clustering and association
Cluster analysis
Association rules/market basket analysis
Appendix A. Matrix manipulation
Vectors and matrices
Matrix algebra
Matrix inversion
Quadratic forms
Eigenvalues and eigenvectors
Matrix factorizations
Statistics via matrix operations
Appendix B. Brief introduction to R
Data entry and manipulation
A turbo-charged calculator
R functions
R packages