# recreating example from khan academy
possible_values <- 1 : 6
pmf <- c(0.4, 0.0, 0.1, 0.1, 0.0, 0.4)


# Parameters: 
#             possible values - individual variable values from probability distribution
#             ppmf - probability values associated with variable values
#             sampleSize - desired size of sample
# Returns:
#             mean of taken sample

sampleMean <- function(possibleValues, ppmf, sampleSize) { 
  
sample <- sample(possibleValues, sampleSize, replace = TRUE, prob = pmf) 

return(mean(sample))
  
}


# Parameters: 
#             NumberYbars - number of sample means to be computed
#             sampleMean - previously declared function (associated parameters to follow)
#                  possible values - individual variable values from probability distribution
#                  ppmf - probability values associated with variable values
#                  sampleSize - desired size of sample
# Returns:
#             histogram of specified number of sample means
createVisualization <- function(NumberYBars, 
                                FUN = sampleMean,
                                possibleValues, 
                                ppmf,
                                sampleSize) {
  
  means <- replicate(NumberYBars, sampleMean(possible_values, pmf, sampleSize))
  
  return( (hist(means, freq = FALSE, 
                main = paste('n = ',sampleSize),
                ylim = c(0, 1), 
                xlim = c(0, 6))))
  
}


par(mfrow = c(2, 2)) # specifying graphic dimensions
plot(possible_values, pmf, type = "h", lty = 2,
     xlab = "y", ylab = "p(y) = P(Y = y)", main = "Data Distribution",
     ylim = c(0, 1))
points(possible_values, pmf, pch = 19)
createVisualization(10**4, possibleValues = possible_values, ppmf = pmf, sampleSize = 5) #different sample sizes
createVisualization(10**4, possibleValues = possible_values, ppmf = pmf, sampleSize = 10)
createVisualization(10**4, possibleValues = possible_values, ppmf = pmf, sampleSize = 30)

$breaks
 [1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0

$counts
 [1]  232  879  679 2172 1086 2443  815 1256  197  241

$density
 [1] 0.0464 0.1758 0.1358 0.4344 0.2172 0.4886 0.1630 0.2512 0.0394 0.0482

$mids
 [1] 1.25 1.75 2.25 2.75 3.25 3.75 4.25 4.75 5.25 5.75

$xname
[1] "means"

$equidist
[1] TRUE

attr(,"class")
[1] "histogram"


possible_values <- 1 : 10
pmf <- c(0.05, 0.0, 0.0, 0.0, 0.00, 0.00, 0.0, 0.0, 0.0, 0.95)


createVisualization <- function(NumberYBars, 
                                FUN = sampleMean,
                                possibleValues, 
                                ppmf,
                                sampleSize) {
  
  means <- replicate(NumberYBars, sampleMean(possible_values, pmf, sampleSize))
  
  return( (hist(means, freq = FALSE, 
                main = paste('n = ',sampleSize),
                ylim = c(0, 1), 
                xlim = c(0, 10))))
  
}


par(mfrow = c(2, 2)) # specifying graphic dimensions
plot(possible_values, pmf, type = "h", lty = 2,
     xlab = "y", ylab = "p(y) = P(Y = y)", main = "Data Distribution",
     ylim = c(0, 1))
points(possible_values, pmf, pch = 19)
createVisualization(10**4, possibleValues = possible_values, ppmf = pmf, sampleSize = 5) #different sample sizes
createVisualization(10**4, possibleValues = possible_values, ppmf = pmf, sampleSize = 10)
createVisualization(10**4, possibleValues = possible_values, ppmf = pmf, sampleSize = 30)

$breaks
 [1]  4.5  5.0  5.5  6.0  6.5  7.0  7.5  8.0  8.5  9.0  9.5 10.0

$counts
 [1]    8    0    0  201    0    0    0 2054    0    0 7737

$density
 [1] 0.0016 0.0000 0.0000 0.0402 0.0000 0.0000 0.0000 0.4108 0.0000 0.0000
[11] 1.5474

$mids
 [1] 4.75 5.25 5.75 6.25 6.75 7.25 7.75 8.25 8.75 9.25 9.75

$xname
[1] "means"

$equidist
[1] TRUE

attr(,"class")
[1] "histogram"

Mini project #1 Trevor Andrus¶

Introduction¶

Reproduce Khan Academy Example¶

Beating the Central Limit Theorem¶