## 'data.frame': 48894 obs. of 15 variables:
## $ id : num 2595 3647 3831 5022 5099 ...
## $ nome : chr "Skylit Midtown Castle" "THE VILLAGE OF HARLEM....NEW YORK !" "Cozy Entire Floor of Brownstone" "Entire Apt: Spacious Studio/Loft by central park" ...
## $ host_id : num 2845 4632 4869 7192 7322 ...
## $ host_name : chr "Jennifer" "Elisabeth" "LisaRoxanne" "Laura" ...
## $ bairro_group : chr "Manhattan" "Manhattan" "Brooklyn" "Manhattan" ...
## $ room_type : chr "Entire home/apt" "Private room" "Entire home/apt" "Entire home/apt" ...
## $ latitude : num 40.8 40.8 40.7 40.8 40.7 ...
## $ longitude : num -74 -73.9 -74 -73.9 -74 ...
## $ price : num 225 150 89 80 200 60 79 79 150 135 ...
## $ minimo_noites : num 1 3 1 10 3 45 2 2 1 5 ...
## $ disponibilidade_365 : num 355 365 194 0 129 0 220 0 188 6 ...
## $ numero_de_reviews : num 45 0 270 9 74 49 430 118 160 53 ...
## $ reviews_por_mes : num 0.38 NA 4.64 0.1 0.59 0.4 3.47 0.99 1.33 0.43 ...
## $ calculado_host_listings_count: num 2 1 1 1 1 1 1 1 4 1 ...
## $ ultima_review : Date, format: "2019-05-21" NA ...
Os bairros do Brooklyn e Manhattan possuem a maior quantidade de imóveis disponíveis para locação em comparação com o bairro do Queens, Bronx e Staten Island.
Há poucos quartos compartilhados neste conjunto de dados. Os apartamentos inteiros e os quartos privativos se destacam pela sua frequencia.
As acomodações inteiras possuem maior valor agregado quando comparados ao outros dois tipos de imóveis disponíveis nos dados (quarto privado e compartilhado).
## 0% 25% 50% 75% 95% 99% 100%
## 0.00 69.00 101.00 170.00 330.10 671.62 10000.00
## [1] "Media de preço dos imóveis para aluguel por noite(USD): 130.850147016731"
São imóveis de curta temporada, 89% deles solicitam um pacote de até 10 noites para reserva.
## 0% 25% 50% 75% 95% 99% 100%
## 1 1 2 4 30 31 1250
## [1] 90.28004
32% das acomodações ficam indisponíveis durante todo o ano. Porém, mais de um terço do conjunto de dados (40%) ficam disponíveis por mais de 100 dias no mercado.
## 0% 15% 30% 50% 75% 95% 100%
## 0 0 0 53 225 355 365
## [1] 32.93828
## [1] 40.14107
## [1] 27.00456
Todos os imóveis possuem no mínimo uma avaliação e, ao todo, 52% do todos imóveis possuem até 10 avaliações.
## 0% 25% 50% 75% 95% 99% 100%
## 1 3 10 34 129 228 629
## [1] 98.34024
## [1] 13.39609
Majoritariamente, as reviews são do ano de 2019.
## Factor w/ 9 levels "2011","2012",..: 9 9 8 9 9 7 9 9 9 9 ...
A maioria dos locatários (75%) possuem apenas um imóvel para locação.
## 0% 25% 50% 75% 95% 99% 100%
## 1 1 1 1 3 6 327
Como esperado, a média dos reviews possui alto correlação com a quantidade de reviews. Esta última foi mantida no conjunto de dados uma vez que o coeficiente de correlação absoluto foi ligeiramente maior em relação à variável alvo (preço).
Os apartamentos inteiros possuem maior preço médio por noite em todos os bairros, com destaque para Manhattan.
## `summarise()` has grouped output by 'bairro_group'. You can override using the
## `.groups` argument.
A quantidade de reviews está positivamente associada a disponibilidade ao longo do ano
## `geom_smooth()` using formula = 'y ~ x'
O coeficiente de correlação entre o preço e a disponibilidade por noite é baixo, apesar de significativo. Entretanto, quando olhamos cada bairro individualmente os valores são diferentes entre si, sendo que o Brooklyn possui a maior correlação.
## `geom_smooth()` using formula = 'y ~ x'
De acordo com as análises abaixo Manhattan é a melhor escolha para a compra de impoveis para aluguéis de curta temporada em NY.
Os imóveis localizados no bairro de Staten Island possuem o maior tempo médio de disponibilidade no mercado, seguido do Bronx e Queens.
Manhattan e Brooklyn possuem a maior quantidade de imóveis indisponíveis durante todo o ano e que alugam mais rápido durante o ano (menos de 10 dias).
Manhattan possui a maior média de preços por noite (USD) em comparação aos outros bairros.
Os valores dos imóveis foram divididos decils e foi realizada uma comparação entre os dois primeiros, categorizados como “Low price” e dois últimos decis, chamados de “High price”. Analisando as 30 palavras mais frequentes, percebe-se que não há diferenças significativas entre cada um dos grupos e sua intersecção.
## [1] "skylit" "midtown" "castle" "cozy" "entire" "floor"
## Coordinate system already present. Adding new coordinate system, which will
## replace the existing one.
## [1] 0
Foram testados 3 modelos de regressão para a previsão de preços de aluguel por noite. Os conjunto de dados fornecido, foi dividido em 70% em dados para treinamento dos modelos e 30% em dados para teste.
Este modelo obteve os melhores resultados de previsão. A porcentagem de erro nos dados de treinamento foi de 18% e utilizando os dados de teste foi de 26%.
## price bairro_group room_type
## Min. : 0.0 Bronx : 596 Apartamento Inteiro :13920
## 1st Qu.: 69.0 Brooklyn :11431 Quarto privado :12210
## Median :100.0 Manhattan :11269 Quarto compartilhado: 566
## Mean :131.2 Queens : 3170
## 3rd Qu.:165.0 Staten Island: 230
## Max. :670.0
##
## latitude longitude minimo_noites disponibilidade_365
## Min. :40.51 Min. :-74.24 Min. : 1.000 Min. : 0
## 1st Qu.:40.69 1st Qu.:-73.98 1st Qu.: 1.000 1st Qu.: 0
## Median :40.72 Median :-73.95 Median : 2.000 Median : 53
## Mean :40.73 Mean :-73.95 Mean : 4.978 Mean :114
## 3rd Qu.:40.76 3rd Qu.:-73.93 3rd Qu.: 4.000 3rd Qu.:228
## Max. :40.91 Max. :-73.71 Max. :31.000 Max. :365
##
## numero_de_reviews calculado_host_listings_count ano_ultima_review
## Min. : 1.00 Min. : 1.000 2019 :17415
## 1st Qu.: 3.00 1st Qu.: 1.000 2018 : 4160
## Median : 9.00 Median : 1.000 2017 : 2194
## Mean : 29.54 Mean : 5.268 2016 : 1806
## 3rd Qu.: 34.00 3rd Qu.: 2.000 2015 : 945
## Max. :629.00 Max. :327.000 2014 : 125
## (Other): 51
## previsao
## Min. : 24.65
## 1st Qu.: 72.73
## Median :114.00
## Mean :131.21
## 3rd Qu.:173.33
## Max. :514.71
##
## 10% 25% 50% 75% 90%
## 0.03 0.08 0.18 0.34 0.55
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.08 0.18 Inf 0.34 Inf
## price bairro_group room_type
## Min. : 0.0 Bronx : 270 Apartamento Inteiro :5863
## 1st Qu.: 66.0 Brooklyn :4826 Quarto privado :5309
## Median :100.0 Manhattan :4894 Quarto compartilhado: 270
## Mean :130.2 Queens :1369
## 3rd Qu.:165.0 Staten Island: 83
## Max. :659.0
##
## latitude longitude minimo_noites disponibilidade_365
## Min. :40.54 Min. :-74.17 Min. : 1.000 Min. : 0.0
## 1st Qu.:40.69 1st Qu.:-73.98 1st Qu.: 1.000 1st Qu.: 0.0
## Median :40.72 Median :-73.95 Median : 2.000 Median : 53.0
## Mean :40.73 Mean :-73.95 Mean : 4.892 Mean :112.4
## 3rd Qu.:40.76 3rd Qu.:-73.93 3rd Qu.: 4.000 3rd Qu.:220.0
## Max. :40.91 Max. :-73.73 Max. :31.000 Max. :365.0
##
## numero_de_reviews calculado_host_listings_count ano_ultima_review
## Min. : 1.00 Min. : 1.000 2019 :7435
## 1st Qu.: 3.00 1st Qu.: 1.000 2018 :1734
## Median : 10.00 Median : 1.000 2017 : 948
## Mean : 29.44 Mean : 4.927 2016 : 826
## 3rd Qu.: 33.00 3rd Qu.: 2.000 2015 : 412
## Max. :597.00 Max. :327.000 2014 : 66
## (Other): 21
## previsao
## Min. : 24.65
## 1st Qu.: 71.56
## Median :112.33
## Mean :130.16
## 3rd Qu.:171.93
## Max. :514.71
##
## 10% 25% 50% 75% 90%
## 0.05 0.12 0.26 0.48 0.77
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.12 0.26 Inf 0.48 Inf
## [1] "A previsão do preço para aluguel por noite(USD) para o imóvel da questão 4 é de: 238.294117647059"
O modelo construído utilizando regressão linear não foi tão eficaz já que o R-squared foi de 0.40.
##
## Call:
## lm(formula = price ~ . - ano_ultima_review, data = df_treino)
##
## Residuals:
## Min 1Q Median 3Q Max
## -171.61 -39.79 -11.01 19.67 565.54
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.378e+04 1.319e+03 -18.035 < 2e-16 ***
## bairro_groupBrooklyn -7.523e+00 3.692e+00 -2.038 0.0416 *
## bairro_groupManhattan 2.911e+01 3.350e+00 8.689 < 2e-16 ***
## bairro_groupQueens 7.148e+00 3.543e+00 2.017 0.0437 *
## bairro_groupStaten Island -1.111e+02 6.823e+00 -16.287 < 2e-16 ***
## room_typeQuarto privado -9.248e+01 9.034e-01 -102.373 < 2e-16 ***
## room_typeQuarto compartilhado -1.246e+02 3.051e+00 -40.847 < 2e-16 ***
## latitude -8.393e+01 1.310e+01 -6.407 1.50e-10 ***
## longitude -3.701e+02 1.484e+01 -24.945 < 2e-16 ***
## minimo_noites -1.522e+00 6.153e-02 -24.737 < 2e-16 ***
## disponibilidade_365 1.145e-01 3.634e-03 31.499 < 2e-16 ***
## numero_de_reviews -1.115e-01 9.287e-03 -12.006 < 2e-16 ***
## calculado_host_listings_count 9.439e-02 1.685e-02 5.603 2.13e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 70.8 on 26683 degrees of freedom
## Multiple R-squared: 0.4013, Adjusted R-squared: 0.401
## F-statistic: 1490 on 12 and 26683 DF, p-value: < 2.2e-16
## [1] 0.4012521
## [1] 0.4009828
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -36.11 79.19 139.04 131.21 181.00 286.23
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## NA NA NA NaN NA NA 1
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -36.11 79.19 139.04 131.21 181.00 286.23
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -26.03 77.85 134.48 130.30 180.68 286.21
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## NA NA NA NaN NA NA 1
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -26.03 77.85 134.48 130.30 180.68 286.21
O R-squared desse modelo foi alto utilizando os dados de treinamento: 0.86. Porém, ao utilizar os dados de teste a eficiencia do modelo caiu consideravelmente, 0.50.
## randomForest 4.7-1.1
## Type rfNews() to see new features/changes/bug fixes.
##
## Attaching package: 'randomForest'
## The following object is masked from 'package:dplyr':
##
## combine
## The following object is masked from 'package:ggplot2':
##
## margin
## [,1]
## [1,] 0.8628923
## [,1]
## [1,] 0.5063189