Análise Exploratória

## 'data.frame':    48894 obs. of  15 variables:
##  $ id                           : num  2595 3647 3831 5022 5099 ...
##  $ nome                         : chr  "Skylit Midtown Castle" "THE VILLAGE OF HARLEM....NEW YORK !" "Cozy Entire Floor of Brownstone" "Entire Apt: Spacious Studio/Loft by central park" ...
##  $ host_id                      : num  2845 4632 4869 7192 7322 ...
##  $ host_name                    : chr  "Jennifer" "Elisabeth" "LisaRoxanne" "Laura" ...
##  $ bairro_group                 : chr  "Manhattan" "Manhattan" "Brooklyn" "Manhattan" ...
##  $ room_type                    : chr  "Entire home/apt" "Private room" "Entire home/apt" "Entire home/apt" ...
##  $ latitude                     : num  40.8 40.8 40.7 40.8 40.7 ...
##  $ longitude                    : num  -74 -73.9 -74 -73.9 -74 ...
##  $ price                        : num  225 150 89 80 200 60 79 79 150 135 ...
##  $ minimo_noites                : num  1 3 1 10 3 45 2 2 1 5 ...
##  $ disponibilidade_365          : num  355 365 194 0 129 0 220 0 188 6 ...
##  $ numero_de_reviews            : num  45 0 270 9 74 49 430 118 160 53 ...
##  $ reviews_por_mes              : num  0.38 NA 4.64 0.1 0.59 0.4 3.47 0.99 1.33 0.43 ...
##  $ calculado_host_listings_count: num  2 1 1 1 1 1 1 1 4 1 ...
##  $ ultima_review                : Date, format: "2019-05-21" NA ...

Avaliando as variáveis individualmente

Bairro

Os bairros do Brooklyn e Manhattan possuem a maior quantidade de imóveis disponíveis para locação em comparação com o bairro do Queens, Bronx e Staten Island.

Densidade de imóveis por bairro

Tipos de acomodação

Há poucos quartos compartilhados neste conjunto de dados. Os apartamentos inteiros e os quartos privativos se destacam pela sua frequencia.

Preço por noite (USD)

As acomodações inteiras possuem maior valor agregado quando comparados ao outros dois tipos de imóveis disponíveis nos dados (quarto privado e compartilhado).

##       0%      25%      50%      75%      95%      99%     100% 
##     0.00    69.00   101.00   170.00   330.10   671.62 10000.00
## [1] "Media de preço dos imóveis para aluguel por noite(USD): 130.850147016731"

Mínimo de noites

São imóveis de curta temporada, 89% deles solicitam um pacote de até 10 noites para reserva.

##   0%  25%  50%  75%  95%  99% 100% 
##    1    1    2    4   30   31 1250

## [1] 90.28004

Disponibilidade ao longo do ano

32% das acomodações ficam indisponíveis durante todo o ano. Porém, mais de um terço do conjunto de dados (40%) ficam disponíveis por mais de 100 dias no mercado.

##   0%  15%  30%  50%  75%  95% 100% 
##    0    0    0   53  225  355  365
## [1] 32.93828
## [1] 40.14107
## [1] 27.00456

Número de reviews

Todos os imóveis possuem no mínimo uma avaliação e, ao todo, 52% do todos imóveis possuem até 10 avaliações.

##   0%  25%  50%  75%  95%  99% 100% 
##    1    3   10   34  129  228  629
## [1] 98.34024
## [1] 13.39609

Data do último review

Majoritariamente, as reviews são do ano de 2019.

##  Factor w/ 9 levels "2011","2012",..: 9 9 8 9 9 7 9 9 9 9 ...

Quantidade de imóveis por locatário

A maioria dos locatários (75%) possuem apenas um imóvel para locação.

##   0%  25%  50%  75%  95%  99% 100% 
##    1    1    1    1    3    6  327

Palavras mais comuns

Avaliação das variáveis par a par

Como esperado, a média dos reviews possui alto correlação com a quantidade de reviews. Esta última foi mantida no conjunto de dados uma vez que o coeficiente de correlação absoluto foi ligeiramente maior em relação à variável alvo (preço).

Correlação entre as variáveis normalizadas

Média de preços por noite por acomodação por bairro

Os apartamentos inteiros possuem maior preço médio por noite em todos os bairros, com destaque para Manhattan.

## `summarise()` has grouped output by 'bairro_group'. You can override using the
## `.groups` argument.

A disponibilidade do imóvel está correlacionada com o número de reviews?

A quantidade de reviews está positivamente associada a disponibilidade ao longo do ano

## `geom_smooth()` using formula = 'y ~ x'

A disponibilidade está correlacionada o preço por noite?

O coeficiente de correlação entre o preço e a disponibilidade por noite é baixo, apesar de significativo. Entretanto, quando olhamos cada bairro individualmente os valores são diferentes entre si, sendo que o Brooklyn possui a maior correlação.

## `geom_smooth()` using formula = 'y ~ x'

Em qual bairro devo comprar?

De acordo com as análises abaixo Manhattan é a melhor escolha para a compra de impoveis para aluguéis de curta temporada em NY.

Tempo de disponibilidade do imóvel no mercado

Os imóveis localizados no bairro de Staten Island possuem o maior tempo médio de disponibilidade no mercado, seguido do Bronx e Queens.

Imóveis indisponíveis durante todo o ano

Manhattan e Brooklyn possuem a maior quantidade de imóveis indisponíveis durante todo o ano e que alugam mais rápido durante o ano (menos de 10 dias).

Preço por noite médio (USD)

Manhattan possui a maior média de preços por noite (USD) em comparação aos outros bairros.

Há padrão no texto do nome do local para imóveis de alto custo?

Os valores dos imóveis foram divididos decils e foi realizada uma comparação entre os dois primeiros, categorizados como “Low price” e dois últimos decis, chamados de “High price”. Analisando as 30 palavras mais frequentes, percebe-se que não há diferenças significativas entre cada um dos grupos e sua intersecção.

## [1] "skylit"  "midtown" "castle"  "cozy"    "entire"  "floor"

## Coordinate system already present. Adding new coordinate system, which will
## replace the existing one.

## [1] 0

Modelos

Foram testados 3 modelos de regressão para a previsão de preços de aluguel por noite. Os conjunto de dados fornecido, foi dividido em 70% em dados para treinamento dos modelos e 30% em dados para teste.

Árvore de decisão

Este modelo obteve os melhores resultados de previsão. A porcentagem de erro nos dados de treinamento foi de 18% e utilizando os dados de teste foi de 26%.

##      price              bairro_group                  room_type    
##  Min.   :  0.0   Bronx        :  596   Apartamento Inteiro :13920  
##  1st Qu.: 69.0   Brooklyn     :11431   Quarto privado      :12210  
##  Median :100.0   Manhattan    :11269   Quarto compartilhado:  566  
##  Mean   :131.2   Queens       : 3170                               
##  3rd Qu.:165.0   Staten Island:  230                               
##  Max.   :670.0                                                     
##                                                                    
##     latitude       longitude      minimo_noites    disponibilidade_365
##  Min.   :40.51   Min.   :-74.24   Min.   : 1.000   Min.   :  0        
##  1st Qu.:40.69   1st Qu.:-73.98   1st Qu.: 1.000   1st Qu.:  0        
##  Median :40.72   Median :-73.95   Median : 2.000   Median : 53        
##  Mean   :40.73   Mean   :-73.95   Mean   : 4.978   Mean   :114        
##  3rd Qu.:40.76   3rd Qu.:-73.93   3rd Qu.: 4.000   3rd Qu.:228        
##  Max.   :40.91   Max.   :-73.71   Max.   :31.000   Max.   :365        
##                                                                       
##  numero_de_reviews calculado_host_listings_count ano_ultima_review
##  Min.   :  1.00    Min.   :  1.000               2019   :17415    
##  1st Qu.:  3.00    1st Qu.:  1.000               2018   : 4160    
##  Median :  9.00    Median :  1.000               2017   : 2194    
##  Mean   : 29.54    Mean   :  5.268               2016   : 1806    
##  3rd Qu.: 34.00    3rd Qu.:  2.000               2015   :  945    
##  Max.   :629.00    Max.   :327.000               2014   :  125    
##                                                  (Other):   51    
##     previsao     
##  Min.   : 24.65  
##  1st Qu.: 72.73  
##  Median :114.00  
##  Mean   :131.21  
##  3rd Qu.:173.33  
##  Max.   :514.71  
## 
##  10%  25%  50%  75%  90% 
## 0.03 0.08 0.18 0.34 0.55
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.08    0.18     Inf    0.34     Inf
##      price              bairro_group                 room_type   
##  Min.   :  0.0   Bronx        : 270   Apartamento Inteiro :5863  
##  1st Qu.: 66.0   Brooklyn     :4826   Quarto privado      :5309  
##  Median :100.0   Manhattan    :4894   Quarto compartilhado: 270  
##  Mean   :130.2   Queens       :1369                              
##  3rd Qu.:165.0   Staten Island:  83                              
##  Max.   :659.0                                                   
##                                                                  
##     latitude       longitude      minimo_noites    disponibilidade_365
##  Min.   :40.54   Min.   :-74.17   Min.   : 1.000   Min.   :  0.0      
##  1st Qu.:40.69   1st Qu.:-73.98   1st Qu.: 1.000   1st Qu.:  0.0      
##  Median :40.72   Median :-73.95   Median : 2.000   Median : 53.0      
##  Mean   :40.73   Mean   :-73.95   Mean   : 4.892   Mean   :112.4      
##  3rd Qu.:40.76   3rd Qu.:-73.93   3rd Qu.: 4.000   3rd Qu.:220.0      
##  Max.   :40.91   Max.   :-73.73   Max.   :31.000   Max.   :365.0      
##                                                                       
##  numero_de_reviews calculado_host_listings_count ano_ultima_review
##  Min.   :  1.00    Min.   :  1.000               2019   :7435     
##  1st Qu.:  3.00    1st Qu.:  1.000               2018   :1734     
##  Median : 10.00    Median :  1.000               2017   : 948     
##  Mean   : 29.44    Mean   :  4.927               2016   : 826     
##  3rd Qu.: 33.00    3rd Qu.:  2.000               2015   : 412     
##  Max.   :597.00    Max.   :327.000               2014   :  66     
##                                                  (Other):  21     
##     previsao     
##  Min.   : 24.65  
##  1st Qu.: 71.56  
##  Median :112.33  
##  Mean   :130.16  
##  3rd Qu.:171.93  
##  Max.   :514.71  
## 
##  10%  25%  50%  75%  90% 
## 0.05 0.12 0.26 0.48 0.77
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.12    0.26     Inf    0.48     Inf
## [1] "A previsão do preço para aluguel por noite(USD) para o imóvel da questão 4 é de: 238.294117647059"

Regressão Linear Multivariada

O modelo construído utilizando regressão linear não foi tão eficaz já que o R-squared foi de 0.40.

## 
## Call:
## lm(formula = price ~ . - ano_ultima_review, data = df_treino)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -171.61  -39.79  -11.01   19.67  565.54 
## 
## Coefficients:
##                                 Estimate Std. Error  t value Pr(>|t|)    
## (Intercept)                   -2.378e+04  1.319e+03  -18.035  < 2e-16 ***
## bairro_groupBrooklyn          -7.523e+00  3.692e+00   -2.038   0.0416 *  
## bairro_groupManhattan          2.911e+01  3.350e+00    8.689  < 2e-16 ***
## bairro_groupQueens             7.148e+00  3.543e+00    2.017   0.0437 *  
## bairro_groupStaten Island     -1.111e+02  6.823e+00  -16.287  < 2e-16 ***
## room_typeQuarto privado       -9.248e+01  9.034e-01 -102.373  < 2e-16 ***
## room_typeQuarto compartilhado -1.246e+02  3.051e+00  -40.847  < 2e-16 ***
## latitude                      -8.393e+01  1.310e+01   -6.407 1.50e-10 ***
## longitude                     -3.701e+02  1.484e+01  -24.945  < 2e-16 ***
## minimo_noites                 -1.522e+00  6.153e-02  -24.737  < 2e-16 ***
## disponibilidade_365            1.145e-01  3.634e-03   31.499  < 2e-16 ***
## numero_de_reviews             -1.115e-01  9.287e-03  -12.006  < 2e-16 ***
## calculado_host_listings_count  9.439e-02  1.685e-02    5.603 2.13e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 70.8 on 26683 degrees of freedom
## Multiple R-squared:  0.4013, Adjusted R-squared:  0.401 
## F-statistic:  1490 on 12 and 26683 DF,  p-value: < 2.2e-16
## [1] 0.4012521
## [1] 0.4009828
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -36.11   79.19  139.04  131.21  181.00  286.23
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##      NA      NA      NA     NaN      NA      NA       1
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -36.11   79.19  139.04  131.21  181.00  286.23
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -26.03   77.85  134.48  130.30  180.68  286.21
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##      NA      NA      NA     NaN      NA      NA       1
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -26.03   77.85  134.48  130.30  180.68  286.21

Random Forest

O R-squared desse modelo foi alto utilizando os dados de treinamento: 0.86. Porém, ao utilizar os dados de teste a eficiencia do modelo caiu consideravelmente, 0.50.

## randomForest 4.7-1.1
## Type rfNews() to see new features/changes/bug fixes.
## 
## Attaching package: 'randomForest'
## The following object is masked from 'package:dplyr':
## 
##     combine
## The following object is masked from 'package:ggplot2':
## 
##     margin
##           [,1]
## [1,] 0.8628923
##           [,1]
## [1,] 0.5063189