A machine learning approach to predict e-cigarette use and dependence among Ontario youth

Health Promot Chronic Dis Prev Can. 2022 Jan;42(1):21-28. doi: 10.24095/hpcdp.42.1.04.
[Article in English, French]

Abstract

Introduction: We developed separate random forest algorithms to predict e-cigarette (vaping) ever use and daily use among Ontario youth, and subsequently examined predictor importance and statistical interaction.

Methods: This cross-sectional study used a representative sample of Ontario elementary and high school students in 2019 (N = 6471). Vaping frequency over the last 12 months was used to define ever-vaping and daily vaping. We considered a large set of individual characteristics as potential correlates for ever-vaping (176 variables) and daily vaping (179 variables). Using cross-validation, we developed random forest algorithms and evaluated model performance based on the C-index, a measure to assess the discriminatory ability of a model, for both outcomes. Further, the top 10 correlates were identified by relative importance score calculation and their interaction with sociodemographic characteristics.

Results: There were 2064 (31.9%) ever-vapers, and 490 (7.6%) of the respondents were daily users. The random forest algorithms for both outcomes achieved high performance, with C-index over 0.90. The top 10 correlates of daily vaping included use of caffeine, cannabis and tobacco, source and type of e-cigarette and absence in last 20 school days. Those of ever-vaping included school size, use of alcohol, cannabis and tobacco; 9 of the top 10 ever-vaping correlates demonstrated interactions with ethnicity.

Conclusion: Machine learning is a promising methodology for identifying the risks of ever-vaping and daily vaping. Furthermore, it enables the identification of important correlates and the assessment of complex intersections, which may inform future longitudinal studies to customize public health policies for targeted population subgroups.

Introduction: Nous avons mis au point des algorithmes de forêt aléatoire pour prédire le risque que les jeunes Ontariens essaient un jour la cigarette électronique (vapotage) et qu’ils l’utilisent de façon quotidienne, puis nous avons examiné l’importance des prédicteurs et l’interaction statistique.

Méthodologie: Cette étude transversale repose sur un échantillon représentatif d’élèves du primaire et du secondaire de l’Ontario en 2019 (N = 6471). Nous avons utilisé la fréquence du vapotage au cours des 12 derniers mois pour définir l’essai de vapotage (avoir déjà expérimenté de vapoter) et le vapotage quotidien. Nous avons intégré un vaste ensemble de caractéristiques individuelles comme corrélats possibles de l’essai de vapotage (176 variables) et du vapotage quotidien (179 variables). À l’aide de la validation croisée, nous avons élaboré des algorithmes de forêt aléatoire et nous avons évalué le rendement du modèle selon l’indice de concordance, une mesure qui permet d’évaluer la capacité discriminatoire d’un modèle, et ce, pour les deux résultats. En outre, nous avons défini les 10 corrélats principaux grâce au calcul du score de l’importance relative et leur interaction avec les caractéristiques sociodémographiques.

Résultats: Dans l’échantillon, 2064 (31,9 %) répondants avaient déjà essayé le vapotage et 490 (7,6 %) des répondants étaient des consommateurs quotidiens. Les algorithmes de forêt aléatoire pour les deux résultats ont fourni une performance élevée, avec un indice de concordance supérieur à 0,90. Les 10 corrélats principaux du vapotage quotidien concernaient la consommation de caféine, de cannabis et de tabac, la source et le type de cigarette électronique et l’absentéisme scolaire au cours des 20 derniers jours. Les corrélats de l’essai de vapotage étaient la taille de l’école, la consommation d’alcool, de cannabis et de tabac et, de plus, 9 des 10 principaux corrélats de l’essai de vapotage affichaient des interactions avec l’ethnicité.

Conclusion: L’apprentissage automatique est une méthodologie prometteuse pour déterminer les risques d’essai de vapotage et de vapotage quotidien. En outre, il permet d’en cerner les corrélats importants et d’évaluer les recoupements complexes, ce qui pourrait être utile pour les futures études longitudinales visant à personnaliser les politiques de santé publique pour certains groupes cibles de population.

Keywords: Ontario; machine learning; smoking; vaping; youth.

Plain language summary

This study applied a machine learning methodology that allowed the inclusion of a wide range of correlates in tobacco research among youth. The top 10 correlates of daily vaping included use of caffeine, cannabis and tobacco, source and type of e-cigarette and absence in last 20 school days. Those of ever-vaping included school size, and use of alcohol, cannabis and tobacco. Future longitudinal studies could verify the most important correlates of ever-vaping and daily vaping identified, potentially informing policies to prioritize strategies for issues related to substance use. Analysis of interactions quantified interaction strengths amongst important correlates and sociodemographic characteristics, which could be further explored by future longitudinal studies.

MeSH terms

  • Adolescent
  • Cross-Sectional Studies
  • Electronic Nicotine Delivery Systems*
  • Humans
  • Machine Learning
  • Ontario / epidemiology
  • Vaping*