El aprendizaje automático, en inglés Machine Learning (ML), es una rama de la ciencia que permite a las computadoras a través de un conjunto de técnicas realizar tareas sin ser programadas explícitamente. A través del ML los ordenadores pueden generalizar su comportamiento a partir de datos procesados con el objetivo de realizar predicciones sobre datos futuros. A modo de contexto, el término Machine Learning existe desde hace varias décadas, cuando Arthur Samuel lo utilizó por primera vez en los laboratorios de IBM en el año 1959 y lo definió como: “Campo de estudio que le da a las computadoras la capacidad de aprender sin ser programadas explícitamente”
Sin embargo, fue recién en la década de 1980 cuando este concepto tomó más fuerza con la aparición de las redes neuronales artificiales (ANN – Artificial Neural Network) y luego después de otra década se empezó a utilizar por diversos especialistas con el objetivo de resolver algunas problemáticas de la vida diaria.
Similar a lo que ocurrió a principios del 2010 con las tecnologías Cloud cuando muchos consideraban que no iban a tomar fuerza, lo mismo pasó con el ML. Hoy en día esta ciencia es utilizada por diversas empresas: Facebook, Netflix, YouTube, Google o Amazon, por nombrar algunas.
Los sistemas que emplean Machine Learning más populares son el reconocimiento de voz y el reconocimiento facial, perfilamiento de clientes en marketing, estudios de mercado, y a esto último se le está sumando automatización para IoT, automóviles autónomos, y hasta incluso los famosos robots de ayuda.
Ahora bien, la pregunta central es: ¿qué tipo de necesidades podría satisfacer el Machine Learning en la industria de la ciberseguridad? Para responder esto antes debemos dar un pequeño marco teórico para comprender dónde podríamos aplicar Machine Learning en la ciberseguridad.
Aprendizaje supervisado: está enfocado en determinar las probabilidades de nuevos eventos en función de eventos observados anteriormente. Dentro de este algoritmo encontramos otras dos categorías:
Aprendizaje no supervisado: intentan encontrar patrones no etiquetados. Por ejemplo: determinar cuántas familias de malware existen en el conjunto de datos y qué archivos pertenecen a cada familia. Dentro de este tipo de ML se encuentra el “Clustering”, que consiste en agrupar un conjunto de objetos (cluster) por sus similitudes. Ejemplo: detección de anomalías, o familias de malware.
Ya explicado los tipos de ML que existen y sus etapas, procederemos a detallar las áreas en donde se podría usar esta tecnología dentro de la ciberseguridad.
En general, los productos de aprendizaje automático se crean para predecir ataques antes de que ocurran, pero dada la naturaleza sofisticada de estos ataques, las medidas preventivas a menudo fallan. En tales casos, el aprendizaje automático ayuda a remediar de otras maneras como reconocer el ataque en sus etapas iniciales y evitar que se propague por toda la organización.