Page 89 - Forum / No. 41 / Octubre 2018
P. 89
BREVES
Antecedentes. ¿De dónde surge? 2. Velocidad. Se generan y usan a grandes velocidades, a ve-
ces incluso en tiempo real.
El término Big Data saltó a la fama en 2008 con un artículo 3. Variedad. Tienen distintos orígenes y pueden ser de
que publicó la revista electrónica Wired, donde se proponía que distinto tipo. En una base de datos pueden coexistir
cantidades masivas de información vuelven obsoleto el método elementos almacenados en forma de texto, imágenes,
cientí co o el uso de modelos o teorías para explicar un fenó- video y audio.
meno. Es decir, que bastaba una gran cantidad de datos para Adicionalmente, entre muchas otras, se pueden incluir
8
poder hacer predicciones sin tener que contar con un mayor propiedades como los cambios en el tiempo (variabilidad), la
conocimiento del tema. Sin embargo, existen ejemplos que con abilidad de las fuentes (veracidad) y qué tan útiles son
muestran los grandes riesgos de usar estas predicciones sin te- (valor). Estas propiedades pueden mezclarse dentro del mis-
ner un modelo o una explicación de fondo (Recuadro 1). mo conjunto, pero antes de analizarlos es necesario depurar-
La necesidad de manejar e cientemente los macrodatos los, estandarizarlos y conectarlos o catalogarlos de manera
surge del crecimiento acelerado de la información que se ge- adecuada. A este proceso se le denomina gestión de datos. 14
nera y procesa en la actualidad, la cual se duplica casi cada Para esto se hace uso de los metadatos, información com-
dos años, es muy variada y se almacena en diversos formatos plementaria que puede indicar su origen, calidad o su con a-
9
(audio, fotos, videos, texto, coordenadas). Por ejemplo las de bilidad. Por ejemplo, si se tiene una colección de fotografías,
| INCYTU No. 001 | CIUDAD DE MÉXICO | AGOSTO 2016
origen médico que se usan para encontrar factores de riesgo éstas serían los datos y los metadatos pueden ser la fecha de
de enfermedades, o la producida por los mismos dispositivos creación, si ha sido editada o no, el autor, la cámara utilizada,
conectados a internet, que se comunican entre sí y generan etc. La información útil o sensible puede estar tanto en los
aún más información. (Nota INCyTU No.13 Biobancos y Regis- datos como en los metadatos.
tros Médicos Electrónicos) Para extraer sus cualidades se utilizan métodos avanzados
de procesamiento que manejan el vasto volumen y su comple-
Recuadro 1. Google Flu Trends. jidad. A todo este conjunto de técnicas se le conoce como Big
Data Analytics o simplemente Analytics. Algunos ejemplos
En 2009, la prestigiosa revista cientí ca Nature publicó un artículo que de estas técnicas son: 14
10
llamó mucho la atención: un grupo de ingenieros de la empresa Google, • Minería de datos (Data Mining): Se usa para encontrar pa-
mediante el análisis de simples patrones de búsqueda de usuarios en trones que no puedan localizarse con métodos tradiciona-
internet, pudieron predecir con gran precisión el progreso del número les, ya sea por la complejidad o por el volumen del conjun-
de casos de in uenza en EUA. Esta herramienta se denominó Google Flu to de datos. Este concepto es frecuentemente mal usado
15
Trends. Las predicciones fueron validadas en 97% al ser cotejadas con ya que su nombre pareciera indicar que consiste en extraer
la información o cial provista por el Centro para el Control y la Prevención los datos, pero realmente consiste en obtener conocimien-
de las Enfermedades. Una gran ventaja de la predicción de Google era que to de ellos, como identi car patrones de relación.
podía obtenerse hasta con 10 días de anticipación respecto a las cifras • Aprendizaje computacional o automático (Machine lear-
o ciales, además tenía un bajo costo operativo. Debido al éxito obtenido, el
proyecto se amplió para también predecir el número de casos de dengue. Las ning): Es una aplicación de la inteligencia arti cial donde
predicciones se hicieron para varios países, incluido México. una máquina o computadora “aprende” a partir de un
16
Este caso se volvió un ejemplo paradigmático de Big Data, ya que fue gran número casos. Por ejemplo, a partir de analizar mu-
2 diseñado a partir de una gran base de datos (de las búsquedas de los usuarios chas partidas de ajedrez puede inferir las reglas del juego
en Google) y, sin tener conocimiento del origen del problema (lo llevaron a y cómo jugarlo. (Nota INCyTU No. 12 Inteligencia Arti cial)
cabo ingenieros en lugar de médicos), se lograron predicciones precisas. • Análisis de redes: Son estudios donde primero se estable-
Después las cosas cambiaron, en especial a partir de la epidemia de in uenza ce un criterio para generar relaciones y representarlas en
del 2011 del virus A (H1N1), cuando las predicciones de Google Flu Trends una red, luego se procede a analizar su estructura y prin-
11
fallaron notablemente, con errores de hasta 100%. A partir de entonces el cipales componentes.
proyecto ha dejado de publicar sus resultados y se ha asociado con entidades La complejidad y variedad de técnicas para el análisis ha pro-
académicas para investigar mejor el problema. 12 vocado el surgimiento de una disciplina enfocada a ello, llama-
Por estas razones, el caso también se volvió un ejemplo paradigmático de
lo que puede salir mal al usar Big Data sin tener un conocimiento adecuado. da Ciencia de Datos. (Nota INCyTU No. 12 Inteligencia Arti cial)
Debido a esto algunos actores enfatizan la necesidad de tener personal con
experiencia en programación así como en otras ramas del conocimiento y ¿Dónde se aplica el Big Data?
cuya formación esté certi cada por instituciones de prestigio. 13
Los avances que permitieron el surgimiento del Big Data tie-
nen su origen en desarrollos de la ciencia básica; desde el na-
cimiento de las redes de cómputo a nales de la década de
¿Cómo se trabaja con Big Data? los sesenta; posteriormente el descubrimiento que permitió
Estructura y procesamiento el desarrollo de los discos duros modernos (Nobel de Física
2007), hasta la creación de la World Wide Web (WWW), que es
17
Las tres propiedades principales de los datos, denominados las la estructura que permitió el uso masivo de las redes de cóm-
3 v’s, son: puto y el internet. La WWW se creó entre 1989 y 1990 por físi-
1. Volumen. Se re ere a su gran volumen, que sobrepasa la cos de la Organización Europea para la Investigación Nuclear
capacidad de almacenamiento o procesamiento de un (CERN por sus siglas en francés), donde se desarrollan técnicas
equipo de cómputo personal. para el procesamiento de grandes cantidades de información
Forum. Noticias del Foro Consultivo | Núm. 41 Octubre 2018
89
89

