importantes herramientas de ciencia de datos
Cualquiera que esté en el campo de Data Science le sugerirá que aprenda SQL, Python, R o Maths para prosperar en este campo. Cada vez que vea un perfil para el trabajo de Data Science, habrá una descripción de las habilidades deseadas que mencionan las habilidades anteriores con algunos AWS / cloud, experiencia de Apache Spark.
Aunque las habilidades anteriores son necesarias para un Data Scientist, a veces se encuentra en una situación en la que necesitan crear un modelo en su máquina local en un entorno diferente o pueden obtener datos perfectos. Entonces, en tales casos, un científico de datos necesita algunas habilidades CS necesarias para implementar la tarea y hacer que el trabajo sea accesible para otros ingenieros
Es posible que las herramientas que voy a enumerar a continuación no sean válidas en todas las situaciones, pero en mi opinión, facilitarán su trabajo como científico de datos. Aquí se explicará cómo pueden ayudarlo a convertirse en un mejor Data Scientist, facilitando la creación de una aplicación lista para la producción que no sean cuadernos analíticos y sucios en sus computadoras locales.

Busqueda Elástica

Un científico de datos que trabaja en una compañía de Fortune 50 encontrará una tonelada de casos de uso de búsqueda, en los que se necesita Elastisearch, es un marco muy importante que ayuda a tratar los casos de uso de búsqueda / NPL. Elastic le facilita el suministro de clientes Python adecuados, además de construir algo desde cero en python. Proporciona un enfoque escalable y con menos errores en la búsqueda e indexación de documentos. A mayor tamaño de los datos, más nodos giran y la ejecución de la consulta es más rápida.
Elastic le proporciona complementos personalizados y toneladas de silbidos y timbres para el analizador políglota, ya que definitivamente proporciona una comparación de similitud entre la consulta y los documentos en el índice, podría usarse para la comparación de similitud de documentos. Preferiré Elasticsearch en lugar de importar TF-IDF desde scikit-learn .

API REST

Después de modificar su modelo, DS necesita entrenar su modelo en un entorno compartido porque si no lo hacen, entonces el modelo estará disponible solo para ellos. Por lo tanto, para tener una producción de servicio real a partir del modelo, Data Scientist necesita que esté disponible a través de una llamada API estándar o cualquier cosa portátil para el desarrollo de la aplicación.
descanso
Hay algunos servicios como Amazon SageMaker que hacen que el modelo sea conveniente para la producción y, por la forma en que puede crear uno por sí mismo utilizando Flask en Python, mientras tanto, hay paquetes de Python para realizar llamadas API en el backend. De hecho, saber cómo funciona la API en el desarrollo se suma a los científicos de datos.

Linux

Todos los científicos de datos saben que una gran parte de la ciencia de datos se realiza a través de la programación, por lo que es bien sabido que el código se desarrollará y se llevará a acciones específicas en Linux. Por lo tanto, tener conocimiento de CLI (interfaz de línea de comandos) agrega una ventaja a un científico de datos. De manera similar a la ciencia de datos, Python también se ocupa de la administración / paquete del marco, su ruta, las variables de entorno y muchas más cosas que se realizan a través de la línea de comandos.

Docker Y Kubernetes

Docker es un proyecto de código abierto que facilita la implementación de aplicaciones como contenedores portátiles y autosuficientes que pueden ejecutarse en la nube o en otro lugar. Ayuda a los usuarios a tener un entorno de aplicación listo para la producción sin configurar un servidor de producción de manera crítica para cada servicio en ejecución. eso. Los contenedores Docker son más livianos porque se ejecutan en el mismo núcleo que el host, a diferencia de las máquinas virtuales que tienden a instalar el sistema operativo completo.
Dado que el mercado se está enfocando en más aplicaciones en contenedores, es esencial tener conocimiento de la ventana acoplable, ya que facilita la capacitación y el despliegue del modelo. Los modelos se pueden almacenar en contenedores como un servicio que tenga el entorno necesario para ejecutarlos y que proporcione una interacción sin problemas con otros servicios de la aplicación.
Kubernetes, también escrito como K8s, es un sistema de consonancia de contenedor de código abierto que ofrece implementación, administración y escalamiento automatizados de aplicaciones en contenedores en múltiples hosts, fue diseñado por Google pero es administrado por la Cloud Native Computing Foundation. En esta plataforma, puede administrar e implementar fácilmente sus contenedores Docker en un clúster escalable horizontalmente. Dado que el aprendizaje automático y la ciencia de datos se están integrando con el desarrollo en contenedores, tener conocimiento de estas habilidades es importante para Data Scientist.

Flujo De Aire Apache

El flujo de aire de Apache se puede definir como una plataforma que facilita el monitoreo del flujo de trabajo y la programación programada por los autores. Es uno de los mejores sistemas de gestión de flujo de trabajo, hace que su flujo de trabajo sea un poco simple y organizado al permitirle dividirlo en pequeños módulos de tareas independientes.
TROZO DE CUERO
Airflow también proporciona un conjunto muy bueno de utilidades de línea de comandos que se pueden usar para realizar operaciones complejas en DAG (Directed Acyclic Graph). Quiero decir que puede hacer que su script de bash o python se ejecute en su llamada, el flujo de aire proporciona una gran ventaja para las tareas programadas con una buena interfaz.

Punto Para Recordar

Sabemos que las diferentes herramientas están cambiando rápidamente, especialmente en los campos de la ciencia de datos, el aprendizaje automático y la inteligencia artificial. Las herramientas nuevas y actualizadas se implementan muy rápidamente, estas herramientas mencionadas anteriormente están en uso y hay más por venir. Y la clave es, actualizarse cada vez que brille en estos campos.