Databricks with BioStudio
¶

Databricks ¶

Databricks is a unified analytics platform built on Apache Spark, designed for large-scale data processing. It integrates data engineering, data science, and business analytics into one environment. Delta Lake adds reliability with ACID transactions, while MLflow manages the machine learning lifecycle. The platform supports massive data volumes and complex workloads with scalability, offering collaborative notebooks and real-time co-editing to facilitate teamwork. Databricks integrates with AWS, Azure, Google Cloud, and various databases, providing enterprise-level security and compliance. It handles infrastructure management and is versatile for data warehousing, ETL, machine learning, and real-time analytics.
Databricks integrates seamlessly with Amazon S3, offering a robust environment for big data processing and analytics. It can read and write data directly to and from S3, allowing users to utilize S3 as a cost-effective and scalable storage solution. Databricks also allows you to mount S3 buckets to the Databricks file system (DBFS), making it easier to access and manage data stored in S3 as if it were part of the local file system.

BioStudio integration with Databricks ¶

BioStudio supports integration with Databricks, enabling users to leverage its capabilities for data exploration and job execution. BioStudio offers various tools to streamline these processes. Currently, BioStudio supports:

Mounting Cloud Object Storage: BioStudio can mount All - cloud object storage ( AWS, GCP, Azure ) on Databricks, syncing data from the user’s workspace.
SQL Warehouse Connection: BioStudio also supports connections to SQL warehouses for optimized data querying and analysis.
Cluster Connection: Users can connect to Databricks clusters for scalable computing.

Setup Databricks connection with BioStudio. ¶

                         +=============================+
                         |      User's Workspace       |
                         +=============================+
                                     |
                                     | Data Sync
                                     v
                         +=============================+
                         |   BioStudio Integration     |
                         |        with Databricks      |
                         +=============================+
                           |            |            |
                           |            |            |
     +---------------------+            |            +---------------------+
     |                                  |                                  |
     v                                  v                                  v
+-----------------+             +-----------------+             +-----------------+
| Cloud Object    |             | SQL Warehouse   |             | Databricks      |
| Storage (AWS,   |             | Connection      |             | Clusters        |
| GCP, Azure)     |             |                 |             |                 |
|                 |             |                 |             |                 |
+-----------------+             +-----------------+             +-----------------+
       |                               |                                |
       |                               |                                |
       v                               v                                v
+---------------------+       +-----------------+             +-----------------+
|  Amazon S3          |       | SQL Data        |             | EC2 Instances   |
|                     |       | Querying/       |             | (Configured     |
|                     |       | Analysis        |             | for HPC with    |
|                     |       |                 |             | FSx for Lustre) |
+---------------------+       +-----------------+             +-----------------+
       |
       | Connected via FSx for Lustre
       |
       v
+---------------------+
| High-Performance    |
| Parallel Workflows  |
| (SLURM/SGE Paradigm)|
+---------------------+

🔆 This bucket is associated with Databricks.

Protocol

🔆 This bucket is associated with Databricks.

Protocol

🔆 Mount S3 bucket.

Login to BioStudio.
Click to Cloud Storage Icon.

Protocol

Click to Create Connection.
It will connect to S3 bucket and mount.

Protocol

Mount point can be view by clicking System Terminal.

Protocol

Create one file.

Protocol

It is available with Databricks.

Protocol

Databricks Connection with BioStudio Visual Studio. ¶

🔆 Cluster Connection
Complete databricks including resouces can be connected to BioStudio using token.

Generate token to connect to BioStudio by clicking setting.

Protocol

Select user -> Developer -> Access tokens -> Generate new token.

Protocol

Open the VS Code application tool from BioStudio.

Protocol

Configure databricks connection.

Protocol

[Bioturing-databrick]
host = https://dbc-454984-e221564448e.cloud.databricks.com
token = dap2165411316rdtffdbvrdftgyrtfhgrd321654646

Provide host name.

Protocol

Edit Databricks profile.

Protocol

Provide all values.

Protocol

Configuration has been saved.
Click to Databricks extention -> Configure Databricks to see the connectivity.

Protocol

Select saved profile.

Connection succeed.

Protocol

User connection is available with Databricks.

BioStudio connection with Databricks SQL warehouses. ¶

🔆 SQL Warehouses

We need SQL Warehouse to did operartions like execute query.

Let’s start SQL warehouses server.

Protocol

SQL warehouses server started.

Protocol

We will use python to execute query with SQL Warehouses.

Protocol

Generate token to execute query from BioStudio.
Create conda environment / kernel. Select Kernels -> fill all the values.

Protocol

Check environment is ready to use.

Protocol

Activate environment.

ub-lalit-e33d9fbdb4e96d0@colabdev-868c4b58bb-ctb8k:~$ conda env list
# conda environments:
#
databrick                /data/ub-lalit-e33d9fbdb4e96d0/.conda/envs/databrick
databrick-sqlwarehose     /data/ub-lalit-e33d9fbdb4e96d0/.conda/envs/databrick-sqlwarehose
base                     /miniconda/user

ub-lalit-e33d9fbdb4e96d0@colabdev-868c4b58bb-ctb8k:~$ conda activate databrick-sqlwarehose
(databrick-sqlwarehose) ub-lalit-e33d9fbdb4e96d0@colabdev-868c4b58bb-ctb8k:~$