# Source utils.R file: where functions are pre-definded:
source("utils.R")

# Define packages
cran_packages <- c("ggplot2", "dplyr", "tibble", "data.table", "FactoMineR", "factoextra", "mixOmics", "tidyverse", "see","plotly")# TODO: Here have to pay att with libraries conflicts
bioc_packages <- c("SummarizedExperiment", "SEtools", "edgeR") #EDASeq

# Call the function to install or load packages
check_and_install(cran_packages, bioc_packages, condaEnv = T)

cancer_type <- "BRCA"
cancer_name <- "Breast invasive carcinoma"

cancer_id <- paste("TCGA", cancer_type, sep = "-")
names(cancer_id) <- cancer_name

cancer_id

sbatch --job-name=getData --mem=200000 --error='.err_parallel.job' --output='.out_parallel.job' get_data_in_parallel.sh {BRCA}

my_dir <- "processed_data/"

data <- load_data(cancer_id, my_dir) 
brca_count <- assay(x = data,i ='unstranded') %>% as.data.table(keep.rownames = T)
meta_data <- colData(data) %>% data.table::as.data.table() %>% dplyr::select(c(barcode, project_id, sample_type))

#all_metaType in the data
colData(data) %>% data.table::as.data.table() %>% dplyr::select(c('sample_type_id','sample_type','specimen_type','tissue_type')) %>% unique %>% unique

# Checking if the .rds files already exist before saving them:
check_and_save_RDSs(data=brca_count, metadata=meta_data,
                    my_dir=my_dir, version="v1", 
                    prefix_countdata_file= "brca_unstranded_counts_data_", 
                    prefix_metadata_file ="brca_counts_metadata_")

Saved: processed_data//brca_unstranded_counts_data_v1.rds

Saved: processed_data//brca_counts_metadata_v1.rds

get_object_size()

version_of_data <- "v1"
brca_count <- load_RDS_data(name="brca_count",my_dir, version= version_of_data, prefix_file= "brca_unstranded_counts_data_" )
meta_data <- load_RDS_data(name="meta_data",my_dir, version= version_of_data, prefix_file= "brca_counts_metadata_" )

brca_count is already loaded in the environment.

meta_data is already loaded in the environment.

dim(brca_count)

plot_per_cancer_cases_vs_samples(meta_data)

# A tibble: 3 × 3
  sample_type         num_samples num_participants
  <chr>                     <int>            <int>
1 Metastatic                    7                7
2 Primary Tumor              1111             1095
3 Solid Tissue Normal         113              113

preservation_summary <- colData(data)[, c('sample_type', 'preservation_method')] %>% 
      as_tibble() %>%
      group_by(sample_type, preservation_method) %>%
      summarise(n = n()) %>%
      arrange(preservation_method)

`summarise()` has grouped output by 'sample_type'. You can override using the
`.groups` argument.

preservation_summary

plot <- preservation_summary %>%
  ggiraphExtra::ggPieDonut(
    ggplot2::aes(pies = sample_type, donuts = preservation_method),
    interactive = FALSE
  ) +
  ggplot2::labs(title = "Summary of Preservation Methods Across Sample Types") +
  theme(plot.title = element_text(size = 24, face = "bold"))
plot %>% change_label(plot = .)

get_object_size()

rm(plot,change_label,summarize_preservation_methods,plot_Preservation_Method_Distribution,plot_per_cancer_cases_vs_samples)

# No need for data, will be removed
rm(data)
get_object_size()

#get batchs, with colors by batch
batchs<- get_batchs(meta_data, cancer_id)

levels(batchs$center)

levels(batchs$plate) %>% length # by plate: The number of plates is large, making it challenging to create color-blind friendly visuals. A solution needs to be found.

levels(batchs$tss) %>% length

options(repr.plot.width = 20, repr.plot.height = 10)  # Adjust width and height as needed
plot_Samples_Cancer(batchs, cancer_names = cancer_name) %>% suppressMessages

get_object_size() %>% head

# Filter the data keeping only  paired data 113 samples 
paired_patients <- batchs %>% dplyr::select(c(participant, groups)) %>% unique() %>% filter(duplicated(participant)) %>% .$participant

paired_patients %>% length

brca_batchs_paired <- batchs %>% filter(participant %in% paired_patients)

brca_batchs_paired %>% filter(participant %in% as.character(brca_batchs_paired %>% filter(sample_type =="Metastatic") %>% .$participant) &
                             groups =="Tumor") %>% dplyr::select( barcode, sample_type, participant) %>% arrange(participant)

brca_batchs_paired <- brca_batchs_paired %>% filter(sample_type !="Metastatic")

brca_count_paired <- brca_count %>% dplyr::select(all_of(c("rn",brca_batchs_paired$barcode)))

brca_batchs_paired <-droplevels(brca_batchs_paired)

brca_batchs_paired$sample_type %>%table

.
      Primary Tumor Solid Tissue Normal 
                119                 113

mypca_brca = mixOmics::pca(t(brca_count_paired[,-1]), ncomp = 5, center = FALSE, scale = FALSE)

plot(mypca_brca)

p1<-plotIndiv(mypca_brca, comp = 1:2, col.per.group = levels(brca_batchs_paired$c_by_group), ind.names = 
              FALSE,
          group = brca_batchs_paired$groups,
          # graphical parameters
              style = "ggplot2",
          legend = TRUE, legend.position = "right", 
          legend.title = "Cancer type", 
          legend.title.pch = 'Sample types',              
          legend.pch = FALSE,  # Show point shape in the legend
          ellipse = TRUE, 
          ellipse.level = 0.95)

p1<-plotIndiv(mypca_brca, comp = 1:2, col.per.group = levels(brca_batchs_paired$c_by_plate),
          pch= brca_batchs_paired$groups,
          group = brca_batchs_paired$plate,
          # graphical parameters
              style = "ggplot2",
          legend = TRUE, legend.position = "right", 
          legend.title = "Plates", 
          legend.title.pch = 'Sample types',
          legend.pch = FALSE,  # Show point shape in the legend
          ellipse = TRUE, 
          ellipse.level = 0.95)

pca_unscaled_uncenterd_brca_count <- prcomp(t(brca_count_paired[,-1]), scale = F, center = F)
plot_PCAs(as.data.table(pca_unscaled_uncenterd_brca_count$x), brca_batchs_paired)

# Normalization
dge_brca <- do_normalization(brca_count_paired,brca_batchs_paired,method ="TMM", group_col = "sample_type") 
# Log-transformation
logCPM_brca <- cpm(dge_brca, log=TRUE)

rownames(logCPM_brca)<- dge_brca$rn

logCPM_brca <- as.data.table(logCPM_brca, keep.rownames = T)

# Boxplot of Randomly selected gene expression across sample types (Tumor vs Normal)
# (I have changed the seed and run it several time ...)
set.seed(1026) # For reproducibility
selected_genes <- sample(logCPM_brca$rn, 6)
# Reshape for ggplot (convert to long format)
logCPM_brca_long <- melt(logCPM_brca,id.vars = "rn", variable.name = "Sample", value.name = "Expression") %>%
    mutate(sample_type= brca_batchs_paired$sample_type[Sample])

ggplot(logCPM_brca_long %>% filter(rn %in% selected_genes) , aes(x = rn, y = Expression, fill = sample_type)) +
  geom_boxplot(outlier.colour = "red", outlier.shape = 8, outlier.size = 1) +
  labs(title = "Boxplot of Gene Expression Across Sample Types (Tumor vs Normal)",
       x = "Gene",
       y = "Log-Transformed Expression") +
  facet_wrap(~rn, scales = "free_x") +  # Divide the plot into Tumor and Normal panels
  theme_minimal() +
  theme(legend.position = "top",
        axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1))  # Rotate gene names for readability

logCPM_brca_99 <- truncate_at_percentile(logCPM_brca[, -1], truncation_percentil = 0.99)
rownames(logCPM_brca_99) <- logCPM_brca$rn
logCPM_brca_99 <- as.data.table(logCPM_brca_99, keep.rownames = T)

# Reshape for ggplot (convert to long format)
logCPM_brca_99_long <- melt(logCPM_brca_99,id.vars = "rn", variable.name = "Sample", value.name = "Expression") %>%
    mutate(sample_type= brca_batchs_paired$sample_type[Sample])
# Create a boxplot for the same selected genes divided by sample type after truncation
ggplot(logCPM_brca_99_long %>% filter(rn %in% selected_genes) , aes(x = sample_type, y = Expression, fill = sample_type)) +
  geom_boxplot(outlier.shape = NA) +  # No outliers displayed in the plot
  labs(title = "Boxplot of Selected Genes (6) - Normal vs Tumor (Truncated at 99th Percentile)",
       x = "Sample Group",
       y = "Log-Transformed CPM") +
  theme_minimal() +
  theme(legend.position = "none") +
  facet_wrap(~ rn)  # Separate plots for each gene

pca_unscaled_uncenterd_brca_normalized99 <- prcomp(t(logCPM_brca_99[,-1]), scale = F, center = F)
plot_PCAs(as.data.table(pca_unscaled_uncenterd_brca_normalized99$x), brca_batchs_paired)

wiered_samples <- rownames(pca_unscaled_uncenterd_brca_normalized99$x)[which(pca_unscaled_uncenterd_brca_normalized99$x[,1] > (-1000))]
wiered_samples

# lets check their behavior in the normalized data 
logCPM_brca %>% dplyr::select(all_of(wiered_samples)) %>% head

# Create a boxplot for the same selected genes divided by sample type after truncation
ggplot(logCPM_brca_99_long %>% filter(rn %in% selected_genes & sample_type == "Primary Tumor") %>% mutate(weird = Sample %in% wiered_samples) ,
       aes(x = sample_type, y = Expression, fill = weird)) +
  geom_boxplot(outlier.shape = NA) +  # No outliers displayed in the plot
  labs(title = "Boxplot of randomly Selected Genes (6) - weird Tumor vs Tumor (Truncated at 99th Percentile)",
       x = "Sample Group",
       y = "Log-Transformed CPM") +
  theme_minimal() +
  facet_wrap(~ rn)  # Separate plots for each gene

brca_batchs_paired %>% filter(groups =="Tumor" ) %>% 
    filter(duplicated(participant)| duplicated(participant,fromLast = T)) %>% arrange(participant) %>% .$participant %>% unique

wiered_participants <-brca_batchs_paired %>% filter(barcode %in% wiered_samples) %>% arrange(participant) %>% .$participant %>% unique
wiered_participants

brca_batchs_paired$tss %>% table

.
 A7  AC  BH  E2  E9  GI 
 22   8 146  22  30   4

brca_batchs_paired %>%filter(participant %in%  (brca_batchs_paired %>% filter(barcode %in% wiered_samples) %>% .$participant %>% unique)) %>%
    arrange(plate, participant,sampleVial,portionAnalyte )%>% mutate(weird = barcode %in% wiered_samples) %>% dplyr::select(participant, sampleVial,portionAnalyte,plate, groups, weird)

brca_batchs_paired %>% arrange(plate) %>% .$plate %>%table

.
A00Z A056 A084 A089 A115 A12D A12P A137 A13Q A144 A14D A14M A157 A169 A16F A17B 
   7   14    3   22   10   32   30   14   30   12   10    6   18    6    2    4 
A19E A19W A21T A22O A277 A466 
   1    2    2    2    4    1

wiered_participants %>% as.character

brca_batchs_paired %>% filter(!participant %in% wiered_participants) %>% .$sample_type %>% table

.
      Primary Tumor Solid Tissue Normal 
                109                 109

brca_batchs_paired <- brca_batchs_paired %>% filter(!participant %in% wiered_participants)
brca_batchs_paired <-droplevels(brca_batchs_paired)
brca_count_paired <- brca_count %>% dplyr::select(all_of(c("rn",brca_batchs_paired$barcode)))

dim(brca_count_paired[,-1])

dim(brca_batchs_paired)

pca_unscaled_uncenterd_brca_count_paired <- prcomp(t(brca_count_paired[,-1]), scale = F, center = F)
plot_PCAs(as.data.table(pca_unscaled_uncenterd_brca_count_paired$x), brca_batchs_paired)

# TODO :
#- Get  metabolized genes ! as well 
#-enhance the venn diagram : only 1 for three of them

#Get hipathia Ensemble genes
hipathia_genes_table <- get_hipathia_ens_genes()
hipathia_genes<-hipathia_genes_table$ensembl_gene_id_version %>% unique

#identify low Expressed genes 
genes0<-rowSums(brca_count_paired[,-1]) 
genes0<-which( genes0 ==0) %>% brca_count_paired[.,1] %>% .$rn

# tradutiona rowSums Vs sofstiucated filterByExpr: TODO: compare the effect of using filterByExpr
agreedOnRemoving <- filterByExpr(DGEList(brca_count_paired[,-1]), 
                                 design = ifelse(meta_data$sample_type == "Solid Tissue Normal" ,1,0), 
                                 min.total.count = 1, min.count = 1)
agreedOnRemoving <-brca_count_paired[which(agreedOnRemoving ==0),rn]

setdiff(genes0,agreedOnRemoving) # all genes 0 are in genes captured with filterByExpr()

# Find common and unique genes: agreedOnRemoving
common_genesEdgeR <- intersect(hipathia_genes, agreedOnRemoving)
only_in_hipathiaEdgeR <- setdiff(hipathia_genes, agreedOnRemoving) ## Here I have to save it somewhere to recheck again !
only_in_genes0EdgeR <- setdiff(agreedOnRemoving, hipathia_genes)
suppressMessages(do_venn_diagram(hipathia_genes, agreedOnRemoving)) %>% grid.draw(.)

# Find common and unique genes: genes0
common_genes <- intersect(hipathia_genes, genes0)
only_in_hipathia <- setdiff(hipathia_genes, genes0) ## Here I have to save it somewhere to recheck again !
only_in_genes0 <- setdiff(genes0, hipathia_genes)
suppressMessages(do_venn_diagram(hipathia_genes, genes0)) %>% grid.draw(.)

hipathia_null_genes_table<-hipathia_genes_table %>% filter(ensembl_gene_id_version %in% common_genesEdgeR)

write.table(x = hipathia_null_genes_table, file = file.path(my_dir, paste0("brca_hipathia_null_genes_",version_of_data,".tsv")), sep = "\t", quote = F,row.names = F, col.names = T)

brca_count_paired <- brca_count_paired %>% filter(!rn %in% only_in_genes0EdgeR)

pca_unscaled_uncenterd_brca_count_paired <- prcomp(t(brca_count_paired[,-1]), scale = F, center = F)
plot_PCAs(as.data.table(pca_unscaled_uncenterd_brca_count_paired$x), brca_batchs_paired)

rm(hipathia_null_genes_table, hipathia_genes_table,only_in_hipathia, only_in_genes0, hipathia_genes, do_venn_diagram, genes0,get_info_counts)

get_object_size()%>%head

# Normalization
dge_brca <- do_normalization(brca_count_paired,brca_batchs_paired,method ="TMM", group_col = "sample_type") 
# Log-transformation
logCPM_brca <- cpm(dge_brca, log=TRUE)
rownames(logCPM_brca)<- dge_brca$rn
logCPM_brca <- as.data.table(logCPM_brca, keep.rownames = T)

logCPM_brca_99 <- truncate_at_percentile(logCPM_brca[, -1], truncation_percentil = 0.99)
rownames(logCPM_brca_99) <- logCPM_brca$rn
logCPM_brca_99 <- as.data.table(logCPM_brca_99, keep.rownames = T)

# Reshape for ggplot (convert to long format)
logCPM_brca_99_long <- melt(logCPM_brca_99,id.vars = "rn", variable.name = "Sample", value.name = "Expression") %>%
    mutate(sample_type= brca_batchs_paired$sample_type[Sample])
# Create a boxplot for the same selected genes divided by sample type after truncation
ggplot(logCPM_brca_99_long %>% filter(rn %in% selected_genes) , aes(x = sample_type, y = Expression, fill = sample_type)) +
  geom_boxplot(outlier.shape = NA) +  # No outliers displayed in the plot
  labs(title = "Boxplot of Selected Genes (6) - Normal vs Tumor (Truncated at 99th Percentile)",
       x = "Sample Group",
       y = "Log-Transformed CPM") +
  theme_minimal() +
  theme(legend.position = "none") +
  facet_wrap(~ rn)  # Separate plots for each gene

pca_unscaled_uncenterd_brca_normalized99 <- prcomp(t(logCPM_brca_99[,-1]), scale = F, center = F)
plot_PCAs(as.data.table(pca_unscaled_uncenterd_brca_normalized99$x), brca_batchs_paired)

res.pca.brca <- PCA(t(logCPM_brca_99[,-1]), graph = FALSE, ncp = 4, scale.unit = F)

fviz_pca_ind(res.pca.brca, geom = "point",  pointsize = 3, addEllipses = T,
             col.ind = brca_batchs_paired$sample_type)

fviz_pca_ind(res.pca.brca, geom = "point",  pointsize = 3, addEllipses =F, ellipse.level=0.95, fill.ind = brca_batchs_paired$sample_type,
             col.ind = brca_batchs_paired$plate)

fviz_pca_ind(res.pca.brca, geom = "point",  pointsize = 3, addEllipses =F, ellipse.level=0.95, fill.ind = brca_batchs_paired$sample_type, 
             col.ind = brca_batchs_paired$tss)

# batch effect if there is : I dont concider that they are batch effect to remove ! but let have a look if data get better

my_mod_brca <-model.matrix(~as.factor(groups), data=brca_batchs_paired)
# Apply ComBat for plate BE
brca_combat4plate <- sva::ComBat(dat = logCPM_brca_99[,-1],
                 mod = my_mod_brca,
                  batch = brca_batchs_paired$plate, 
                  par.prior = TRUE, 
                  prior.plots = FALSE)

Found 2538 genes with uniform expression within a single batch (all zeros); these will not be adjusted for batch.

Using the 'mean only' version of ComBat

Found20batches

Note: one batch has only one sample, setting mean.only=TRUE

Adjusting for1covariate(s) or covariate level(s)

Standardizing Data across genes

Fitting L/S model and finding priors

Finding parametric adjustments

Adjusting the Data

rownames(brca_combat4plate)<-logCPM_brca_99$rn
brca_combat4plate<-as.data.table(brca_combat4plate, keep.rownames = T)

pca_unscaled_uncenterd_brca_combat4plate <- prcomp(t(brca_combat4plate[,-1]), scale = F, center = F)
plot_PCAs(as.data.table(pca_unscaled_uncenterd_brca_combat4plate$x), brca_batchs_paired)

res.pca.brca.combat <- PCA(t(brca_combat4plate[,-1]), graph = FALSE, ncp = 4, scale.unit = F)
fviz_pca_ind(res.pca.brca.combat, geom = "point",  pointsize = 3, addEllipses = T,
             col.ind = brca_batchs_paired$sample_type)

mypca_brca_combat = mixOmics::pca(t(brca_combat4plate[,-1]), ncomp = 5, center = FALSE, scale = FALSE)
plot(mypca_brca_combat)
plotIndiv(mypca_brca_combat, comp = 1:2, col.per.group = levels(brca_batchs_paired$c_by_group), ind.names = 
              FALSE,
          group = brca_batchs_paired$groups,
          # graphical parameters
              style = "ggplot2",
          legend = TRUE, legend.position = "right", 
          legend.title = "Cancer type", 
          legend.title.pch = 'Sample types',              
          legend.pch = FALSE,  # Show point shape in the legend
          ellipse = TRUE, 
          ellipse.level = 0.95)

pca_plotly(pca_unscaled_uncenterd_brca_combat4plate, brca_batchs_paired)

#TODO PLS, heat maps ...

options(repr.plot.width = 15, repr.plot.height = 15)
par(mar = c(0, 0, 0, 0)) 
plot(as.phylo(hclust(dist(t(brca_combat4plate[,-1])), "ward.D")), 
     type = "fan",
     tip.color = levels(brca_batchs_paired$c_by_group)[cutree(hc, 2)],
     label.offset = 1, 
     cex =0.9)

source("utils.R")

p<-do_hc(brca_combat4plate, brca_batchs_paired)
embed_notebook(p) # Feel free to zoom-in and zoom-out ; it's a plotly :)

# Final Check : if the meta data and Gene expression data has the same samples:
all(colnames(brca_combat4plate[,-1]) %in% brca_batchs_paired$barcode) # are all in ?

dim(brca_combat4plate[,-1])

brca_batchs_paired$groups %>% table

.
Normal  Tumor 
   109    109

fwrite(x = brca_combat4plate, file = file.path(my_dir, paste0("BRCA_109Nx109T_paired_normalized_trun99_combat_data_", version_of_data,".tsv")),
       quote = F, append = F, sep = "\t", 
       row.names = F, col.names = T, verbose = F)

fwrite(x = brca_batchs_paired, file = file.path(my_dir, paste0("BRCA_109Nx109T_paired_metadata_", version_of_data,".tsv")),
       quote = F, append = F, sep = "\t", 
       row.names = F, col.names = T, verbose = F)

# The end !

#TODO: Pathway enrichment analysis

	Object	Size
	<chr>	<chr>
1	countdata_list	1613.7 Mb
2	batchs	2 Mb
3	metadata_list	0.7 Mb
4	get_batchs	0.2 Mb
5	change_label	0.1 Mb
6	check_and_install	0.1 Mb

	barcode	sample_type	participant
	<chr>	<fct>	<fct>
TCGA-E2-A15K-01A-11R-A12P-07	TCGA-E2-A15K-01A-11R-A12P-07	Primary Tumor	A15K
TCGA-E2-A15K-06A-11R-A12P-07	TCGA-E2-A15K-06A-11R-A12P-07	Metastatic	A15K
TCGA-BH-A18V-01A-11R-A12D-07	TCGA-BH-A18V-01A-11R-A12D-07	Primary Tumor	A18V
TCGA-BH-A18V-06A-11R-A213-07	TCGA-BH-A18V-06A-11R-A213-07	Metastatic	A18V
TCGA-BH-A1FE-01A-11R-A13Q-07	TCGA-BH-A1FE-01A-11R-A13Q-07	Primary Tumor	A1FE
TCGA-BH-A1FE-06A-11R-A213-07	TCGA-BH-A1FE-06A-11R-A213-07	Metastatic	A1FE

TCGA-A7-A13E-01B-06R-A277-07	TCGA-A7-A13E-01A-11R-A277-07	TCGA-A7-A0DB-01A-11R-A277-07	TCGA-A7-A0DB-01C-02R-A277-07	TCGA-A7-A13G-01A-11R-A13Q-07	TCGA-A7-A13G-01B-04R-A22O-07	TCGA-A7-A0DC-01B-04R-A22O-07	TCGA-A7-A0DC-01A-11R-A00Z-07
<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>
4.699873	5.0921496	5.7039145	4.5904405	5.591442	3.93900229	3.807059	6.014709
-1.101221	-0.7961921	0.1991546	-0.2220211	-1.376363	-0.06550389	-1.853107	-1.966826
4.189540	5.4159087	4.7442972	3.2622698	4.421612	3.05446263	3.837242	5.584697
4.332984	5.1623523	5.3688905	5.0701664	6.247269	5.67310459	4.282318	4.735253
3.862453	4.3591536	4.0085753	3.9825512	4.201083	3.51975195	2.733943	3.650863
1.416184	1.7480988	4.3290317	1.2218983	1.490362	2.16044596	2.170087	0.718840

	participant	sampleVial	portionAnalyte	plate	groups	weird
	<fct>	<fct>	<fct>	<fct>	<fct>	<lgl>
TCGA-A7-A0DB-01A-11R-A00Z-07	A0DB	01A	11R	A00Z	Tumor	FALSE
TCGA-A7-A0DC-01A-11R-A00Z-07	A0DC	01A	11R	A00Z	Tumor	TRUE
TCGA-A7-A0DB-11A-33R-A089-07	A0DB	11A	33R	A089	Normal	FALSE
TCGA-A7-A0DC-11A-41R-A089-07	A0DC	11A	41R	A089	Normal	FALSE
TCGA-A7-A13E-01A-11R-A12P-07	A13E	01A	11R	A12P	Tumor	FALSE
TCGA-A7-A13E-11A-61R-A12P-07	A13E	11A	61R	A12P	Normal	FALSE
TCGA-A7-A13G-01A-11R-A13Q-07	A13G	01A	11R	A13Q	Tumor	TRUE
TCGA-A7-A13G-11A-51R-A13Q-07	A13G	11A	51R	A13Q	Normal	FALSE
TCGA-A7-A0DC-01B-04R-A22O-07	A0DC	01B	04R	A22O	Tumor	TRUE
TCGA-A7-A13G-01B-04R-A22O-07	A13G	01B	04R	A22O	Tumor	TRUE
TCGA-A7-A0DB-01A-11R-A277-07	A0DB	01A	11R	A277	Tumor	TRUE
TCGA-A7-A0DB-01C-02R-A277-07	A0DB	01C	02R	A277	Tumor	TRUE
TCGA-A7-A13E-01A-11R-A277-07	A13E	01A	11R	A277	Tumor	TRUE
TCGA-A7-A13E-01B-06R-A277-07	A13E	01B	06R	A277	Tumor	TRUE

Breast Invasive Carcinoma RNA-seq Data Analysis¶

Introduction¶

Loading Libraries and sourcing needed files¶

Data Acquisition and Preparation¶

Data download scripts¶

Script details¶

Used Shell scripts¶

Data Storage¶

Load previously saved Data (RDS files)¶

Metadata Overview and Initial Data Exploration¶

Examination of Participant and Sample Counts in Tumor and Normal Data¶

Summary of Preservation Methods Across Sample Types¶

Defining batchs and colors¶

Data selection¶

Quality control¶

Normalization TMM¶

Outliers detection¶

Trunction at the 99th percentile: a mild way of reducing outliers impact¶

Possible Problems with outlier samples captured by PCA¶

Data re-selection¶

Filter Lowly Expressed Genes (adapted to our Pathway Activity analysis approache)¶

Normalization TMM and Log-transformation¶

Trunction at the 99th percentile¶

Principal component analysis¶

Batch effect removal using Combat¶

Hierarchical Clustering for Preprocessed Data¶

save data for metabopathia¶

Object	Size
<chr>	<chr>
data	2596.1 Mb
brca_count	290.2 Mb
check_and_install	0.1 Mb
meta_data	0.1 Mb

sample_type	preservation_method	n
<chr>	<chr>	<int>
Primary Tumor	FFPE	16
Metastatic	OCT	3
Primary Tumor	OCT	679
Solid Tissue Normal	OCT	67
Metastatic	Unknown	4
Primary Tumor	Unknown	416
Solid Tissue Normal	Unknown	46

	Object	Size
	<chr>	<chr>
1	logCPM_brca_99_long	326.8 Mb
2	logCPM_brca_long	326.8 Mb
3	brca_count	290.2 Mb
4	logCPM_brca	112.5 Mb
5	logCPM_brca_99	112.5 Mb
6	pca_unscaled_uncenterd_brca_count	107.8 Mb