Análise da sequência e das features presentes no NCBI
Numa primeira fase foi criado um script que permitisse aceder ao NCBI e extrair informações importantes acerca da zona do genoma que nos foi atribuída guardando estas, posteriormente, num ficheiro Genbank. O script elaborado encontra-se abaixo, disponível para consulta.
O ficheiro resultante da execução do script anterior encontra-se também disponível para visualização.
Para proceder à verificação das features comparou-se os resultados obtidos no ponto anterior com a tabela presente no NCBI. O script realizado para poder fazer a validação encontra-se no ficheiro Anotacoes_gene_CDS.py.
De modo a analisar apenas a parte do genoma pretendido foi necessário limitar apenas esta zona que se encontra no ficheiro ProteinTable.txt.
Foi ainda desenvolvido um script que acrescentasse algumas informações importantes relativas aos genes, como a sua função e tradução. Fez-se ainda referência ao número de genes com função definida e com função desconhecida. O script encontra-se no ficheiro complementar.py.
