О компьютерной базе ДНК
Молекулярная баз данных последовательностей, таких, как в EMBL Ген, и Entrez содержать миллионы последовательностей ДНК заполнение многих тысяч гигабайт компьютерной емкости последовательностей. Почти каждую новую научную публикацию в области генетики и смежных наук, новые последовательности добавляется и скорость, с которой эти данные накапливаются на подъеме.
Эти последовательности играют жизненно важную роль в ходе медицинских исследований, диагностики заболеваний, а также проектирование и разработку новых лекарств. Однако,
Последовательностей ДНК состоят из четырех различных базах маркировкой, C, G и T. Каждая база может быть представлена в компьютерном коде двух символов двоичной цифры, две биты, другими словами, (00), C (01), G (10), Т (11). На первый взгляд, можно представить, что это наиболее эффективный способ для хранения ДНК.
Последовательностей ДНК, однако, не являются случайными, они содержат повторяющиеся разделы, палиндромы и другие функции, которые могут быть представлены меньше бит, чем это требуется, чтобы изложить полную последовательность в двоичной системе. Повторяю модель можно было бы сократить по меньшей бинарный эквивалент "шесть раз, G", например, которая будет несколько короче, чем биты явным письменной форме "GGGGGG" в двоичной системе. Аналогичным образом, палиндромы можно было бы сократить в коде по сравнению с их дополнительными закономерность в последовательности ДНК.
Многие пользователи компьютеров знакомы со сжатием программное обеспечение, которое можно удалить "лишние" кода из музыкального файла - производить MP3 - или изображение - сделать JPG. Однако, эти методы сжатия потери информации. Менее знакомый многим пользователям методы сжатия без потерь FLAC такие, как для звуковых файлов, изображений TIFF, а "ZIP" формат для документов и других файлов. Сжатие без потерь использует повторы, палиндромы и модели присутствуют в цифровые данные, чтобы уменьшить общий размер файла в вопросе.
Теперь, Тайсир Солиман Факультет Компьютерных и Информационных на Асьют университета и его коллеги Тарек Гариб, Alshaimaa Або-Алеан, М. А. Эль-Палчев Факультет компьютерных и информационных наук, в Ain Shams University, разработали алгоритм сжатия без потерь , которая работает с цифровыми последовательностями ДНК, чтобы сократить объем памяти ЭВМ, необходимый для каждой последовательности.
LCA достигает лучшего сжатия, чем существующие алгоритмы сжатия для ДНК, таких как GenCompress, DNACompress и DNAPack, команда говорит. Такой же подход может быть также использована для белковых последовательностей.
Алгоритм сжатия также могут иметь прямое применение в исследованиях ДНК, группа предлагает. Они сейчас изучает пути, в которых результаты сжатия могут быть использованы при дифференциации между участками ДНК, которые кодируют белки и те, в той последовательности, нет, так называемой некодирующей регионов.
|