遺伝子やゲノムの分野で重要性を増している情報分析のプロセスの一つ。英語のアノテーション(annotation)は「注釈を付ける」という意味だが、ゲノムアノテーションとは文字通り、ヒトの細胞から得られたゲノムの情報に対して、それぞれが何を意味していくのか、注釈を付けていくプロセスを指す。

ゲノム配列に意味付けをする

 ヒトゲノムは、「A(アデニン)」「T(チミン)」「G(グアニン)」「C(シトシン)」という4種類の塩基と呼ばれる分子が約30億並んだDNA(デオキシリボ核酸)という物質からなっている。人が体を動かしたり、呼吸したりできるのは、こうしたゲノムの情報に基づきタンパク質を作り出しているからだ。ゲノムが「人体の設計図」と表現されるのは、まさに人の生命を保つための大本だからだ。

 設計図を構成しているDNAの塩基配列などの情報を読むことを「ゲノム解析」という。ゲノムの情報を読むことにより設計図を得られるが、DNAの塩基配列を読み取っただけでは、その設計図の各部分が何を意味するかまでは分からない。そこで「読み取ったデータがどのようなタンパク質などの情報にひも付けられるのか」という意味付けをして、“翻訳”する必要がある。

 ゲノムアノテーションは、ゲノムに関する国際的なデータベースや論文の情報に照らしながら、既知のタンパク質などに対応したDNA配列を探っていくことで行われる。ゲノムに関連した研究報告は過去に2800万近くも存在し、膨大な情報に基づいて照合が進められる。翻訳の過程を経ることで、ゲノムの中にタンパク質に対応した部分、そうではない部分を判別するほか、対応したタンパク質などがどのような機能に対応していくのかを浮かび上がらせることが可能となる。

 アノテーションのプロセスがあって初めて、得られたゲノム配列が示している設計図の全体像を知ることができる。