為什麼基因的編碼很難給出編碼對映？

1樓：Biodesign

不想展開，感覺你有些基礎知識掌握有點少，至少看一下中心法則，也就10min的閱讀量，再來提問比較好。就針對你問的東西寫一下。

首先，先問是不是，再問有沒有。類似字母語言，英文26個字母的排列組合可以產生出非常多種的意思，那麼ATCG四種鹼基的排列組合也能產生出非常多種表達的RNA或蛋白，那麼人們是否掌握了一部分類似英語中的「單詞」，知道某些序列可以表達出某些結果，如果發掘出了這些單詞是靠什麼樣的科學方法實現的呢，這些簡易的編碼對映是如何產生的。按理說中國上世紀就已經人工合成結晶牛胰島素，對於這種密碼破譯應該有所掌握才對。

這當然，而且多數相鄰層級間的對映獲得並不困難，比如DNA對映到蛋白質RNA，蛋白質RNA對映到某個特定的功能，包括某些引數，比如表達量，動力學過程，也可以簡單測量獲得。但這個逆對映並不總是容易的，DNA編碼區和蛋白質/RNA可以不嚴謹得看成一一對映（當然不是，這裡簡化下），但非編碼區就不是了。功能和一級序列的逆對映就更困難了，不過一直是熱點問題，也一直有很不錯的研究進展。

第二，針對這些編碼對映，是否具有泛化能力？在某些高維空間，是否存在這樣乙個高維流形可以存在乙個廣泛的高維對映，類似英文的構詞法或類似密碼產生演算法這樣的東西。人們如何繼續繼續調研出大部分可能的基因表達（構建乙個詞典），現有的基因組測序類似這樣的工作麼？

這個從我個人的視角是可以部分解決的問題，包括逆對映，我也在解決一部分這種問題。當然這並不能解決所有生物問題，但也是非常有幫助的。

第三，獲得了這樣乙個字典後，我們可以如何進行商用？對於我們的未來生活有什麼幫助？

These 37 synthetic biology companies raised $1.2B this quarter - SynBioBeta

有些關係不大，有些還是有關係的，具體我不寫了。

2樓：挽風北籬

單純的DNA層面對映人們還是有一些心得。比如最基礎的三聯密碼子對應氨基酸編碼用了一套「最後一位不那麼重要」的hash，已經完全被破譯，還知道不同物種裡的hash設計略微有些不一樣。

一定長度氨基酸序列大概可以開始組詞，理化性質可以通過片語推斷。目前大概就這麼多能放到字典裡的。

模擬一下搞NLP，假設乙個完整的蛋白是乙個分句，裡面的有意義的氨基酸組單組屬於單詞，組合順序得到片語～～～目前我們所知的大概就到單詞級別，片語所知有限，例句所知有限……所以說到完全解碼（我的理解就是完全理解語意），那還得找到對應可能的所有其它分句（蛋白一般需要好幾個拼裝起來才能搞事情，有點樂高積木的效果），因此對各個分句的排列組合需要一波運算，對鏈結邏輯又需要一波運算……額……按人類語言，這已經一句話說完來了個句號可以開始分析這句話的意思了吧？但是對於這一坨蛋白，很可能你會發現：哦！

原來這一坨才是句子裡的乙個主語/賓語/修飾，這樣……

所以就是解碼需要的計算量很大，所以難。

為什麼基因的編碼很難給出編碼對映？

Python 編碼為什麼那麼蛋疼？

字元編碼與字型的關係是什麼？

mysql 改了預設編碼後為什麼還是不能存中文？

其他用戶還看了：