為什麼基因的編碼很難給出編碼對映?

時間 2021-05-30 11:27:47

1樓:Biodesign

不想展開,感覺你有些基礎知識掌握有點少,至少看一下中心法則,也就10min的閱讀量,再來提問比較好。就針對你問的東西寫一下。

首先,先問是不是,再問有沒有。類似字母語言,英文26個字母的排列組合可以產生出非常多種的意思,那麼ATCG四種鹼基的排列組合也能產生出非常多種表達的RNA或蛋白,那麼人們是否掌握了一部分類似英語中的「單詞」,知道某些序列可以表達出某些結果,如果發掘出了這些單詞是靠什麼樣的科學方法實現的呢,這些簡易的編碼對映是如何產生的。按理說中國上世紀就已經人工合成結晶牛胰島素,對於這種密碼破譯應該有所掌握才對。

這當然,而且多數相鄰層級間的對映獲得並不困難,比如DNA對映到蛋白質RNA,蛋白質RNA對映到某個特定的功能,包括某些引數,比如表達量,動力學過程,也可以簡單測量獲得。但這個逆對映並不總是容易的,DNA編碼區和蛋白質/RNA可以不嚴謹得看成一一對映(當然不是,這裡簡化下),但非編碼區就不是了。功能和一級序列的逆對映就更困難了,不過一直是熱點問題,也一直有很不錯的研究進展。

第二,針對這些編碼對映,是否具有泛化能力?在某些高維空間,是否存在這樣乙個高維流形可以存在乙個廣泛的高維對映,類似英文的構詞法或類似密碼產生演算法這樣的東西。人們如何繼續繼續調研出大部分可能的基因表達(構建乙個詞典),現有的基因組測序類似這樣的工作麼?

這個從我個人的視角是可以部分解決的問題,包括逆對映,我也在解決一部分這種問題。當然這並不能解決所有生物問題,但也是非常有幫助的。

第三,獲得了這樣乙個字典後,我們可以如何進行商用?對於我們的未來生活有什麼幫助?

These 37 synthetic biology companies raised $1.2B this quarter - SynBioBeta

有些關係不大,有些還是有關係的,具體我不寫了。

2樓:挽風北籬

單純的DNA層面對映人們還是有一些心得。比如最基礎的三聯密碼子對應氨基酸編碼用了一套「最後一位不那麼重要」的hash,已經完全被破譯,還知道不同物種裡的hash設計略微有些不一樣。

一定長度氨基酸序列大概可以開始組詞,理化性質可以通過片語推斷。目前大概就這麼多能放到字典裡的。

模擬一下搞NLP,假設乙個完整的蛋白是乙個分句,裡面的有意義的氨基酸組單組屬於單詞,組合順序得到片語~~~目前我們所知的大概就到單詞級別,片語所知有限,例句所知有限……所以說到完全解碼(我的理解就是完全理解語意),那還得找到對應可能的所有其它分句(蛋白一般需要好幾個拼裝起來才能搞事情,有點樂高積木的效果),因此對各個分句的排列組合需要一波運算,對鏈結邏輯又需要一波運算……額……按人類語言,這已經一句話說完來了個句號可以開始分析這句話的意思了吧?但是對於這一坨蛋白,很可能你會發現:哦!

原來這一坨才是句子裡的乙個主語/賓語/修飾,這樣……

所以就是解碼需要的計算量很大,所以難。

Python 編碼為什麼那麼蛋疼?

知則 簡單來說,所有需要儲存成檔案或者傳輸資訊的地方都用 UTF 8 編碼,所有程式中的變數都是用內建的支援 Unicode 字元的 string 型別,很大一部分這種問題就會消失。如果再注意一下不要直接把編譯後的位元組流當成字串處理,就更好了。如果你硬是覺得 Unicode 提供的碼表和三套 UT...

字元編碼與字型的關係是什麼?

乙隻會飛的豬 比如Windows 裡分為兩種型別的編碼系統,其實就是兩個系統編碼函式,用於轉換字串為unicode,乙個是 codepage,這個是可以在系統中切換語言選項中進行切換的,代表當前的位於unicode表中的第幾頁,另乙個是UTF 16的小端序,這個是自windows 2000 之後就開...

mysql 改了預設編碼後為什麼還是不能存中文?

張瀟 修改鏈結字串 jdbc mysql localhost 3306 dbname?characterEncoding utf 8 設定資料庫字符集為utf8,如果是通過php之類的插入資料,在連線資料庫的時候再設定字符集。有興趣可以參考下這裡 http www. 石平 我想你想表達的應該是 my...