對生物大分子進行第一性原理計算一般採用什麼code？

1樓：「已登出」

其實有不少方法

正常情況下對生物大分子會用力場來算，但是力場有幾個問題，第乙個就是基本不能描述化學反應，雖說也有像ReaxFF之類的反應力場，但是相對於常用的QM方法來說還是精度太次了。第二個就是力場引數普適性，在生物分子裡常用的Amber力場，對於含有金屬的生物分子描述極爛，有的原子或者價態就沒有定義，而不同力場描述的側重點不一樣，很難做到普適。

這也是為什麼要用基於量子力學的方法來處理很多問題。主流的做法是QM/MM MD方法，簡單地說就是我需要精確描述的地方，比如催化反應的部分或者藥物分子結合的部分，採用QM方法精確計算，而周圍其他不相關的部分用力場描述。在QM/MM流行之前的時候會採用簇模型來處理，也就是把周圍相關的殘基固定，然後正常跑QM，但這樣的計算方法對於反應過程中大分子構象發生改變的情況無能為力。

然後說下純QM方法，前面有人說了暴力硬算的TeraChem，不過這玩意用的人很少，文章也不多，下面也簡單介紹一下好了，主要的我就說幾個我熟悉的好了。

最早的其實是軌道局域化結合半經驗SCF方法來處理，James J. P. Stewart在Int.

J. Quantum Chem. 1996, 58, 133中提出的方法，也就是MOZYME，現在是MOPAC軟體包裡獨家提供的方法，可以結合各種半經驗方法，包括PM6及各種校正系列(PM6-D3H4等等)及PM7等等。

這玩意算大體系的速度非常的快，在QM方法中幾乎無可超越，當然作為代價精度比較低，對於一些非典型的成鍵模式很不靠譜，雖說在生物大分子中這種東西幾乎不存在。MOPAC軟體包最早是開源免費的，現在免費但是不開源了，license自己發郵件要就好了。可以結構優化，限制性優化等等。

MOPAC貌似還有個版本是ADF裡面的收費版，其實貌似就是給做了個GUI，但是貌似版本號也有點區別，申請的免費版還是2016，但是ADF裡面已經2019了，沒用過不知道啥情況。

這個軌道局域化的方法靠不靠譜呢？看一下原文裡面

計算了幾個小分子，在小分子下，MOZYME花的時間還更多一點，但這無關緊要，畢竟按照95年的機器也只需要幾秒鐘而已，換到蛋白質這樣的大結構會怎麼樣呢？

emmmm即使是半經驗的MOPAC，複雜度也是N3，但是用了MOZYME之後，隨著體系的增大加速比逐漸提高，不過這裡絕對時間不用看，畢竟是95年的機器。但光看這個比例已經足以體現MOZYME的強大，計算結果(能量)沒社麼差別，但是計算需要的時間下降得飛快，在那個年代算4000多個原子的體系基本上是不可能的事情，想都不要想，但是MOZYME做到了，而且結果至少相對於不使用局域化軌道來說沒什麼區別，這表明了在生物大分子著各種基本上成鍵方式比較典型的體系裡，使用局域化軌道是非常合理的。

當體系更大的時候，這個比例會更加嚇人。用MOZYME對bacteriorhodopsi蛋白做限制性優化，加速比更是能夠上萬。SCF所需時間只有幾百秒，不使用局域化軌道的話，第一次SCF所需時間長達93天。

emmmm，可見該方法的強大。

然後再說個新一點的，也是是類似半經驗DFT方法，波昂大學的Stefan Grimme提出的xTB方法，這玩意最早源自計算巨大體系激發態的方法。在J. Chem.

Phys. 2016, 145, 054103中提出了一種基於半經驗DFT然後用sTDA方法計算激發能的方法，xTB可能是從這玩意發展出來的，第一代是GFN1-xTB，在J. Chem.

Theory Comput. 2017, 13, 1989中提出，可以正常的做振動分析，結構優化之類的任務，主要可以用來搞一些類似MOF的團簇之類的以及一些非共價作用的體系，也用這玩意去優化了一下蛋白質，跟晶體比較RMSD還是很小的。過了兩年，在J.

Chem. Theory Comput. 2019, 15, 1652中，進一步提出了GFN2-xTB，加入了新的基於電荷密度的色散校正，對於以非共價弱相互作用為主的體系計算精度也有了不小的提公升。

照理說可以用來算生物大分子，在後面的研究中證實確實可以，比如蛋白之類的，不過在這篇Angew. Chem. Int.

Ed. 上還在Early View的文章裡看(https://

doi.org/10.1002/anie.20

2004239

)，這玩意在算蛋白之類的生物分子上跟自家的GFN-FF力場半斤八兩(吐槽一下這力場，形式複雜的一塌糊塗，計算速度比一般力場慢乙個數量級，在非反應力場裡基本面也沒誰了，還能加隱式溶劑模型，現在生物分子模擬用的最多的Gromacs在2018以後已經沒有隱式溶劑模型了)。至於支援的程式的話，GFN2-xTB只有他自己的xTB程式支援，不過可以跟Gaussian，Orca之類的聯用來做一些複雜的功能，但這跟生物大分子基本沒啥關係了。其實優化蛋白這事情來說還是很耗計算資源的，即使是GFN1-xTB方法，優化乙個6000個原子的蛋白大概需要200多G記憶體，GFN2沒試過不太清楚，肯定是要的更多，不過好歹是算得動了。

用各種力場/GFN2-xTB去優化蛋白結構，然後跟晶體比較。總體結果來看這個好於最常用的AMBER力場，比OPLS2005稍差一點，跟自家的GFN-FF半斤八兩。UFF這種號稱啥都能用但是啥都一坨的力場在這裡就是襯托。

當然這篇文章主要是為了吹自家的GFN-FF，不過也至少說明了GFN2-xTB在生物大分子計算裡面，也還是可以給出定性的結果的。新的OPLS力場現在好像是Schrdinger軟體專屬的，看起來還行，軟體賊貴。

如果體系小一點，那能用的方法就多了，當然精度也更高。先看下精度最高的。在普通QM計算裡面，沒有強的靜態相關的情況下，金標準是CCSD(T)，然後這玩意一般情況下只能處理最多十幾個原子的體系。

馬普所的Frank Neese在J. Chem. Phys.

2015, 143, 034108中提出了基於局域化自然軌道的CCSD(T)方法，也就是DLPNO-CCSD(T)，並且在後續的J. Chem. Phys.

2016, 144, 024109中，用這個方法計算了蛋白這樣的生物分子。事實證明這玩意是算得動的，在J. Chem.

Phys. 2018, 148, 124117中，又結合分片方法可以幹更大的體系。在小分子的計算中，使用tightPNO設定(ORCA程式)，和正宗的CCSD(T)誤差大概不超過1kJ/mol (J.

Chem. Theory Comput. 2015, 11, 4054)。

好方法是好方法，但是有幾個問題。這個方法只有能量，沒有解析梯度，也沒有辦法輸出波函式(至少現在，orca4.2.

1版本，不過乙個數值近似求能量的方法，要求也不能太高，其實能輸出CCSD(T)及以上級別波函式的程式也沒幾個)，不能用來結構優化也不能後續分析，但是用優化好的結構精確計算相互作用能是可行的。而且事實上就結構優化來說低精度的方法已經足夠了，這在QM計算當中也算常識了。支援DLPNO-CCSD(T)方法的程式只有Frank Neese自己主導開發的ORCA，學術免費，不開源。

稍微能處理更大的體系並且能用來做構型優化，過渡態搜尋的，就是在RI近似支援下的各種常規DFT方法，先說GGA，因為GGA泛函在RI-J加速下計算非常的快，根據Phys. Chem. Chem.

Phys. 2017, 19, 32184測試，GGA裡面BLYP-D3計算氫鍵之類的弱相互作用很好(不過在色散主導的相互作用裡不咋樣，對於氣態苯二聚體或苯-六氟苯二聚體的結構描述就明細那有問題)，在ORCA下，用這類GGA結合RI-J，對於一些不算很大的生物大分子，結構優化是完全算得動的。雜化泛函由於庫倫部分在大體系下即使使用RIJCOSX近似加速，這是Neese在Chem.

Phys. 2009, 356, 98中提出的方法，但是價效比比起GGA配合色散矯正其實沒啥優勢。軟體包的話主要還是ORCA，不過至於RI近似/密度擬合加速，其他程式比如PSI4也不錯，當然PSI4主要是由其他的用途，Turbomole也支援的不錯，不過沒用過不知道

除此以外，還有一些廉價方法，比如Grimme在J. Comput. Chem.

2013, 34, 1672中提出的HF-3c方法，比起之前的半經驗SCF明顯是要好得多，當然耗時也高得多，還有J. Chem. Phys.

2018, 148, 064104中提出的B97-3c方法，對於不算太大的體系也都是幹的動的，當然也包括不算那麼大的生物大分子。軟體包的話當然還是ORCA和PSI4，至少PSI4裡面PBEh-3c速度還是蠻快的。

前面說的都是「道」這個層面的問題，也就是通過物理模型的處理，減少需要的絕對計算量。而另乙個層面就是「術」，也就是需要算的東西東西還是那麼多，但是我能夠更有效的利用現在的硬體資源或者說在誤差允許的情況下更高效的利用計算資源。採用的物理模型則沒有發生變化。

這個層面做的好的就是前面提到的TeraChem了。最早是Todd J. Martínez在J.

Chem. Theory Comput. 2008, 4, 222中搞得基於GPU的雙電子積分方法，當時就立刻對256個原子的DNA複合物開刀了，就是下面圖上這個玩意，計算庫侖矩陣的時間是19s，而用常見的CPU量化軟體GAMESS在按摩店的CPU上整要1600s。

後面就是在J. Chem. Theory Comput.

2009, 5, 1004中給出了直接SCF的方法，算了一系列也不算生物大分子的玩意，畢竟那個時候顯示卡還不太行。用了單雙精度混合的方法，誤差控制還是不錯的，加速比例從十幾倍到幾百倍不等。這種加速比例看看就好，跟之前MOPAC裡MOZYME的並不一樣，這玩意根本就不是所謂的公平對比。

能計算能量了當然不夠，在下一步就是要算梯度了，在J. Chem. Theory Comput.

2009, 5, 2619中給出了計算梯度的方法，能算梯度了也就是可以進行幾何優化和做AIMD了。先說幾何優化，優化了下面這個分子，當然基組很小，從能量來看跟基於CPU的GAMESS沒啥區別，然後又是神一樣的加速比，聽聽就好，後面的AIMD就不上圖了。

然後來簡單說一下TeraChem的所謂加速比例，那個官網上的加速比例嚇人的很，但是實際跑起來並沒有那麼誇張，他每次用來祭旗的GAMESS在量化計算軟體裡遠遠算不上快，至少比某不能說姓名的軟體要慢不少。而我前面說道的速度巔峰ORCA跟TeraChem的計算速度估計至少是乙個級別的，不會差很多，他那個加速比例要使用GPU上的n個處理單元去跟CPU的乙個核比到是有可能。。。。。從另乙個角度來說，同價位的CPU/GPU伺服器在計算速度上，TeraChem估計也沒什麼優勢了。

再就是去簡單看了下TeraChem的功能，至今不支援解析Hessian，這會導致相當多的任務沒有辦法進行，半數值Hessian的計算量隨著自由度線性提高，而且是乘在單次梯度計算上的，所以基本沒有什麼實際意義。再就是TeraChem支援的DFT型別也很有限，也不支援高角動量基函式以及貴得一筆。。。。不過這玩意其實也不是乙個常規意義上的量化軟體，主要應該還是用來做AIMD的，不過隨著ORCA崛起之後估計市場也有限吧，還賣的賊貴。

因為從頭計算其實涉及到幾個問題，第一是基態還是激發態，第二是要算能量還是要算過程。前面說的所有方法都是用來算基態的，激發態是另乙個問題。而要算能量，顯然這些方法都可以，而要算過程就有不一樣的要求了。

做結構優化至少要獲得受力，也就是能量對自由度的梯度，對於生物大分子這種原子數很多的體系，數值導數是不可接受的，至少是能有解析梯度的。所以說結構優化的任務要用RI加速的DFT方法而不是DLPNO-CCSD(T)這種，而要計算反應，搜尋過渡態，則需要得到力常數，也就是二階導數，這就需要做振動分析，而所有QM方法對於很多自由度的體系做振動分析都是不現實的，這也是QM/MM方法以及簇模型的方法存在的必要性。

對生物大分子進行第一性原理計算一般採用什麼code？

大分子和小分子用什麼儀器辨別

小分子的玻尿酸和中大分子的玻尿酸有什麼區別？

大分子團水（自來水）燒開後，會不會成為小分子團水？

其他用戶還看了：