どうも安定しない。
Windows、落ちる
Radeon VIIを搭載してから、時々意味不明なまでにWindowsが不安定になる事がある。
3月10日の本Blog記事にも同じような内容を書いたが、Windowsが突然暗転し、そのまま操作不能になるというものである。
以前は、Radeon VIIの初期ロットモデルの中にUEFIモードに対応していないものがあり、それが原因かもしれないという切り口で話をしたが、結局私が使用しているRadeon VIIはUEFIに対応済みのものだったので、この予測は該当しないものだった。
その後、安定して動作している時は結構な長時間に渡って稼働させていても問題はないが、調子が悪いときは起動直後からUSBまわりに不安定な挙動が見られたりし、この状態でDirectXを使用したアプリケーションを起動させると、DirectXに問題が出たとエラー表示されて起動出来ず、起動を繰り返すとそこでまた暗転して操作不能という状態になってしまう。時にはQRコードが表示され、システム強制再起動を要求される事もある。
この状態が発動する時の大体の条件は見えてきてはいるのだが、確実性に欠ける部分があるのが問題。その条件見えかけている条件というのが、Radeon Setting内のWattManの設定で「自動GPU省電力設定」にしているという事である。
つまり、GPUの自動設定で負荷がかかっていない時は自動で省電力設定にする、というモードである。
具体的にこのモードで実行されているときの動作電圧は不明だが、省電力動作している時にDirectXが起動しようとして、その時に必要となる電圧に昇圧するまでの時間が長過ぎて負荷に耐えられずDirectXが起動不可、もしくはそのまま落ちる、という症状が出ているのではないか? と予想している。
ただ、問題なのは必ず「自動GPU省電力設定」の時にだけ発生するのではなく、時には「自動オーバークロック設定」の時にも同じ症状が出るのである。
これはもう安定していると確実に言えるレベルではないので、ドライバ側の問題なのか、それとも私の所有している個体の問題なのか、現時点では判断できない状態にある。
個体差としては変
ただ、個体差だとしても変な挙動である事は間違いない。
もし個体差だとすると、そうした変化に対応できない個体という事になるわけだが、同条件下で安定して動作する時もあるのである。
しかもこのような問題のある挙動になる確率はというと、とてつもなく低いのも事実で、普通に使えている事の方が圧倒的に多い。
もしハードウェア的な問題で個体に問題があるとすれば、もっと頻繁に問題が発生するハズであるし、ほぼ毎回システム再起動要求がOSから来るはずである。
しかし、実際は安定動作する事の方が多いワケで、私としてはハードウェア的な問題ではないような気がしている。
では何が原因なのか?
考え得るに、ドライバが全ての個体を安定動作させられる設定になっていないような気がしてならない。
既にAMDはWHQL版だけでなく、Radeon Software Adrenaline 2019 Edition 19.3.1や19.3.2といった、Optional版ドライバを提供しているが、こうしたOptional版は特定のゲームタイトルに向けた最適化版だが、まずはより安定動作するドライバの提供を急ぐべきではないかと考える。
よく見たら…
ただ、ドライバのOptional版の最新版にあたる19.3.2の既知の問題を確認すると、以下のような内容が見受けられる。
- Radeon VII搭載環境でRadeon OverlayのPerformanceメトリックおよびRadeon WattManがGPUの挙動を正しく読み取れないことがある
要するに、Radeon VII搭載環境では、WattManがGPUの挙動を正しく読み取っていないという事である。前述した私の予想は、やはり外れてはいなかったのだ。
通常、自動設定にしておけばかかった負荷に応じた対応が行われるもの、と思い込む。ところが実際はGPUの挙動を正しく読み取っていないとなると、仮に必要な電圧値があったとしてもそれを読み取れず、結果として昇圧しないまま稼働させGPUが不安定化する事になる。おそらく、私の環境の問題は、ここに原因があるように思えてならない。
安定版が出るまで
とりあえず、今回のような問題が起きるので、WattManの設定は今しばらく「手動」設定のままにする事で対応しようと思っている。
「手動」の場合、規定値での電圧で一定動作する設定になっているハズなので、ドライバがGPUの挙動を読み取る必要が無い。仮に読み取ったとしても規定値動作なので問題が起きないものと思われる。
省電力でもハイパフォーマンスでもないが、こういう運用方法でしばらくは凌ぎつつ、安定版のドライバが出るまで待つ、というのが、今の対応になりそうである。
Vega64の時にはこうした問題はなかったように思えたのだが、何故にRadeon VIIになるとこうした問題が頻発するのだろうか?
やはり準備不足のまま提供を開始した、というツケがまだ払いきれていないという事なのだろうか。
ただ、気になる事もある。
それはネット上ではRadeon VIIによるWindowsの不安定な挙動に関して問題提起しているサイトを見かけないという事である。
そうなると、私の手中にある個体の問題という可能性も捨てきれないわけで、今以て何が正しい回答なのかが見えてこない。
この問題、ホントに他では出てない話なのだろうか?
何をするにしても情報が実に乏しいため、真実がなかなか見えてこない。
どうすりゃいいのさ(-_-;)
RADEON VIIの不具合情報を探してこちらにたどり着いたものです。
当方でも似たような状況で、初期不良扱い等で通算3枚試しましたが、同様な状況で手を焼いています。
chill有効時にGPU負荷が急激に変動すると画面が一瞬ブラックアウトして、ソフトによってはその後も画面上に激しく黒い横筋ノイズが走ります。その後にフルスクリーン解除すると、確実にフリーズまでいく状況です。
cillを無効化して、コア電圧の最低値を900mV程度に設定すると症状が緩和されるような気もしますが……
なにかと情報が不足してますので、こちらで意見交換ができれば幸いです。
返信
情報、ホントに少ないですよね。それだけ流通している数が少ないという事なのでしょうか。
というか、そもそも900mV程度まで電圧を落として使っている人は少ないように思います。
おそらく、規定値の-10%(大凡974mV)程度で安定するレベルで標準、規定値の-15%(大凡920mV)で安定するレベルでアタリ…そんな感じじゃないかと個人的には思っています。…普通はもっと行けるのかな?
ウチなんて、現時点では-10%でも不安定になるので、900mVはスゴイとしか思えませんが…。
あと、今分かっているのは、Radeon WattManがGPUの挙動を正しく読み取れないようなので、自動で電圧を上下させるような設定はトラブルの原因になるような気がします。
Radeon WattManの設定が手動であれば、GPUの変化を察知する必要がないのでいくらでも電圧を低く設定できますが、それだけだと急激な負荷で最終的には落ちてしまいますので、その負荷をどこまで受け入れるかの設定がちゃんと働いてくれれば、最低必要電圧で動作してくれるんじゃないかと思います。
逆に低電圧でも動作可能な設定とかあれば是非教えてください。
でも個体差によって変わるし、私は多分ハズレを引いているかもしれないからなぁ…。
返信
WattManがGPUの挙動を正しく読み取れない…というのをヒントにプロファイルをいじっていたら、なんとなく当たりを引いたっぽいのでご報告させていただきます。
2ステップのテストで改善が図れるかもしれないです。
1、GPUの「最低」駆動電圧(デフォルトだと808MHz:772mV)を800mV程度に上げてみる。
2、曲線の真ん中あたり(50%?)にあるポイントを直線になるぐらいか、初期の逆カーブになる程度に上げてみる。
低負荷時やアイドル時に不具合がおこる個体は1で対策できそうですが、40~60%負荷時に障害がおこる個体は2の対策も必要そうです。
どうやら、ハズレ個体はクロックが低いところの電圧もデフォルトほど下げられない予感がします…
うちの個体でいけたプロファイルの数値を記していきます。
808MHz:787mV
1304MHz:922mV
1801MHz:980mV
返信
GPUの駆動電圧グラフを逆ざやにするというのはアリかもしれません。
少なくとも、GPUの挙動をドライバが正確に検知して自動設定できるまでは、手動で多少変動値を予測して高めに電圧設定するだけでも安定する可能性はあると思います。
ただ、この時に気をつけないといけないのは、FANの稼働設定も多少見てやらないと冷却が間に合わない可能性があるという事です。
デフォルトの設定ではまだ最大値までFANを回していないようなので、中間電圧の時も多少冷却強めにすれば安定する可能性が高いと思います。
ウチの個体では、最小クロックはデフォルト設定で問題なさそうですが、最大クロックで1000mVを下回るのは結構冒険かもしれません。
中間クロックでももう少し電圧下げられればいいんでしょうが、今の所デフォルト一択な感じです。
情報、ありがとうございました。
返信
続報?
不安定要素に仮想超解像度が影響している様な…?
仮想超解像度が無効状態だと安定動作するが、有効にした途端にありえないほど不安定になります。
まだ確定まで至るほどケースを確認できていませんが…
返信
仮想超解像度機能ですか。
たしかにVSRは異常なまでに負荷がかかりますね。
処理そのものも負荷がかかりますし、拡張する解像度にもよりますが、何よりメモリ使用量がかなり多くなると思われます。
メモリが原因なのかなぁ…。
とりあえず、海外含めて同様の事を何か書いてあるサイトがあるか調べましたが、見つかりませんでした。
探し方がマズイのかは別として、新しい発見かもしれません。
私もいろいろとやってみようと思います。
返信
仮想超解像度、試してみました。
ウチの環境では…有効にしても動作は安定してますね。
あ、電圧は通常電圧(1084mV)なので、低電圧でやれば不安定にはなりますが。
ただ、感覚的な話で申し訳ないんですが、ドライバとハードウェアとのマッチングは良くない感じが相変わらずします。
何て言うか…設定触ってて不安に感じるドライバってのはいかがなものかと…。
もう少しドライバの熟成が必要なんじゃないかと思います。
返信
とりあえず安定動作確保出来ましたが、正直なところ意味不明な不具合としか言いようがなくて、ドライバの未成熟となんだろうなぁ…程度の感想しかないです(笑)
当方、勢い余ってCFに水冷化で構築したこともあり、引くに引けない状況で苦悶しておりました。
こちらでの情報が少なからず改善の糸口になりましたので、ありがとうございました。
はやいところ、ドライバの改修をしてほしいですね…
返信
あまり有効な情報が出せずに申し訳ありませんでした。
正直言いまして、私も特定できるキッカケがまるで見えてこないので、これはもうドライバを疑うしかない、という結論しか出てこなかったところがあります。
実際、ハードウェアからの情報をちゃんと取得できていない段階でドライバがまともにハードを制御できているとは言えないので、不具合が出ても仕方が無い状況と思います。
公式にはまともなドライバを早急に提供戴きたいなぁと、切に願うところです。
しかし、CFX&水冷…なんて羨ましい環境なんだ(爆)
返信