Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.

Dismiss

汎用普遍型変遷変換器 ( ユニバーサルトランスフォーマ ) 論文翻訳 ( Was : 電子頭脳設計概要 2280120200-8001120200 版 )

37 views

Skip to first unread message

YAMAGUTIseisei(MasinZenmetu)

unread,

Feb 21, 2024, 9:38:23 AMFeb 21

GoogleGroups 仕様変更に伴いユニバーサルトランスフォーマ論文翻訳加筆再ポスト

YAMAGUTIseisei wrote:
> Subject: 電子頭脳設計概要 2280120200-8001120200 版
> Date: Fri, 08 Oct 2021 09:18:49 +0000
> Message-ID: <sjp2hf$glb$1...@dont-email.me>
> References: <54C4B4E9...@hello.to> <5561E704...@hello.to> <55645EAA...@hello.to> <55745BE2...@hello.to> <55ACFE56...@hello.to> <55E2830C...@hello.to> <55EBB46...@hello.to> <55F4C0BC...@hello.to> <560130D5...@hello.to> <560131AA...@hello.to> <mu5nof$hfq$1...@dont-email.me> <57CC1878...@hello.to> <59B5507B...@hello.to> <5AE59DD...@hello.to> <5AEF6019...@hello.to> <5B549B9B...@hello.to> <5B6E4792...@hello.to> <5B6F16C6...@hello.to> <5B900C52...@hello.to> <5B9D416...@hello.to> <5BBA1756...@hello.to> <5BDEBB5B...@hello.to> <5C28DFDA...@hello.to> <5C3B5446...@hello.to> <5C497BFF...@hello.to> <5C4F2D4...@hello.to> <5C697A9B...@hello.to> <5C8688FA...@hello.to> <5CC5C378...@hello.to> <5D21CF77...@hello.to> <5D6D2AF3...@hello.to> <5D9A7735...@hello.to> <5DDBD2B8...@hello.to> <r2brea$6eu$2...@dont-email.me> <5E9C8AA5...@hello.to>
> In-Reply-To: <5E9C8AA5...@hello.to>
>
シンギュラリティ系有料メールマガジン発行を構想致しております
無料メールマガジン版 ( 別途有料版開始時打切 )
http://mailux.com/mm_dsp.php?mm_id=MM53D8AF3589BC7

設計概要自体の代りに周辺情報 ( 論文翻訳等 ) をお届け致しております

YAMAGUTIseisei wrote:
>>>>>> Google 翻訳 14 Jul 002018 04:42:27 UTC http://arxiv-vanity.com/papers/1807.03819v1/# http://arxiv.org/abs/1807.03819# ICLR2019で会議論文として発表されました。 2018年7月10日に提出
>>>>>> ? ry を反応性の高い Web ry 、PDFをすこぶる必要 ry 。
>>>>>> Arxiv VanityはArxivの学術論文をレスポンシブ Webページとしてレンダリングするため，PDF に眉を顰める必要はありません。
>>>>>> 私たちは皆さんにジミーウェールズを全部集めたくはありませんが、もしあなたがそれを好きなら、数ドルをチャックしたら本当に感謝しています。
>>>>>>
>>>>>>━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
>>>>>>
　汎用普遍拡張型トランスフォーマ ( 訳注 : 汎用 ⇔ 汎用途 )
>>>>>>
>>>>>>───────────────────────────────
>>>
>>>>>> 　Mostafa Dehghani * † ＆Stephan Gouws *
>>>>>> 　アムステルダム大学　Google Brain
>>>>>> 　 dehghaniATuva nl sgouwsATgoogle
>>>>>>
>>>>>> & Oriol Vinyals ＆Jakob Uszkoreit ＆￡ukaszKaiser ? \ AND ry
>>>>>> ディープマインド　Google Brain 　Google Brain
>>>>>> vinyalsATgoogle 　uszATgoogle lukaszkaiserATgoogle
>>>>>>
>>>>>>
>>>>>>
>>>>>> * 家計の名前のアルファベット順の均等な貢献。
>>>>>> † GoogleBrainで行われた作業。
>>>>>>
>>>>>> プレプリント。進行中の作業。
>>>>>>
>>>>>>
>>>>>> 訳注
>>>>>>
汎用 : 汎用 ⇔ 汎用途
ユニバーサル : ( 用途としてわ勿論の事 ) 内部設計として汎用普遍な ( = AGI ≠ ジェネラリスト AI ( 超強力弱い AI ) ≠ 強い AI ≒ ( 弱い ) ALife )
繰り返し ( イテレート ) : 反復
反復/繰り返し ( リカレント ) : 再帰
自己 : ( 自己 ) 再帰 ( 的 ) な
注意 : アテンション , 紐付 , 接続 , 結合 , リファレンス/ポインタ/アドレス
並行 : ( 今回の実装としてわ ) 並列同時並行 ( 並行又並列の定義にわ諸説あり )
変換 ( トランスフォーム ) : 変遷 ( 的 ) 変換 , ( 準動的 ) 変容
変換 ( コンバート ) : 変換

>430 ー 220517 1848 AIb3t992
:
>http://mixed-news.com/en/deepmind-is-gato-a-precursor-for-general-artificial-intelligence/
:
>Ultimately, this could lead to a generalist AI model that replaces specialized models.
これわ究極的にわ、特化型モデル群を置換える単一万能選手 ( 或いわ人格システム ) 風 AI モデルゑ導く見込。

> 抽象
>
> ? 自動翻訳フィード ry 示されており、リカレント ry RNNs）は現在まで ry モデリングの問題のための事実上 ry ままでした。
> 自己アテンションフィードフォワードシーケンスモデルは、機械翻訳（トランスフォーマー）、画像生成（ imagetrans ）、構成成分解析（ kitaev18 ）を含むシーケンスモデリングタスクで印象的な結果を達成することが示されており、その事によって表されているのわ、今日まで多くのシーケンスモデリング問題のためのデファクトスタンダードアーキテクチャのままだったリカレントニューラルネットワーク（RNNs）の必然的代替です。
> ? しかし、これら ry かかわらず、トランスフォーマー（トランスフォーマー）のようなフィードフォワード・ ry ・モデルは、繰り返しモデルが扱いやすい（多くの場合、ストリングのコピーや単純 ry 推論さえも）時間（ tran18 、））。
> これらの成功にもかかわらず、しかし乍ら、リカレントモデルが容易に扱う所の多くのタスクに於て、トランスフォーマー（ transformer ）のようなフィードフォワード・シーケンス・モデルわ汎化に失敗します（例えば、訓練時に観察された長さ、を上回る長さの文字列又は式の場合に、文字列のコピーや例え単純な論理推論であっても（ tran18 、））。
> さらに、RNNとは対照的に、トランスフォーマモデルは計算上普遍的ではなく、その理論的表現性を制限する。
> ? ry 実用的かつ理論的な欠点 ry タスクで性能が改善されること ry 。
> 本論文では、これらの実用上の且つ理論上の欠点に対処するユニバーサルトランスフォーマーを提案し、いくつかのタスクでの性能を改善に導くことを示す。
> ? ユニバーサル ry は、RNN ry なシーケンスの個々のシンボルにわたって繰り返されるのではなく、繰り返しステップごとにシーケンス ry 表現を繰り返し ry 。
> RNNのような、シーケンスのシンボル個々に亘っての再帰、でわなくその替りに、ユニバーサルトランスフォーマーわ、シーケンス内のすべてのシンボルの表現を再帰ステップごとに繰り返し改訂します。
> ? シーケンスの異なる部分 ry それはすべての繰り返しステップで自己アタッチメカニズムを採用 ry 。
> 単一シーケンスそれの様々な部分からの情報を結合するために、それわ自己アテンション機構を再帰ステップ全てに於て採用します。
> ? ry 、その再発は、ユニバーサル ry を計算上普遍的にする。
> 十分なメモリがあると仮定すると、その再帰性わ、普遍 ( 訳注 : 汎用 ) 計算なユニバーサルトランスフォーマを成す。 ( 訳注 : リフォーマでメモリ効率大幅強化済 http://arxiv.org/abs/2001.04451# )
> ? さらに、適応 ry して、シーケンス ry 表現が改訂される回数をモデルが動的に調整できるようにします。
> 我々は更に適応型計算時間（ACT）メカニズムを採用してこのモデルに、シーケンス内の各位置の表現改訂回数の動的調整を許容します。
> ? ry 量を節約するだけでなく、 ry を示しています。
> 計算量節約それだけでなくそれを越えて、ACTがモデルの精度を改善できることを我々わ示します。
> ? 私たちの実験によれば、さまざまなアルゴリズム上のタスクや多種多様な大規模な言語理解タスクにおいて、ユニバーサルトランスフォーマーは、機械翻訳におけるバニラ ry 両方を大幅に向上させ、優れた性能を発揮し、bAbI ry と困難なLAMBADA ry タスクです。
> アルゴリズムタスク各種と、そして、ユニバーサルトランスフォーマが機械翻訳にあってはバニラ ( 訳注 : プレーン ? ) トランスフォーマーとLSTMの両方よりも汎化にて良好性顕著であり且つ性能にて優秀である所の又 bAbI言語推論タスクと挑戦的なLAMBADA言語モデリングタスクとにあっては新定義的技術を達成する所の多種多様な言語理解大規模タスク群のセットと、に於ての様を、我々の実験わご覧に入れます。

> 1 はじめに
>
> ? ry な畳み込み型および完全注意型フィード ry 、一連のシーケンス ry タスク、特に機械翻訳（ ry 、変圧器）のためのリカレント ry います。
> Transformerモデルのような、畳込型そしてフルアテンション型なフィードフォワードアーキテクチャは、シーケンスモデリングタスク、特に機械翻訳、の領域の為の、リカレントニューラルネットワーク（RNN）の実行可能な代替品として近年浮上しています（ JonasFaceNet2017 、 ; transformer , ）。
> ? ry は、RNN の重大な欠点、すなわち入力シーケンスの要素間の並列化を防ぎ、消失勾配問題 ry 対処する本質的に連続的な計算に対処している。
> これらのアーキテクチャわ、消失勾配問題（消失 - 爆発 - 勾配）に対処し続け乍ら一方で、RNNの顕著な欠点即ち、入力シーケンス要素間並列並行化を阻む本質的シーケンシャル演算、にも対処する。
> ? Transformerモデルは、特に、自己 ry ）に完全に依存して、入力と出力のシンボルの一連 ry 付きベクトル空間表現を計算し、次 ry 使用して予測するモデルとしての後続のシンボルに対する分布は、シンボル毎に出力シーケンスを予測する。
> これを具体的にわ、入力と出力との中の各シンボルそれらの一連のコンテキスト情報付ベクトル空間表現を自己アテンションメカニズム（ decomposableAttnModel 、 lin2017structured ）完全立脚で計算し、次にそれを使用して後続シンボル群に亘る分布 ( 訳注 : ベクトル空間表現各々の ? ) を、出力シーケンスを各シンボル相互的予測するモデルとして予測、する事によって Transformer モデルわ達成する。
> ? ry シンボルの表現も他のシンボルの ry 通知されるため、 ry なグローバルな受容フィールドと ry 。
> このメカニズムは簡単に並列化できるだけでなく、各シンボル表現も又他の全シンボルの表現によって直接通知 ( 原文 : directly informed ) されるので、効果的なグローバル受容野 ( 訳注 : シンボル粒度な強弱動的調節参照機構 ) となります。
> ? ry 、典型的に制限された受容野を有する畳み込みアーキテクチャとは対照的である。
> これは、限定的受容野単一を典型的にわ有する例えば畳込みアーキテクチャそれとわ対照的地位にある。
> ? しかしながら、ry するために、RNNの帰納的偏見に先立っている。
> 特筆すべき事に、しかし乍らトランスフォーマは、反復的または再帰的な変遷変換を学習する事に向って、RNNの帰納的バイアスよりも先を行く。
> ? Neural GPU （ ry stack_rnn ）などのモデル ry 的に、複雑な複雑なアルゴリズムや言語を理解するためには、トランスフォーマは、トレーニング中に遭遇しない長さの入力には一般化しない。
> この帰納的バイアスわ、アルゴリズムのと言語理解のとの各タスクそれらの複雑性可変なもの幾つかにとって決定打であり得る、と我々の実験わ示す : Neural Turing Machine ( ntm14 , ) 、 Neural GPU （ neural_gpu ）やStack RNN （ stack_rnn ）といった各モデルとは対照的に、トランスフォーマわ、訓練中遭遇しなかった入力長それにとっての好適な汎化をしない ( ? 訳注 : 事前訓練での最適化 ) 。
>
>
ポジションと時間とを横切って各パラメータわ接続 ( 紐付け ) される

ポ ( h 0 t 各シンボルに対する埋込み h 0 t+1 各シンボルに対する埋込み h 0 t+2 … ) : 訳注
ジ
シ
ョ h 1 t 自己注意変容関数 h 1 t+1 自己注意変容関数 h 1 t+2 …
ン
毎 h 2 t 自己注意変容関数 h 2 t+1 自己注意変容関数 h 2 t+2 …
の × ×
各 … × … … ×
状 × ×
態 h m t 自己注意変容関数 h m t+1 自己注意変容関数 h m t+2 …

時間 →
>
>
> ? ry 結合し、反復遷移 ry シーケンスの各位置に対する一連のベクトル表現を繰り返して洗練します。
> 図1 ：ユニバーサルトランスフォーマーは、セルフアテンションを使用してさまざまな位置からの情報を結合しそして再帰遷移関数を適用することによって、シーケンス各位置そこに付いての並列同時並行にそこの一連のベクトル表現を、繰返し洗練します。
> ? 我々は、この ry を2つの反復的な時間ステップにわたって示す。
> 再帰タイムステップ 2 つに亘ったこのプロセスを我々わ示す。
> 矢印は操作間の依存関係を示します。
> 最初に、 h 0は、シーケンス内の各シンボルに対する埋め込みで初期化される。 ( 訳注 : 仮身 ? 実身 ? その他 ? )
> ? ry iは ry mの表現 ry 。
> h t i わ、再帰タイムステップtにおける入力シンボル1 ≦ i ≦ m 、の表現を表す。
>
>
> 本論文では、 Universal Transformerを提案する。
> ? Transformer ry 並列化可能性とグローバルな受容性のフィールドを ry の反復誘導バイアス ry これは、アルゴリズムと自然言語を理解する一連の問題に適し ry 。
> それわ、 Transformerモデルの並列 ( 化 ) 実効性とグローバル受容野とを、RNNの再帰帰納バイアスと組み合わせています。これわ、アルゴリズムのと自然言語理解のとのシーケンスtoシーケンス問題の領域に対し、より適しているようです。
> ? ry ことが示される（ ry 4 ）。
> その名前が示すように、標準のトランスフォーマーとは対照的に、特定の仮定の下では、ユニバーサルトランスフォーマーは計算上汎用的であることを示す事ができる（セクション4 ）。

> ? ry , followed by a recurrent transformation consisting of a depth-wise separable convolution ( ry ) or a position-wise fully-connected layer ( ry ).
> ? 各ステップにおいて、ユニバーサル ry は、セルフ ry （）と並行して、シーケンス内のすべての位置の表現 ry を反復 ry する。 lin2017structured （）の後に、深さ方向に分離可能 ry xception2016 ）または完全に接続された位置指定のレイヤー ry ）からなる反復変換が続きます。
> 深度指向的単離が可能な畳み込み（ xception2016 ）か、又わ、位置指向的 ( での ) フル接続 ( をされた ) レイヤー（図1を参照）か、からなる再帰変遷変換に支援されての、セルフアテンション機構decomposableAttnModel （） ; lin2017structured （）、を用いて、シーケンス内の全位置そこにとっての並列同時並行で、そこの各表現をユニバーサルトランスフォーマーわ、各ステップに付いて、反復的に洗練する ( ? 訳注 : ステップ毎に洗練 1 回 ) 。
> ? また、シーケンスの各位置（ ry ）で適応 ry を使用 ry し、モデルが各シンボルの必要な数のリファインメントステップを動的に選択 ry 。
> 我々わまた、適応型計算時間メカニズムをシーケンス内の各位置に於て使用することでユニバーサルトランスフォーマーを拡張し（ graves2016adaptive 、）、このモデルに各シンボルに付いての洗練ステップ必要数を動的選択できるようにします。
>
> ? 一定数のステップを実行 ry 。
> ステップ数を固定して実行する場合、ユニバーサルトランスフォーマーは、層をまたいでパラメーターを結ぶ多層トランスフォーマーと同等です。
> ? ry more informative, way ry , based at each step on the sequence of previous hidden states.
> ? ry 的な方法は、以前の隠れ状態のシーケンスの各 ry 並行して進化させる反復関数 ry 。
> しかしながら、ユニバーサルトランスフォーマーを特徴付ける別の、そしておそらくより情報的な見方わ、前シーケンスでの隠れ状態な各ステップに基づいて ( 訳注 : 同時に各シンボルのに基づく事をも意味する ? ) 、シンボル毎の隠れ状態を並行 ( 訳注 : 並列同時並行を実装済 ) して進化させる再帰関数としてである。
> ? このように、 ry 。
> この見方でわ、Neural GPU （ neural_gpu ）やNeural Turing Machine （ ntm14 ）といったアーキテクチャに似ています。
> ? ry を保持するが、RNNの反復誘導バイアス ry 。
> これによりユニバーサルトランスフォーマは元のフィードフォワードトランスフォーマモデルの魅力的な計算効率を維持しつつも、RNNの再帰帰納バイアスが追加される。
> ? 適応型の形では、ユニバーサルトランスフォーマーはフィードフォワード ry 深度のトランスフォーマーと、入力データに依存するいくつかのステップを実行するゲート型、再帰型アーキテクチャーを効果 ry 示しています。
> その適応的形態に付いて我々わ更に、フィードフォワードの固定深度トランスフォーマと、入力データ依存なステップを幾つか走らせる為のゲート型/再帰型アーキテクチャと、の間をユニバーサルトランスフォーマが効果的に補間できることを示します。
>
> ? 我々 ry は、ユニバーサル ry が同数のパラメーターで標準 ry を上回る機械 ry 、その再発が結果を ry 。
> 同じパラメータ個数を伴った標準トランスフォーマーをユニバーサルトランスフォーマーがアウトパフォームする所の機械翻訳において、我々の実験結果は、再帰が結果を改善することを示している。
> いくつかのアルゴリズムタスクに関する実験では、ユニバーサルトランスフォーマーは、LSTM RNNおよび標準のトランスフォーマーより一貫して大幅に改善されています。
> さらに、bAbIおよびLAMBADAのテキスト理解データセットでは、ユニバーサルトランスフォーマーは新しい技術水準を達成しています。

> 2モデル
>
> ? 2.1ユニバーサルトランス
> 2.1 ユニバーサルトランスフォーマ
> ? ry 、ほとんどのニューラルシークエンス/シーケンスモデル（ ry トランス、 ry でよく使用される一般的なアーキテクチャ ry 。
> ユニバーサルトランスフォーマー（図2 ）は，neural シークエンスtoシーケンスモデルの殆ど（ sutskever14 、 cho2014learning 、トランスフォーマー、）で共通して使用されるポピュラーなエンコーダ/デコーダアーキテクチャに基づいています。
> ? ry のエンコーダ ry は、入力および出力シーケンスの位置のそれぞれの表現 ry を適用 ry 。
> ユニバーサルトランスフォーマの，エンコーダおよびデコーダわ、入出力のシーケンスの各位置の各表現にリカレントニューラルネットワークをそれぞれ適用することによって動作する。
> ? しかし、逐次データへのリカレント ry のほとんどのアプリケーションとは ry は、 ry 位置を再現するのではなく、各 ry 連続的な改訂（ ry 」を超えて）
> しかし乍ら，シーケンシャルデータゑのリカレントニューラルネットワークのアプリケーション殆どとわ対照的に、ユニバーサルトランスフォーマわ再帰を，シーケンス内の位置に亘ってでわなく，各位置のベクトル表現の連続的改訂に亘って行う（すなわち、「深度」に亘る）。
> ? ry 内のシンボルの数によって計算的に束縛されるのではなく、各 ry 対して行われたリビジョンの数 ry よって制約される。
> 換言すれば、ユニバーサルトランスフォーマは、シーケンス内シンボル数によってでわなく各シンボルの表現に対して成された改訂の数だけによって，計算的に束縛される。
>
> ? 各反復ステップでは、各 ry が2つのサブステップで改訂されます。 ry 内のすべての位置で情報 ry し、それぞれの位置についてベクトル表示を生成します。前のタイムステップでの他のすべてのポジションの表現。
> 各再帰ステップに於てわ各位置の表現が，サブステップ 2 つに於て改訂されます : まず、ユニバーサルトランスフォーマーは、自己アテンションメカニズムを使用してシーケンス内位置全てに跨がって情報を交換し，位置各々に付いて前タイムステップでの他ポジション全ての表現による智としてのベクトル表現を生成します。
> ? ry 自己アタッチメント機構 ry 。
> 次に、各位置で独立して、自己アテンション機構の出力に共有遷移関数を適用する。
> ? 重大 ry に、これは、層の固定された積み重ねを適用 ry よって一定の深さを有する変圧器（変圧器）または深いRNNを含む最も一般的な神経系列モデルとは ry 。
> これは重大なことに，トランスフォーマ ( transformer , ) かディープ RNN かを含む、一定深度を層を積み重ね固定したものを適用することによって有する所の最もポピュラーなニューラルシーケンスモデルそれらとわ対照的である。
>
>
各マルチヘッド
入力シーケンス → 入力シンボル ─━→ 自己アテンション ━━━→ 変遷関数
の埋込 ↑ ┃
┃ 再帰エンコーダブロック ┃
┗━━━━━━━━━━━┳━━━━━━┛
For T ステップ数 ┃
┃ T ステップ経過後
各マルチヘッド ↓
標的シーケンス → 標的シンボル ─━→ 自己 ━━━→ マルチヘッド ━┓
( 1 ずつの埋込 ↑ アテンションアテンション ┃
右シフトされる ) ┃ ↓
┃ 再帰デコーダブロック変遷
┗━━━━━━━━━━━┳━━━━━ 関数
For T ステップ数 ┃
┃ T ステップ経過後
↓
Softmax
↓
出力確率
>
>
> ? ry Transformerのエンコーダ ry の反復ブロック
> 図2 ： Universal Transformer エンコーダとデコーダの再帰ブロック
> ? この図は ry ステップ符号化、 ry 接続および層正規 ry 。
> このダイアグラムわ、位置およびタイムステップエンコーティング、ならびにドロップアウト、残差接続およびレイヤ正規化を省略している。
> 付録に完全版があります。
> ? Adaptive Universal Transformerは、ACT ry して各位置のステップ数Tを動的 ry 。
> 各位置に付いてのステップ数 T を適応的ユニバーサルトランスフォーマわ、 ACTを使用して動的に決定します。
>
>
> ? 符号器に対して ry 場合、系列の各位置 ry シンボルのd ry として行が ry される行列から開始する。
> エンコーダに対して、長さmの入力シーケンスが与えられた場合，シーケンス H 0 ∈ R m ラ d ( 原文 : H0 ∈ R^( m × d ) , 以下同様 ) の各位置におけるシンボルそれらのd次元埋め込みとして各行が初期化されるという行列から我々は開始する。
> ? ry then iteratively computes representations H t at step t for all m positions in parallel by applying the ry , followed by a recurrent transition function.
> ? 次いで、ユニバーサルトランスフォーマは、マルチヘッドドット積 ry 機構を ry 適用し、続いてリカレントトランジション機能を適用 ry よって、すべてのm個の位置について、ステップtの表現H tを並列に反復的に計算する。
> ユニバーサルトランスフォーマわ然してステップ t に於ける表現 H t を，支援を再帰遷移関数から受ける所のマルチヘッドドット積自己アテンション機構，をトランスフォーマ（）から適用することによって， m 箇所全ての各位置に付いての並列同時並行，で計算する事を反復する。
> ? ry を追加し、ドロップ ry レイヤーの正規 ry ）を適用 ry 。
> これらのファンクションブロックの周りに残差接続を追加する事をも我々わ行い，ドロップアウトとレイヤ正規化（ srivastava2014dropout 、 layernorm2016 ）とを適用します（簡略化された図については図2 、完全なモデルについては付録の図4を参照）。
>
> ? ry の注意の仕組みは、
> より具体的には、私たちのアテンション機構わ，スケールするドット積アテンションであり
>
> ? ry s o f t m a x ( ry （ Q 、 K 、 V ） = s o f t m a x （ Q K T√d ) V ） V （1）
> A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T / √ d ） V （1）
>
> ここで、 dはQ 、 K 、 Vの列数です。
> ? 私たちは、（トランスフォーマー） ry されたように、kヘッドのマルチ ry バージョンを使用します。
> 我々が使うのわ，（トランスフォーマ , ）で導入されたものとしての，ヘッド k 個なマルチヘッドバージョンであり，
>
> M u l t i H e a d S e l f A t t e n t i o n （ H ） = C o n c a t （ h e a d 1 、 ... 、 h e a d k ） W O （2） ? ry H ）とは、 = C o n c a t （
> ここで h e a d i = A t t e n t i o n （ H W Q i 、 H W K i 、 H W V i ）（3） ? どこで
>
> ? 学習 ry 行列W Q ry W O∈R d ラ dを用いた ry 射影を用いる。
> それわ，学習されたパラメータ行列各々， W Q∈R d ラ d / k 、 W K∈R d ラ d / k 、 W V∈R d ラ d / kおよびW O∈R d ラ d ，を用いたアフィン射影を伴っている。
> ステップtにおいて、ユニバーサルトランスフォーマは、以下のように、すべてのm個の入力位置についての修正された表現H t∈R m ラ dを計算する
>
> 　H t = L a y e r N o r m （ A t - 1 + Transition （ A t ））（4） ? T r a n s i t i n
> ここで， A t = L a y e r N o r m ( Ht - 1 + M u l t i H e a d S e l f A t t e n t i o n （ H t - 1 + P t ））である。（5） ? ry w h e r e e ある ry H t ? 1 ry ））であり、ここで、 H t - 1 + M u l tは、
>
> ここでLayerNorm（）は（ layernorm2016 ）で定義され、Transition（）とP tは以下で説明します。
> ? ry 応じて、分離 ry ）または2つのアフィン変換間の単一整流線形活性化関数からなる完全連結ニューラルネットワークの2 ry 1つを使用します。 A t ry に個別に割り当てる。
> タスクに応じて， 2つの異なる遷移関数の1つを我々わ使用します : 分離可能な畳み込み（ xception2016 ）か、アフィン変換 2 つの間の単一正規化線形アクティベーション関数からなる所のフル連結なニューラルネットワークか，のどちらか。ポジションワイズで、つまり個別に A tの各行に、適用され ( てい ) る。
>
> ? ry P tは、各 ry ついて位置 ry tについて（トランス、） ry されたような正弦波位置 ry ベクトルを計算 ry 得られた2 ry ごとに（ ?で示される）：
> 上記のP tは，（トランスフォーマ , ）で定義されたものとしての Sin 関数 ( ? 訳注 : ベクトルを堅実に再帰精練 http://qiita.com/omiita/items/07e69aef6c156d23c538#1.3.5 ) 的 ( な ) 位置埋め込み ( な ) ベクトル群 ( 原文 : the sinusoidal position embedding vectors as ) を各ベクトル次元jについて、位置mおよび時間ステップtについての単離状態，で計算することによって得られた， 2次元（位置、時間）座標埋め込みであり、これらのベクトルは成分ごとに加算（ (+) で示す ( 原文 : 丸付プラス記号 ) ）：
>
> P t p o s 、 2 j = sin （ pos / 10000 2 j / d ） (+) sin （ t / 10000 2 j / d ）（6） ? ry p 0 s ry +ry
> P t p o s 、 2 j + 1 = cos （ pos / 10000 2 j / d ） (+) cos （ t / 10000 2 j / d ）である。（7） ? ry p 0 s ry +ry
>
> ? ry それぞれが入力 ry を並列に精緻 ry のd ry 行列である。
> T個のステップ（それぞれが並列同時並行で，入力シーケンスのすべての位置を精緻化する）の後、ユニバーサルトランスフォーマエンコーダの最終出力は、入力シーケンスのm個のシンボルについての， d次元ベクトル表現H T∈R m ラ dの行列 1 つである。
>
> ? ry 基本反復構造 ry 。
> デコーダは、エンコーダの同じ基本再帰構造を共有する。
> ? ry 、自己アテンション機能の後に、デコーダは、式2からの同じ ry 積注意機能を使用 ry 、デコーダを投影 ry られたクエリQを用いて、入力 ry 的なエンコーダ ry Tに追加的に関与する（この ry 的な注意に ry ）のキー ry V ）が含まれています。
> しかしながら，その自己アテンション関数の後に，デコーダわ，入力シーケンス内の各位置の最終的エンコーダ表現H T ゑの手回しをも追加的に行うにその同じマルチヘッドドット積アテンション関数を式 2 から使用するが，デコーダ表現群を投影して得られた所のクエリ群 Q と，そしてエンコーダ表現群を投影（このプロセスは標準的アテンションに似ている（ bahdanau2014neural 、））して得られた所のキーと値（ KとV ）と，を伴う。
>
> トランスフォーマーモデルと同様に、ユニバーサルトランスフォーマーは自己回帰型です（ graves2013generating 、）。
> ? 教師強制をを用いて訓練され、生成時にデコーダは出力を1シンボルずつ生成し、デコーダは以前に生成は以前に生成された出力位置を消費する。
> Teacher Forcing を用い，生成時に於ては出力を一度に 1 シンボル生成し，それに伴って前回生成分の各出力位置をデコーダが消費する，との訓練がなされる。
> ? ry中に、デコーダの入力は目標出力であり、1つの位置だけ右にシフトされる。
> 訓練中，デコーダ入力わ，ポジション 1 つ分だけ右シフトされる所の標的出力である。
> ? ry 、モデルが任意の予測されたシンボルの左の位置にのみ関わること ry に、 ry 。
> デコーダの自己アテンション分布は、任意の予測されたシンボルの左の位置にのみモデルが関わる ( 原文 : attend ) ことができるように ( する為に ) 、さらにマスクされる。
> ? ry 、シンボル ry の目標分布は、最終 ry から出力 ry 出力行列を正規化したsoftmax ry 得られるその行の上に：
> 最後に、そのシンボル当たりの標的分布わ，その最終デコーダ状態からその出力語彙サイズVへのアフィン変換O∈Rd ラ Vを適用し、その後に（ m ラ V ）次元出力行列各行正規化な softmaxを適用することによって得られる：
>
> p ( y p o s | y [ 1 : p o s - 1 ] , H T ） = s o f t m a x （ O H T ） *1 （8） ? ry p o s ? 1 ry h e r e d e n o t e s t i m e ? s t e p ry \ lx n（nは自然数） o $ t $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ ＆ $ ＆ $ e o p e r a t i o n 。
>
> *1 ここでの T わ，転置演算 ( 原文 : transpose operation ) ではなく、タイムステップTを表すことに注意してください。 ? ry のRは、 ry 。
>
> モデルから生成するために、エンコーダは調整入力シーケンス ( 原文 : the conditioning input sequence ) 用に1回実行されます。
> ? 次 ry され、既 ry された ry 消費し、反復ごとに次 ry 位置にあるシンボルのボキャブラリに1 ry 分布を生成する。
> その次に、デコーダは繰り返し実行されるが，追加の分布 1つの生成をボキャブラリに亘っての次の出力位置に於けるシンボルの為に反復毎にし続けつつ，既に生成されていたシンボルを全て消費する。
> ? ry typically select the highest probability symbol as ry
> ? 次に、典型的には、最も高い確率 ry を次のシンボルとして選択する。
> 次に我々わ，次のシンボルとして，最高確率のシンボルを，典型的にわ選択する ( ⇔ を，典型的な選択肢とする , を，選択 ( 肢と ) する事が典型的である: 訳注 ) 。
>
> ? 2.2適応 ry トランス
> 2.2 適応型ユニバーサルトランスフォーマ
> シーケンス処理システムでは、特定の記号（例えば、いくつかの単語または音素）は、通常、他の記号よりもあいまいである。
> したがって、これらのより曖昧なシンボルに、より多くの処理リソースを割り当てることは合理的です。
> ? ry in standard recurrent neural networks ry.
> ? Adaptive Computation Time（ACT ry は、モデルの推定値を反映して、各 ry されたスカラー ry ネットワークで各 ry 数を動的 ry するメカニズムですその ry 対してさらに計算が必要であることを意味する。
> 適応的コンピューテーションタイム（ Adaptive Computation Time , ACT）（ graves2016adaptive ）わ，各ステップでモデルによって予測された所の更に計算がそのステップに対して必要であるとのそのモデル見積，を反映しているスカラーポンダー値に基づいて、標準リカレントニューラルネットワーク内の ( で , 内で ) 各入力シンボルを処理するために必要な計算ステップ数，を動的に変調する為のメカニズムです。
>
> ? ry トランスフォーマーがシーケンスのすべての位置に並行再帰変換を適用 ry いう解釈からインスピレーションを得て、各位置にダイナミックACT停止メカニズムを追加します。
> ユニバーサルトランスフォーマの，シーケンスに於て同時並行再帰変遷変換を全位置に適用するというインタプリテーション，にインスパイアされた我々わ， ACT 動的停止機構を各位置に追加しもします。
> ? ry の反復ブロックが停止すると、すべてのブロック ry か、または最大 ry に達するまでその状態が ry ステップに単純にコピー ry （図2を参照）。
> シンボル単位の再帰ブロック 1 つが停止 ( 原文 : halts ) すると，それのステートが次のステップゑと，全ブロックが停止するか，最大ステップ数に我々が達するか，するまで単純コピーされます（動的決定される T ，を伴った図2を参照）。
> ? ry 出力は、 ry の最終層である。
> エンコーダの最終出力わ然して、このようにして生成された表現の、最終レイヤ ( 訳注 : 最終ステップ出力値群 ? ) である。
> ? ry 、このモデルの動的停止モデルを ry 。
> 私たちは，我々のモデルのこの動的停止バージョンをAdaptive Universal Transformerと呼んでいます。

> ? 3つの実験
> 3 実験
>
> ? ry アルゴリズムや言語の理解タスクについて ry 。
> このセクションでは、ユニバーサルトランスフォーマーについて，機械翻訳だけでなく、アルゴリズムのと言語理解のとのタスクの範囲についても評価します。
> これらの結果を再現するすべてのコードとデータセットは、オープンソースとして公開されます。
>
> 3.1 bAbI質問応答
> ? ry ）は、潜在的に複数のサポート事実を符号化する英語の文章を与えられた質問に答えることを目標とする20 ry 構成されています。
> bAbi質問回答データセットweston2015towards （）わ， 20の異なるタスクで構成されそこでの与えられた回答対象わ，サポートファクト ( 原文 : supporting facts , 総データから導出可能な準定義的事実 ? ) を潜在的に複数エンコードしている所の英語センテンス幾つかな質問です。
> ? 目標は ry いる言語上の事実についてある種 ry 。
> ゴールわ，各ストーリーに示されている言葉上ファクトそれらに付いてのある種の推論を要求することによって、さまざまな形態の言語理解を測定することです。
> ? 標準的なトランスフォーマーはこの作業では ry 。
> 標準トランスフォーマわこのタスクでわ良い結果を得られません 1 。
> しかし、我々はユニバーサルトランスフォーマーをベースにしたモデルを設計しました。このモデルは、この課題に関して最先端の結果を達成しています。
>
> ? ry に、最初にストーリー ry を、各単語の埋め込みに学習された乗法ポジションマスクを適用してエンコードし、すべてのemebeddingを集計 ry 。
> 入力をエンコードするには、（ henaff2016tracking 、）と同様に，学習されたマルチプル法ポジション的マスク単一を各単語の embeddding に適用する事によって最初にストーリー内の各ファクトを我々わエンコードし，そして embeddding 全てを集計 ( 原文 : summing up ) します。
> ? ry は同じ ry 埋め込み、その事実と質問の埋め込みを ry に与えます。
> 私たちはそれと同じ方法で質問を埋込んでそれらの，各ファクトのと各質問のとの各 embeddding ，を（ユニバーサル）トランスフォーマーに喰わせます。
>
> ? ry に、モデルは各タスクで個別に訓練することができます（「訓練する」）か、すべてのタスクで共同して訓練することができます（「訓練」）。
> 最初に提案されたようにモデルわ，各タスクで単離して (“train single”) か，全タスクで結集して (“train joint”) か，のどちらかでの訓練をする事が可能です。
> 表1は、我々の結果をまとめたものである。
> ? 我々は、異なる ry し、以前 ry 同様に、検証セットの ry モデルを選んだ。
> 以前の研究と同様に我々わ，異なる初期化で10回実行し，検証セット上での性能に基づいて最良のモデルをピックアップした。
> ? ry in terms of average error and number of failed tasks 2 , in ry .
> ? ry 型および非適応型の汎用トランスフォーマーは ry 失敗したタスクの数に関して、すべて ry します 2 タスクの数に関して、すべてのタスクについて最先端の結果を達成します 2 、10Kと1Kの両方の訓練計画（タスク別の内訳については付録を参照）。
> 適応型と非適応型との両方のユニバーサルトランスフォーマーわ、平均エラーと失敗タスク数とに関して 2 ，10Kと1Kの両方の訓練体制（タスク別の内訳については付録を参照）に於て，すべてのタスクについて最先端の結果を達成します。
>
> ? ry に、このタスクの注意分布 ry ACT睡眠時間の両方を分析 ry 。
> モデルの作業をよりよく理解するためにこのタスクの，アテンション分布と平均ACT熟考時間との両方を我々は分析しました（詳細については付録を参照）。
> ? まず、注目分布は非常に均一であることがわかりますが、各 ry ために必要な正しいサポート事実を中心に、後 ry ではますますシャープになります。 ry と非常 ry 。
> 第一に，アテンション分布が非常に均一 ( 原文 : uniform ) であると我々わ観察しますが後のステップでわ，各質問に答えるための必要な正しい各サポートファクトの周辺でシャープ化がますます進展します。これは人間がどのようにタスクを解決するかと実際に非常によく似ています。
> ? 第2に、ACTでは、3つのサポート事実を必要とするタスク ry しないタスクよりも高く、1つしかサポートしないタスク事実。
> 第二に， ACT ありでわ，サポートファクト 3 つを要する各タスクの平均熟考時間（すなわち、シンボル単位の再帰処理チェーンの深さ）は、2つしか必要としない各タスクそれらよりも高く，そのそれらわ順当に，サポートファクト 1 つしか要さないタスクよりも高い，という事を，我々わ観察します。
> ? ry おいてより ry ことが観察される。
> 最後に、異なる位置での熟考時間のヒストグラムは、2つおよび3つに比べて1つのサポート事実だけを必要とするタスクにおいてわより均一であり、3つに比べて2つを必要とするタスクについても同様であることを我々わ観察します。
> ? 特に3つのサポート事実を必要 ry 、多くのポジションは ry おり、さらに多くのステップでより多くのステップが変換されます（ ry 。
> 特にサポートファクト 3 つを必要とするタスクの場合，各ポジションそれらの多くわステップ1または2で停止しており，そしてそのそれらのほんの幾つかだけが，変遷変換される為の更なる各ステップを勝ち得ます（図3参照）。
> ? これは特に、この設定でストーリー ry が実際にははるかに多く、モデルがこのように無視することをうまく習得できないような無関係な事実があるため、興味 ry 。
> これわ，このやり方での無視をする事をこのモデルが学習成功したかに見えたる所のより無関係な各ファクト，を伴う各ストーリーの長さがこの設定内で実際に非常に大であるものとして，特に興味深いものです。
>
>
>
> 熟考する
> 時間
>
> 事実と質問
>
>
> ? 図3 ： 3つのサポート事実を必要 ry タスクにおける ry ストーリーと質問の事実を符号化するためのAdaptive ry Transformerの検討時間。
> 図 3 : ストーリー 1 つと質問 1 つとの中の各ファクトを要サポートファクト 3 つな bAbIタスク 1 つの中に於て Adaptive Universal Transformer がエンコードする為の熟考時間。
>
>
>
10Kの例 1Kの例
train single トレイン train single トレイン ? 単一の列車
モデルジョイントジョイント
以前の最良の結果：
QRNet （ seo2016query 、） 0.3（0/20） - - -
スパースDNC(rae2016scaling.) - 2.9（1/20） - - ? ry DNC （ rae2016scaling 、）
GA+MAGEdhingra2017linguistic () - - 8.7（5/20） - ? GA + MAGE dhingra2017linguistic （）
MemN2N sukhbaatar2015 （） - - - 12.4
（11/20）
我々の結果：
Transformer(transformer,) 15.2（10/20） 22.1（12/20） 21.8（5/20） 26.8（14/20） ? 変圧器（変圧器）
UT （本作品） 0.23（0/20） 0.47（0/20） 5.31（5/20） 8.50（8/20） ? ユニバーサルトランスフォーマー（ ry ）
適応的 UT （この作品） 0.21（0/20） 0.29（0/20） 4.56（3/20） 7.85（5/20） ? 適応する。 Univ。変圧器
>
> ? ry : Average error and number of failed tasks ( > 5 % error) out of 20 (in parentheses; lower is better in both cases) on ry .
> ? ry セットの平均 ry 失敗したタスクの数（ ry ）（ ry ）（ ry 内で、どちらか低い ry
> 表1：異なるトレーニング/評価設定の下でのbAbIデータセットに於ける、平均エラーと失敗タスク（ > 5 ％エラー）数（20件中）（かっこ内 ; どちらも低い方が良い）
> ? We indicate state-of-the-art where available for each, or '-' otherwise.
> ? 私たちは最先端の技術をそれぞれに利用可能であるか、それ以外の場合には「 - 」と表示 ry 。
> それぞれにとっての最先端の結果か，さもなくば「 - 」を，我々わ表示します。
>
>
> 3.2主語 - 動詞協定
> ? ry of predicting number agreement between subject and verb in naturally occurring English sentences ( ry ) .
> ? 次に、自然に発生する英文の被験者と動詞の間の一致数を ry 。
> 次に我々わ，自然に起きる ( ? : 訳注 ) 各英語センテンス内の主語と動詞との間の合意 ( ? 訳注 : 和合合致無矛盾性頓珍漢でない定義合致相互補完一貫性 ) ，の個数を予測するタスク（ linzen2016assessing 、）を検討する。
> ? ry 言語文の階層 ry するプロキシ ry 。
> このタスクは、自然言語センテンス群内の階層（依存関係）構造を取り込むモデルの能力を測定する為のプロキシとして機能します。
> ? ry using a language modeling training setup, ie a next word prediction objective, ry .
> ? ry ）に ry 、言語 ry 単語予測目的を使用してタスクを解決する実験プロトコルに続き、テスト時にターゲット ry 精度を計算する。
> 我々は、（ linzen2016assessing 、）らによって提供されたデータセットを使用し，彼らの言語モデリング訓練セットアップ、すなわち次の単語の予測の目的，を使用して ( ? 訳注 : 次の単語を予測するという目的で ) のタスク解決の実験プロトコルに従うがそこでわ引続いて，テスト時に於て ( の ) ターゲット動詞のランク付け精度が計算される。
> ? ry , measured in terms agreement attractors - the number of intervening nouns with the opposite number from the subject.
> ? 我々は、合意アトラクター - 被験者と反対の数を持つ介在名詞の数で測定された、異なる ry 度でテストデータのサブセットについてモデルを評価した。
> 我々わ我々のモデルを，異なるタスク難易度を持つ各テストデータサブセットについて，意図合致アトラクタ群 -- その主語の ( 前述実験プロトコルでのパラメータか何かの ? : 訳注 ) 反数を， ( 訳注 : パラメータか何かとして ? ) 伴った介在名詞それらの数 -- で測定し評価した。
> ? 例えば、キャビネットへの鍵 3 トレーニング ry は、動詞を ry 。
> 例えば，文 `` The keys to the cabinet '' 3 が与えられてのトレーニング中の目的わ，その動詞を予測することです。
> ? ry には、動詞 ry ランク付けの精 ry 、動詞の誤った形式 ry 。
> テスト時にわ我々わ然して，その動詞の正しい形式のランク付け精度を，その動詞の誤形式と比較して評価します。つまり、ランク付けの目標はこの場合よりも高くなります。
>
> 我々の結果を表2に要約する。
> ? 注意を払ったベストLSTMは ry を達成 ry ・トランス（ ry ）より優れています。
> アテンション付 LSTM のベストわ99.18％をこのタスクで達成し、バニラ・トランスフォーマ（ tran18 ）をアウトパフォームしています。
> ユニバーサルトランスフォーマーはトランスフォーマーの結果を改善し、アダプティブユニバーサルトランスフォーマーは現在の最新技術（99.2％）に匹敵する結果を達成します。
>
>
アトラクタの数
0 1 2 3 4 5 合計
モデル
これまでの最良の結果（ yogatama2018memory 、）：
ベスト Stack-RNN 0.994 0.979 0.965 0.935 0.916 0.880 0.9923 ? ベストスタック-RNN
ベストLSTM 0.993 0.972 0.95 0.922 0.900 0.842 0.9911
Best Attention 0.994 0.977 0.959 0.929 0.907 0.842 0.9918 ? 最高の注意
我々の結果：
Transformer 0.9733 0.9412 0.9316 0.9167 0.9014 0.8834 0.9616 ? トランス
Universal Transformer 0.9934 0.9712 0.9690 0.9400 0.9206 0.8915 0.9917 ? ユニバーサルトランス
適応的 UT （小さい） 0.9932 0.9801 0.9714 0.9608 0.9521 0.9314 0.9920 ? 適応する。 Univ。 Transf。（ ry
適応的 UT （ベース） 0.9943 0.9720 0.9516 0.9567 0.9314 0.9034 0.9924 ? 適応する。 Univ。 Transf。（ ry
>
> ? 表2： subject-verb agreement number予測 ry
> 表 2 : 主語-動詞合意数予測タスクの精度（高い方が良い）
>
>
> 3.3 LAMBADA言語モデリング
> ? ry 文と4?5の先行する文 ry 文脈を考慮して、欠けて ry ワードを予測 ry 。
> LAMBADAタスク（ paperno2016lambada 、）は、その（ターゲット）文に与えられた欠けているターゲットワード単一と、先行する 4-5 の文の広範な文脈と，を予測することからなる言語モデリングタスクです。
> ? データ ry は、完全な文脈で表示されたときにターゲット ry 正確に予測できる ry 、ターゲット ry が表示されて ry には人間 ry 予測できるように特別 ry 。
> ターゲット単語を人間が正確に予測する事を，フルコンテキスト提示されたときにわできるように，しかしターゲット文のみが提示されているときにわできないように，このデータセットわ特別に設計されています。
> ? したがって、それは言語 ry 超えて、モデルの能力をテストして、対象となる単語を予測するときに、より ry とより ry 文脈を組み込むことができます。
> それわ従って，言語モデリングを超えて，より広い談話とそしてより長期の文脈とを対象単語予測時に組入れる為のモデルの能力をテストします ( 訳注 : 数センテンス汎用的読解テスト ) 。
>
> タスクは、言語モデリング（標準設定）と読み解きの 2つの設定で評価されます。
> ? 前の（より困難な）ケースでは ry データの ry つまり、ターゲット単語に特に挑戦しないすべて ry 。
> 前者の（よりチャレンジングな）ケースに於てわ、トレーニングデータ上の次の単語の予測のためにモデルを単純に訓練し、テスト時にターゲット単語で評価します（つまり，チャレンジングなターゲット単語に特化せずにすべての単語を予測するようにモデルを訓練します）。
> ? ry 設定では、 chu2017broad （）では、文の中から目的の単語を選択 ry の質問として、目的の文（ ry を引いたもの） ry 。
> 後者の設定， Chuらによって導入された chu2017broad （），に於てわ，ターゲット単語を文脈センテンス群から選択するためのクエリとして，ターゲットセンテンス（最後の単語をマイナスしたもの）が使用されます。
> ? ターゲット・ワードは時間の ry 文脈に現れるので、この設定ははるかに簡単です。
> 註記しますがその時の81％の文脈にターゲット・ワードが現れる事わ、このセットアップを遥かにシンプルにします。
> ? しかし、残り ry この作業は ry 。
> しかし乍ら，残りの19％のケースではこのタスクわ不可能です。
>
>
LM パープレキシティ & ( 精度 ) RC精度 ? LM Perplexity＆（Accuracy）
制御 dev テスト制御 dev テスト
モデル
NeuralCache(grave2016improving.) 129 139 - - - - ? Neural Cache （ grave2016improving 、）
Dhingra et al. dhingra2018neural () - - - - - 0.5569 ? ry al。 ry
トランスフォーマー 154 (0.14) 5336 (0.0) 9725 (0.0) 0.4102 0.4401 0.3988 ? ry ォーマー 154 ） 319（0.17） 0.4801 ry
LSTM 138 (0.23) 4966 (0.0) 5174 (0.0) 0.1103 0.2316 0.2007
Universal Transformer 131 (0.32) 279 (0.18) 319 (0.17) 0.4801 0.5422 0.5216 ? （0.32） 279（0.18 ）（0.14） 5336（0.0） 9725（0.0）
適応的 Universal Transformer 130 (0.32) 135 (0.22) 142 (0.19) 0.4603 0.5831 0.5625 ? 適応ユニバーサルトランス 130（0.32） 135 （0.22） 142 （0.19） ry
>
> ? ry 精度（高 ry ）、および ry 結果（高 ry ）のLAMBADA ry ）perplexity（低 ry ）。
> 表3：カッコ内に精度（高い方がよい）を伴った LAMBADA言語モデリング（LM）パープレキシティ（低い方が良い），および読解（RC）の精度の結果（高い方が良い）。
> ' - 'は、その設定で報告された結果がないことを示します。
>
>
> 結果を表3に示す。
> ? ry 、LSTM ry する、言語 ry で最 ry 。
> ユニバーサルトランスフォーマーは、言語モデリングと読解の両方のセットアップで，LSTMとバニラトランスフォーマーの両方を凌駕する最先端の結果を達成します。
> ? コントロール ry LAMBADA開発およびテストセット ry 示しています。
> ここでのコントロールセットはLAMBADAの開発/テスト用セットと同様に構築されていますが、どのような方法でもフィルタリングしないので、このセットで良好な結果を得ることは、標準言語モデリングにおけるモデル ( 自体 : 訳注 ) の強さを示している，その事に注意。
>
> 3.4アルゴリズムのタスク
> ? ry トランスフォーマーは、小数点記号（ '0'? '9 ry 上の3つのアルゴリズムタスク、 ry 、逆転、および ry で評価されました。
> ユニバーサルトランスフォーマーを，十進シンボル（ '0'- '9'）で構成された文字列上でのアルゴリズムタスク 3つ、つまりコピー、リバース、および（整数）加算で我々わ評価しました。
> ? ry ランダム化されたオフセットから始まる位置 ry してモデルを訓練し、モデルに位置 - 相対変換を学習させることをさらに奨励 ry 。
> 私たちは、ランダムオフセットそこから始まる各位置を使用してこのモデルを，このモデルに更に，位置 - 相対な変遷的変換の学習，を奨励する為に，訓練します。
> 結果を表4に示す。
> ? ry トランスフォーマーの両方よりも優れています。
> ユニバーサルトランスフォーマーは、LSTMとバニラトランスフォーマとの両方をこれらタスク全てに於いてワイドなマージンによってアウトパフォームします。
> ? ry が、この結果 ry としていました。
> ニューラルGPUはこのタスク（ neural_gpu 、）で完璧な結果を報告しますが，しかし乍らそこでの結果は他のモデルでは使用されなかった特殊なカリキュラムベースのトレーニングプロトコルを必要としていた事を我々わ註記します。
>
>
コピー Reverse Addition ? 逆 ? 添加
char-acc seq-acc char-acc seq-acc char-acc seq-acc
モデル
LSTM 0.45 0.09 0.66 0.11 0.08 0.0
Transformer 0.53 0.03 0.13 0.06 0.07 0.0 ? トランス
UT 0.9 0.35 0.96 0.46 0.34 0.02 ? ユニバーサルトランス
ニューラルGPU * 1.0 1.0 1.0 1.0 1.0 1.0
>
> ? ry 40の小数桁の ry 。
> 表4：長さ40の文字列の訓練を受け（ neural_gpu ）から長さ400で評価されたアルゴリズムタスクの精度（高い方が良い）。
> ? *ニューラル ry 。
> * 註記しますが，ニューラルGPUは、完璧な結果を得るために特別なカリキュラムで訓練され、他のモデルはカリキュラムなしで訓練されています。
>
>
> 3.5実行するための学習 ( 原文 : Learning to Execute ) （LTE）
> ? ry いるように、コンピュータ ry ためのモデル ry タスクに ry も評価 ry 。
> シーケンスツーシーケンス学習問題の別のクラスとして、（ ZS14 ）で提案されているものとしての，コンピュータプログラムを実行するための学習の為のモデルの能力を示す各タスク，についてのユニバーサルトランスフォーマーも我々わ評価します。
> これらのタスクには、プログラム評価タスク（プログラム、制御、追加）、記憶タスク（コピー、ダブル、リバース）が含まれます。
>
>
コピーダブルリバース ? 逆
char-acc seq-acc char-acc seq-acc char-acc seq-acc
モデル
LSTM 0.78 0.11 0.51 0.047 0.91 0.32
Transformer 0.98 0.63 0.94 0.55 0.81 0.26 ? トランス
UT 1.0 1.0 1.0 1.0 1.0 1.0 ? ユニバーサルトランス
>
> 表5：文字レベル（ char-acc ）およびシーケンスレベルの精度（ seq-acc ）は、最大長が55のMemorization LTEタスクの結果となります。
>
>
>
プログラムコントロール Addition ? 添加
char-acc seq-acc char-acc seq-acc char-acc seq-acc
モデル
LSTM 0.53 0.12 0.68 0.2 0.83 0.11
Transformer 0.71 0.29 0.93 0.66 1.0 1.0 ? トランス
UT 0.89 0.63 1.0 1.0 1.0 1.0 ? ユニバーサルトランス
>
> 表6：プログラム評価LTEタスクの文字レベル（ char-acc ）およびシーケンスレベルの精度（ seq-acc ）は、最大ネスト2および長さ5の結果となります。
>
>
> ? ry で説明した ry を使用 ry 。
> データセットを生成するために、（ ZS14 、）で議論されたミックス戦略を我々わ使用します。
> ? ry は異なり、トレーニング中はカリキュラム ry を使用せず、テスト ry を使用しません。
> （ ZS14 ）とわ異なり，トレーニング中にわカリキュラムの学習戦略を我々わ使用せず，且つテスト時にはターゲットシーケンスを使用しない事を我々わ成します。
> 表5と表6は、それぞれプログラム評価と記憶課題に関するLSTMモデル、トランスフォーマー、ユニバーサルトランスフォーマの性能を示しています。
> ユニバーサルトランスフォーマーは、すべての記憶タスクで完璧なスコアを達成し、すべてのプログラム評価作業においてLSTMとトランスフォーマーの両方を凌駕します。
>
> 3.6機械翻訳
> ? ry 、（トランス、）で ry して評価 ry 。
> 標準的なWMT 2014英語 - ドイツ語の翻訳タスクについて，( transformer , ) で報告されたのと同じ設定を使用して我々わ評価しました。
> 結果を表7に要約する。
> ? ACTを使用せずに、完全に接続された繰り返し機能を備えたユニバーサル ry 、および同数 ry BLEU向上 ry 。
> 再帰機能をフル接続で伴いそして ACT を伴わずに，ユニバーサルトランスフォーマーは、トランスフォーマーに対して0.9BLEU ，およそ同数のパラメーター（ ahmed2017weighted ）を持つ Weighted Transformer に対して0.5BLEU ，向上します。
>
>
BLEU ? ブリュウ
モデル
Universal Transformer small 26.8 ? ry トランス
Transformer ベース ( transformer , ) 28.0 ? トランスベース（トランス、）
Weighted Transformer ベース（ ahmed2017weighted 、） 28.4 ? 加重トランスベース ry
Universal Transformer ベース 28.9 ? ユニバーサルトランスベース
>
> ? ry De変換タスク ry
> 表7：同等のトレーニング設定で8xP100 GPUでトレーニングされたWMT14 En-De翻訳タスクの機械翻訳結果
> ? ry の基本結果 ry パラメータがあります。
> すべてのベース結果には同じ数のパラメータを持ちます。
>

> ? 4普遍性と他のモデル ry
> 4 普遍性 ( 訳注 : 汎用性 ) とそして他モデルとの関係
>
> ? ry いるため、標準のTransformer ry に対応します。
> 十分なメモリが与えられれば ( 訳注 : リフォーマで大幅解決済 ) 、Universal Transformerは計算上普遍的です。つまり、チューリングマシンをシミュレートするために使用できるモデルのクラスに属しているので，標準Transformerモデルの欠点に対処します。
> ? ry かかわらず、我々 ry は、この ry が、いくつかの難しいシーケンス ry タスクの精度向上につながることを示しています。
> 理論的に魅力的であるにもかかわらず，この表現力の追加が，チャレンジングなシーケンスモデリングタスク幾つかに於て精度向上ゑ導く事をも我々の結果わ示します。
> ? これにより、ry などの大規模なタスクと、ニューラル ry などの計算 ry モデルとの競争力のある実用的なシーケンスモデルのギャップがなくなり、 ry して訓練する ry できますアルゴリズムタスク。
> これわ，機械翻訳など大規模タスクで競争力ある実用的シーケンスモデル，と，ニューラルチューリングマシンやNeural GPU （ ntm14 、 neural_gpu ）など計算上ユニバーサルモデル，と，の間のギャップを閉じ，そこでわ、勾配降下を使用してアルゴリズムタスク実施の為の訓練をすることができます。
>
> ? ry ができます。
> これを示すために、ニューラルGPUをユニバーサルトランスフォーマに縮小することが我々わできます。
> ? ry 無視し、自己 ry をアイデンティティ関数としてパラメータ化すると、遷移関数は畳み込み ry 。
> デコーダを無視 ( 訳注 : 動的性削減 ? ) し且つその自己アテンション機構をパラメータ化 ( 訳注 : 静的化 ? ) しアイデンティティ関数ゑと成らせ，我々わその ( ? 訳注 : それである所の ) 遷移関数を畳み込みであると仮定する。
> ? ここで、反復ステップ ry と、正確にニューラルGPUが得られます。
> 我々がここで，再帰ステップTの総数を入力長と等しく設定すると，ニューラル GPU を正確に我々わ得られます ( ? 訳注 : 等価 ) 。
> ? 最後 ry は、ユニバーサル ry が入力のサイズに応じて動的に拡大縮小できない ry トランスフォーマーとは大きく ry 。
> 註記しますが，最後のステップわ，入力サイズに応じて深度を動的スケールできないバニラトランスフォーマーに比してユニバーサルトランスフォーマーが大きく異なる点です。
> ? ユニバーサル ry マシンとの間にも同様 ry が、 ry し、ステップごとの単一の読み取り/書き込み操作は、ユニバーサル ry な平行表示リビジョンに ry 。
> 同様の関係が，ユニバーサルトランスフォーマとニューラルチューリングマシンそれとの間にも存在し，それのステップ毎の read/write オペレーション単一わ，ユニバーサルトランスフォーマのグローバルな並列同時並行表現リビジョン群によって ( 訳注 : より精緻に ? ) 表現することができる。
> ? しかし、これら ry に、アルゴリズム・タスクのみを実行するUniversal ry を実現します。
> これらのモデルとは対照的に，しかし乍ら，アルゴリズム・タスクを良好に ( 訳注 : 且つ汎用 AI/AL として ) 実行する唯一無二 ( 訳注 : 殆ど ⇔ HPKY ) たる Universal Transformerは、LAMBADAや機械翻訳などの現実的な自然言語タスクでも競争力のある結果を達成します。
>
> 関連するもう1つのモデルアーキテクチャは、エンドツーエンドのメモリネットワーク（ sukhbaatar2015 、）です。
> しかし、エンドツーエンドメモリネットワークとは対照的に、ユニバーサルトランスフォーマは、その入力または出力の個々の位置に整列した状態に対応するメモリを使用する。
> ? ry シーケンス間シーケンスタスクで競争力のある ry を実現します。
> さらに、ユニバーサルトランスフォーマは、エンコーダ/デコーダ構成に従い、大規模なシーケンスtoシーケンスタスクに於て競争力あるパフォーマンスを達成します。
>
> 5結論
>
> ? ry ペーパーでは、理論 ry 拡張し、言語理解などの幅広い難しいシーケンス ry に関する最 ry もたらすTransformerモデルの汎用トランスフォーマーについて紹介します。これは、さまざまな ry タスク、それによって標準的なTransformerの重要な欠点 ry します。
> このペーパーが紹介するのわユニバーサルトランスフォーマ。 Transformer の，その理論的能力を拡張しそして言語理解タスクだけでなくさまざまなアルゴリズムタスクといった幅広いレンジのチャレンジングなシーケンスモデリングタスクに於て最先端の結果をもたらす，汎化形モデルであり，それによって，標準 Transformer の，キー的欠点に対処しています。
> ? ry のキープロパティ ry します。
> ユニバーサルトランスフォーマーは、以下の各キープロパティを1つのモデルに結合します :
>
> ? 体重共有： ry 見られる体重共有の直感の後、私たちは誘導 ry とモデル表現の間 ry バランスを取るシンプルな体重分けでTransformerを拡張 ry 。これは小規模実験と大規模実験の両方で幅広く示しています。
> 重み共有：CNNやRNNで見られる荷重共有の背後にある直感それに従い私たちわ Transformer を，誘導バイアスとそして我々が小規模大規模両実験で幅広く示すモデル表現性と，の間の適正バランスを討ち獲る所の，シンプル形態な荷重共有で拡張します。
> ? ry ：計算機に普遍的なマシン ry 目標では、ユニバーサル ry フォーマーに、最近導入されたメカニズムを使用して計算を中止または継続する機能を装備 ry 。
> 条件付き計算：計算普遍マシンを構築するという我々の目標に於て，固定深度トランスフォーマ比で強力な結果を見せる所の、最近紹介された機構を通じての計算中止か計算継続かをする機能をユニバーサルトランスフォーマーに我々わ装備しました。
>
> ? ry は、並列時系列モデル ry の進展に ry 。
> 私たちわ，等速的並列並行シーケンスモデルの最近の開発について熱心に取り組んでいます。
> ? ry と処理の再現性を追加 ry 、ここで紹介した基本的なユニバーサル ry するのに役立つことを願って ry 。
> 計算量と処理再帰深度とを追加することで，ここでご覧に入れた基本的ユニバーサルトランスフォーマーを超えたさらなる改善が、現在の最先端技術を超えてより強力で、データ効率が高く、一般化 ( 原文 : generalize ) する学習アルゴリズムを構築する我々を助ける事を我々わ願っています。
> ユニバーサルトランスフォーマーのトレーニングと評価に使用されるコードは、 http://github.com/tensorflow/tensor2tensor （ tensor2tensor 、）から入手できます。
>
> 謝辞
> ? 実り ry インスピレーションのために、 ry に感謝します。
> 彼らの実り多いコメントとインスピレーションに対し，Ashish Vaswani、Douglas Eck、David Dohanに我々わ感謝します。
>
> 参考文献
>
> [1]
> ? ry の加重トランスネットワーク ry 。
> Karim Ahmed、Nitish Shirish Keskar、およびRichard Socher。
> 機械翻訳用の荷重トランスフォーマネットワーク。
> arXiv preprint arXiv:1711.02132, 2017. arXivプレプリントarXiv：1711.02132、2017。
> [2]
> ジミーレイバ、ジェイミーライアンキロス、ジェフリーEヒントン。
> レイヤーの正規化。
> arXivプレプリント arXiv：1607.06450、2016年。
> [3]
> Dzmitry Bahdanau、Kyunghyun Cho、およびYoshuaBengio。
> 整列と翻訳を共同で学習することによるニューラル機械翻訳。
> CoRR、abs / 1409.0473、2014年。
> [4]
> チョ・キョンヒョン、バート・ファン・メリエンボア、キャグラー・グルセレ、フェティ・ブーガース、ホルガー・シュウェンク、ヨシュア・ベンジオ。
> 統計的機械翻訳のためのRNNエンコーダーデコーダーを使用したフレーズ表現の学習。
> CoRR、abs / 1406.1078、2014年。
> [5]
> フランソワ・コレット。
> Xception：深さ方向に分離可能な畳み込みによる深層学習。
> arXivプレプリントarXiv：1610.02357、2016年。
> [6]
> Zewei Chu、Hai Wang、Kevin Gimpel、およびDavidMcAllester。
> ? ry 文脈言語モデリング ry 52～57ページ ry 。
> 読解としての幅広い文脈言語モデリング。
> 計算言語学会の欧州支部の第15回会議の議事録：第2巻、短編論文、第2巻、52-57ページ、2017年。
> [7]
> Bhuwan Dhingra、Qiao Jin、Zhilin Yang、William W Cohen、およびRuslanSalakhutdinov。
> ? ry 言及を推論する ry 。
> 相互参照を使用して複数の言及に跨がった推論をするためのニューラルモデル。
> arXivプレプリントarXiv：1804.05922、2018。
> [8]
> Bhuwan Dhingra、Zhilin Yang、William W Cohen、およびRuslanSalakhutdinov。
> リカレントニューラルネットワークの記憶としての言語知識。
> arXivプレプリントarXiv：1703.02620、2017年。
> [9]
> Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、およびYann N. Dauphin。
> ? 畳み込みシーケンスからシーケンス学習。
> 畳込なシーケンスtoシーケンスの学習。 ?
> CoRR、abs / 1705.03122、2017年。
> [10]
> エドゥアールグレイブ、アルマンジュリン、ニコラスウスニエ。
> 連続キャッシュによるニューラル言語モデルの改善。
> arXiv preprint arXiv：1612.04426、2016年。
> [11]
> アレックス・グレイブス。リカレントニューラルネットワークによるシーケンスの生成。
> CoRR、abs / 1308.0850、2013。
> [12]
> アレックス・グレイブス。
> ? ry ニューラルネットワークの適応計算時間。
> リカレントニューラルネットワークの為の適応的計算時間。
> arXivプレプリントarXiv：1603.08983、2016年。
> [13]
> アレックス・グレイブス、グレッグ・ウェイン、イヴォ・ダニエルカ。
> ニューラルチューリングマシン。
> CoRR、abs / 1410.5401、2014年。
> [14]
> ミカエル・ヘナフ、ジェイソン・ウェストン、アーサー・スラム、アントワーヌ・ボルデス、ヤン・ルクン。
> リカレントエンティティネットワークによる世界の状態の追跡。
> arXivプレプリントarXiv：1612.03969、2016年。
> [15]
> ゼップ・ホッフライター、ヨシュア・ベンジオ、パオロ・フラスコーニ、ユルゲン・シュミットフーバー。
> リカレントネットの勾配フロー：長期依存関係の学習の難しさ。
> 動的リカレントニューラルネットワークのフィールドガイド、2003年。
> [16]
> A.ジョウリンとT.ミコロフ。
> ? ry アルゴリズムパターンの推測。
> スタック拡張リカレントネットを使用したアルゴリズムパターン推測。
> 神経情報処理システムの進歩、（NIPS）、2015。
> [17]
> ￡ukaszKaiserとIlya Sutskever。
> ニューラルGPUはアルゴリズムを学習します。
> 2016年の学習表現に関する国際会議（ICLR）で。
> [18]
> ニキータ・キタエフとダン・クライン。
> ? ry した構成要素の解析。
> 自己注意型エンコーダーを使用した構成要素パーシング。
> ACL’18、2018の議事録。
> [19]
> Zhouhan Lin、Minwei Feng、キケロ・ノゲイラ・ドス・サントス、モー・ユー、ビング・シャン、ボーエン・ジョウ、ヨシュア・ベンジオ。
> 構造化された自己注意文の埋め込み。
> arXivプレプリントarXiv：1703.03130、2017年。
> [20]
> Tal Linzen、Emmanuel Dupoux、およびYoav Goldberg。
> 構文に依存する依存関係を学習するlstmsの能力の評価。
> 計算言語学協会のトランザクション、4（1）：521 535、2016。
> [21]
> デニス・ペーパーノ、ゲルマン・クルゼフスキ、アンジェリキ・ラザリドゥ、ゴック・クアン・ファム、ラファエラ・ベルナルディ、サンドロ・ペッツェル、マルコ・バローニ、ジェマ・ボレダ、ラケル・フェルナンデス。
> ランバダデータセット：幅広い談話コンテキストを必要とする単語予測。
> 計算言語学会第54回年次総会の議事録（第1巻：長文）、第1巻、1525～1534ページ、2016年。
> [22]
> ? ry OscarT臘kstr ry
> Ankur Parikh、OscarTa"ckstro"m 、Dipanjan Das、およびJakob Uszkoreit。
> 分解可能なアテンションモデル。自然言語処理における経験的方法、2016年。
> [23]
> ジャック・レイ、ジョナサン・J・ハント、イヴォ・ダニエルカ、ティモシー・ハーリー、アンドリュー・W・シニア、グレゴリー・ウェイン、アレックス・グレイブス、ティム・リリクラッフ。
> ? スパース読み取りおよび書き込みによるメモリ拡張ニューラルネットワークのスケーリング。
> ? 読み取りと書き込みがまばらなメモリ拡張ニューラルネットワークのスケーリング。
> 読込書込がスパースな拡張記憶ニューラルネットワークそのスケーリング。
> ニューラル情報処理システムの進歩、ページ3621--3629、2016年。
> [24]
> ミンジュンソ、セウォンミン、アリファーハディ、およびハンナネハジシルジ。
> 質問応答のためのクエリ削減ネットワーク。
> arXivプレプリントarXiv：1606.04582、2016年。
> [25]
> Nitish Srivastava、Geoffrey E Hinton、Alex Krizhevsky、Ilya Sutskever、およびRuslanSalakhutdinov。
> ドロップアウト：ニューラルネットワークの過剰適合を防ぐ簡単な方法。
> Journal of Machine Learning Research、15（1）：1929--1958、2014年。
> [26]
> Sainbayar Sukhbaatar、Arthur szlam、Jason Weston、Rob Fergus。
> エンドツーエンドのメモリネットワーク。
> C. Cortes、ND Lawrence、DD Lee、M。Sugiyama、およびR. Garnett、編集者、Advances in Neural Information Processing Systems 28、2440～2448ページ。 Curran Associates、Inc.、2015年。
> [27]
> Ilya Sutskever、Oriol Vinyals、およびQuoc V. Le。
> ? ry を使用したシーケンス間学習。
> ニューラルネットワークを伴ったシーケンスtoシーケンス学習。
> ニューラル情報処理システムの進歩、ページ3104--3112、2014年。
> [28]
> Ke Tran、Arianna Bisazza、およびChristof Monz。
> ? ry に再発する ry 。
> 階層構造をモデル化するために再帰することの重要性。
> NAACL'18、2018年の議事録で。
> [29]
> アシュシュ・ヴァスワニ、サミー・ベンジオ、ユージーン・ブレブド、フランソワ・ショレット、エイダン・N・ゴメス、ステファン・ゴース、リオン・ジョーンズ、オーカス ( ? 訳注 : ルーカス ) ・カイザー、ナル・カルクブレンナー、ニキ・パーマー、ライアン・セパシ、ノーム・シェーザー、およびヤコブ・ウシュコライト。
> ニューラル機械翻訳用のTensor2tensor。
> CoRR、abs / 1803.07416、2018。
> [30]
> Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Noam Shazeer、およびLukasz Kaiser。
> イメージトランスフォーマー、
> 2018年。
> [31]
> アシュシュ・ヴァスワニ、ノアム・シェーザー、ニキ・パーマー、ヤコブ・ウシュコライト、リオン・ジョーンズ、エイダン・N・ゴメス、ルカス・カイザー、イリア・ポロスキヒン。
> ? ry は注意だけです。
> 必要なのはアテンションだけです。
> CoRR、2017年。
> [32]
> ジェイソン・ウェストン、アントワーヌ・ボルデス、スミット・チョプラ、アレクサンダー・M・ラッシュ、バート・ヴァン・メリエンボーア、アルマン・ジョウリン、トマス・ミコロフ。
> ? ry ：一連の前提条件のおもちゃのタスク。
> AI完全な質問応答に向けて：前提条件のおもちゃ的タスクのセット。
> arXivプレプリントarXiv：1502.05698、2015年。
> [33]
> ダニ・ヨガタマ、イーシュ・ミャオ、ガーボル・メリス、ワン・リン、アディグナ・クンコロ、クリス・ダイアー、フィル・ブランソム。
> リカレントニューラルネットワーク言語モデルのメモリアーキテクチャ。
> 2018年、学習表現に関する国際会議で。
> [34]
> Wojciech ZarembaとIlya Sutskever。
> ? ry することを学ぶ。
> 実行する為の学習。
> CoRR、abs / 1410.4615、2015年。

> 付録Aユニバーサルトランスフォーマーの詳細なスキーマ
>
>
ポジション埋込タイムステップ埋込マルチヘッド
入 ↓ ↓ 自己 ━━→ ドロップアウト
力 ─→ 各 ─━→ + → + ┯━━━━━┯━→ アテンション ┃
シの入 ↑ 　エ再 │ ↓
│ 埋力 ┃ 　ン帰 └───────────────→ +
ケ込シ ┃ ブコ変遷 ┃
ンン For ┃ ロ│ ┏━ 関数 ←━ レイヤの正規化 ←┛
スボ T ステップ ┃ ッダ ↓ ↓
ル数 ┃ クドロップアウト ━━→ + ━→ レイヤ
┗━━━━━━━━━━━━━━━━┳━━ 正規化
┃
┃ T ステップ
タイムステップ埋込 ─┐ マルチヘッド ┃ 経過後
ポジション埋込 │ 自己アテンション ┓ ┃
↓ ↓ ↑ ↓ ↓
標 ─→ 各 ─━→ + → + ┯━┯┛ ドロップアウトマルチヘッド
的の標 ↑ │　 ┃ ┏━━→ アテンション ━┓
シ埋的 ┃ │ 　↓ ┃ ↓
│ 込シ For ┃ └→ + ━━→ レイヤ正規化 ┐ ドロップアウト ┓
ケン T ステップ ┃ ↓ ┃
ンボ数 ┃ 再帰デコーダ ┏━━━ + ←━━━━━━━┛
スル ┃ ブロック ↓
( 1 ずつ ┃ ┌ レイヤ正規化 ━━→ 変遷関数
右シフト T ステップ ┏┫ レイヤ ↓ ┃
される ) 経過後 ┃┗━ 正規化 ←━━ + ←━━ ドロップアウト ←━┛
↓
Softmax
↓
確率出力
>
>
> 図4：位置とステップの埋め込み、およびドロップアウトとレイヤーの正規化を備えたユニバーサルトランスフォーマー。
>
>
>
> ? ry BbAbI詳細 ry
> 付録B bAbI の詳細な結果
>
:
> 各タスクでのベストなシード実行（10回の実行のうち） ? 各タスクに最適なシード ry
>
タスクID
10K 1K
train single train joint train single train joint ? 列車シングルトレインジョイントトレインシングルトレインジョイント

1 0.0 0.0 0.0 0.0
2 0.0 0.0 0.0 0.5
3 0.4 1.2 3.7 5.4
4 0.0 0.0 0.0 0.0
5 0.0 0.0 0.0 0.5
6 0.0 0.0 0.0 0.5
7 0.0 0.0 0.0 3.2
8 0.0 0.0 0.0 1.6
9 0.0 0.0 0.0 0.2
10 0.0 0.0 0.0 0.4
11 0.0 0.0 0.0 0.1
12 0.0 0.0 0.0 0.0
13 0.0 0.0 0.0 0.6
14 0.0 0.0 0.0 3.8
15 0.0 0.0 0.0 5.9
16 0.4 1.2 5.8 15.4
17 0.6 0.2 32.1 43.2
18 0.0 0.0 0.0 4.1
19 2.8 3.1 47.2 69.11
20 0.0 0.0 2.4 2.4

平均エラー 0.21 0.29 4.56 7.85
失敗した 0 0 3 5
>
>
>
> すべてのシードの平均（±var）（10回の実行）

タスクID
10K 1K
train single train joint train single train joint ? 列車シングルトレインジョイントトレインシングルトレインジョイント

1 0.0 ア 0.0 0.0 ア 0.0 0.2 ア 0.3 0.1 ア 0.2
2 0.2 ア 0.4 1.7 ア 2.6 3.2 ア 4.1 4.3 ア 11.6
3 1.8 ア 1.8 4.6 ア 7.3 9.1 ア 12.7 14.3 ア 18.1
4 0.1 ア 0.1 0.2 ア 0.1 0.3 ア 0.3 0.4 ア 0.6
5 0.2 ア 0.3 0.8 ア 0.5 1.1 ア 1.3 4.3 ア 5.6
6 0.1 ア 0.2 0.1 ア 0.2 1.2 ア 2.1 0.8 ア 0.4
7 0.3 ア 0.5 1.1 ア 1.5 0.0 ア 0.0 4.1 ア 2.9
8 0.3 ア 0.2 0.5 ア 1.1 0.1 ア 0.2 3.9 ア 4.2
9 0.0 ア 0.0 0.0 ア 0.0 0.1 ア 0.1 0.3 ア 0.3
10 0.1 ア 0.2 0.5 ア 0.4 0.7 ア 0.8 1.3 ア 1.6
11 0.0 ア 0.0 0.1 ア 0.1 0.4 ア 0.8 0.3 ア 0.9
12 0.2 ア 0.1 0.4 ア 0.4 0.6 ア 0.9 0.3 ア 0.4
13 0.2 ア 0.5 0.3 ア 0.4 0.8 ア 0.9 1.1 ア 0.9
14 1.8 ア 2.6 1.3 ア 1.6 0.1 ア 0.2 4.7 ア 5.2
15 2.1 ア 3.4 1.6 ア 2.8 0.3 ア 0.5 10.3 ア 8.6
16 1.9 ア 2.2 0.9 ア 1.3 9.1 ア 8.1 34.1 ア 22.8
17 1.6 ア 0.8 1.4 ア 3.4 44.7 ア 16.6 51.1 ア 12.3
18 0.3 ア 0.4 0.7 ア 1.4 2.3 ア 3.6 12.8 ア 9.0
19 3.4 ア 4.0 6.1 ア 7.3 50.2 ア 8.4 73.1 ア 23.9
20 0.0 ア 0.0 0.0 ア 0.0 3.2 ア 2.5 2.6 ア 2.8

平均 0.73 ア 0.89 1.12 ア 1.62 6.39 ア 3.22 11.21 ア 6.62
>
>
>
> 付録C bAbI 注意の視覚化
>
> Different color bars on the left side indicate attention weights based on different heads (4 heads in total).
>
> いくつかの例として、bAbIタスクの注意分布の視覚化を示します。
> ? ry 質問のすべての事実に関するさまざまな頭に基づいて、 ry 。
> 注意の重みの視覚化は、ストーリーと質問との中に於ての事実全てに亘っての様々な各先頭 ( ? 訳注 : 各位置 ) に基づいて，さまざまな時間ステップにわたって行われます。
> ? ry は、異なるヘッド（ ry のヘッド）に基づく注意の重み ry 。
> 左側の異なるカラーバーわ，異なる先頭（合計4つの先頭）に基づいた注意それらの重みを示します。
>
> ? ry 1の例 ry に1つの裏付け ry 事実 ry
> タスク1 からの数例:(解決するために裏付けとなる事実 1 つが必要）
> Story : ? 物語：
> ジョンは廊下に行った。
> ? ry はトイレに旅した。
> メアリーわバスルームに出掛けた。
> ? ry はトイレに ry 。
> ダニエルわバスルームに戻りました。
> ジョンは寝室に移動しました
> クエリ：
> メアリーはどこ？
> モデルの出力：
> バスルーム
>
>
1234 John travelled to the hallway.
1234 Mary journeyed to the bathroom.
12 Daniel went back to the bathroom.
1234 John moved to the bedroom
1234 Where is Mary? Where is Mary?
>
> （a）ステップ1
>
>
> （b）ステップ2
>
>
> （c）ステップ3
>
>
> （d）ステップ4
>
>
> 図5：「メアリーはどこですか？」という質問をエンコードするときの注意分布の視覚化。
>
>
>
> ? ry 2の例：（解決する2 ry
> タスク2 からの一例：（解決する為にわ 2つの裏付けとなる事実が必要）
> ストーリー：
> サンドラは廊下に旅しました。
> ? ry はトイレに ry 。
> メアリーわバスルームに行きました。
> メアリーはそこでリンゴを取りました。
> メアリーはリンゴを落としました。
> クエリ：
> りんごはどこですか？
> モデルの出力：
> ? 浴室
> バスルーム
>
>
1234 Sandra journeyed to the hallway.
1234 Mary went to the bathroom.
1234 Mary took the apple there.
12 4 Mary dropped the apple.
234 Where is the apple? Where is the apple?
>
> （a）ステップ1
>
>
> （b）ステップ2
>
>
> （c）ステップ3
>
>
> （d）ステップ4
>
>
> 図6：「リンゴはどこですか？」という質問をエンコードする際の注意分布の視覚化。
>
>
>
> ? ry 2の例 ry
> タスク2 からの一例：（解決する2つの裏付けとなる事実が必要）
> ストーリー：
> ジョンは廊下に行きました。
> ? ry はトイレに ry 。
> ジョンわバスルームに戻りました。
> ジョンはそこで牛乳をつかみました。
> サンドラはオフィスに戻りました。
> サンドラは台所に行きました。
> サンドラはそこでリンゴを手に入れました。
> サンドラはリンゴをそこに落としました。
> ジョンはミルクを落としました。
> クエリ：
> 牛乳はどこですか？
> モデルの出力：
> ? 浴室
> バスルーム
>
>
4 John went to the hallway.
4 John went back to the bathroom.
1234 John grabbed the milk there.
Sandra went back to the office.
Sandra journeyed to the kitchen.
123 Sandra got the apple there.
123 Sandra dropped the apple there.
123 John dropped the milk.
1234 Where is the milk? Where is the milk?
>
> （a）ステップ1
>
>
> （b）ステップ2
>
>
> （c）ステップ3
>
>
> （d）ステップ4
>
>
> 図7：「牛乳はどこですか？」という質問をエンコードする際の注意分布の視覚化。
>
>
>
> ? ry 3の例 ry
> タスク3 からの一例:(解決するには3つの裏付けとなる事実が必要）
> ストーリー：
> メアリーは牛乳を手に入れました。
> ジョンは寝室に移動しました。
> ダニエルはオフィスに行きました。
> ジョンはそこでリンゴをつかんだ。
> ? ry はサッカーを ry 。
> ジョンわフットボールを手に入れました。
> ジョンは庭に行きました。
> メアリーは牛乳を残しました。
> ? ry はサッカーを去った。
> ジョンわフットボールを残しました。
> ? ry は庭に引っ越し ry 。
> ダニエルわ庭ゑ移動しました。
> ? ry はサッカーを ry 。
> ダニエルわフットボールをつかんだ。
> メアリーは廊下に移動しました。
> メアリーは台所に行った。
> ジョンはそこにリンゴを置いた。
> ジョンはリンゴを拾いました。
> サンドラは廊下に移動しました。
> ? ry にサッカーを ry 。
> ダニエルはそこにフットボールを残しました。
> ? ry はサッカーをしました。
> ダニエルわフットボールを得ました。
> ジョンは台所に行った。
> ? ry はサッカーを ry 。
> ダニエルわフットボールを落とした。
> ジョンはリンゴを落とした。
> ジョンはリンゴをつかんだ。
> ジョンはオフィスに行った。
> サンドラは寝室に戻った。
> サンドラはミルクを取りました。
> ジョンはトイレに行きました。
> ジョンはオフィスに行きました。
> サンドラは牛乳を残しました。
> メアリーは寝室に行った。
> ? ry はオフィスに引っ越し ry 。
> メアリーわオフィスゑ移動した。
> ジョンは廊下に行った。
> サンドラは庭に移動しました。
> メアリーはキッチンに移動しました。
> ? ry はサッカーをしました。
> ダニエルわフットボールを得ました。
> メアリーは寝室に行きました。
> メアリーはそこで牛乳をつかんだ。
> メアリーは牛乳を捨てた。
> ジョンは庭に行きました。
> ジョンはそこでリンゴを捨てた。
> クエリ：
> ? トイレの前にリンゴは ry ？
> バスルームにあった以前にリンゴわどこにありましたか？
> モデルの出力：
> オフィス
>
>
>
Mary got the milk.
John moved to the bedroom.
Daniel journeyed to the office.
1234 John grabbed the apple there.
John got the football.
John journeyed to the garden.
Mary left the milk.
John left the football.
Daniel moved to the garden.
Daniel grabbed the football.
Mary moved to the hallway.
Mary went to the kitchen.
John put down the apple there.
1 3 John picked up the apple.
Sandra moved to the hallway.
Daniel left the football there.
Daniel took the football.
John travelled to the kitchen.
Daniel dropped the football.
4 John dropped the apple.
1 4 John grabbed the apple.
234 John went to the office.
Sandra went back to the bedroom.
Sandra took the milk.
1234 John journeyed to the bathroom.
John travelled to the office.
Sandra left the milk.
4 Mary went to the bedroom.
Mary moved to the office.
34 John travelled to the hallway.
Sandra moved to the garden.
Mary moved to the kitchen.
Daniel took the football.
Mary journeyed to the bedroom.
Mary grabbed the milk there.
Mary discarded the milk.
John went to the garden.
123 John discarded the apple there.
1234 Where was the apple before the bathroom? Where was the apple before the bathroom?
>
> （a）ステップ1
>
>
> （b）ステップ2
>
>
> （c）ステップ3
>
>
> （d）ステップ4
>
>
> ? ry 「トイレの前にリンゴは ry 。
> 図8：「バスルームにあった以前にリンゴわどこにありましたか？」という質問をエンコードしたときの注意分布の視覚化。
>
>
>
> LaTeXML [ロゴ]によって生成
> 私たちが作っている新しいツールについて知りたいですか？
> 随時更新される場合は、メーリングリストに登録してください。
> 申し込む
>
> LaTeXMLの助けを借りて、Andreas JanssonとBen Firshmanによって構築されました。
> GitHubに貢献してください。
> ? ry より提供。
> YLDのご厚意によりスポンサードされました。
>
>
>
> v3-14
>
> 付録C。動的停止 ( 原文 : DYNAMIC HALTING.) を伴うUT。
>
> ? ry では、 ry 。
> TensorFlowでわ我々わ，ACT（Graves、2016）に基づいて動的停止を次のように実装します。
> ? ry 、確率、剰余、その時点までの更新数、前の状態 ry 化）、および0と1の間のスカラーしきい値（aハイパーパラメータ）。
> 動的停止を使用するUTの各ステップでは，停止確率，余り ( 原文 :remainders , ここでわ各位置に残っている単なる減算差分 ? ) と，その時点までの更新回数と勿論，スカラーしきい値（単一のハイパーパラメータ）を 0と1の間とする限りに於ての前回の状態（すべてゼロとして初期化）と，ろ我々わ与えた。
> ? 次に、 ry 。
> 我々わ次に，各ポジションの新しい状態を計算し、各ポジションの状態に基づいて、ポジションごとの新しい停止確率を計算します。
> 次に、UTは、しきい値を超えたいくつかの位置で停止することを決定し、モデルがすべての位置で停止するか、事前定義された最大ステップ数に達するまで、他の位置の状態を更新します。
>
>
1 # この述語 ( 原文 : predicate ) がFALSEの場合、Whileループは停止します
2 # つまり、すべて（（確率<しきい値）＆（カウンター<max_steps））は偽です
3 def should_continue ( u0 , u1 , halting_probability , u2 , n_updates , u3 ) :
4 return tf.reduce_any ( # tf.reduce_anyを返します（
5 tf.logical_and (
6 tf.less ( halting_probability , threshold ) ,
7 tf.less ( n_updates , max_steps ) ) )
8 # 上記の述語がfalseになるまでwhileループの反復を実行します
9 ( _ , _ , _ , remainder , n_updates , new_state ) = tf.while_loop (
10 should_continue , ut_with_dynamic_halting , ( state ,
11 step , halting_probability , remainders , n_updates , previous_state ) )
>
> リスト1：動的停止を伴うUT
>
>
> 以下に、各ステップの計算を示します。
>
1 def ut_with_dynamic_halting ( state , step , halting_probability ,
2 remainders , n_updates , previous_state ) : ? 剰余 ,
3 # この状態を実行する確率ベースを計算します ? 状態 ry
4 p = common_layers.dense ( state , 1 , activation = tf.nn.sigmoid , # ry （状態、1、アクティベーション= tf.nn.sigmoid、
5 use_bias = True )
6 # まだ停止していない各入力の為のマスク ? ry していない入力のマスク
7 still_running = tf.cast (
8 tf.less ( halting_probability , 1.0) , tf.float32 )
9 # このステップで停止した各入力のマスク ? ry した入力
10 new_halted = tf.cast (
11 tf.greater ( halting_probability + p * still_running , threshold ) ,
12 tf.float32 ) * still_running
13 # 停止しておらず、このステップを停止しなかった各入力のマスク ? ry しなかった入力 ry
14 still_running = tf.cast (
15 tf.less_equal ( halting_probability + p * still_running ,
16 threshold ) , tf.float32 ) * still_running # しきい値）、
17 # このステップの各停止確率を、 ? ry の停止確率 ry
18 # まだ停止していない各入力の停止確率に追加します ? ry いない入力 ry
19 halting_probability += p * still_running
20 # このステップで停止した各入力の剰余を計算します ? 停止した入力 ry
21 remainders += new_halted * ( 1 - halting_probability )
22 # このステップで停止した各入力に余りを追加します ? ry した入力に剰余を
23 halting_probability += new_halted * remainders ? ry *剰余
24 # まだ実行中のすべての入力のn_updatesをインクリメントします
25 n_updates += still_running + new_halted
26 # 新しい状態と出力に適用される重みを計算します：
27 # 0 入力がすでに停止している場合、
28 # pは、入力がまだ停止していない場合、、
29 # このステップを停止したときの残り。
30 update_weights = tf.expand_dims ( p * still_running +
31 new_halted * remainders , -1) ? ry *剰余、 ry
32 # この状態に変容を適用します ? 状態に変換を ry
33 transformed_state = transition_function ( self_attention ( state ) )
34 # 変容された状態と前回の状態とを停止されていない各入力の為に ( に付いて ? ) 補間します ? 停止されていない入力の変換された状態と以前の状態を補間 ry
35 new_state = (( transformed_state * update_weights ) +
36 ( previous_state * (1 - update_weights ) ) )
37 step += 1 # ステップ+ = 1
38 return ( transformed_state , step , halting_probability ,
39 remainders , n_updates , new_state ) ? 剰余、 ry
>
> リスト2：動的停止を伴うUTの各ステップでの計算
>
>
>
> v3-15
> D.2 主語-動詞の一致 ( 原文 : AGREEMENT )
>
> 主語と動詞の一致は、英語の文の主語と動詞の間の数の一致を予測するタスクです。
>
> このタスクの成功は、モデルが構文構造を近似することを学習できることを示す強力な指標であるため、Linzen et al。（2016）によってさまざまなモデルが自然言語の階層構造をキャプチャする能力を評価するためのプロキシとして提案されました。
>
> ? ry タスクでモデル ry 。
> このタスクでのモデルをトレーニングするために、Linzenら（2016）によって2つの実験セットアップが提案されました：1）言語モデリングの目的でのトレーニング、つまり次の単語の予測、および2）二項分類としてのトレーニング、つまり文に与えられた動詞の数の予測。
> この論文では、言語モデリングの目的を使用します。つまり、モデルに暗黙の監視を提供し、動詞の誤った形式と比較した正しい形式の動詞のランク付けの精度に基づいて評価します。
>
> ? ry とは反対の数の1 ry 名詞が ry 。
> このタスクでは、さまざまなレベルの難易度を持たせるために、「合意アトラクタ ( 原文 : agreement attractors ) 」が使用されます。つまり、モデルを混乱させる目的で、主語とわ反数である所の1つ以上の介在名詞達 ( 原文 : ntervening nouns ) が使用されます。
> ? ry 構文主語の頭 ry 。
> この場合、モデルは、特定の動詞に対応する構文主語 ( 統語的主語 ) の先頭を正しく識別し、その動詞の正しい形式を予測するために、介在するアトラクターを無視する必要があります。
> サブジェクトと対応する動詞が太字 ( 訳注: この訳でわ大文字 ) で示され、合意アトラクタに下線 ( 訳注 : この訳でわ先頭大文字 ) が引かれている、このタスクのいくつかの例を次に示します。
>
>
アトラクタなし： the BOY SMAILES. 少年は微笑みます。
1つのアトラクタ： the NUMBER of Men IS not clear. 男性の数は明確ではありません。
2つのアトラクタ： the RAITO of Men to Women IS not clear. 男性と女性の比率は明確ではありません。
3つのアトラクタ： the RAITO of Men to Women and Children IS not clear. 男性と女性および子供との比率は明確ではありません。
>
>
>
> v3-16
> D.4 実行するための学習 ( 原文 : LEARNING TO EXECUTE ) （LTE）。 ( 訳注: 汎用プログラム )
>
> ? ry 示す一連のタスクであり、 ry 。
> LTEは、コンピュータープログラムの実行を学習するモデルの能力を示すタスクを含むセットであり，Zaremba＆Sutskever（2015）によって提案されました。
> ? ry ます。1 ry 、ifステートメント、変数割り当て、演算 ry 性などを理解 ry および2 ry リバース）。
> これらのタスクには、次の2つのサブセットが含まれます : 1）数値演算，ifステートメント，可変な引数，演算の構成性，など，を理解するためのモデルの能力を査定する為に設計されたプログラム評価タスク（プログラム、制御、および加算）、および更にわ、勿論 2）記憶タスク（コピー、ダブル、リバース）も。
>
> プログラム評価タスクの難易度は、その長さとネストによってパラメータ化されます。
> ? ry は、プログラムに表示される整数の桁数であり ry に組み合わせ ry です。。
> 長さパラメーターわ，プログラムに現れる整数の桁数 ( 原文 : digits ) であり（したがって、整数は[1、長さ]から均一に選択されます）、ネストパラメーターは、操作を相互に我々が組合わせることができる回数です。
> ネストの値が高いほど、解析ツリーが深くなります。
> たとえば、長さ= 4、ネスト= 3で生成されるプログラムを次に示します。
>
Input: # 入力：
j=8584 ? ：
for x in range(8): ? range（8）のxに対して
j+=920
b=(1500+j)
print((b+7567))
Target: # ターゲット：
25011
>
>
>
> --
> フリーソフトウエア関連ボランティアの皆様に感謝申上げますと共に
> 当原稿執筆編集の甚大コストへの御配慮に厚く御礼申上げます
> 三菱 UFJ 銀行平針支店 ( 普 ) 0111481 ヤマグチセイセイ
> 郵便局 218普2449768 ヤマグチセイセイ
> Yahoo pt 1362821068616323 Rakuten pt 1100-3310-4065-1717
> http://yahoo.jp/HsDIGs?#_HDD_HGST
> 祝任天堂すいっち有機 EL モデル

--
YAMAGUTIseisei ( str_h__namae = { :sei => "山口" , :mei => "青星" } )
http://hello.to/seisei/ mailto:seisei@.68..net
祝任天堂すいっち有機 EL モデル
>

--
YAMAGUTIseisei ( str_h__namae = { :sei => "山口" , :mei => "青星" } )
http://hello.to/seisei/ mailto:seiseiATx68k.net phs://81.70.5152.1104/
謝々々々台湾宮廷料理海味館名古屋市熊の前二丁目 ( MiniStop 対面 )

# 台湾がアメリカからちょっかい掛けられていた頃に小説ネタとして考えた策 :
#
# A. 国名変更 ( 台湾民族日本州国 )
#
# B. 大政馳走 ( 下渡 / 維持 ) + 大台湾島無血開城 ( ※ 但し鴻海夏普国ゑ ) ← 中華漁師は台湾籍を名乗れば日本領海 ( 含尖閣 ) で少量漁猟可 ?
# ( 日本からは沖縄県を嫁に出す ( 日本国台湾州沖縄県 ※ 但し沖縄米軍基地一掃 ( 台湾移設 → 三つ巴の状況を作る為に北●鮮大使館なりを隣接 + 韓国軍基地 + 自●隊基地 )
# → 沖縄県経済策 : 全県民へベーシックインカム )
#
# C. B. + 台湾島各米軍基地傍にコ●壱と●戸屋と個人寿司店と個人拉麺店の出店を大バックアップ ( 謝辞 : 機材提供実績感謝徳鮨白土店寿司けん白土店寿し友司岡崎店六八鮨鴻海店 )
#
# この小説を何方かご執筆なさっては如何でしょうか ( 顔のない独裁者 2 ? )

0 new messages