Translation truncation

Skip to first unread message

Transcrobes Project

May 26, 2021, 5:57:10 AM5/26/21
to marian-nmt
I don't know if this is marian related or model related, sorry if the latter. I have paragraphs that are getting truncated if I send the whole paragraph to marian rather than sentence by sentence. A colleague noticed something similar I am told. Is this expected? E.g, If I send the paragraph.

'▁美国 石油公司 正 与 矿 场 合作 将 不 想要 的 杂 散 天然气 用于 挖掘 比 特 币 。 矿 机 被 放置 在 移动 拖 车 之中 , 运行 温度 高达 摄 氏 ▁ 71 ▁ 度 , 在 北 达 科 他 州 西部 的 寒 冷 地区 , 人们 只要 坐在 计算机 旁边 就可以 保持 温暖 。 石油公司 面临 来自 投资者 和 政府官
员 的压力 , 要求 其 减少 导致 全球变暖 的排放 。 他们 有时 把 天然气 免费 送给 矿 商 ; 有时候 卖掉 。 全球 比 特 币 行业 的总体 二氧化碳 排放 已 增至 ▁ 6,000 ▁ 万吨 , 相当于 大约 ▁900 ▁ 万 辆 汽车 的 排放量 。 根据 美国 银行 分析 师 ▁ 3 ▁ 月 的 一份报告 , 两年前 比 特 ▁ 币 行业 的 排放量 仅为 ▁ 2,000 ▁ 万吨 。 支持者 称 , 北美 新的 石油 - 加密 货币 联盟 令 挖 矿 活动 离开 亚洲 。 原本 超过 ▁ 60% ▁ 的 挖 矿 活动 在亚洲 进行 , 而且 基本上 依赖 煤 电 进行 。 燃 煤 的 二 氧 ▁ 化 碳 排放量 大约 是 天然气 的 两倍 。'

To the websocket then it returns:

'▁The ▁US ▁Oil ▁Company ▁is ▁working ▁with ▁the ▁mines ▁to ▁use ▁the ▁unwanted ▁bulk ▁gas ▁for ▁the ▁extraction ▁of ▁Bit co in . ▁The ▁mine ▁is ▁placed ▁in ▁mobile ▁trailer s ▁at ▁temperatures ▁of ▁up ▁to ▁71 ▁degrees ▁Celsius , ▁and ▁people ▁can ▁stay ▁warm ▁in ▁cold ▁areas ▁in ▁western ▁North ▁D ako ta , ▁just ▁sitting ▁next ▁to ▁computers . ▁The ▁oil ▁company ▁is ▁under ▁pressure ▁from ▁investors ▁and ▁government ▁officials ▁to ▁reduce ▁emissions ▁leading ▁to ▁global ▁warming .'

Which has chopped off about the last half. 

To be fair,  on occasion I have noticed bits chopped off/missed when translating paragraphs on both Bing and Google's end-user UIs, so I guess it might well be an issue more generally. I have noticed that translations can actually be quite a bit better when multiple sentences are provided (though not always) so it would be nice not to be forced to translate single sentences, at least in certain use cases. Any pointers most appreciated! Thanks, A

Roman Grundkiewicz

May 26, 2021, 8:06:27 AM5/26/21
to marian-nmt
Unless you set `--max-length` and `--max-length-crop`, that's most likely model related as it probably has been trained at sentence level only.
Reply all
Reply to author
Message has been deleted
0 new messages