0

I am working with a large dataset (example bellow) of unstructured and structured documents that contain a variety of text elements, including paragraphs, tables, and lists. Currently, the process of generating the equivalent XML markup for each text element is done manually. I am looking to automate this process by using machine learning.

I am considering two possible approaches:

The first approach would be to treat this as a translation problem and use a transformer model to generate the XML markup automatically. This would involve training the model to translate the text elements into their corresponding XML markup.

The second approach would be to treat this as a Named Entity Recognition (NER) problem in natural language processing (NLP). In this approach, the model would be trained to recognize the different text elements and assign them the appropriate XML markup.

Or there are better approaches ?

Example of text :

  1. Har et radio- og TV-selskab ret til at forbyde udsendelse og til at opkræve licens til viderespredning af sine gratis programmer, som en hotelvirksomhed modtager gennem en parabolantenne og viderefører pr. koaksialkabel til værelserne til gavn for gæsterne? Udgør denne form for viderespredning en »viderespredning pr. kabel« som omhandlet i artikel 1, stk. 3, i direktiv 93/83/EØF (2), og kan den bevirke, at radio- og TV-selskabet tildeles specifikke rettigheder i tilfælde af en national lovgivning, som tilsyneladende udvider kataloget af de i EU-lovgivningen fastsatte.

The corresponding XML :

<table cellpadding="0" cellspacing="0" border="0" width="100%">
<col width="5%"/>
<col width="95%"/>
<tr>
<td valign="top">
<p class="count">1.</p>
</td>
<td valign="top">
<p class="normal">Har et radio- og TV-selskab ret til at forbyde udsendelse og til at opkræve licens til viderespredning af sine gratis programmer, som en hotelvirksomhed modtager gennem en parabolantenne og viderefører pr. koaksialkabel til værelserne til gavn for gæsterne? Udgør denne form for viderespredning en »viderespredning pr. kabel« som omhandlet i artikel 1, stk. 3, i direktiv 93/83/EØF (<span class="note footnote notemarker">
<a id="c-2" href="#t-2">2</a>
</span>), og kan den bevirke, at radio- og TV-selskabet tildeles specifikke rettigheder i tilfælde af en national lovgivning, som tilsyneladende udvider kataloget af de i EU-lovgivningen fastsatte rettigheder?</p>
</td>
</tr>
</table>

0 Answers0