xml-sax Text abgeschnitten [Archiv] - [NEWSboard IBMi Forum]

View Full Version : xml-sax Text abgeschnitten

Seiten : [1] 2

Armin

03-12-20, 13:37

Hallo *All,

ich hab ein XML-File im IFS für den Import liegen.
<?xml version="1.0" encoding="utf-8"?>

Im XML gibt es einen Tag <Note> mit folgendem Inhalt:
<Note>FC-Ausrüstung- alte Chemie 80 % (komplette Partie) - - 32 Stücke GGN 200 / 1 Stück GGN 300 (siehe Bemerkung) - - Teillieferung - </Note>

Der Parser läuft ohne murren drüber.
When xmlEvent = *XML_END_ELEMENT and xmlArea.attrString <> '';
prcLieferschein_Auswertung(%subst(value:1:xmlStrin glen) :xmlArea.attrString);

xmlArea.attrString zeigt mir im Debugger:
FC-Ausr
In der Prozedur prcLieferschein kommt als Parameter aber an:
FC-Ausr ]stung- alte Chemie 80 % (komplette Partie) - -
Anzeige im Debugger
593

Die hier als Quadrate dargestellten Zeichen wurden mir im Forumeditor als <div> übersetzt.

Nehm ich die verschlüsselten Umlaute raus wird mehr übertragen, bricht dann aber u.U. mitten in einem "normalen" Wort ab.
Warum wird der Text beschnitten?
Warum wird ü als Leerzeichen + ] übersetzt?

Fuerchau

03-12-20, 15:00

Weil mal wieder deine CCSID's nicht stimmen.
Wenn die XML wirklich UTF8 ist, muss sie mit CCSID 1208 eingelesen werden.
Dies kann man u.U. erreichen, in dem man die IFS-Datei mit CHGATR auf 1208 setzt.
Wenn dein Job die richtige CCSID hat (nicht 65535) klappt die Konvertierung.
Umlaute in UTF8 bestehen aus 2 Bytes die per Codewandlung in 1-Byte (SBCS) oder UCS2 (DBCS) umgewandelt werden.

Die beiden Kästchen sind wahrscheinlich CRLF, also Zeilenumbruch da es sich ja um einen Text handelt.

Armin

03-12-20, 15:40

Hallo Herr Fuerchau,
besten Dank zunächst für Ihre Bemühung. Mit CHGATR konnte ich die CCSID der XML-Datei von 1252 auf 1208 ändern. Mein Job läuft unter 1141. Hier ist 1208 nicht vorgesehen. Mit CHGJOB versuchte ich es mit 273 ohne eine Änderung zu bewirken. 1208 ist hier nicht zulässig. Meines Wissens ist 1141 die Erweiterung des 273 um das Eurosymbol.

Allerdings ist mein Hauptproblem der abgeschnittene Text.
besten Dank im Voraus

Fuerchau

03-12-20, 15:51

Es gibt da so ein paar Limits:
https://www.ibm.com/support/knowledgecenter/ssw_ibm_i_72/rzasc/xmlparselimit.htm

UTF8 gehört da irgendwie nicht dazu.
Ggf. musst du die IFS-Datei vorher per QSH 'iconv ...' in 1252 umwandeln. Zusätzlich sind auch ggf. die Sonderzeichen CRLF zu entfernen.

PS:
Ich fand den XML-INTO besser, zumal ich das auch mit UCS2 machen kann.
Die Datei lese ich (bis max. 8 MB) per SQL und CLOB_FILE ein.

B.Hauser

03-12-20, 15:59

Hast Du mal versucht bei der %Handler() Funktion die CCSID anzugeben?

Beispiel: Hier werden die Daten als UCS2 ausgegeben.

XML-SAX %handler(hdlr:comm) %XML(xmldata : 'ccsid=ucs2');

Birgitta

Armin

03-12-20, 16:15

594

Die auskommentierte Anweisung hatte ich zuvor.

Im Übrigen hab ich aus dem Text mit dem WIN10-Editor alle Umlaute und Zeilenumbrüche entfernt. Letztes und erstes reguläres Zeichen gelöscht und neu geschrieben. Den Umlaut gegen ue ersetzt.
Trotzdem wird der Text abgeschnitten: FC-Ausruestung alte Chemie 80 % (komplette Partie) 32 Stueck

Vielleicht gibt es ein Beispiel um das ganze mit SQL einzulesen. Bin hier leider vor einiger Zeit nicht fündig geworden.
Besten Dank an alle. Für heute reichts erstmal ...

camouflage

03-12-20, 17:44

... oder Du schaust dir mal den XML-INTO an. Mit V3R1 oder so ginge dies natürlich nicht.

Fuerchau

03-12-20, 18:45

Suche mal hier im Forum nach XML-INTO.
Da gibt es einige Beispiele (for allem Free) mit geschachtelten qualified DS und einer einzigen Anweisung.

Armin

09-12-20, 07:38

Vielen Dank nochmal an alle Koryphäen. Abschließend muss ich sagen, dass ich mich von XML in RPG abgewendet habe. Der Versuch in C# war auf Anhieb von Erfolg gekrönt. Die Umlaute werden korrekt dargestellt. Nichts wird abgeschnitten. Selbst die Zeilenumbrüche sind vorhanden.
Der Code ist übersichtlich und leicht verständlich. Hier sollte sich IBM was abschauen.

Danke für die Hilfsbereitschaft.
using System;using System.Xml;

namespace ReadXMLfromFile
{
/// <summary>
/// Summary description for Class1.
/// </summary>
class Class1
{
static void Main(string[] args)
{
XmlTextReader reader = new XmlTextReader ("books.xml");
while (reader.Read())
{
switch (reader.NodeType)
{
case XmlNodeType.Element: // The node is an element.
Console.Write("<" + reader.Name);
Console.WriteLine(">");
break;
case XmlNodeType.Text: //Display the text in each element.
Console.WriteLine (reader.Value);
break;
case XmlNodeType.EndElement: //Display the end of the element.
Console.Write("</" + reader.Name);
Console.WriteLine(">");
break;
}
}
Console.ReadLine();
}
}
}

Andreas_Prouza

09-12-20, 08:14

Für XML Verarbeitung verwende ich persönlich entweder SQL oder Python (oder auch PHP) auf der IBM i.
Läuft native und ist auch mit ein paar Zeilen Code zu implementieren. Und Unicode Probleme gibt's da auch weniger.

lg Andreas