Simplify tag token construction

html5lib · jayaddison · Dec 29, 2020 · Dec 29, 2020 · Dec 29, 2020 · Dec 30, 2020
commit 900bdafe1bae95aa32834cf45253f99da541b831
diff --git a/html5lib/_tokenizer.py b/html5lib/_tokenizer.py
@@ -43,23 +43,24 @@ class SpaceCharacters(Token):
 
 
 class Tag(Token):
-    def __init__(self, name, data, self_closing):
+    def __init__(self, name, data):
         self.name = name
-        self.data = data
-        self.self_closing = self_closing
+        self.data = data or []
+        self.self_closing = False
 
 class StartTag(Tag):
-    def __init__(self, name, data, self_closing, self_closing_acknowledged=False):
-        super(StartTag, self).__init__(name, data, self_closing)
-        self.self_closing_acknowledged = self_closing_acknowledged
+    def __init__(self, name, data=None):
+        super(StartTag, self).__init__(name, data)
+        self.self_closing_acknowledged = False
 
 class EndTag(Tag):
-    def __init__(self, name, data, self_closing):
-        super(EndTag, self).__init__(name, data, self_closing)
+    def __init__(self, name, data=None):
+        super(EndTag, self).__init__(name, data)
 
 class EmptyTag(Tag):
-    def __init__(self, name, data):
-        super(EmptyTag, self).__init__(name, data, self_closing)
+    def __init__(self, name, data=None):
+        super(EmptyTag, self).__init__(name, data)
+        self.self_closing = True
 
 class Comment(Token):
     pass
@@ -274,6 +275,7 @@ def emitCurrentToken(self):
                 data = attributeMap(raw)
                 if len(raw) > len(data):
                     # we had some duplicated attribute, fix so first wins
+                    was = dict(data)
                     data.update(raw[::-1])
                 token.data = data
 
@@ -395,7 +397,7 @@ def tagOpenState(self):
         elif data == "/":
             self.state = self.closeTagOpenState
         elif data in asciiLetters:
-            self.currentToken = StartTag(name=data, data=[], self_closing=False)
+            self.currentToken = StartTag(name=data)
             self.state = self.tagNameState
         elif data == ">":
             # XXX In theory it could be something besides a tag name. But
@@ -420,7 +422,7 @@ def tagOpenState(self):
     def closeTagOpenState(self):
         data = self.stream.char()
         if data in asciiLetters:
-            self.currentToken = EndTag(name=data, data=[], self_closing=False)
+            self.currentToken = EndTag(name=data)
             self.state = self.tagNameState
         elif data == ">":
             self.tokenQueue.append(ParseError("expected-closing-tag-but-got-right-bracket"))
@@ -482,13 +484,13 @@ def rcdataEndTagNameState(self):
         appropriate = self.currentToken and self.currentToken.name.lower() == self.temporaryBuffer.lower()
         data = self.stream.char()
         if data in spaceCharacters and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.state = self.beforeAttributeNameState
         elif data == "/" and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.state = self.selfClosingStartTagState
         elif data == ">" and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.emitCurrentToken()
             self.state = self.dataState
         elif data in asciiLetters:
@@ -525,13 +527,13 @@ def rawtextEndTagNameState(self):
         appropriate = self.currentToken and self.currentToken.name.lower() == self.temporaryBuffer.lower()
         data = self.stream.char()
         if data in spaceCharacters and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.state = self.beforeAttributeNameState
         elif data == "/" and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.state = self.selfClosingStartTagState
         elif data == ">" and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.emitCurrentToken()
             self.state = self.dataState
         elif data in asciiLetters:
@@ -571,13 +573,13 @@ def scriptDataEndTagNameState(self):
         appropriate = self.currentToken and self.currentToken.name.lower() == self.temporaryBuffer.lower()
         data = self.stream.char()
         if data in spaceCharacters and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.state = self.beforeAttributeNameState
         elif data == "/" and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.state = self.selfClosingStartTagState
         elif data == ">" and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.emitCurrentToken()
             self.state = self.dataState
         elif data in asciiLetters:
@@ -693,13 +695,13 @@ def scriptDataEscapedEndTagNameState(self):
         appropriate = self.currentToken and self.currentToken.name.lower() == self.temporaryBuffer.lower()
         data = self.stream.char()
         if data in spaceCharacters and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.state = self.beforeAttributeNameState
         elif data == "/" and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.state = self.selfClosingStartTagState
         elif data == ">" and appropriate:
-            self.currentToken = EndTag(name=self.temporaryBuffer, data=[], self_closing=False)
+            self.currentToken = EndTag(name=self.temporaryBuffer)
             self.emitCurrentToken()
             self.state = self.dataState
         elif data in asciiLetters:

diff --git a/html5lib/html5parser.py b/html5lib/html5parser.py
@@ -2783,7 +2783,7 @@ def impliedTagToken(name, type=EndTag, attributes=None,
                     selfClosing=False):
     if attributes is None:
         attributes = {}
-    return type(name=name, data=attributes, self_closing=selfClosing)
+    return type(name=name, data=attributes)
 
 
 class ParseError(Exception):