Scrapy로 웹페이지를 긁어오면 

일반적인 예제에는 ...extract() 로 가져오기때문에... 결과가 \ud55c\uae00 형태로 가져온다..


그걸가지고.. 결과.decode('unicode-scape')로 해도 되지만,


extract()[0] 으로 가져오면, 정확히.. 한글이 표현됨.... 별건 아니지만, 나같은 또다른 사람에게는 도움이 되었으면... ^^


from scrapy.selector import Selector
from scrapy.http import HtmlResponse

body = '<html><body><span>(한글)</span></body></html>'

c = Selector(text=body).xpath('//span/text()').extract()[0]


a = '\u0047'
print a.decode('unicode-escape')
 
b = '\ud55c\uae00'
print b.decode('unicode-escape') 
 
print c

결과)

G

한글

(한글)