Featured image of post Pdf_tricks

Pdf_tricks

!–more–>

什么是PDF

定义

wiki上关于PDF的百科

参照Let’s write a PDF file对PDF文档的基本结构进行了解。

Portable Document Format

开放标准格式, 是为了在不同平台上显示统一格式的内容和布局而产生的

  • 基于文本的

  • 对非文本内容进行binary处理的

结构

引用《面向恶意 PDF 文档分类的对抗样本生成方法研究》中的一个物理与逻辑结构的对照图:

pdf structure

使用python现有的一个库来生成一个简单的PDF

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18

from reportlab.pdfgen import canvas

from reportlab.lib.pagesizes import letter

from pdfrw import PdfReader, PdfWriter

  

# 创建一个简单的 PDF 文件

def create_pdf(file_path):

    c = canvas.Canvas(file_path, pagesize=letter)

    c.drawString(100, 750, "Hello, this is a PDF with JavaScript!")

    c.save())

用文本编辑器打开查看:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
%PDF-1.3

%file body

1 0 obj
<</Pages 2 0 R /Type /Catalog>>
endobj

2 0 obj
<</Count 1 /Kids [3 0 R] /Type /Pages>>
endobj

3 0 obj
<</Contents 4 0 R /MediaBox [0 0 612 792] /Parent 2 0 R /Resources
  <</Font 5 0 R /ProcSet [/PDF /Text /ImageB /ImageC /ImageI]>> /Rotate
  0 /Trans <<>> /Type /Page>>
endobj

4 0 obj
<</Filter [/ASCII85Decode /FlateDecode] /Length 135>>
stream
GapQh0E=F,0U\H3T\pNYT^QKk?tc>IP,;W#U1^23ihPEM_?CW4KISi90MjG^2,FS#<RC5+c,n)Z;(0Q-/62bF7"kUW2hghHOphMt`3R>>jJ'kM&k,NKO=Z(s/W_[o>QCEF)jp~>
endstream
endobj

5 0 obj
<</F1 6 0 R>>
endobj


6 0 obj
<</BaseFont /Helvetica /Encoding /WinAnsiEncoding /Name /F1 /Subtype
  /Type1 /Type /Font>>
endobj

xref
0 7
0000000000 65535 f
0000000015 00000 n
0000000062 00000 n
0000000117 00000 n
0000000301 00000 n
0000000523 00000 n
0000000552 00000 n
  
trailer
<</Root 1 0 R /Size 7>>
startxref
659

%%EOF

主要标签

  1. %PDF - 1.x: 文件头。版本签名

  2. %file: 文件体开始标签。

  3. xref: 交叉引用表。列表引用标签,后面会跟着列表(table)

  4. trailer: 文件尾。trailer标签和其内容

  5. startxref: 指向xref列表的指针标签

  6. %%EOF1:结束符

文件体,file body

一系列的间接对象

object的顺序并没有严格要求

可以简单理解为,%xref之间的所有内容都是file body。往回翻一下例子就可以理解了。

里面的内容基本是dictionary object组成

举一个例子

1
2
3
4
5
6

1 0 obj

<</Pages 2 0 R /Type /Catalog>>

endobj

一、indirect obejct1 0 object

  1. 序号

  2. 版本

  3. 类型

二、dictionary object <</Pages 2 0 R /Type /Catalog>>

  • << >>是dictionary object的标识符,里面包括了key和对应的value。同时key is always NAME object
  1. /pages设置2 0 R的值:一个对对象的引用,指向页面树的对象
    1. 2 -> 对象编号
    2. 0 -> 对象版本
    3. R -> R number
  2. /Type设置/Catalog的值,意味着这个对象的Type是Catalog,PDF文档的目录对象

三、Stream Object

图像、字体、加密数据、多媒体文件、自定义数据

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22

4 0 obj

  

<</Filter [/ASCII85Decode /FlateDecode] /Length 135>>

  

stream

  

GapQh0E=F,0U\H3T\pNYT^QKk?tc>IP,;W#U1^23ihPEM_?CW4KISi90MjG^2,FS#<RC5+c,n)Z;(0Q-/62bF7"kUW2hghHOphMt`3R>>jJ'kM&k,NKO=Z(s/W_[o>QCEF)jp~>

  

endstream

  

endobj
  • <</Filter [/ASCII85Decode /FlateDecode] /Length 135>>
    • /Filter [/ASCII85Decode /FlateDecode]:使用前者编码使用后者压缩
    • /Length 135:流数据的长度135

四、

还有一种对于纯文本的

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
4 0 obj
<< /Length 44>> --- from BT to ET includes white space and new lines characters
stream
BT
/F1 100 Tf  --- /F1 is font name, 100 is font size, and Tf is TextFont operator
10 4000 Td  --- x and y coordinates and Td is Text cursor operator
(hello world!) Tj --- text string
ET
endstream
endobj

比起上面的会多了BTET两个标签,Begin of Text, End of Text。就这样。

XREF

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
xref
0 7
0000000000 65535 f
0000000015 00000 n
0000000062 00000 n
0000000117 00000 n
0000000301 00000 n
0000000523 00000 n
0000000552 00000 n
trailer
<</Root 1 0 R /Size 7>>
startxref
659 --- as xref's pffset
%%EOF
  • xref 后面是起始索引对象数量
  • 每行一个对象,长度为 20 字节,包含换行符。
  • 每行以 00000 n 结尾,其语法为 xxx...(10位) yyy...(5位) a(1字母)
    • 10 位:对象的偏移量。
    • 5 位:代号,首行为 65535
    • 1 字母:f 表示_空闲_,n 表示_正在使用_。

以上就是对PDF的简单认识。


PDF with JavaScript

使用JS2PDFInjection添加javascript:

1
2
3
4
5
6

real@real-virtual-machine:~/xxx/JS2PDFInjector$ java -jar JS2PDFInjector.jar /xxx/ppp/ppock/simple_pdf.pdf /xxx/ppp/ppock/pdfD/po.js
[*] Original PDF: /xxx/ppp/ppock/simple_pdf.pdf
[*] JavaScript Payload: /xxx/ppp/ppock/pdfD/po.js
[*] Output File Path: /xxx/ppp/ppock/js_injected_simple_pdf.pdf
[*] Poisoned File Created: /xxx/ppp/ppock/js_injected_simple_pdf.pdf

生成的含有js的pdf从raw text看实际上是多了

1
2
3
4
5
6
7
3 0 obj
<<
/Type /Action
/S /JavaScript
/JS (app.alert\("hello"\))
>>
endobj

可以看到是将JavaScript写入了文档的结构树中。

当用浏览器打开该PDF文件的时候:

imga 2

Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
Built with Hugo
Theme Stack designed by Jimmy