!–more–>
什么是PDF
定义
wiki上关于PDF的百科
参照Let’s write a PDF file对PDF文档的基本结构进行了解。
Portable Document Format
开放标准格式, 是为了在不同平台上显示统一格式的内容和布局而产生的
结构
引用《面向恶意 PDF 文档分类的对抗样本生成方法研究》中的一个物理与逻辑结构的对照图:

使用python现有的一个库来生成一个简单的PDF
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
from pdfrw import PdfReader, PdfWriter
# 创建一个简单的 PDF 文件
def create_pdf(file_path):
c = canvas.Canvas(file_path, pagesize=letter)
c.drawString(100, 750, "Hello, this is a PDF with JavaScript!")
c.save())
|
用文本编辑器打开查看:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
|
%PDF-1.3
%file body
1 0 obj
<</Pages 2 0 R /Type /Catalog>>
endobj
2 0 obj
<</Count 1 /Kids [3 0 R] /Type /Pages>>
endobj
3 0 obj
<</Contents 4 0 R /MediaBox [0 0 612 792] /Parent 2 0 R /Resources
<</Font 5 0 R /ProcSet [/PDF /Text /ImageB /ImageC /ImageI]>> /Rotate
0 /Trans <<>> /Type /Page>>
endobj
4 0 obj
<</Filter [/ASCII85Decode /FlateDecode] /Length 135>>
stream
GapQh0E=F,0U\H3T\pNYT^QKk?tc>IP,;W#U1^23ihPEM_?CW4KISi90MjG^2,FS#<RC5+c,n)Z;(0Q-/62bF7"kUW2hghHOphMt`3R>>jJ'kM&k,NKO=Z(s/W_[o>QCEF)jp~>
endstream
endobj
5 0 obj
<</F1 6 0 R>>
endobj
6 0 obj
<</BaseFont /Helvetica /Encoding /WinAnsiEncoding /Name /F1 /Subtype
/Type1 /Type /Font>>
endobj
xref
0 7
0000000000 65535 f
0000000015 00000 n
0000000062 00000 n
0000000117 00000 n
0000000301 00000 n
0000000523 00000 n
0000000552 00000 n
trailer
<</Root 1 0 R /Size 7>>
startxref
659
%%EOF
|
主要标签
-
%PDF - 1.x
: 文件头。版本签名
-
%file
: 文件体开始标签。
-
xref
: 交叉引用表。列表引用标签,后面会跟着列表(table)
-
trailer
: 文件尾。trailer标签和其内容
-
startxref
: 指向xref列表的指针标签
-
%%EOF1
:结束符
文件体,file body
一系列的间接对象
object的顺序并没有严格要求
可以简单理解为,%
和xref
之间的所有内容都是file body。往回翻一下例子就可以理解了。
里面的内容基本是dictionary object组成
举一个例子
1
2
3
4
5
6
|
1 0 obj
<</Pages 2 0 R /Type /Catalog>>
endobj
|
一、indirect obejct1 0 object
-
序号
-
版本
-
类型
二、dictionary object <</Pages 2 0 R /Type /Catalog>>
<< >>
是dictionary object的标识符,里面包括了key和对应的value。同时key is always NAME object
- 为
/pages
设置2 0 R
的值:一个对对象的引用,指向页面树的对象
2
-> 对象编号
0
-> 对象版本
R
-> R number
- 为
/Type
设置/Catalog
的值,意味着这个对象的Type是Catalog,PDF文档的目录对象
三、Stream Object
图像、字体、加密数据、多媒体文件、自定义数据
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
4 0 obj
<</Filter [/ASCII85Decode /FlateDecode] /Length 135>>
stream
GapQh0E=F,0U\H3T\pNYT^QKk?tc>IP,;W#U1^23ihPEM_?CW4KISi90MjG^2,FS#<RC5+c,n)Z;(0Q-/62bF7"kUW2hghHOphMt`3R>>jJ'kM&k,NKO=Z(s/W_[o>QCEF)jp~>
endstream
endobj
|
<</Filter [/ASCII85Decode /FlateDecode] /Length 135>>
:
/Filter [/ASCII85Decode /FlateDecode]
:使用前者编码使用后者压缩
/Length 135
:流数据的长度135
四、
还有一种对于纯文本的
1
2
3
4
5
6
7
8
9
10
|
4 0 obj
<< /Length 44>> --- from BT to ET includes white space and new lines characters
stream
BT
/F1 100 Tf --- /F1 is font name, 100 is font size, and Tf is TextFont operator
10 4000 Td --- x and y coordinates and Td is Text cursor operator
(hello world!) Tj --- text string
ET
endstream
endobj
|
比起上面的会多了BT
和ET
两个标签,Begin of Text, End of Text。就这样。
XREF
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
xref
0 7
0000000000 65535 f
0000000015 00000 n
0000000062 00000 n
0000000117 00000 n
0000000301 00000 n
0000000523 00000 n
0000000552 00000 n
trailer
<</Root 1 0 R /Size 7>>
startxref
659 --- as xref's pffset
%%EOF
|
xref
后面是起始索引和对象数量。
- 每行一个对象,长度为 20 字节,包含换行符。
- 每行以
00000 n
结尾,其语法为 xxx...(10位) yyy...(5位) a(1字母)
。
- 10 位:对象的偏移量。
- 5 位:代号,首行为
65535
。
- 1 字母:
f
表示_空闲_,n
表示_正在使用_。
以上就是对PDF的简单认识。
PDF with JavaScript
使用JS2PDFInjection添加javascript:
1
2
3
4
5
6
|
real@real-virtual-machine:~/xxx/JS2PDFInjector$ java -jar JS2PDFInjector.jar /xxx/ppp/ppock/simple_pdf.pdf /xxx/ppp/ppock/pdfD/po.js
[*] Original PDF: /xxx/ppp/ppock/simple_pdf.pdf
[*] JavaScript Payload: /xxx/ppp/ppock/pdfD/po.js
[*] Output File Path: /xxx/ppp/ppock/js_injected_simple_pdf.pdf
[*] Poisoned File Created: /xxx/ppp/ppock/js_injected_simple_pdf.pdf
|
生成的含有js的pdf从raw text看实际上是多了
1
2
3
4
5
6
7
|
3 0 obj
<<
/Type /Action
/S /JavaScript
/JS (app.alert\("hello"\))
>>
endobj
|
可以看到是将JavaScript写入了文档的结构树中。
当用浏览器打开该PDF文件的时候:
