抖音数据采集Frida进阶:脱壳、自动化、高频问题
抖音数据采集Frida进阶:脱壳、自动化、高频问题
短视频、直播数据实时采集接口,请查看文档: TiToData
免责声明:本文档仅供学习与参考,请勿用于非法用途!否则一切后果自负。
1 Frida用于脱壳
安全工程师在拿到应用评测的任务之后,第一件事情是抓到他的收包发包,第二件事情应该就是拿到它的apk
,打开看看里面是什么内容,如果不幸它加了壳,可能打开就是这样的场景,见下图,什么内容都看不到,这时候就要首先对它进行脱壳。
壳的种类非常多,根据其种类不同,使用的技术也不同,这里稍微简单分个类:
- 一代整体型壳:采用Dex整体加密,动态加载运行的机制;
- 二代函数抽取型壳:粒度更细,将方法单独抽取出来,加密保存,解密执行;
- 三代VMP、Dex2C壳:独立虚拟机解释执行、语义等价语法迁移,强度最高。
先说最难的Dex2C
目前是没有办法还原的,只能跟踪进行分析;VMP
虚拟机解释执行保护的是映射表,只要心思细、功夫深,是可以将映射表还原的;二代壳函数抽取目前是可以从根本上进行还原的,dump
出所有的运行时的方法体,填充到dump
下来的dex
中去的,这也是fart
的核心原理;最后也就是目前我们推荐的几个内存中搜索和dump
出dex
的Frida
工具,在一些场景中可以满足大家的需求。
1.1 文件头搜dex
地址是:https://github.com/r0ysue/frida_dump
# frida -U --no-pause -f com.xxxxxx.xxxxxx -l dump_dex.js ____ / _ | Frida 12.8.9 - A world-class dynamic instrumentation toolkit | (_| | > _ | Commands: /_/ |_| help -> Displays the help system . . . . object? -> Display information about 'object' . . . . exit/quit -> Exit . . . . . . . . More info at https://www.frida.re/docs/home/Spawned `com.xxxxx.xxxxx`. Resuming main thread! [Google Pixel::com.xxxxx.xxxxx]-> [dlopen:] libart.so_ZN3art11ClassLinker11DefineClassEPNS_6ThreadEPKcmNS_6HandleINS_6mirror11ClassLoaderEEERKNS_7DexFileERKNS9_8ClassDefE 0x7adcac4f74[DefineClass:] 0x7adcac4f74[find dex]: /data/data/com.xxxxx.xxxxx/files/7abfc00000_8341c4.dex[dump dex]: /data/data/com.xxxxx.xxxxx/files/7abfc00000_8341c4.dex[find dex]: /data/data/com.xxxxx.xxxxx/files/7ac4096000_6e6c8.dex[dump dex]: /data/data/com.xxxxx.xxxxx/files/7ac4096000_6e6c8.dex [find dex]: /data/data/com.xxxxx.xxxxx/files/7ac37c4028_8781c4.dex[dump dex]: /data/data/com.xxxxx.xxxxx/files/7ac37c4028_8781c4.dex
其核心逻辑原理就是下面一句话magic.indexOf("dex") == 0
,只要文件头中含有魔数dex
,就把它dump
下来。
if (dex_maps[base] == undefined) { dex_maps[base] = size; var magic = ptr(base).readCString(); if (magic.indexOf("dex") == 0) { var process_name = get_self_process_name(); if (process_name != "-1") { var dex_path = "/data/data/" + process_name + "/files/" + base.toString(16) + "_" + size.toString(16) + ".dex"; console.log("[find dex]:", dex_path); var fd = new File(dex_path, "wb"); if (fd && fd != null) { var dex_buffer = ptr(base).readByteArray(size); fd.write(dex_buffer); fd.flush(); fd.close(); console.log("[dump dex]:", dex_path); } } }}
1.2 DexClassLoader:objection
安卓只能使用继承自BaseDexClassLoader
的两种ClassLoader
,一种是PathClassLoader
,用于加载系统中已经安装的apk
;一种就是DexClassLoader
,加载未安装的jar
包或apk
。
可以用objcetion
直接在堆上暴力搜索所有的dalvik.system.DexClassLoader
实例,效果见下图:
# android heap search instances dalvik.system.DexClassLoader
连热补丁都被搜出来了,在某些一代壳上效果不错。
1.3 暴力搜内存:DEXDump
地址:https://github.com/hluwa/FRIDA-DEXDump
- 对于完整的
dex
,采用暴力搜索dex035
即可找到。 - 而对于抹头的
dex
,通过匹配一些特征来找到,然后自动修复文件头。
效果非常好:
root@roysuekali:~/Desktop/FRIDA-DEXDump# python main.py [DEXDump]: found target [7628] com.xxxxx.xxxxx[DEXDump]: DexSize=0x8341c4, SavePath=./com.xxxxx.xxxxx/0x7abfc00000.dex[DEXDump]: DexSize=0x8341c4, SavePath=./com.xxxxx.xxxxx/0x7ac0600000.dexroot@roysuekali:~/Desktop/FRIDA-DEXDump# du -h com.xxxxx.xxxxx/*8.3M com.xxxxx.xxxxx/0x7abfc00000.dex8.3M com.xxxxx.xxxxx/0x7ac0600000.dexroot@roysuekali:~/Desktop/FRIDA-DEXDump# file com.xxxxx.xxxxx/*com.xxxxx.xxxxx/0x7abfc00000.dex: Dalvik dex file version 035com.xxxxx.xxxxx/0x7ac0600000.dex: Dalvik dex file version 035
打开dump
下来的dex
,非常完整,可以用jadx
直接解析。用010
打开可以看到完整的文件头——dexn035
,其实现代码也是简单粗暴,直接搜索:64 65 78 0a 30 33 35 00
:
Memory.scanSync(range.base, range.size, "64 65 78 0a 30 33 35 00").forEach(function (match) {var range = Process.findRangeByAddress(match.address);if (range != null && range.size < match.address.toInt32() + 0x24 - range.base.toInt32()) { return;}var dex_size = match.address.add("0x20").readInt();if (range != null) { if (range.file && range.file.path && (range.file.path.startsWith("/data/app/") || range.file.path.startsWith("/data/dalvik-cache/") || range.file.path.startsWith("/system/"))) { return; } if (match.address.toInt32() + dex_size > range.base.toInt32() + range.size) { return; }}
还有一部分想要特征匹配的功能还在实现中:
// @TODO improve fuzzif ( range.size >= 0x60 && range.base.readCString(4) != "dexn" && range.base.add(0x20).readInt() <= range.size //file_size // && range.base.add(0x24).readInt() == 112 //header_size && range.base.add(0x34).readInt() < range.size && range.base.add(0x3C).readInt() == 112 //string_id_off) { result.push({ "addr": range.base, "size": range.base.add(0x20).readInt() });}
1.4 暴力搜内存:objection
既然直接使用Frida
的API
可以暴力搜索内存,那么别忘了我们上面介绍过的objection
也可以暴力搜内存。
# memory search "64 65 78 0a 30 33 35 00"
搜出来的offset
是:0x79efc00000
,大小是c4 41 83 00
,也就是0x8341c4
,转化成十进制就是8602052
,最后dump
下来的内容与FRIDA-DEXDump
脱下来的一模一样,拖到jdax
里可以直接解析。
2 Frida用于自动化
在Frida
出现之前,没有任何一款工具,可以在语言级别支持直接在电脑上调用app
中的方法。像Xposed
是纯Java
,根本就没有电脑上运行的版本;各种Native
框架也是一样,都是由C/C++/asm
实现,根本与电脑毫无关系。
而Frida
主要是一款在电脑上操作的工具,其本身就决定了其"高并发"、"多联通"、"自动化"等特性:
- "高并发":同时操作多台手机,同时调用多个手机上的多个
app
中的算法; - "多联通":电脑与手机互联互通,手机上处理不了的在电脑上处理、反之亦然;
- "自动化":手机电脑互相协同,实现横跨桌面、移动平台协同自动化利器。
2.1 连接多台设备
Frida
用于自动化的场景中,必然是不可能在终端敲frida-tools
里的那些命令行工具的,有人说可以将这些命令按顺序写成脚本,那为啥不直接写成python
脚本呢?枉费大胡子叔叔(Frida
的作者oleavr的头像)为我们写好了Python bindings
,我们只需要直接调用即可享受。Python bindings
在安装好frida-tools
的时候已经默认安装在我们的电脑上了,可以直接使用。
连接多台设备非常简单,如果是USB
口直接连接的,只要确保adb
已经连接上,如果是网络调试的,也要用adb connect
连接上,并且都开启frida server
,键入adb devices
或者frida-ls-devices
命令时多台设备的id
都会出现,最终可以使用frida.get_device(id)
的API
来选择设备,如下图所示。
2.2 互联互通
互联互通是指把app
中捕获的内容传输到电脑上,电脑上处理结束后再发回给app
继续处理。看似很简单的一个功能,目前却仅有Frida
可以实现。
比如说我们有这样一个app
,其中最核心的地方在于判断用户是否为admin
,如果是,则直接返回错误,禁止登陆。如果不是,则把用户和密码上传到服务器上进行验证登录操作,其核心代码逻辑如下:
public class MainActivity extends AppCompatActivity { EditText username_et; EditText password_et; TextView message_tv; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout.activity_main); password_et = (EditText) this.findViewById(R.id.editText2); username_et = (EditText) this.findViewById(R.id.editText); message_tv = ((TextView) findViewById(R.id.textView)); this.findViewById(R.id.button).setOnClickListener(new View.OnClickListener() { @Override public void onClick(View v) { if (username_et.getText().toString().compareTo("admin") == 0) { message_tv.setText("You cannot login as admin"); return; } //我们hook的目标就在这里 message_tv.setText("Sending to the server :" + Base64.encodeToString((username_et.getText().toString() + ":" + password_et.getText().toString()).getBytes(), Base64.DEFAULT)); } }); }}
运行起来的效果如下图:
我们的目标就是在电脑上"得到"输入框输入的内容,并且修改其输入的内容,并且"传输"给安卓机器,使其通过验证。也就是说,我们的目标是哪怕输入admin
的账户名和密码,也可以绕过本地校验,进行服务器验证登陆的操作。
所以最终我们的hook
代码的逻辑就是,截取输入,传输给电脑,暂停执行,得到电脑传回的数据之后,继续执行,用js
来写就这么写:
Java.perform(function () { var tv_class = Java.use("android.widget.TextView"); tv_class.setText.overload("java.lang.CharSequence").implementation = function (x) { var string_to_send = x.toString(); var string_to_recv; send(string_to_send); // 将数据发送给kali主机的python代码 recv(function (received_json_object) { string_to_recv = received_json_object.my_data console.log("string_to_recv: " + string_to_recv); }).wait(); //收到数据之后,再执行下去 return this.setText(string_to_recv); }});
在电脑上的处理流程是,将接受到的JSON
数据解析,提取出其中的密码部分保持不变,然后将用户名替换成admin
,这样就实现了将admin
和password
发送给服务器的结果。我们的代码如下:
import timeimport fridadef my_message_handler(message, payload): print message print payload if message["type"] == "send": print message["payload"] data = message["payload"].split(":")[1].strip() print 'message:', message data = data.decode("base64") # 解码 user, pw = data.split(":") # 提取用户名和密码 data = ("admin" + ":" + pw).encode("base64") # 组成新的组合并编码 print "encoded data:", data script.post({"my_data": data}) # 将JSON对象发送回去 print "Modified data sent"device = frida.get_usb_device()pid = device.spawn(["com.roysue.demo04"])device.resume(pid)time.sleep(1)session = device.attach(pid)with open("s4.js") as f: script = session.create_script(f.read())script.on("message", my_message_handler) # 注册消息处理函数script.load()raw_input()
同样很多手机上无法处理的数据,也可以编码后发送到电脑上进行处理,比如处理GBK
编码的中文字符集数据,再比如对dump
下来的内存或so
进行二次解析还原等,这些在js
几乎是无法处理的(或难度非常大),但是到了电脑上就易如反掌,用python
导入几个库就可以。
在一些(网络)接口的模糊测试的场景中,一些字典和畸形数据的构造也会在电脑上完成,app
端最多作为执行端接受和发送这些数据,这时候也需要使用到Frida
互联互通动态修改的功能。
2.3 远程调用(RPC)
在脚本里定义一个导出函数,并用rpc.exports
的字典进行声明:
function callSecretFun() { //定义导出函数 Java.perform(function () { //to-do 做自己想做的事情 //比如这里是找到隐藏函数并且调用 Java.choose("com.roysue.demo02.MainActivity", { onMatch: function (instance) { console.log("Found instance: " + instance); console.log("Result of secret func: " + instance.secret()); }, onComplete: function () { } }); });}rpc.exports = { callsecretfunction: callSecretFun //把callSecretFun函数导出为callsecretfunction符号,导出名不可以有大写字母或者下划线};
在电脑上就可以直接在py
代码里调用这个方法:
import timeimport fridadef my_message_handler(message, payload): print message print payloaddevice = frida.get_usb_device()pid = device.spawn(["com.roysue.demo02"])device.resume(pid)time.sleep(1)session = device.attach(pid)with open("s3.js") as f: script = session.create_script(f.read())script.on("message", my_message_handler)script.load()command = ""while 1 == 1: command = raw_input("Enter command:n1: Exitn2: Call secret functionnchoice:") if command == "1": break elif command == "2": #在这里调用 script.exports.callsecretfunction()
最终效果就是按一下2
,function callSecretFun()
就会被执行一次,并且结果会显示在电脑上的py
脚本里,以供后续继续处理,非常方便。
笔者有一位朋友甚至将该接口使用python
的flask
框架暴露出去,让网络里的每个人都可以调用该方法,给自己的发包进行签名,可用说是一个需求非常庞大的场景。
3 Frida更多技巧
最后收集和整理一下大家在学习Frida
的过程中可能会遇到的几个高频问题,以餮读者。
3.1 必须上版本管理
Frida
从面世到现在已经有四五年了,大概17~18年那会儿开始火爆起来,大量的脚本和工具代码都是那段时间写出来的,而Frida
又升级特别快,新的Frida
对老的脚本兼容性不是很好,见下图最新的Frida
运行老的脚本,日志格式已经乱掉了,而老版本(12.4.8
)就没问题,见图2-18。如果要运行一些两三年历史的代码,必然需要安装两三年前左右的版本,这样才能跑起来,并且不出错。
版本管理用pyenv
即可,熟练使用pyenv
可以基本上满足同时安装几十个Frida
版本的需求。
3.2 反调试基本思路
几个最基本的思路,首先frida-server
的文件名改掉,类似于frida-server-12.8.9-android-arm64
这样的文件名,我一般改成fs1289amd64
,当然读者可以想改成啥就改成啥。
有些反调试还会检查端口,比如frida-server
的默认端口是27042
,这个端口一般不会有人用,如果27042
端口打开并且正在监听,反调试就会工作,可以把端口改成非标准端口,方法下一小节就讲。
最后还有一种通过Frida
内存特征对maps
中elf
文件进行扫描匹配特征的反调试方法,支持frida-gadget
和frida-server
,项目地址在这里。
其核心代码如下:
void *check_loop(void *) { int fd; char path[256]; char perm[5]; unsigned long offset; unsigned int base; long end; char buffer[BUFFER_LEN]; int loop = 0; unsigned int length = 11; //"frida:rpc"的内存布局特征 unsigned char frida_rpc[] = { 0xfe, 0xba, 0xfb, 0x4a, 0x9a, 0xca, 0x7f, 0xfb, 0xdb, 0xea, 0xfe, 0xdc }; for (unsigned char &m : frida_rpc) { unsigned char c = m; c = ~c; c ^= 0xb1; c = (c >> 0x6) | (c << 0x2); c ^= 0x4a; c = (c >> 0x6) | (c << 0x2); m = c; } //开始检测frida反调试循环 LOGI("start check frida loop"); while (loop < 10) { fd = wrap_openat(AT_FDCWD, "/proc/self/maps", O_RDONLY, 0); if (fd > 0) { while ((read_line(fd, buffer, BUFFER_LEN)) > 0) { // 匹配frida-server和frida-gadget的内存特征 if (sscanf(buffer, "%x-%lx %4s %lx %*s %*s %s", &base, &end, perm, &offset, path) != 5) { continue; } if (perm[0] != 'r') continue; if (perm[3] != 'p') continue; if (0 != offset) continue; if (strlen(path) == 0) continue; if ('[' == path[0]) continue; if (end - base <= 1000000) continue; if (wrap_endsWith(path, ".oat")) continue; if (elf_check_header(base) != 1) continue; if (find_mem_string(base, end, frida_rpc, length) == 1) { //发现其内存特征 LOGI("frida found in memory!");#ifndef DEBUG //杀掉自己的进程 wrap_kill(wrap_getpid(),SIGKILL);
Comments
Post a Comment