xe #1
1 changed files with 66 additions and 9 deletions
75
mandel.s
75
mandel.s
|
@ -347,14 +347,6 @@ fill_masks:
|
||||||
neg 4, arg
|
neg 4, arg
|
||||||
.endmacro
|
.endmacro
|
||||||
|
|
||||||
; 518 - 828 cyc
|
|
||||||
.macro imul16 dest, arg1, arg2
|
|
||||||
copy16 FR0, arg1 ; 12 cyc
|
|
||||||
copy16 FR1, arg2 ; 12 cyc
|
|
||||||
jsr imul16_func ; 470-780 cyc
|
|
||||||
copy32 dest, FR2 ; 24 cyc
|
|
||||||
.endmacro
|
|
||||||
|
|
||||||
.macro shift_round_16 arg, shift
|
.macro shift_round_16 arg, shift
|
||||||
.repeat shift
|
.repeat shift
|
||||||
shl32 arg
|
shl32 arg
|
||||||
|
@ -365,7 +357,7 @@ fill_masks:
|
||||||
.macro imul16_round dest, arg1, arg2, shift
|
.macro imul16_round dest, arg1, arg2, shift
|
||||||
copy16 FR0, arg1 ; 12 cyc
|
copy16 FR0, arg1 ; 12 cyc
|
||||||
copy16 FR1, arg2 ; 12 cyc
|
copy16 FR1, arg2 ; 12 cyc
|
||||||
jsr imul16_func ; 470-780 cyc
|
jsr imul16_func ; ? cyc
|
||||||
shift_round_16 FR2, shift
|
shift_round_16 FR2, shift
|
||||||
copy16 dest, FR2 + 2 ; 12 cyc
|
copy16 dest, FR2 + 2 ; 12 cyc
|
||||||
.endmacro
|
.endmacro
|
||||||
|
@ -505,6 +497,30 @@ done:
|
||||||
|
|
||||||
.proc imul8xe_init
|
.proc imul8xe_init
|
||||||
|
|
||||||
|
bank_switch 0
|
||||||
|
lda #0
|
||||||
|
sta EXTENDED_RAM
|
||||||
|
bank_switch 1
|
||||||
|
lda #1
|
||||||
|
sta EXTENDED_RAM
|
||||||
|
bank_switch 0
|
||||||
|
lda EXTENDED_RAM
|
||||||
|
beq init
|
||||||
|
|
||||||
|
; no bank switching available, we just overwrite the value in base ram
|
||||||
|
rts
|
||||||
|
|
||||||
|
init:
|
||||||
|
|
||||||
|
; patch imul16_func into a forwarding thunk to imul16xe_func
|
||||||
|
lda #$4c ; 'jmp' opcode
|
||||||
|
sta imul16_func
|
||||||
|
lda #.lobyte(imul16xe_func)
|
||||||
|
sta imul16_func + 1
|
||||||
|
lda #.hibyte(imul16xe_func)
|
||||||
|
sta imul16_func + 2
|
||||||
|
|
||||||
|
; create the lookup table
|
||||||
; go through the input set, in four 16KB chunks
|
; go through the input set, in four 16KB chunks
|
||||||
|
|
||||||
arg1 = FR1
|
arg1 = FR1
|
||||||
|
@ -615,6 +631,47 @@ inner_loop:
|
||||||
; h1*256*(h2*256 + l2) + l1*(h2*256 + l2)
|
; h1*256*(h2*256 + l2) + l1*(h2*256 + l2)
|
||||||
; h1*h2*256*256 + h1*l2*256 + h2*l1*256 + l1*l2
|
; h1*h2*256*256 + h1*l2*256 + h2*l1*256 + l1*l2
|
||||||
|
|
||||||
|
imul8 result, arg1, arg2
|
||||||
|
lda #0
|
||||||
|
sta result + 2
|
||||||
|
sta result + 3
|
||||||
|
|
||||||
|
imul8 inter, arg1 + 1, arg2
|
||||||
|
add16 result + 1, result + 1, inter
|
||||||
|
add_carry result + 3
|
||||||
|
|
||||||
|
imul8 inter, arg1, arg2 + 1
|
||||||
|
add16 result + 1, result + 1, inter
|
||||||
|
add_carry result + 3
|
||||||
|
|
||||||
|
imul8 inter, arg1 + 1, arg2 + 1
|
||||||
|
add16 result + 2, result + 2, inter
|
||||||
|
|
||||||
|
; In case of negative inputs, adjust high word
|
||||||
|
; https://stackoverflow.com/a/28827013
|
||||||
|
lda arg1 + 1
|
||||||
|
bpl arg1_pos
|
||||||
|
sub16 result + 2, result + 2, arg2
|
||||||
|
arg1_pos:
|
||||||
|
lda arg2 + 1
|
||||||
|
bpl arg2_pos
|
||||||
|
sub16 result + 2, result + 2, arg1
|
||||||
|
arg2_pos:
|
||||||
|
|
||||||
|
rts ; 6 cyc
|
||||||
|
.endproc
|
||||||
|
|
||||||
|
.proc imul16xe_func
|
||||||
|
arg1 = FR0 ; 16-bit arg (clobbered)
|
||||||
|
arg2 = FR1 ; 16-bit arg (clobbered)
|
||||||
|
result = FR2 ; 32-bit result
|
||||||
|
inter = temp2
|
||||||
|
|
||||||
|
; h1l1 * h2l2
|
||||||
|
; (h1*256 + l1) * (h2*256 + l2)
|
||||||
|
; h1*256*(h2*256 + l2) + l1*(h2*256 + l2)
|
||||||
|
; h1*h2*256*256 + h1*l2*256 + h2*l1*256 + l1*l2
|
||||||
|
|
||||||
imul8xe result, arg1, arg2
|
imul8xe result, arg1, arg2
|
||||||
lda #0
|
lda #0
|
||||||
sta result + 2
|
sta result + 2
|
||||||
|
|
Loading…
Reference in a new issue